NAV

Mitmachen • Re: \‘Unhosted\’ Search

Date: 2012-09-04 17:15:58

Würde ich auch gut finden, ich hatte mal vor ein Suchportal einzurichten auf meinen Webspace, müßte dafür aber extra einen V-Server mieten und so könnte ich das ganze Zuhause betreiben.

Dann wäre es cool, wenn man bei Yacy einfach die FTP Daten einträgt und sich Yacy selber um den Upload auf einen Webserver kümmert:)

Statistik: Verfasst von bbtuxi — Di Sep 04, 2012 4:15 pm


Mitmachen • Re: \‘Unhosted\’ Search

Date: 2012-09-04 18:29:10

Die Unhosted-Idee findet sich übrigens auf dieser Seite wieder: http://unhosted.org/

Ich hab letztes Jahr nach meinem Vortrag beim RMLL2011 in Strassburg mit dem Gründer von unhosted.org diskutiert aber irgendwie nicht verstanden was er wollte, das ist mir auch jetzt erst klar geworden. Diese Idee kann schon serverseitig Programme nutzen, aber eben \‘eigene\’ Datendienste.

Also hab ich ihm diese Idee gestern auch per email zugeschickt und er war gleich sehr begeistert und hat zur Nutzung der CouchDB{.postlink} geraten. Das ist eine super Sache, aber widerspricht der Idee keine Serverseitige Software zu benötigen. Wenn man sich aber die API der CouchDB{.postlink} anschaut, so sieht man dass das Laden eines Json aus der CouchDB nichts anderes ist wie das Laden einer Datei aus einem Fileserver. Man könnte das Backend also so gestalten dass die Daten dorthin entweder per FTP Upload oder per CouchDB-PUT hin kommen, es beim Laden aber egal ist ob die DB oder ein Fileserver dahinter ist.

Man könnte so etwas wie eine open-index-specification erschaffen und versuchen noch mehr Front-End Programmierer für verschiedene Sprachen zu gewinnen. Für die open-index-specification habe ich schon konkrete Vorstellungen.

Statistik: Verfasst von Orbiter — Di Sep 04, 2012 5:29 pm


Probleme & Lösungen • Re: Blacklist

Date: 2012-09-04 18:34:59

Bin jetzt erst mal wieder offline weil YaCy meine Regex so zerpflückt das diese nicht mehr funktionieren :(

Habe mir extra ein Testprogramm geschrieben wo mein Regex funktioniert, nur YaCy schnallt das nicht, weil hier irgendwie in host und path getrennt wird, oder was macht YaCy damit!?

In den YaCy-Beispielen steht aber das man _ein_ Regex benutzen kann :?
Der Regex sieht so aus ...
\”\^(?:(?!/www\.test\.).)*\$\”

... im Test-Quelltext so ...
\”\^(?:(?!/www\\.test\\.).)*\$\”
Keine Fehler...

Im YaCy-Log steht aber das, wie man sieht schneidet YaCy vorne einfach was ab...

Code:
E 2012/09/04 18:19:11 STARTUP YaCy cannot start: Unmatched closing ')' near index 12www\\.test\\.).)*$            ^java.util.regex.PatternSyntaxException: Unmatched closing ')' near index 12www\\.test\\.).)*$   at java.util.regex.Pattern.error(Pattern.java:1924)   at java.util.regex.Pattern.compile(Pattern.java:1669)   at java.util.regex.Pattern.<init>(Pattern.java:1337)   at java.util.regex.Pattern.compile(Pattern.java:1022)   at net.yacy.repository.Blacklist.loadList(Blacklist.java:226)   at net.yacy.repository.Blacklist.loadList(Blacklist.java:249)   at net.yacy.repository.Blacklist.loadList(Blacklist.java:183)   at de.anomic.data.ListManager.reloadBlacklists(ListManager.java:210)   at net.yacy.search.Switchboard.<init>(Switchboard.java:528)   at net.yacy.yacy.startup(yacy.java:207)   at net.yacy.yacy.main(yacy.java:636)

Statistik: Verfasst von gaston — Di Sep 04, 2012 5:34 pm


Probleme & Lösungen • Re: Blacklist

Date: 2012-09-04 18:44:45

öhm, regexe in blacklist urls sind nur für den Pfad-Teil zulässig, für den host gibts keine regex, da steht das \’*\’ entweder vorne oder hinten am host und ist ein catchall.

Ich verstehe aber dass das höchst verwirrend ist. Zum Glück habe ich gerade im Kontext eines Kundenwunsches mit der Blacklist zu tun, ich muss das aber erst noch (dort) ausdiskutieren ob wir hier was größeres ändern...

Statistik: Verfasst von Orbiter — Di Sep 04, 2012 5:44 pm


Probleme & Lösungen • Re: Blacklist

Date: 2012-09-04 19:19:25

Also das stimmt nicht ganz, weil dieser Regex funktioniert ...

(?i)(?:web)?(?:count(?:ers)?(?:\d+)?)\..*/.*

Aber teilweise muss man auch komische Konstrukte bauen wie das hier mit .*.* am Anfang damit es funktioniert.

.*.*/(?i)(?:news)?ticker(?:/)?\$

Wieso kann man nicht einfach zwischen ein Regex (für host und path zuständig) und \“normalen\” Einträgen unterscheiden?

Normaler Eintag heißt, komplett ohne Regex oder nur path als Regex.

Statistik: Verfasst von gaston — Di Sep 04, 2012 6:19 pm


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2012-09-05 00:49:54

http://www.reverbnation.com/
downloadable mp3s bekommt man mit der Suchanfrage:
http://www.reverbnation.com/main/search ... ee_songs=1{.postlink}

Statistik: Verfasst von Orbiter — Di Sep 04, 2012 11:49 pm


Mitmachen • Re: \‘Unhosted\’ Search

Date: 2012-09-06 01:22:37

Orbiter hat geschrieben:\ kannst du php?\


ja :-)

Statistik: Verfasst von kilian — Do Sep 06, 2012 12:22 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-09-06 12:27:02

http://search.cbm8bit.com/ :)
Ich bastel übrigens grad an einer Java-Bibliothek, die C64-Disketten-Images (.d64) auslesen kann. Wenn die fertig ist, kann ich einen Parser schreiben, der YaCy erlaubt, die Inhaltsverzeichnissen solcher Dateien zu lesen. :o

Statistik: Verfasst von Low012 — Do Sep 06, 2012 11:27 am


Probleme & Lösungen • Re: Bestimmte Wörter wie http, ftp, html ...

Date: 2012-09-06 21:59:37

also diese Wörter sind sehr gute Kandidaten für eine default-stopwordlist. Diese liegt in Yacy in der Datei yacy.stoppwords bei. Kannst du mal versuchen herumzuprobieren was passiert wenn du diese Dateien mit den vorgeschlagenen Wörtern füllst? Ein Wort pro Zeile ist das Format.

Statistik: Verfasst von Orbiter — Do Sep 06, 2012 8:59 pm


Probleme & Lösungen • Re: Bestimmte Wörter wie http, ftp, html ...

Date: 2012-09-06 22:29:57

Solange nur ich diese Wörter da eintrage wird das YaCy-Netz solche Dateien weiter verteilen. Und komplett verbieten wollte ich diese auch nicht. Vielleicht reicht es wenn man beim zerlegen der ULRs nur die Domain selbst speichert und den Rest verwirft.

Statistik: Verfasst von gaston — Do Sep 06, 2012 9:29 pm


Suchmaschinen • Pharus

Date: 2012-09-06 22:58:03

Hallo,

FYI: Nutch und vor allem Solr basierte Open Source Suche der TH Mittelhessen: http://pharus.e-teaching.org/index/information

Hier gibts evtl. auch für hier interessante (n)Code(teile): https://scm.thm.de/pharus

Gruss,
Marek

Statistik: Verfasst von Marek — Do Sep 06, 2012 9:58 pm


YaCy Coding & Architektur • Re: Bewertungen / Ranking

Date: 2012-09-06 23:07:45

apfelmaennchen hat geschrieben:\ Auch wenn ich mich nicht so regelmäßig hier melde, arbeite ich \"heimlich\" an den YaCy Bookmarks weiter.\



oh das ist toll, sorry hab noch nicht die Zeit für die Antwort gefunden...

apfelmaennchen hat geschrieben:\ Konkret sind die Bookmarks intern momentan so ausgelegt, dass sie recht effizient jede User-Annotation zu einer URL aufnehmen können und auch sollen (das API via HTML ist noch nicht vollständig vorhanden). Insbesondere sind die YaCy Bookmarks auf einen Mehrbenutzerbetrieb (auf einem Peer) ausgelegt, so kann jeder Nutzer seine eigenen Annotations ablegen und verwalten, der Peer könnte aber sehr wohl über alle User konsolidieren. Sprich spezifische User-Annotationen aufzunehmen und als RDF (Bibo) auszuspucken wäre durch eine einfache Ergänzung des API (zwei Servelets) umzusetzen.\



Das Thema Mehrbenutzerbetrieb wird ja kaum betrachtet, so weit ich das sehe. Eine Anwendung sehe ich nur im Zusammenhang mit dem Crawlen von zu-authentifizierenden Seiten. Ich werde immer wieder gefragt ob wir \‘geschützte\’ Bereiche Crawlen können. Das macht nur Sinn wenn wir die gleichen User Accounts kennen wie diese \‘geschützten\’ Bereiche. Eine Anwendung sehe ich nur im Intranet, und da bräuchten wir für die User-Accounts eine Anbindung bsp. an Active Directory{.postlink} (windows) bzw. mit einem LDAP Client. Wenn sich dafür ein Experte finden würde wäre ich sehr froh! Einen LDAP-Client in Java gibts ja, fehlt nur noch ein Verständnis für die Authentifizierungsprotokolle.

apfelmaennchen hat geschrieben:\ Um nach diesen \"Kriterien\" einfacher suchen/sortieren zu können, habe ich die Bookmarks (noch lokal bei mir im Test) mit einem Index ausgestattet. Dies war insb. im Zuge des jüngst fertiggestellten DMOZ-Importers (ebenfalls noch lokal bei mir im Test) notwendig, da die bisherige Folder/Tag Implementierung bei \> 500.000 Bookmarks an ihre Grenzen stößt.\



Ich empfehle für die Suche auch den integrierten Solr zu benutzen. Das ist nicht schwer zu machen.

apfelmaennchen hat geschrieben:\ Die Kategorisierung durch DMOZ ist recht umfassend. Zusätzlich hätte ich gedacht, dass man über eine Abstands- bzw. Ähnlichkeitsfunktion (z.B. basierend auf Term Frequency und weiteren Merkmalen) auf die YaCy Document Klasse eine entsprechende statistische Kategorisierung nicht in DMOZ enthaltener URLs hinbekommen sollte. Vorteil dieser Lösung wäre, dass dies auch für eigene (manuelle) Kategorisierungen funktionieren würde, da Basis immer die Bookmarks des jeweiligen Anwenders wären. Außerdem ließe sich mit einer solchen Ähnlichkeitsfunktion auch das an anderer Stelle angesprochene Thema Alerts bei Veränderung einer Seite entsprechend elegant lösen. Hier sprechen wir also von einer Mischung aus manuellen Annotations und statistischen Ableitungen daraus.\



hm, hört sich irgendwie spannend an, weiss aber nicht was wir da machen sollen. Alerts auf Bookmark-Content-Changes deutet auf eine ganz neue Anwendung im Bereich Monitoring an. Die Bookmarks sind dazu sicherlich die richtige Wahl um die zu beobachtenden URLs abzulegen.

apfelmaennchen hat geschrieben:\ >
> > Aber XBEL (bisheriges Bookmark-Format) lässt sich notfalls per XSLT > ja auch umwandeln, falls bisherige EntwicklerInnen sehr daran hängen > sollten\...\ > >


Intern arbeiten die Bookmarks mit dem YaCy Tables Interface. XBEL ist eines von mehreren Ausgabeformaten (XML, HTML, JSON), die von YaCy Bookmarks unterstützt werden. Grundsätzlich wäre es recht einfach, ein weiteres Format, z.B. RDF mit Annotations anzubieten. Bisher hatte ich in diesem Zusammenhang http://www.w3.org/2001/Annotea/ als anvisiertes und wohl beschriebenes Ziel im Auge.



bei RDF wirds spannend. du sprichst es an:

apfelmaennchen hat geschrieben:\ Die derzeitige Lösung des TripleStores als RDF-File, welches durch Jena ins RAM geladen wird, dürfte schon durch einen einfachen Import des DMOZ Dumps (2 GB RDF-XML) an seine Grenzen stoßen. Daher ist dies (für mich) so noch keine Alternative zu den Bookmarks. Vielleicht brauchen wir einen Jena-DB-Connector für YaCy-Tables? Oder wir setzten TDB ein?\


sehr richtig beobachtet, hier sollte eine offene Baustelle sein. Die mit Jena ins RAM geladenen RDF Tripel sind leider nur ein Quick-Hack und sind unter starkem Zeitdruck für den Vortrag an der Humboldt-Uni Berlin entstanden. Hier gibt es (die mit Dominic geteilte) Idee, die RDF Tripel als \‘Beilage\’ zu den Solr Daten in die neuen Metadaten zu legen. Da ist ja nun massig Platz. Die Ablage der Tripel muss so sein, dass man daraus die gleichen Facetten machen kann wie so wie es momentan ist. Dazu muss ich nochmal nachdenken wie es richtig geht.

Statistik: Verfasst von Orbiter — Do Sep 06, 2012 10:07 pm


Mitmachen • Re: Seeks (seeks-project.info) mit YaCy verbinden

Date: 2012-09-06 23:12:27

naja Seeks kann jeder gebrauchen der eine \‘persönliche Metasuchmaschine\’ bsp. nur für Goolge+YaCy haben will. Das ist ja sinnvoller als YaCy zu \‘verschmähen\’ nur weils nicht alles so toll kann wie Goolge. Und diese Erkenntniss ist universell für alle die default-Suchmaschinen, die bislang in Seeks drin sind.

Statistik: Verfasst von Orbiter — Do Sep 06, 2012 10:12 pm


Mitmachen • Re: Peers, P2P-Netz Leistung

Date: 2012-09-06 23:17:44

\‘grundsätzlich blockieren\’ geht doch nicht in einem \‘freeworld\’ Netz dass prinzipiell keine Vorselektion will!

Die Frage was man blockieren kann/soll/sollte ist \‘demokratisiert\’ dadurch, dass es share-bare Blacklists gibt. Du kannst entsprechende Seiten bei dir in die Blacklist rein machen und dann hier dafür werben, deine Blacklist zu importieren.

Statistik: Verfasst von Orbiter — Do Sep 06, 2012 10:17 pm


Mitmachen • Re: Peers, P2P-Netz Leistung

Date: 2012-09-07 00:11:08

Das soll ja auch nicht heimlich gemacht werden, aber hier im Forum würde es untergehen. Direkt in YaCy als Option wo dann auch steht wieso weshalb ... Von mir aus soll auch jeder solche \“großen\” Seiten in sein Index halten, aber dann bitte Lokal und nicht damit das YaCy-Netz belasten. Ich glaube vielen ist nicht klar wie viel Daten auf die Dauer gesammelt werden.

Aktuell läuft mein YaCy nicht mehr, weil ich noch nicht weiß wie ich jetzt weiter mache. Ich würde ja gerne das P2P-Netz unterstützen, aber aktuell sieht es so aus das es für _mich_ besser ist den Peer nur lokal zu betreiben, nur ob das auf Dauer reicht!?

Mal die nächsten Entwicklungen abwarten...

Statistik: Verfasst von gaston — Do Sep 06, 2012 11:11 pm


Mitmachen • Re: \‘Unhosted\’ Search

Date: 2012-09-07 10:55:48

ach ja, du machst ja bei Movim mit!
Wenn ich irgendwann in den nächsten Wochen ein wenig Zeit habe, könnten wir mal probieren einen Unhosted-Index Standard zu entwerfen und vielleicht kannst du Tests machen wie gut sich entsprechende Json-Files mit php verarbeiten lassen?

Statistik: Verfasst von Orbiter — Fr Sep 07, 2012 9:55 am


Mitmachen • Re: \‘Unhosted\’ Search

Date: 2012-09-07 16:42:26

Ja. Kann den Aufwand zwar grad nicht abschätzen, aber ich kann schon ein bisschen was basteln, denk ich.

Statistik: Verfasst von kilian — Fr Sep 07, 2012 3:42 pm


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-09-07 22:17:21

Ja danke das wäre wohl eine Möglichkeit. Aber das Problem hat sich anders entwickelt. Hat nichts hiermit Konfiguration zu tun. Ich komme bei Gelegenheit wieder darauf zurück. Meine RoGott Yacy hat sich bei 5,6 Millionen Einträgen nicht mehr steuern lassen und läuft nun nicht mehr.
Ich muß erst noch mal neu probieren.
Gruß Roland

Statistik: Verfasst von RoGott — Fr Sep 07, 2012 9:17 pm


YaCy Coding & Architektur • Re: Bewertungen / Ranking

Date: 2012-09-09 10:26:40

\ Das Thema Mehrbenutzerbetrieb wird ja kaum betrachtet, so weit ich das sehe. Eine Anwendung sehe ich nur im Zusammenhang mit dem Crawlen von zu-authentifizierenden Seiten.\


Naja, ich sehe auch eine Anwendung beim Aufbau eines kontrollierten Index. Oder eben zum Sammeln von Metadaten, die durch User entstehen - Stichwort Browser-Integration. LDAP oder Active Directory wäre natürlich richtig cool...

\ Ich empfehle für die Suche auch den integrierten Solr zu benutzen. Das ist nicht schwer zu machen.\


Schau ich mir an, versprochen! Mit Solr habe ich mich eh noch nicht genug befasst.

\ Alerts auf Bookmark-Content-Changes deutet auf eine ganz neue Anwendung im Bereich Monitoring an.\


Ich glaube, dass Bedarf besteht, YaCy CrawlStarts konfortabler zu verwalten. Außerdem habe ich immer noch den Anwendungsfall \“spezialisierter, teil-verwalteter Index\” vor Augen. Zusätzlich könnte man mit der Ähnlichkeits- bzw. Abstandsfunktion statt nach Suchworten gleich mit einer Beispielseite oder einem Referenztext nach ähnlichen Seiten crawlen bzw. suchen lassen.

\ bei RDF wirds spannend\


Öffentliche Bookmarks stehen jetzt via http://yacy-peer:8090/YMarks.rdf zur Verfügung!
Intern kann man mit der Klasse YMarkRDF einen SnapShot der Bookmarks als Jena RDF Model bekommen, falls man hier YaCy-intern mit weiter arbeiten wollen würde. Bei Bedarf gebe ich gerne weitere Infos...

\ die RDF Tripel als \'Beilage\' zu den Solr Daten in die neuen Metadaten zu legen.\


Ich persönlich würde auf eine \‘Beilage\’ verzichten und entweder auf TDB gehen, oder auf Basis des BEncodedHeap einen eigenen persistenten TripleStore bauen. Wenn wir die Jena-Schnittstelle bedienen müssen wir nicht das Rad neu erfinden.

apfelmaennchen

Statistik: Verfasst von apfelmaennchen — So Sep 09, 2012 9:26 am


Probleme & Lösungen • Indizieren von Subfolders via SMB

Date: 2012-09-11 16:19:22

Hallo miteinander,

soeben habe ich einer kleinen Linuxbox mit Debian neues Leben eingehaucht und wollte YaCy dazu bewegen
von einem SMB Share aus einige Indizierungen zu erledigen. Der Aufruf erfolgte über smb://username:password@hostname.domain.local/share/

Wenn sich innerhalb des Shares Dokumente befinden, werden diese auch brav indiziert. Nur leider klappt das mit entsprechenden Unterverzeichnissen nicht.
Zwar zeigt er diese in der Linkliste an, aber das wars dann auch.

Gibt es irgendwo hierfür eine Policy oder eine Option mit der man explizit angeben kann, SMB Subfolders zu durchsuchen?


lg. René

Statistik: Verfasst von DrJay — Di Sep 11, 2012 3:19 pm


Probleme & Lösungen • Bilder ohne Inhalt

Date: 2012-09-12 10:28:41

Hallo,

wir haben auf unserer Website http://missingscout.com yacy als Suchmaschine eingerichtet.
Läuft soweit auch gut, bis auf die Bilder. Geht man bei einem Namen auf Bildersuche, werden diese zwar angezeigt aber ohne Inhalt.
Wo könnte der Fehler liegen?

Vielen Dank für eure Hilfe. LG Anette

Statistik: Verfasst von oe4yla — Mi Sep 12, 2012 9:28 am


Probleme & Lösungen • Re: Bilder ohne Inhalt

Date: 2012-09-12 11:24:43

wow, das ist ja mal eine tolle Sache!

Die Bildersuche ist ein nicht ganz erfolgreich verlaufendes Experiment, bei der auf Webseiten, die in der Suche gefunden wurden, die eingebetteten Bilder in der Suche angezeigt werden. Dabei werden alle Bilder genommen, von denen der Webserver behauptet es sein eins (mime-type: image) oder die Extension des Links darauf schliessen lässt (.jpg). In vielen Fällen verbirgt sich dahinter aber gar kein Bild, sondern wieder eine Webseite oder eine Weiterleitung. Der Thumbnail-Erzeuger kann dann auch kein Bild machen und liefert dann eben nichts.
Andererseits sieht es bei deinem Screenshot so aus, als würde das Thumbnail-Servlet gar nichts liefern wollen. Ich habe diesen Fall hier nicht reproduzieren können.

Ich habe den Eindruck, ihr habt da eine uralte YaCy Version laufen (also mehrere Monate), denn es hat noch kein Solr interface drin. Ich hab vor die Bildersuche ganz anders zu machen, und zwar so wie das interactive-Servlet es macht. Rufe mal folgendes auf:

/yacyinteractive.html?query=ibrahim+filetype:jpg&startRecord=0&maximumRecords=100

da kommen bei deinem Server 2 Bilder. (will jetzt nicht den ganzen Pfad hier posten...)

Statistik: Verfasst von Orbiter — Mi Sep 12, 2012 10:24 am


Probleme & Lösungen • Re: Bilder ohne Inhalt

Date: 2012-09-12 11:49:12

Danke für die schnelle Antwort.
Wir haben die aktuelle Version von der Yacy-Seite runter geladen.

Statistik: Verfasst von oe4yla — Mi Sep 12, 2012 10:49 am


Probleme & Lösungen • Re: Bilder ohne Inhalt

Date: 2012-09-12 12:50:48

Wir haben jetzt auf die neue Version geändert, aber geändert hat sich trotzdem nichts. Die Bilder werden nicht angezeigt.
Was können wir noch tun?

Statistik: Verfasst von oe4yla — Mi Sep 12, 2012 11:50 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-09-12 22:23:27

Bild

Statistik: Verfasst von Orbiter — Mi Sep 12, 2012 9:23 pm


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2012-09-13 12:12:31

Also ich finde die Kommerziellen wie Spotify und Deezer eigentlich auch nicht schlecht, Spotify braucht man je nach Land halt leider immer noch einen Proxy.

Statistik: Verfasst von Berflo — Do Sep 13, 2012 11:12 am


Off-Topic • Re: Yacy IRC-Channel

Date: 2012-09-13 12:13:57

So ein irc channel braucht immer mindestens mal 10 idler damit wenigstens ein bisschen was los ist, sonst ist da doch tote Hose :(

Statistik: Verfasst von Berflo — Do Sep 13, 2012 11:13 am


Off-Topic • Re: AnomicFTPD ftp server

Date: 2012-09-13 12:16:42

interessant, kenn sonst nur Raiden, Serv-U und den integrierten von Windows Server, sowie halt die standards wie Proftpd pureftp.…

Statistik: Verfasst von Berflo — Do Sep 13, 2012 11:16 am


Off-Topic • Re: Urlaub

Date: 2012-09-13 12:18:55

Elin hat geschrieben:\ Ich fliege bald nach Paris, weiss jemand ein gutes und einigermassen billiges Hostel????\



Ich würde in Paris nie wieder in ein Hostel gehen, so ein winziges Zimmer mit 4 leuten, in einer Gegend wo nachts die Autos brennen, weißt schon.…

Statistik: Verfasst von Berflo — Do Sep 13, 2012 11:18 am


Probleme & Lösungen • Update-Server

Date: 2012-09-14 09:38:03

Ich habe über die Update-Seite in YaCy jetzt schon seit einigen Tagen kein Update mehr angeboten bekommen. Mir ist das relativ egal, weil ich mein YaCy auch aus dem git holen und kompilieren kann, aber vielleicht gibt es ja Leute, die verzweifelt auf einen neue Version warten. ;)
Besteht eigentlich Bedarf nach weiteren Update-Servern? Ich könnte da meinen recht gut angebundenen Server zur Verfügung stellen (läuft ja sonst fast nur YaCy drauf), bräuchte aber wahrscheinlich ein bisschen Zeit für, weil ich unter akutem Zeitmangel leide.

Statistik: Verfasst von Low012 — Fr Sep 14, 2012 8:38 am


Probleme & Lösungen • Re: Update-Server

Date: 2012-09-14 10:11:12

wir haben ja nur noch 2 Update-Server, was ja auch eigentlich ausreicht:
http://kaskelix.de/update/
das ist meiner und ich pushe da nicht automatisch hin sonden wenn ich \‘stable\’ denke.

und
http://www.yacystats.de/yacybuild/
wo der letzte Upload von gestern ist. Wieso ist der bei dir nicht sichtbar?

Statistik: Verfasst von Orbiter — Fr Sep 14, 2012 9:11 am


Probleme & Lösungen • Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfügung

Date: 2012-09-14 10:47:27

Es steht weniger als 1.000 MB Arbeitsspeicher zur Verfügung. DHT wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.
Frage: Wo muß ich das genau einstellen?

Ah habe es uner Leistung gefunden

Macht diese Einstellung nun Sinn?
Habe es erweitert:

Für JVM reservierter Speicher 1000 MB



DHT-Umschalter nicht ausgelöst [Status zurücksetzen]
Festplattenspeicher
Deaktivere Crawls unter3000 MiB freiem Speicher,
Deaktivere eingehende DHT Transfers unter 1000 MiB freiem Speicher
Arbeitsspeicher
Deaktivere eingehende DHT Transfers unter1000 MiB freiem Speicher

Statistik: Verfasst von RoGott — Fr Sep 14, 2012 9:47 am


Probleme & Lösungen • Re: Update-Server

Date: 2012-09-14 12:09:24

Orbiter hat geschrieben:\ Wieso ist der bei dir nicht sichtbar?\


Hmmm, gut Frage. Ich habe es mehrfach probiert und bei mir wurde immer nur 1.19048 (unsigned) angezeigt. Nachdem ich es eben noch 2x probiert habe, kann ich jetzt auch die 1.19060 (signed) sehen.

Statistik: Verfasst von Low012 — Fr Sep 14, 2012 11:09 am


Probleme & Lösungen • Re: Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfü

Date: 2012-09-14 14:10:44

Hallo RoGott,

wenn Du 1000MB für YaCy bzw. dessen jvm als Maximum setzt kannst Du kaum mehr als 1000MB frei haben.
Der Wert für

Arbeitsspeicher
Deaktivere eingehende DHT Transfers unter...

sollte schon einiges unter der Speichergröße der jvmliegen - versuche 100 oder so.
(default ist 50MB)

Alternativ kannst Du unter /PerformanceMemory_p.html das Häkchen vor \‘use Standard Memory Strategy\’ wegnehmen.
Dieses aktiviert eine alternative Methode zur Speicherverwaltung und ermittelt selbstständig wann der Speicher ausgeht und DHT deaktiviert werden sollte.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Sep 14, 2012 1:10 pm


Presse • YaCy in \“Breitband\” auf Deutschlandradio Kultur

Date: 2012-09-14 18:17:49

http://breitband.dradio.de/auf-suche/

Statistik: Verfasst von Marek — Fr Sep 14, 2012 5:17 pm


Presse • Re: YaCy in \“Breitband\” auf Deutschlandradio Kultur

Date: 2012-09-14 19:41:49

oh super, wie hast du das so schnell entdeckt, um 17:00 hat mich noch die Journalistin (DRadio, Telepolis, ZEIT online, taz){.postlink} gefragt ob sie die Grafik verwenden darf (natürlich).

http://breitband.dradio.de/auf-suche/ hat geschrieben:\ Von Autovervollständigungs-Affären über intransparente Algorithmen bis zur Zensur von Torrents: Die großen Suchmaschinen, allen voran Google, sind die Türsteherinnen der Informationsverbreitung.\


Ich bin immer wieder begeistert wie Profis unser Thema so schön auf den Punkt bringen können.

Also wir haben vorgestern ein Interview per Skype aufgezeichnet, rund 40 Minuten geredet, davon werden 4 Minuten wahrscheinlich gesendet. Und zwar hier: http://breitband.dradio.de/hoeren/ bzw. im \‘echten\’ Radio, Deutschlandradio Kultur{.postlink}, morgen, [Samstag, 14:05]{style=“font-weight: bold”}.

Dann haben wir gestern nochmal über eine Stunde telefoniert und wir sind von der Installation bis zum Crawlen, Suchen mit Facetten, Netzstruktur, Blacklisten und Index-Moderation durch die Basis-Funktionen von YaCy durchgegangen. Ich bin gespannt was morgen dann gesendet wird!

Statistik: Verfasst von Orbiter — Fr Sep 14, 2012 6:41 pm


Probleme & Lösungen • Admininterfacekritik & Prinzip der Überprüfung

Date: 2012-09-14 20:34:26

wenn wir schon auf den Punkt bringen sind: ;)
1.) Stelle vermutlich nächste Woche noch meinen vor paar Monaten nach meinem beim Einstieg erlittenen Optionswirrwar entwickelte \“auf den Punk\” gebrachtes Admininterfacekritik als Diskussionsgrundlage für die schon angesprochene Light-Admininterface rein ;)
2.) BTW: Habe ich schon erläutert, warum das aktuelle Prinzip der Überprüfung und damit die weltweite dezentrale Suche nicht funktioniert?

Auf den Punkt: Krieg ist Frieden ;)
Beispiel: Wenn ich nach \“XY AG Umweltschäden\” suche, können finanzstarke Firmen und von ihnen bezahlte Agenturen zig Beiträge \“XY AG vermeidet Umweltschäden durch ihren super tollen Einsatz für die Natur\” reinspammen, die die Keywords tatsächlich enthalten und sich im Zweifel deutlich mehr durch den prüfalgorithmus nicht auszumachenden Spam-Peers leisten, als eine kleine NGO.

Wenn mensch aber keine Clubs und schon keinen besseren Club für alle hinkriegt, weil die Struktur anfällig für Greenwashing und Neusprech-Spammer ist, ist es doch schön Baupläne und sogar schnell aufsetzbare Fertighäuser für eigene Clubs zu haben und in diesen auch auf andere Musikgeschmacksrichtungen spielende oder auf andere Getränke spezialisierter anderer Clubs verweisen zu können, deren BetreiberInnen mensch kennt und weiss, dass die keinen Spiritus ausschenken, ums ich zu bereichern oder zu manipulieren.

Arbeite deshalb an - auch zentrale DMS ersetzen könnende - unhostet (und daher notfalls auch durch NutzerInnenhand administrierbare und offline) nutzbaren und teilbare/syncbare Web of Trust Architektur für Bewertungen und Annotationen (und muss mir da auch nochmal Seeks und Annotea genauer anschauen und werde mich auf deren Standards beziehen sowie im Thread Bewertungen nochmal ausführlicher dazu schreiben in paar Tagen).

Gruss,
Marek

Statistik: Verfasst von Marek — Fr Sep 14, 2012 7:34 pm


Presse • Re: YaCy in \“Breitband\” auf Deutschlandradio Kultur

Date: 2012-09-15 21:11:19

Habe es leider nicht geschafft, die Sendung im Radio zu hören, aber ich werde das noch nachholen.

Mittlerweile gibt es sie hier als Download: http://ondemand-mp3.dradio.de/file/drad ... 762f92.mp3{.postlink}

Statistik: Verfasst von Low012 — Sa Sep 15, 2012 8:11 pm


Probleme & Lösungen • Spracherkennung!

Date: 2012-09-18 14:15:18

Die Spracherkennung in YaCy ist defekt oder funktioniert \“überhaupt\” nicht. Ich habe mich gefragt warum bei einer Suche mit \“/language/de\” immer wieder Seiten aus aller Welt auftauchen. Habe mir dann im Log die zugeteilte Sprache der Seiten ausgeben lassen. Selbst \“de.wikipedia.org\” Seiten haben da oft Sprachen zugeteilt bekommen von z.B. la, ia, gd, fo... So wie es aussieht werden Zeilen wie \”<html lang=\“de-DE\” ...\” in den Seiten überhaupt nicht ausgewertet. Die Auswertung der URL (naja) ... lieber gar keine Information als eine falsche.

Statistik: Verfasst von gaston — Di Sep 18, 2012 1:15 pm


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-09-18 15:21:44

das ist richtig, das ganze ist experimentell und funktioniert nicht oft genug richtig. Weil es kein \‘Herzeigefeature\’ von YaCy ist, ist es nicht schlimm sondern wartet darauf dass jemand mit einer zündenden Idee kommt wie man die Erkennung besser machen kann.

Statistik: Verfasst von Orbiter — Di Sep 18, 2012 2:21 pm


Probleme & Lösungen • Re: Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfü

Date: 2012-09-19 14:46:11

Hallo
ich habe die Einstellungen so gemacht, wie Du angeben hast, lief auch gut und auf einmal schon wieder diese Meldung

Es steht weniger als 100 MB Arbeitsspeicher zur Verfügung. DHT wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.

zu sehen oder anders gesagt ich setze sie hier ein http://rogott.de oder eben auch hier www.rogott.de{.postlink}, habe aber auch wenig Breitband DSL.

Ich würde gern einen Server mieten und Yacy allein drauf laufen lassen.
Wie ist Deine Meinung dazu oder Rat.
Gruß Roland

Statistik: Verfasst von RoGott — Mi Sep 19, 2012 1:46 pm


Probleme & Lösungen • Re: Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfü

Date: 2012-09-19 23:28:10

Hallo Roland,

wenn tatsächlich schon nur noch 100MB frei (available) sind wirst Du nicht drumherum kommen YaCy mehr speicher zu geben oder Dich mit dem Index zufrieden zu geben.

Hast Du die generation memory strategy ausprobiert ist der eingetragene Wert von z.B. den 100MB zu ignorieren.
Das Abschalten des DHT geschieht dann unabhängig von diesem Wert, sobald der Speicher der internen Strukturen knapp wird.
(leider wird der Wert dann immer noch in der Warung angegeben)

Das Deaktivieren an sich ist ja erst mal kein Fehlverhalten - sondern ein Schutz das es bei zu großem Speicherbedarf nicht zu fehlern kommt.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Sep 19, 2012 10:28 pm


Probleme & Lösungen • Re: Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfü

Date: 2012-09-20 02:53:24

Hallo sixcooler

ich gebe mal paar Werte durch
Win 7
YaCy loft auf einer 227er Gigplatte davon belegt 61,2 Gig
166 Gig frei für YaCy
YacY hat jetzt selbst von den 61,2 Gig 28 Gig schon in beschlag

Also kann sie noch kräftig was einlesen
Der Rechner hat 4 Gig RAM
2 Pozessoren
1Gig für JVM reservierter Speicher
DHT-Umschalter ausgelöst

Festplattenspeicher
Deaktivere Crawls unter 3000 MiB freiem Speicher,
Deaktivere eingehende DHT Transfers unter 100 MiB freiem Speicher

Arbeitsspeicher
Deaktivere eingehende DHT Transfers unter 100 MiB freiem Speicher

Datenbank Einträge
Seiten (URLs) 6.247.841
RWIs (Wörter) 1.829.227

Statistik: Verfasst von RoGott — Do Sep 20, 2012 1:53 am


\‘Newbies\’: Forum für Einsteiger und Anwender • YaCy mit \“integriertem Blog\” - aber wo und wie?

Date: 2012-09-20 11:17:47

Immer mal wieder lese ich, dass YaCy einen [integrierten Blog]{style=“font-weight: bold”} habe (z.B. Wikipedia). ich kann aber keine Erwähnung dazu im Wiki finden. :o Gibt es diesen Blog und wie richtet man ihn ein? Ein kurzer Hinweis würde schon genügen. Besten dank!

Statistik: Verfasst von dürer — Do Sep 20, 2012 10:17 am


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-09-20 17:05:55

Jemand der sich da auskennt sollte zumindest schon mal dafür sorgen das alles klein gespeichert wird, mir sind teilweise auch EU ... aufgefallen. Leider ist YaCy zu komplex um mal eben ... Das analysieren von html klappt ja leider auch nicht immer, sei es javascript oder css was manchmal nicht richtig \“entfernt\” wird. Von daher bestimmt ein größerer Eingriff.

Statistik: Verfasst von gaston — Do Sep 20, 2012 4:05 pm


Probleme & Lösungen • DHT-Verteilung

Date: 2012-09-20 17:10:20

Funktioniert das richtig, mir ist aufgefallen das man Wörter zugeschickt bekommt die überhaupt nicht in der nähe des Peerhash liegen. Zur Zeit sieht es eher so aus als ob mal alles bekommt, was ja eigentlich nicht so sein sollte, oder doch?

Statistik: Verfasst von gaston — Do Sep 20, 2012 4:10 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: YaCy mit \“integriertem Blog\” - aber wo und wie?

Date: 2012-09-20 17:52:10

Im Admin Menü links gibt es einen Link \“Local Peer Wiki\“. ;)

Statistik: Verfasst von Lotus — Do Sep 20, 2012 4:52 pm


Probleme & Lösungen • Re: DHT-Verteilung

Date: 2012-09-20 17:58:56

Es wird alles angenommen, was man geschickt bekommt.
Der Versendende Peer macht ein Ranking der best-passenden Peers. Wenn ein Peer nicht antwortet, wird der nächst best passende ausgewählt. Es wird an 3 best-passende Peers versendet.

Nun zur Beobachtung:
Es wird auch \“partitioniert\“. Dazu werden je Wort die Links aufgeteilt.
Das geht folgendermaßen: der Ziel-Hash besteht aus x Buchstaben des Link-Hashes und (n-x) Buchstaben des Wort Hashes. x: Partitionierung in 2\^x Teile. n: Länge des Hashes.

Deshalb hast du auch Wort-Hashes, deren Anfang nicht in der Nähe deines Peer-Hashes liegt.

Statistik: Verfasst von Lotus — Do Sep 20, 2012 4:58 pm


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-09-20 18:00:43

gaston hat geschrieben:\ Das analysieren von html klappt ja leider auch nicht immer, sei es javascript oder css was manchmal nicht richtig \"entfernt\" wird.\


Bitte mit Beispiel in den Bug-Tracker posten. http://bugs.yacy.net

Statistik: Verfasst von Lotus — Do Sep 20, 2012 5:00 pm


Probleme & Lösungen • Re: DHT-Verteilung

Date: 2012-09-20 18:18:39

Danke für die Antwort.

Ich finde aber das der einzelne Peer zu viele \“falsch\” Wörter zugeschickt bekommt wenn man bedenkt das das verteilen viel länger dauert als das sammeln. So ist es nicht verwunderlich das einige Peers schnell ihr Limit finden. Ich habe auch schon beobachtet das gerade zugeschickte Wörter kurze Zeit später auch wieder verschickt werden. Das ist doch eine unnötige Belastung des Netzes, oder nicht?

Weniger von diesen hin und her schieben der Daten würde vielleicht helfen das Benutzern nicht so schnell die Luft ausgeht.

Statistik: Verfasst von gaston — Do Sep 20, 2012 5:18 pm


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-09-20 18:30:49

Extra anmelden möchte ich mich jetzt nicht.

Auf der schnelle ViewFile.html mit www.stern.de{.postlink}

Da findet man in den ersten Zeilen das

Code:
*/ '); var trackingManager = new TrackingManager(1010100, 30, '', 'urhp'); trackingManager.init(); gujTrackingPixelReloader = new gujTrackingPixelReloader(); /* ]] */


delicious.com/
www.cyanogenmod.com/{.postlink}
www.wolframalpha.com/{.postlink}

Statistik: Verfasst von gaston — Do Sep 20, 2012 5:30 pm


Probleme & Lösungen • Anonymität bei der Suche

Date: 2012-09-20 19:05:37

Gibt es die mit Solr nicht mehr, im Log sieht man zumindest wonach gesucht wurde.

Statistik: Verfasst von gaston — Do Sep 20, 2012 6:05 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: YaCy mit \“integriertem Blog\” - aber wo und wie?

Date: 2012-09-20 20:00:39

Ah ach so, ich dachte, dass ist ein.… Wiki :mrgreen: Und es gäbe vl lt. zusätzlich einen Blog.
Alles klar, vielen Dank! :) (UPDATE:) Was mich irregeführt hat, ist, dass in der Konfig für robots.txt sowohl WIKI als auch BLOG ausgeschlossen werden können.… :?:

Statistik: Verfasst von dürer — Do Sep 20, 2012 7:00 pm


Probleme & Lösungen • Re: DHT-Verteilung

Date: 2012-09-20 20:43:32

Ja, dieses Verschicken der Wörter habe ich früher auch schon einmal beobachtet und habe nachgeforscht. So ein Versende-Zyklus wird immer dann vorzeitig abgebrochen, wenn der eigene Peer an der zu versendenden Stelle Steht. Beispiel: es wurden A B C zum versenden ausgewählt (in dieser Reihenfolge). B ist der eigene Peer. Dann wird nur an A versendet. Hinzu kommt, dass die Auswahl der zu versendenden Wörter zufällig erfolgt. Es wird immer ein Starthash gebildet, ab dem selektiert wird. Das führt dazu, dass dies vor allem bei kleinem Datenbestand beobachtbar ist. Im Endeffekt ist es sogar ganz gut, weil so die Redundanz bei wechselnden Teilnehmern erhöht wird.
Der Versand läuft übrigens zweistufig ab. Es werden nur Links übertragen, die noch nicht bekannt sind. Diese werden vom empfangenden Peer angefordert.

Statistik: Verfasst von Lotus — Do Sep 20, 2012 7:43 pm


Probleme & Lösungen • Re: DHT-Verteilung

Date: 2012-09-20 21:16:58

Ob das wirklich so gut ist!? Wenn ein Peer mehr Daten bekommt als er verteilen kann, dann werden irgendwann die wirklich neuen Daten nicht mehr verteilt, oder nur sehr sehr langsam, wie es schon des öfteren hier von anderen beobachtet wurde.

Statistik: Verfasst von gaston — Do Sep 20, 2012 8:16 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-09-21 10:20:05

. .… … … . . ,.-‘“… … … .``~.,
…… …,.-“… … … … … …”-.,
… ….,/… … … … … … … . . “:,
…. .,?… … … … … … … … …\,
… . /… … … … … … … … … . ,}
… ./… … … … … … … … . . ,:`\^`.}
…/… … … … … … … … . ,:“… ./
. .?… __… … … … … … . . :`… ./
. . /__.(…”~-,_… … … … . . ,:`… .. ./
. /(_. . “~,_… ..”~,_… … … .,:`… . _/
{.._\$;_…“=,_… .“-,_… ,.-~-,}, .~”; /. .. .}
((…*~_… .“=-._…“;,,./`. . /” … ./. .. ../
.\`~,….”~.,… … … ..`…}… … ../
.(. ..`=-,,… .`… … … ….(… ;_,,-”
../.`~,….`-.… … … … ….\. . /\
. \`~.*-,… … … … … ….|,./.….\,__
. }.>-._\… … … … … …|… … ..`=~-,
_\_… `\,… … … … … . .\
… . .`=~-,,.\,… … … … … .\
… … … . . `:,, … … … … . `\… . .
… … … … . .`=-,… … … .,%`>--

Statistik: Verfasst von Low012 — Fr Sep 21, 2012 9:20 am


Probleme & Lösungen • Lokaler Crawler läuft Amok

Date: 2012-09-21 11:32:12

Irgendwie scheint der Lokale Crawler seit ein zwei Versionen (gerade 1.19074) keine Grenzen mehr zu kennen. Testscenario: Lokaler Crawler ist leer, dann eine Suche starten (\“linux\“) und der Crawler läuft innerhalb von Minuten in Puffergrößen >15000. Einstellung ist search-result: shallow crawl on all displayed search results, local in der Heuristik. Wenn man die abschaltet, ist der lokale Crawler ruhig. Gibt man dem Proxy ne Seite zu fressen (z. B. zwei Klicks in http://www.debian.org), dümpelt der Crawler zwar im 3-stelligen Bereich rum, reißt aber aus (forbes, apple, oreilly, alles sites, die von der Startseite von http://www.debian.org eigentlich nicht erreichbar ist) und wächst nach und nach auch schneller an.

Ich hab in meiner Konfig eigentlich nichts gemacht in den letzten Wochen, halt nur neue deb-Updates reingezogen, vor allen Dingen nicht an Crawl-Tiefen rumgespielt. Hat sich da irgendwas geändert?

Statistik: Verfasst von click42 — Fr Sep 21, 2012 10:32 am


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-21 12:18:20

click42 hat geschrieben:\ Einstellung ist search-result: shallow crawl on all displayed search results, local in der Heuristik.\


wenn du das einstellst, wird für jede Domäne im Suchergebnis ein Crawl für die gesamte Domäne gestartet. Dann läuft der Crawler mit den Links dieser Domänen voll und das ist so gewollt. Stell einfach die Option wieder ab, so ist es ja auch per default.

Statistik: Verfasst von Orbiter — Fr Sep 21, 2012 11:18 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: YaCy mit \“integriertem Blog\” - aber wo und wie?

Date: 2012-09-21 12:22:22

oh ja es gibt einen Blog!
http://localhost:8090/Blog.html

der ist nur irgendwann aus dem Menü verschwunden..

Statistik: Verfasst von Orbiter — Fr Sep 21, 2012 11:22 am


Probleme & Lösungen • Re: Anonymität bei der Suche

Date: 2012-09-21 12:35:31

- Im Log steht nur was gesucht wurde aber nicht wer (Peer) oder woher (IP) gesucht wurde. Das Thema Anonymität ist also unberührt
- Die Maskierung der Suchbegriffe durch Hashes war nie zum Zwecke des Verbergens der Suchbegriffe sondern eine Folge aus der DHT Verteilungstechnik. Man konnte (und kann) schon immer die Hashes durch Wörterbücher knacken.

Hier wird also weder die Anonymität angetastet noch eine Maskierung aufgehoben, die es nie zu diesem Zwecke gab.

Statistik: Verfasst von Orbiter — Fr Sep 21, 2012 11:35 am


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-21 13:28:49

hm, dann ist die Beschreibung für mich etwas verwirrend: \“When a search is made then all displayed result links [are crawled with a depth-1 crawl]{style=“font-style: italic”}.\” steht da. Und so war das IMHO früher auch(.?)

Deine Beschreibung ist eigentlich sinnvoller, weil man sonst ja wieder nur über eine bereits gecrawlte Seite nochmal analysiert, was höchstens ein Update zur Folge hätte, ein domänenweiter crawl liefert dann auch sinnvolle und neue Ergebnisse.

Statistik: Verfasst von click42 — Fr Sep 21, 2012 12:28 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-21 15:33:14

ups du hast recht, sollte nur eine Tiefe von 1 sein. Ich schaue mal nach.

Statistik: Verfasst von Orbiter — Fr Sep 21, 2012 2:33 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-21 16:09:43

also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den \‘no depth limit pattern\‘. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.

Dieser neue \‘no depth limit pattern\’ kann man neben dem Crawl start eingeben und hebt, wenn er mit der URL matcht, die depth auf. Das kann man dazu nutzen um so zu crawlen dass man irgenwohin kommt wo der Pfad passt um dort dann so lange durchzucrawlen um alles in dem Pfad ist reinzulesen. Wenn dieses regex pattern dann catchall ist, hört das natürlich nicht mehr auf.

Statistik: Verfasst von Orbiter — Fr Sep 21, 2012 3:09 pm


Probleme & Lösungen • Re: Ranking in YaCy?

Date: 2012-09-23 10:30:14

Wie läuft es eigentlich mittlerweile mit dem Ranking ab? Ich hab bei http://localhost:8090/Ranking_p.html den Blockrank mal auf 15 gestellt, aber die Ergebnisse sind trotzdem sehr schlecht:(

Kann man die Suchergebnisse in Zukunft nicht irgendwie per Hand bewerten? Und das ganze dann im Netzwerk automatisch austauchen? Wenn ich bei Google nach z.B \“Ubuntu Download\” suche sind die ersten 3-4 Links recht brauchbar und spucken z.b http://www.ubuntu.com/download aus. Das möchte ich bei Yacy auch haben.

Statistik: Verfasst von bbtuxi — So Sep 23, 2012 9:30 am


Probleme & Lösungen • Idee: Spracherkennung durch Menschen

Date: 2012-09-23 10:41:49

Mir ist aufgefallen das die Sprache bei den Suchergebnissen meistens nie stimmt, hier scheint es noch nichts richtiges zu geben.

Am besten können wir Menschen ja entscheiden ob die Ergebnisse in unserer Sprache sind, kann man hier nicht irgendwie ansetzen und die Suchergebnisse per Hand korrigieren? Könnte mir das so vorstellen das man bei einer Suche bei allen Ergebnissen die nicht der gewählten Sprache entsprechen auf einen Knopf klicken könnte. Oder verkehrt rum. So könnte man eine Datenbank aufbauen mit verschiedenen Sprachen , vielleicht könnte man das nutzten um die Einteilung der Sprachen ständig zu verbessern.

Bei den Seiten die per Hand eingeteilt wurde bräuchte Yacy ja nur auf eine Datenbank zurückzugreifen , das würde für große Seiten wie Wikipedia und Co sicher sehr schnell funktionieren. Für die restlichen Suchergebnisse müsste dann ein Algorithmus her.

Auf jedenfall sollten menschliche Bewertungen immer Vorrank vor automatischen Einteilungen haben.

Statistik: Verfasst von bbtuxi — So Sep 23, 2012 9:41 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Doppelte Einträge (https http) verhindern

Date: 2012-09-23 11:47:40

Hallo,
ich betreibe YacY im Robinsonmodus (Portal). In den Suchergebnissen tauchen immer wieder doppelte Einträge auf, da manche Seiten auch https anbieten Beispiel:

http://test.org
https://test.org

Die Filterliste habe ich (auch manuell mit regex) versucht dazu zu bringen, alle Einträge zu unterbinden, die mit https beginnen. Es will nicht gelingen. Was muss ich tun, um alle https Einträge zu unterbinden oder noch besser: solche Dubletten zu vermeiden?

Vielen Dank für eine Antwort! :)

Statistik: Verfasst von dürer — So Sep 23, 2012 10:47 am


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-23 13:59:25

Hi.

My deutsch is not that good so I translated the posts in this thread with google and it seems to be about the same issue as I have.

I am now running 1.19086 and when I try to use Yacy as a proxy or when I make a search the \“Local Crawler\” queue grows out of control (almost 100000 pages in half an hour)
The PPM meter goes down to 0 but the queue continues to grow so it seems that yacy stops indexing at the right depth but still follows the links on pages.

As i had a hard time reading the translation to this thread my question is, was a fix for this already deployed or is it scheduled for release?

//Usern

Statistik: Verfasst von usern — So Sep 23, 2012 12:59 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Doppelte Einträge (https http) verhindern

Date: 2012-09-23 17:55:48

Es wird nur Host und Path gefiltert, deswegen geht das nicht.

Statistik: Verfasst von gaston — So Sep 23, 2012 4:55 pm


Probleme & Lösungen • Re: Anonymität bei der Suche

Date: 2012-09-23 18:04:18

Das das vorher auch schon ging wusste ich ja. Es wurde aber so getan als ob es anonym ist (Hash wird nur zu Teil gezeigt). Die meisten hier (wenn nicht alle), haben bestimmt kein umgekehrtes Wörterbuch. Von daher ist es nun viel einfacher herauszufinden wer was sucht.

Statistik: Verfasst von gaston — So Sep 23, 2012 5:04 pm


Probleme & Lösungen • Re: Anonymität bei der Suche

Date: 2012-09-23 19:57:07

Ich weiss was du meinst, aber um die Leistungsfähigkeit der remote Suche zu steigern schien mir die Benutzung von Solr unumgänglich. Es wäre möglich in Solr die Wort-Hashes auch reinzutun um dann in gleicher Weise wie bisher mit den Hashes zu suchen, aber das wäre ein Overhead für eine schein-Maskierung. Es wäre nicht wirklich konsequent um das Suchwort zu verbergen.

Ich würde wirklich gerne das Suchwort irgendwie verbergen, aber mir fällt dazu nichts anderes als Peer-hopping ein, und das ist nicht gerade performant. Ggf. wäre es möglich ein Peer-hopping als Option einzubauen die man bewust wählen kann, aber der Effekt ist dann ja dass noch mehr Peers Suchwörter sehen können, aber nur nicht bekannt ist welcher Peer tatsächlich das Wort abgeschickt hat.

Falls noch jemand eine Idee hat wie man die Suchworte tatsächlich effizient verbergen kann, dann nur her damit.

Statistik: Verfasst von Orbiter — So Sep 23, 2012 6:57 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-23 20:05:52

usern hat geschrieben:\ As i had a hard time reading the translation to this thread my question is, was a fix for this already deployed or is it scheduled for release?\


A patch has been made. But it is not clear if it is online, yet.

Orbiter hat geschrieben:\ also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den \'no depth limit pattern\'. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.\

Statistik: Verfasst von Lotus — So Sep 23, 2012 7:05 pm


Probleme & Lösungen • Re: Ranking in YaCy?

Date: 2012-09-23 20:09:22

Der Block Rank wird soweit ich das mitbekommen habe nun autonom bei jedem Peer durch die dort ausgeführten Crawls ermittelt. Du hast also das beste Resultat, wenn du alle Seiten selbst gecrawlt hast.

Statistik: Verfasst von Lotus — So Sep 23, 2012 7:09 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-23 20:17:32

Lotus hat geschrieben:\ >
> > usern hat geschrieben:As i had a hard time reading the translation > to this thread my question is, was a fix for this already deployed > or is it scheduled for release?\ > >


A patch has been made. But it is not clear if it is online, yet.



Yep, I saw that too.
I guess that you are refering too https://gitorious.org/yacy/rc1/commit/f ... d7643e631e{.postlink} ?
Unfortunateley there seems to be no link between Yacy versions and gitorious commits, would have been nice to know what commit a Yacy version is including.

Orbiter hat geschrieben:\ also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den \'no depth limit pattern\'. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.\

Statistik: Verfasst von usern — So Sep 23, 2012 7:17 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-23 20:57:35

I had a look in my Yacy dir and compared the sourcecode to whats on gitorious and it seems to be uptodate with the last gitorious commit.
To me that indicates that I am really running with the \“Fix\“, mabye there is something more that needs to be fixed.

Hopefully Orbiter has an idea of what is happening.

//Usern.

Statistik: Verfasst von usern — So Sep 23, 2012 7:57 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 00:06:27

the fix does not clear the queue but it prevents that the queue is filled further.
You must manually empty the queue;open /IndexCreateQueues_p.html?stack=LOCAL and use the default-regex to remove all entries from the queue

Statistik: Verfasst von Orbiter — So Sep 23, 2012 11:06 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 13:44:49

Hi again.

Unfortunately that does not work for me :(

If I start with an empty queue and do a search my queue starts to fill up and the node starts indexing pages (PPM meter rises), after a while the PPM meter goes down to zero but the queue does not stop filling up.
Looking at /IndexCreateQueues_p.html?stack=LOCAL i can see depths of 30 or more, the queue even filled up so fast that I was unable to empty it and had to manually delete the QUEUES dir after I stopped the node.
I have enabled all Heuristics but that shouldn\’t really matter.

Any ideas as to what could have gone wrong for me?

//Usern.

Statistik: Verfasst von usern — Mo Sep 24, 2012 12:44 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 15:00:54

please check that you are actually running 1.19086 because thats exactly which is fixed there.
I tried to reproduce the problem but I cannot see it any more.

Statistik: Verfasst von Orbiter — Mo Sep 24, 2012 2:00 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 15:58:42

Yep, both /Status.html and /ConfigUpdate_p.html says that I am running 1.19086 .

It might be some crazy thing that only happened to me and I might have to start over with a new node, good thing that its fairly simple to move the index (Don\’t wanna lose the 5.8M indexed pages).

Thank you so far.

//Usern.

Statistik: Verfasst von usern — Mo Sep 24, 2012 2:58 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 17:52:56

Hi again.

Orbiter, your last post got me thinking and it seems like I solved my issue, what really happened I do not know.

This is what i did.

I downgraded my node to 1.19069, tested it and my issue was not reproducable (As I expected)
I then deleted the 1.19086 release that the node presented as available, downloaded 1.19086 again an installed it.
My so far limited testing indicates that things are back to normal and that I once again can use the node as both Proxy and searchengine :D
I am suspecting that something went wrong when I first updated to 1.19086, dunno what though.

Thanx for your time, hopefully my node will run as intented now.

//Usern.

Statistik: Verfasst von usern — Mo Sep 24, 2012 4:52 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-09-24 18:40:39

I might have spoken too soon.

Did an upgrade to 1.19091, after the restart I made 1 search and now my \“Local Crawler queue\” is filling up at an insane speed again.
10 minutes after the search the queue is up to ~48000 and rising :shock:
Looking at /IndexCreateQueues_p.html?stack=LOCAL i can see depths of 59, 27, 26, 18, 51, 35, 49 and ofcourse a lot more.

I am out of ideas here and sadly I can\’t use Yacy with this going on as it eats up my comps resources :(

//Usern.

Statistik: Verfasst von usern — Mo Sep 24, 2012 5:40 pm


Mitmachen • YaCy Alternative Artwork

Date: 2012-09-25 11:18:31

manchmal bastele ich mit meiner Tochter mit Bügelperlen: Schmetterlinge, Herzen, Sterne u.s.w. aber heute ist ein YaCy-Logo dabei rausgekommen:
YaCy_Bügelperlen_klein.jpg
Vielleicht kann das ja auch jemand häkeln? Oder anderes Material nehmen?

Statistik: Verfasst von Orbiter — Di Sep 25, 2012 10:18 am


Probleme & Lösungen • Re: Daten Bank Backup

Date: 2012-09-25 11:57:58

es gibt jetzt seit gestern Abend eine einfache Möglichkeit den Solr-Index in einen Backup zu stecken und wieder einzuspielen:

- in /IndexControlURLs_p.html auf \‘Create Dump\’ drücken -> Produziert ein zip und gibt den Pfad dazu an.
- in /IndexControlURLs_p.html auf \‘Restore Dump\’ einen Pfad angeben und Knopf drücken -> liest Dump ein.

Das kann man auch zu einem Datenabgleich nutzen, denn es gibt dazu skripte im bin-Ordner:

Code:
<path-to-yacy>/bin/indexdump.sh


.. erzeugt einen Solr Dump und gibt den Dateinamen des Dumps aus

Code:
<path-to-yacy>/bin/indexrestore.sh <dumpfile>


.. liest einen Dump wieder ein

Daher kann man mit folgendem Kommando nun einen ganzen Index von einem laufenden YaCy Peer 1 zu einem anderen YaCy Peer 2 transportieren:

Code:
<path-to-yacy2>/bin/indexrestore.sh `<path-to-yacy1>/bin/indexdump.sh`


Dabei müssen sich beide Peers natürlich auf dem gleichen Rechner befinden.

Siehe auch: http://www.yacy-websuche.de/wiki/index. ... :IndexDump{.postlink}

Statistik: Verfasst von Orbiter — Di Sep 25, 2012 10:57 am


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-09-25 12:14:49

Das ist etwas für ein Moderationsframework an dem Dominic fürs KIT arbeitet, der hat in seinem git repository nämlich solche \‘ich kommentiere Links\’ Dinge drin, die nicht in unserem main drin sind.

Statistik: Verfasst von Orbiter — Di Sep 25, 2012 11:14 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Crawlen nach RSS-Feeds?

Date: 2012-09-25 15:07:53

Hallo ich bins schon wieder mit einem Problem dass ich einfach nicht lösen kann.
Zusätzlich zu den Seitencrawls möchte ich regelmäßige Crawls machen, die Inhalte per RSS-Feed aktivieren. dazu habe ich eine ganze Liste mit RSS-Feeds. RSS ist im Parser aktiviert. Ich habe keine Möglichkeit gefunden, einen RSS-Crawl zu machen. Bei RSSImport bekomme ich ungefähr 100000 Feeds angeboten, von jeder gecrawlten Seite 100 Unterfeeds.
Kann man auch einzelne Feeds hinzufügen bzw noch besser. Eine Liste mit Feeds übergeben, die dann stündlich gecrawled werden?

Vielen Dank für die Antworten ;)

Statistik: Verfasst von dürer — Di Sep 25, 2012 2:07 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Crawlen nach RSS-Feeds?

Date: 2012-09-25 16:24:54

die \‘100000 Feeds\’ sind nur welche die automatisch detektiert wurden, aber du kannst natürlich einfach in die Zeile \“URL of the RSS feed\” deinen Feed eintragen.
Dann auf \“Show RSS Items\” klicken. Die Liste der in diesem Feed verlinkten Dokumente erscheint dann, die musst du aber auch nicht einzeln anklicken wenn du sie haben willst, sondern als nächstes einfach auf \“Add all Items to Index\” klicken. Darunter steht noch \‘once\’ oder \‘scheduled\‘; du kannst einfach mal auf \‘once\’ stehen lassen und das ganze dann auch in der API Steering zu einer wiederholten Aktion machen.

Eine Demo davon habe ich beim Vortrag auf der Campus Party gegeben, das sieht man hier:
http://www.youtube.com/watch?v=tnpBNtqtRew#t=1500s
ab Minute 25. Ab Minute 26 schwenkt die Kamera auch auf den Bildschirm, da kannst du den Vorgang gut sehen.

Statistik: Verfasst von Orbiter — Di Sep 25, 2012 3:24 pm


Probleme & Lösungen • Re: Daten Bank Backup

Date: 2012-09-25 18:59:09

Kann man auch aus verschiedenen Quellen, etwas einlesen? Oder geht nur immer ein Dump einlesen und mit diesem wird dann gearbeitet?

grüße

Statistik: Verfasst von bbtuxi — Di Sep 25, 2012 5:59 pm


Probleme & Lösungen • Re: Daten Bank Backup

Date: 2012-09-25 20:05:09

man kann sicher den einen Dump aus einem YaCy in einen anderen einspielen aber nicht mehr kombinieren wie das bislang möglich war. Das wäre nur mit einer netzbasierten \‘Totalabsaugung\’ machbar die wir noch nicht haben.

andererseits.. ich hab mich noch nicht damit beschäftigt wie die lucene-basierten Datenfiles im Solr Dump organisiert sind, vielleicht haben die das ja ähnlich gemacht wie es \‘früher\’ in YaCy war.

Statistik: Verfasst von Orbiter — Di Sep 25, 2012 7:05 pm


Probleme & Lösungen • Configuring to only process single (or limited) domains

Date: 2012-09-26 00:06:39

Hi :)

We have an internal top-level domain with many thousands of servers.
Let\’s call it g3n. , that\’s g3n dot, the dot meaning the DNS root, to be clear
this is a top-level domain.

The servers might be:
a.g3n, b.g3n, c.g3n, w2x9y5z.g3n, etcetera.

Due to design and partitioning, the full list of servers is considered to be
both unknown and unlimited.

These servers may have links in their HTML, plain text documents, files
served via web/ftp, etc... to the usual public internet sites, google, yahoo, etc.

How do I configure Yacy to crawl and index ONLY the entire g3n domain?

How do I configure Yacy to crawl and index and share subsets of the g3n
domain amongst Yacy peers? ie:

yacy1 gets to do 0.g3n through g.g3n, ignoring h.g3n through zzzz.g3n as it encounters them.
yacy2 gets to do h.g3n through zzzz.g3n, ignoring 0.g3n through g.g3n as it encounters them.

The servers do follow a regular expression, let\’s say: \’\^[0-9a-z]{10}.tld\$\’

We also have another domain, call it k5a.

How do I configure a limited list of only those domains (g3n, k5a, etc) we\’re interested in?
And how about the work dividing subset configuration within that?

The second level domain (2ld.tld) is usually the server. But in some cases, the third
or further levels are the servers (server.3ld.2ld.tld). How does that affect things?

Thank you.

(I will try to use google translate on replies.)

Statistik: Verfasst von cypherpunks — Di Sep 25, 2012 11:06 pm


Probleme & Lösungen • Re: Configuring to only process single (or limited) domains

Date: 2012-09-26 18:27:47

cypherpunks hat geschrieben:\ How do I configure Yacy to crawl and index ONLY the entire g3n domain?\


You can use the yacy.network.***.unit FIles. The description can be found in <YACY>/defaults/yacy.network.readme

\ How do I configure Yacy to crawl and index and share subsets of the g3n\ domain amongst Yacy peers?.\


This is only possible by crawling the specific subset on one server only and not using index distribution (DHT).

As far as I know a similar configuration is made on the Sciencenet (http://sciencenet.kit.edu/).

\ (I will try to use google translate on replies.)\


Please do not. It\’s awful ;)

Statistik: Verfasst von Lotus — Mi Sep 26, 2012 5:27 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2012-09-27 09:14:05

Mein Peer (http://4o4.dyndns.org:8080) ist ab sofort auch unter http://allesehersonerdshier.net:8080/ erreichbar. Die DynDNS-Domain läuft noch bis Mai 2014, aber wenn es soweit ist, vergesse ich bestimmt Bescheid zu sagen. ;)

Statistik: Verfasst von Low012 — Do Sep 27, 2012 8:14 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-09-27 11:16:48

es ist nicht ganz off-topic, denn wegen der Bettina Wullf verstehen jetzt ein paar Menschen mehr wie Google funktioniert. Hier also im Selbstversuch \‘Menschen gegen Google\’ bitte einmal nach Bettina Wulff in Kombination mit einem der Wörter {schmeckt,lecker,nach,Hähnchen} suchen. Das kann man nicht verlinken, das muss man tippen sonst geht das ja nicht in den Suchcache. Darum gehts hier: möglichst viele Kombinationen tippen.

Statistik: Verfasst von Orbiter — Do Sep 27, 2012 10:16 am


Mitmachen • Re: YaCy alternative/physical Artwork

Date: 2012-09-28 19:46:29

Das Logo sieht bestimmt auch auf sowas{.postlink} total gut aus. ;)

Statistik: Verfasst von Low012 — Fr Sep 28, 2012 6:46 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Crawlen nach RSS-Feeds?

Date: 2012-09-29 09:13:32

Vieln Dank für Deine Antwort.
Es funktioniert genau so, wie beschrieben, auch wenn ich keine Möglichkeit gefunden habe, meine schöne Liste mit ca 100 RSS-Feeds schlicht zu importieren, sondern alle Feeds [manuell]{style=“font-style: italic”} eingegeben habe. :lol:

Statistik: Verfasst von dürer — Sa Sep 29, 2012 8:13 am


Mitmachen • Re: Desginarbeiten

Date: 2012-10-01 14:56:54

Hi. Where are we with the design at the moment? Will any of these designs be making it into Yacy soon please?

Statistik: Verfasst von Fenweruha — Mo Okt 01, 2012 1:56 pm


Mitmachen • Re: Desginarbeiten

Date: 2012-10-01 20:13:18

because these design templates are just wireframes without any usage of the YaCy css framework (we have skins) someone would need to create a whole new infrastructure of servlets. Thats something someone needs to do as a coding work. Because this is a \‘lets do everything different attempt\’ it will most likely never happen. This needs HUGE work.

but.. a big change like this already happened to YaCy in the past where the current interface with a css-based skin framework was created. See also:
http://www.yacy-websuche.de/wiki/index.php/De:Skins

If a designer would just care about the css and new icons, things would be easy. Do the following:
- copy a <yacy-root>/skins/<skin>.css file and make your changes
- submit it to your clone of yacy

don\’t wait until \‘someone else should do that\‘-event happens. Just do it yourself!

Statistik: Verfasst von Orbiter — Mo Okt 01, 2012 7:13 pm


Mitmachen • Re: Desginarbeiten

Date: 2012-10-01 20:24:42

Orbiter hat geschrieben:\ because these design templates are just wireframes without any usage of the YaCy css framework (we have skins) someone would need to create a whole new infrastructure of servlets. Thats something someone needs to do as a coding work. Because this is a \'lets do everything different attempt\' it will most likely never happen. This needs HUGE work.\ \ but.. a big change like this already happened to YaCy in the past where the current interface with a css-based skin framework was created. See also:\ \ \ If a designer would just care about the css and new icons, things would be easy. Do the following:\ - copy a \/skins/\.css file and make your changes\ - submit it to your clone of yacy\ \ don\'t wait until \'someone else should do that\'-event happens. Just do it yourself!\



Yeah I hated doing servlets at uni. With it already being in CSS can\’t we just create a new CSS stylesheet and upload that? There\’s no reason to create new HTML / server-side code for a new look and feel. But that could be what you mean already.

Yacy desperately needs a new UI if it\’s to attract the attention of the masses. At the moment it has a very dated look to it.

Statistik: Verfasst von Fenweruha — Mo Okt 01, 2012 7:24 pm


Pro-Users • Re: YaCy hosting in proxy.sh

Date: 2012-10-02 13:20:06

Hallo,

Ich bin Jerry aus proxy.sh Operationen. Dank für den Hinweis über unseren Service. Wir absolvieren derzeit ihre Entwicklung.

Die Idee ist, dass wir Zugang zu vielen verschiedenen Technologien (einschließlich YaCy sondern auch VPNs wie PPTP, OpenVPN, SSTP oder Socks v5, Squid oder TOR-Brücke) an private Tunnel in \“sichere\” Länder und mit den entsprechenden Bandbreitenkapazität gehostet verkaufen.

Jedenfalls wir nicht verkaufen \“YaCy\” aber wir laufen eine private Instanz für sie auf einem Server, die vertrauliche und schnell ist. Der Dialog ist nun abgeschlossen und erklärt, was YaCy ist etwa: ein Open-Source-Suchmaschine System.

In fine, das ist wie ein Hosting-Unternehmen, die eine Open-Source-Software wie Linux Debian oder FreeBSD nutzt und verwendet sie für kommerzielle Zwecke, die den Zugang zu diesen Software, die auf privaten Servern anzubieten. Es hat nichts mit Weiterverkauf Linux Debian oder FreeBSD per se zu tun. Das Gleiche gilt für uns mit YaCy.

Ich hoffe, ich konnte genug Klärung bringen. Und vielen Dank dafür, dass entwickelt so eine tolle Technik YaCy und damit offen für jedermann, von Privatpersonen bis zu Unternehmen.

Mit freundlichen Grüßen,
Jerry und alle proxy.sh Team

ps: Sorry für mein Deutsch, ich bin kein Muttersprachler und wurden unter Verwendung elektronischer Übersetzer.

------

Hello,

I am Jerry from proxy.sh operations. Thanks for pointing out about our service. We are currently completing its development.

The idea is that we sell access to many various technologies (including YaCy but also VPNs like PPTP, OpenVPN, SSTP or Socks, Squid or TOR bridge) to private tunnels hosted in \“safe\” countries and with appropriate bandwidth capacity.

At any rate we do not sell \“YaCy\” but we run a private instance for it on a server that is confidential and fast. The dialog has now been completed and explains what YaCy is about: an open source search engine system.

In fine, that\’s just like a hosting company who uses an open source software such as Linux Debian or FreeBSD and uses it for commercial purposes, that is to offer access to those software who run on private servers. It has nothing to do with reselling Linux Debian or FreeBSD per se. Same for us with YaCy.

I hope I have been able to bring enough clarification. And many thanks for having developed such a great technology as YaCy and for making it open to everyone, from individuals to businesses.

Kind regards,
Jerry and all the proxy.sh team

ps: Sorry for my German, I am not a native speaker and have been using electronic translators.

Statistik: Verfasst von proxy.sh ops — Di Okt 02, 2012 12:20 pm


Pro-Users • Re: YaCy hosting in proxy.sh

Date: 2012-10-02 17:00:59

5\$ wäre ja recht günstig, wie viel Speicherplatz hat man dort? Bei Yacy sind 100 GB schnell voll?


grüße

Statistik: Verfasst von bbtuxi — Di Okt 02, 2012 4:00 pm


Pro-Users • Re: YaCy hosting in proxy.sh

Date: 2012-10-03 12:59:56

Hallo,

Nun, das ist die Idee, dass die YaCy Beispiel unter allen unseren Kunden geteilt werden. So wie es mehr und mehr Speicherplatz benötigt, werden wir einfach aktualisieren Sie den Server, dass es läuft, so ist es nahezu unbegrenzt.

Die wesentlichen Produktmerkmale hinter dem \$ 5 Tarif ist ein VPN-Zugang.

Wir sollten 100% funktionsfähig innerhalb von zwei Wochen. Ich halte euch auf dem Laufenden, wenn die Moderatoren dieses Forums nicht widersprechen.

Mit freundlichen Grüßen,
Jerry und alle proxy.sh Team

--

Hello,

Well, the idea is that the YaCy instance will be shared among all our customers. So as it requires more and more space, we will simply upgrade the server that runs it, so it\’s virtually unlimited.

The essential product behind the \$5 fare is a VPN access.

We should be 100% operational within two weeks. I will keep you updated if the moderators of this forum don\’t object.

Kind regards,
Jerry and all the proxy.sh team

Statistik: Verfasst von proxy.sh ops — Mi Okt 03, 2012 11:59 am


Probleme & Lösungen • frage

Date: 2012-10-04 11:03:19

wass kann mann unter admin, Netzwerk Konfiguration
enter custon URL machen
http://localhost:8090/ConfigNetwork_p.html

Statistik: Verfasst von ww1com — Do Okt 04, 2012 10:03 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-10-04 20:58:03

iframe

Statistik: Verfasst von Orbiter — Do Okt 04, 2012 7:58 pm


Mitmachen • Yacy als Desktopsuche

Date: 2012-10-05 23:46:50

Hallo

Ich fände es super wenn es für Yacy eine Option geben würde die eigene Festplatte zu indexieren und dann über die Weboberfläche als lokales Dokumentensuchsystem nutzbar wäre.
Das wäre gerade für mich als Student sehr nützlich und würde mehr und bessere Filtereinstellungen erlauben als mit den üblichen Desktop Such tools welche meist nur auf einfache Benutzbarkeit optimiert sind.

Yacy so umzubauen dürfte ja vermutlich kein solch großes Problem sein. Hab bis jetzt immer nen Apachen auf Lokalhos gestartet um zu indexieren aber das ist sehr umständlich. Müsste ja möglich sein den Crawler so umzubiegen das er die Verzeichnisse auch direkt einlesen kann.

Was denkt ihr ?

Statistik: Verfasst von CraWler — Fr Okt 05, 2012 10:46 pm


Mitmachen • Yacy Datenbanken komprimieren ?

Date: 2012-10-05 23:59:02

Hallo,

Mir ist aufgefallen das sich bei Yacy viel Platz einsparen lässt duch Datenkompression. Schon allein die sehr schwache NTFS Datenkompression unter windoofs macht den Yacy Ordner deutlich kleiner und veringert somit die Datenmenge die geschrieben/gelesen werden muss. Bei ausreichender CPU Leistung würde das theorethisch sogar einen Performance Gewinn mit sich bringen da weniger Daten von der HDD geholt werden müssen. Zudem steigt die Kapazität des Lokal verfügbaren Index deutlich an.

Wäre es da nicht sinvoll wenn die Entwickler das schon von anfang an mit in Yacy einbauen das der gesamte Index komprimiert wird ? So würde die Datenmenge welches das gesamte P2P Netz verarbeiten kann deutlich steigen. Da gerade auf die Festplatten von Privatpersonen welche ohnehin nicht soviel Storage haben mehr Daten passen würden.

Wäre das eine Option um das gesamtnetz leistungsfähiger zu machen, was denkt ihr ?

Statistik: Verfasst von CraWler — Fr Okt 05, 2012 10:59 pm


Mitmachen • Re: Yacy Datenbanken komprimieren ?

Date: 2012-10-06 14:37:37

Das ist eine gute Idee. Ich habe früher YaCy auch mit NTFS-Kompression auf einer alten Festplatte laufen gehabt, und habe zumindest subjektiv dein Eindruck gehabt, dass es dadurch performanter war.

Der Engpass ist allerdings oft nicht der Festplattenplatz, sondern eher der verfügbare Arbeitsspeicher.

Statistik: Verfasst von Lotus — Sa Okt 06, 2012 1:37 pm


Probleme & Lösungen • Re: Spracherkennung!

Date: 2012-10-06 23:01:59

Bin gerade durch Zufall auf folgendes gestoßen:
http://wiki.apache.org/solr/LanguageDetection

es scheint so als könnte SolR Sprachen erkennen?
Das sieht doch aus als würde das gut Funktionieren? Da braucht man ja nichts eigenes Entwicklen ;)
grüße

Statistik: Verfasst von bbtuxi — Sa Okt 06, 2012 10:01 pm


Probleme & Lösungen • Re: Proxy lehnt alle URL`s ab

Date: 2012-10-07 04:53:02

Ansatt einen neuen Beitrag zu machen hänge ich mich mal hier dran. Mit Hilfe meines eigenen Crawlers frage ich jeden Tag viele Websites ab. Hier würde ich gerne den Yacy Proxy zwischenhängen damit die gecrawlten Seiten auch dort verarbeitet werden können. Leider kann man durch die sehr strikte Einstellung kaum möglich wirklich Seiten zu indexieren.

Ist es in den Einstellungen Möglich die Beschränkungen im Proxy aufzuheben oder muss man dafür an den Code ran?
Falls nur im Code: Wie wäre es mit einem einfachen Schalter in den Yacy Einstellungen, der dies komplett ausschalten kann?

Statistik: Verfasst von crilla — So Okt 07, 2012 3:53 am


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-10-08 10:58:26

I have found some serious problems in the crawl profile definitions which could be the cause for this problem.
Please try again with yacy_v1.1_20121008_9150

Statistik: Verfasst von Orbiter — Mo Okt 08, 2012 9:58 am


Probleme & Lösungen • Re: Heuristics: Scroogle

Date: 2012-10-08 19:57:30

Ich würde es auch begrüßen direkt Google oder Bing abzufragen?
Dürfte ja nicht so schwer sein einzubauen?

grüße

Statistik: Verfasst von bbtuxi — Mo Okt 08, 2012 6:57 pm


Mitmachen • Re: Yacy als Desktopsuche

Date: 2012-10-08 22:14:47

Soweit ich weiss ist das bereits möglich. Du musst halt unter http://localhost:8090/ConfigBasic.html \“Intranet Indexierung\” wählen, und dann kannst du lokale Ordner indexieren (den gewünschten Ordner in ein offenes Firefox-Fenster ziehen, die Adresse aus der Adresszeile kopieren und dann damit einen Crawl starten. So mach ich das zumindest.)

Statistik: Verfasst von Jazzy — Mo Okt 08, 2012 9:14 pm


Mitmachen • Re: Yacy als Desktopsuche

Date: 2012-10-09 10:57:12

das haben wir bei einem CCC Kongress gehärtet und so gebaut dass ein portscanner automatisch in /24er und sogar /16er Subnetzen alle ftp- und smb-server findet, ein Demo-Video zur Suche gibts auch:
iframe
Zur Suche benutzt man aber dann eine angepasste Suchseite (Interactive File Search), siehst du im Video.
Den Netzwerk-Scanner findest du in /CrawlStartScanner_p.html

Statistik: Verfasst von Orbiter — Di Okt 09, 2012 9:57 am


Probleme & Lösungen • Re: Proxy lehnt alle URL`s ab

Date: 2012-10-09 20:16:20

Hi crilla,
die einzigen Einstellungen für den Proxy findest Du auf der Seite /ProxyIndexingMonitor_p.html
Viele Grüße

Statistik: Verfasst von Lotus — Di Okt 09, 2012 7:16 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-10-10 00:30:03

Hi again.

Last time I had the issue I solved it by installing a new node and copied over the old index to that node, for some time it did work but 1 or 2 days ago the issue came back :(
In retrospective it\’s a good thing that my node started acting up again, now I had the chance to try your fix on a faulty node :mrgreen:

I updated the node from 9091 to 9150, deleted the queues dir and started up again.

I have only done a few test (Searching and using the node as a proxy) but so far things seems to be working out like it should. :D I will try to stress the node with more searches and more proxy use than normal in the next days to see if it holds up..

//Usern.

Statistik: Verfasst von usern — Di Okt 09, 2012 11:30 pm


Probleme & Lösungen • Re: YaCy auf dem Chaos Communication Camp

Date: 2012-10-11 07:07:46

aus Zufall hab ich die r0cket wiederentdeckt (war Badge beim CCCamp):
http://www.pollin.de/shop/dt/ODE4OTgxOT ... r0ket.html{.postlink}

Statistik: Verfasst von Orbiter — Do Okt 11, 2012 6:07 am


Probleme & Lösungen • Re: Configuring to only process single (or limited) domains

Date: 2012-10-11 07:26:59

> yacy.network.*

I\’m looking through these...

> crawling the specific subset on one server only

We don\’t always know the hostnames, so the best we could do is supply a regex
to divide the crawling. We feel the yacy server[s] can hold and index the crawl data
but want to split the crawling job across crawl servers for speed, etc. We would actually
want each user facing search server to carry the results from all the subset crawls,
not just the regex crawl done by that particular server. Not sure if your \‘not using
index distribution DHT\’ would prohibit that? ie: There would need to be some sort of
index distribution into or awareness amongst the user facing search engines about
which engine to find the result if the front engine didn\’t have it.

Still getting used to yacy models so my terms are probably way off :(

> sciencenet

I looked around sciencenet and didn\’t see their config posted?

Statistik: Verfasst von cypherpunks — Do Okt 11, 2012 6:26 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Blacklist nutzen bei lokalem crawlen

Date: 2012-10-12 19:31:07

Hallo zusammen,

ich möchte beim lokalen crawlen meiner Datenbestände z.B. alle Dateien die mit 011 oder 001 oder 024 etc. enden nicht indiziert haben.
Dafür habe ich mir in der blacklist folgende regex eingefügt:

.*.*/.*0(\d\d)

Mit dem http://localhost:8090/BlacklistTest_p.html geprüft funktioniert der Eintrag auch für z.B. http://x.y/abc.001 etc. Wenn ich aber file://c:/abc.001 teste, erscheint die Meldung das nicht geblockt wird. Was muss ich tun, damit auch file:// Einträge geblockt werden können?

Vielen Dank für Eure Unterstützung.

Christoph

Statistik: Verfasst von piottimobile — Fr Okt 12, 2012 6:31 pm


Probleme & Lösungen • Re: frage

Date: 2012-10-13 21:43:21

Wenn ich mich richtig erinnere, ist das dafür da, dass man über eine zentrale Konfigurationsdatei ein ganzen Netzwerk von YaCy-Peers konfigurieren kann. Wenn man ein eigenes Suchnetz (wie z.B. das Sciencenet{.postlink}) betreibt, kann das ein Menge Arbeit sparen. Wenn man öffentlichen \“freeword\“-Netz unterwegs ist, kann man das ignorieren.

Eventuell in dem Zusammenhang interessant: http://www.yacy-websuche.de/wiki/index.php/De:Netzdefinition#Definition_des_YaCy-Netzes_mit_yacy.network.unit

Statistik: Verfasst von Low012 — Sa Okt 13, 2012 8:43 pm


Panorama • Google zensiert 5 millionen Webseiten wegen DMCA

Date: 2012-10-14 11:29:03

in dieser Quelle
http://torrentfreak.com/microsofts-bogu ... re-121007/{.postlink}
steht dass Google letztes Jahr auf Nachfrage von Microsoft (!!) rund 5 millionen Webseiten aus dem Index genommen hat, darunter Seiten der bbc und der Wikipedia. Die Löschanfragen wurden mit DMCA (Copyright-Verletzungen) begründet.

Offenbar wurden die Löschlisten automatisch erzeugt. Sie wurden durch so primitive Pattern wie die Zahl \“45\” wahllos gebildet weil wohl die Zahl 45 was mit Mircosoft-Build Nummern zu tun hat. Und dann sind halt mal \‘ein paar\’ Webadressen zuviel in die Löschanfrage geraten, die Google aber wohl durchgeführt hat bis die selber mal geguckt haben und dann eine Whiteliste gemacht haben damit nicht wieder die Wikipedia reingerät.

Die oben angeführte Webseite ist für uns auch insofern wichtig dass da jemand in den Kommentaren von YaCy berichtet hat und über den Link recht viele Leute auf unsere Seite gefolgt sind.

Statistik: Verfasst von Orbiter — So Okt 14, 2012 10:29 am


Mitmachen • Botton oder Banner für die Homepage

Date: 2012-10-15 12:04:01

Gibt es von Yacy einen Botton oder Banner, den ich als Werbung auf meiner Homepage einbinden kann?

Statistik: Verfasst von peer1 — Mo Okt 15, 2012 11:04 am


Mitmachen • Re: Botton oder Banner für die Homepage

Date: 2012-10-15 19:42:01

Auf http://www.yacy-websuche.de/wiki/index.php/Artwork gibt es ein paar kleine Banner, die ich vor einer gefühlten Ewigkeit mal von Hand gepixelt habe. :shock:

Statistik: Verfasst von Low012 — Mo Okt 15, 2012 6:42 pm


Mitmachen • Re: Botton oder Banner für die Homepage

Date: 2012-10-16 14:41:58

Danke! :)

Statistik: Verfasst von peer1 — Di Okt 16, 2012 1:41 pm


Probleme & Lösungen • Re: Yacy meldet es stehen zu wenig Arbeitsspeicher zur Verfü

Date: 2012-10-16 20:45:59

ja, kurze Zwischenmeldung: ich hab das auf dem Radar. Seit dem Solr dazugekommen ist müssen wir ganz neue Erfahrungswerte für Cache- und andere Performanceeinstellungen zu Solr erarbeiten. Ich hab dazu in den letzten Tagen auch wieder ein Profiling mit MemoryAnalyzer gemacht und daraufhin Cache-Werte verkleinert. Ich weiss nicht ob das hier nun direkt hilft, aber halt soviel dazu: das Problem wird beobachtet laufend bearbeitet.

Statistik: Verfasst von Orbiter — Di Okt 16, 2012 7:45 pm


Probleme & Lösungen • Re: DHT-Verteilung

Date: 2012-10-16 20:50:33

es ist schwierig abzuschätzen wie sehr ein Peer in der Lage ist die Daten zu verteilen, mal abgesehen davon dass eine Nutzung dieses Wissens das DHT Modell nicht gerade einfacher macht (mir fällt dazu nichts ein wie man das abbilden soll).

Aber mal aus dem Kontext gerissen: ich sehe gerade vor, dass empfangene DHT-Daten nicht wieder in den RWIs gespeichert werden, wenn die dazu gehörigen Metadaten das Suchwort aus dem RWI-Chunk im Klartext beinhalten. Das ist eine Folge aus der Migration nach Solr, denn da wird ja auch im Klartext der Solr-Daten gesucht. Die in den RWIs nach dem Empfangen zu speichern wäre schlicht überflüssig. Ich traue mich aber noch nicht recht daran den schritt zu gehen...

Statistik: Verfasst von Orbiter — Di Okt 16, 2012 7:50 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Doppelte Einträge (https http) verhindern

Date: 2012-10-16 20:54:46

also es ist so dass die http- und https- URLs schon allein deswegen unterschiedlich sind, weil deren hash unterschiedlich ist.
Wenn du die Links aber durch den Crawler reinbekommen hast, müsste es möglich sein durch Angabe entsprechender must-match Filter auf http:// bzw. https:// auf das Protokoll einzuschränken.

Statistik: Verfasst von Orbiter — Di Okt 16, 2012 7:54 pm


Probleme & Lösungen • Re: Ranking in YaCy?

Date: 2012-10-16 21:01:18

was Lotus schreibt ist zwar richtig, aber das ganze ist nun ein weiteres Experiment welches sich \‘Citation Rank\’ nennt und in den Ranking Einstellungen unter Post Rank zu finden ist. YaCy erstellt beim Crawlen einen kompletten Verlinkungsgraphen und dieser wird beim Citation Rank beim Post-Ranking verwendet.

Leider ist das ganze aber eine Baustelle weil nun die bisherigen Ranking-Kriterien aufgrund der Integration von Solr sich geändert haben. Im Preranking-Verfahren werden nun Boosts auf Solr-Felder (bsp.: Treffer im Titel zählen mehr als im Text) hard-coded genutzt werden, das Post-Ranking (Regeln auf Metadaten) aber nach wie vor funktionieren. Dazu zählt nun das neue Citation Rank (Verlinkungsstrukur, hat Solr nicht) aber nicht mehr das Block Rank, welches wohl dann irgendwann ein Kandidat fürs Entfernen wird.

Statistik: Verfasst von Orbiter — Di Okt 16, 2012 8:01 pm


Probleme & Lösungen • Local indexing beschleunigen

Date: 2012-10-17 11:59:41

Moin,

bei mir läuft der lokale Crawl puffer voll, wie bekomme ich mehr threads dazu zu indizieren?

Ich habe schon einige Einstellungen vorgenommen:

Code:
50_localcrawl_busysleep: 050_localcrawl_idlesleep: 10050_localcrawl_isPaused: falsecrawler.MaxActiveThreads: 200javastart_Xms: Xms5000mjavastart_Xmx: Xmx5000mwordCacheMaxCount: 200000


MEin Rechner kann noch deutlich mehr load und IO vertragen, wie bekomme ich mehr indexierer?

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 10:59 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Proxy & \“DeepWeb\”

Date: 2012-10-17 12:44:41

Moin,

wenn ich mit dem Proxy surfe, dann wird doch z.B. auch meine Webmailansicht gecrawlt und in den Index aufgenommen, oder?
Theoretisch könnte man dann Kontext aus privaten Mails angezeigt bekommen?

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 11:44 am


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Proxy & \“DeepWeb\”

Date: 2012-10-17 13:01:08

diese Vermutung ist falsch da der Proxy nur nicht-personalisierte Inhalte indexiert. Das wird am Auftreten von Authentifikationsmechanismen, Cookies und post-Parametern erkannt. Der Proxy ist dabei so kritisch dass heutzutage fast alle Webseiten diesen Filter nicht passieren können, da fast alle Webseiten Cookies oder Post-Parameter verwenden.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 12:01 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 13:04:18

Der Crawler macht so schnell wie er darf (entsprechend robots.txt des hosts) und ausserdem maximal 2 Seiten pro host. Das lässt sich durch Konfiguration nicht ändern und ist auch so gewollt. Ein Performanceproblem gibt es an dieser Stelle nicht. Ein \‘langsam\’ arbeitender Crawler ist insofern gewollt.

Dass es hier kein Performanceproblem gibt, sieht man beim Intranetcrawlen, wo keine beabsichtigte Limitierung eingebaut ist: da sind 30000 Seiten pro Minute möglich.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 12:04 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Proxy & \“DeepWeb\”

Date: 2012-10-17 13:10:36

Ok. Danke für die prompte Antwort.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 12:10 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 13:13:18

Ok, dann bezieht sich der Puffer auf noch runterzuladende Inhalte?
Ich dachte es wäre getrennt. Webseiten herunterladen, puffern, indexieren.

Der Puffer wird also immer steigen, egal was man macht.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 12:13 pm


Probleme & Lösungen • Startup Problem - String index out of range: 1

Date: 2012-10-17 13:19:02

Code:
I 2012/10/17 13:08:18 YACY BOOTSTRAP: 124 seeds known from previous run, concurrently starting seedlist loaderS 2012/10/17 13:08:18 BusyThread thread 'net.yacy.search.Switchboard.loadSeedLists' terminated.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.0' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.1' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.2' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.3' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.4' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.5' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.6' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.7' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.8' deployed, starting loop.S 2012/10/17 13:08:18 BlockingThread thread 'java.lang.reflect.Method.transferDocumentIndex.9' deployed, starting loop.E 2012/10/17 13:08:18 STARTUP YaCy cannot start: String index out of range: 1java.lang.StringIndexOutOfBoundsException: String index out of range: 1   at java.lang.String.charAt(String.java:694)   at java.util.regex.Matcher.appendReplacement(Matcher.java:716)   at java.util.regex.Matcher.replaceAll(Matcher.java:823)   at net.yacy.kelondro.util.FileUtils.table(FileUtils.java:469)   at net.yacy.kelondro.util.FileUtils.loadMap(FileUtils.java:384)   at net.yacy.kelondro.util.FileUtils.loadMapB(FileUtils.java:392)   at net.yacy.peers.graphics.WebStructureGraph.<init>(WebStructureGraph.java:103)   at net.yacy.search.Switchboard.<init>(Switchboard.java:492)   at net.yacy.yacy.startup(yacy.java:207)   at net.yacy.yacy.main(yacy.java:636)



Ich habe den Java-Speicher in der Konfig geändert und über das Webfrontend neugestartet.
System: Ubuntu, yacy über Paketquellen installiert

Manuelles zurückändern der Konfig brachte nichts.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 12:19 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 13:42:05

Einen \‘Puffer\’ gibts zwar, das wird aber immer sofort abgearbeitet. Was hier gemeint ist, ist die Queue. Die nimmt aber keinen großartigen Platz im Speicher ein, das sind nur URL-Listen.
Wo genau steht denn welche Zahl, von der du annimmst dass es der \‘Puffer\’ sei?

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 12:42 pm


Probleme & Lösungen • Re: Startup Problem - String index out of range: 1

Date: 2012-10-17 13:50:46

Hallo,

das hatte ich gestern auch und habe es für mich gelöst in dem ich \‘DATA/INDEX/freeworld/QUEUES/webStructure.map\’ entfernt habe.

Leider habe ich gerade nicht im Hirn was in der Datei drin ist, bzw. was mir damit nun fehlt.
Orbiter kann dazu bestimmt eher was sagen.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Okt 17, 2012 12:50 pm


Probleme & Lösungen • Re: Startup Problem - String index out of range: 1

Date: 2012-10-17 14:01:02

Hat funktioniert. Wie bist du darauf gekommen?

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 1:01 pm


Probleme & Lösungen • Re: Startup Problem - String index out of range: 1

Date: 2012-10-17 14:16:14

Hab im Source geguckt was an der Fehlerstelle passiert - natürlich auch in der Hoffnung das einfach fixen zu können.
Dann hat die Faulheit gesiegt und ich hab das File weggehaun.

Statistik: Verfasst von sixcooler — Mi Okt 17, 2012 1:16 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 14:32:39

Code:
Puffer    Größe    Pause/ResumeLokaler Crawler    171.770    Pause this queueLimit Crawler    0    Pause this queueRemote Crawler    0    Pause this queueNo-Load Crawler    0    Pause this queueLader (200)    4    


Bei der Crawlerüberwachung.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 1:32 pm


Probleme & Lösungen • Re: Startup Problem - String index out of range: 1

Date: 2012-10-17 14:34:43

hab eben an der Stelle ein catch für den Fehler eingebaut, aber das ist natürlich nicht die richtige Lösung. Ich habe gestern was an den Daten in diesem File geändert und das ist wohl der Grund für das Problem. Bitte, falls sich das wiederholt, mit die Datei zum durchtracen zur Verfügung stellen.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 1:34 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 14:36:18

aha, das ist kein Puffer sondern die Queue. Sind die URLs darin normale Webadressen oder aus dem Intranet? (wegen topic \‘local indexing\‘)

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 1:36 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 15:42:54

Moin,

die sind aus dem Internet. Das Topic \“LOCAL INDEXING\” habe ich gewählt, weil in der Logansicht der Adminkonsole \“LOCAL INDEXING\” steht wenn er Webseiten indiziert.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 2:42 pm


Probleme & Lösungen • Wonach geht der URL Export?

Date: 2012-10-17 16:15:14

Hallo zusammen!

Bin neu hier und konnte bis jetzt durch Suchen alle meine Fragen klären. Aber eine Sache will mir nicht in den Kopf:

Ich möchte URLs in eine Datei exportieren und hierfür gibt es ja unter IndexControlURLs_p.html die Export-Funktion. Aber wann werden URLs exportiert und wann nicht. Bspw. habe ich den Crawler eine (für meinen Index neue) Seite durchsuchen lassen. Danach versuche ich die gecrawlten URLs zu exportieren. Nur klappt das nicht. Hab Yacy auch schon mal 3 Stunden durchlaufen lassen, weil ich vermutet habe, dass der Aufbau des Index länger dauert. Aber das brachte alles keinen Erfolg.

Ich hab jetzt knapp 22.000 URLs in meinem Index. Wenn ich per .*.* alle exportieren will, wird nur ein Teil exportiert. Und auch nicht immer die gleiche Anzahl.
4 Versuche hintereinander brachten folgende Ergebnisse: 16.160, 16.560, 14.330 und 12580.

Warum macht Yacy das und wie kann ich das unterbinden? Gibt es vielleicht eine bessere Variante für den URL-Export?

Vielen, vielen Dank schon mal im vorraus falls mir jemand helfen kann.

Statistik: Verfasst von yayu — Mi Okt 17, 2012 3:15 pm


Probleme & Lösungen • Re: Startup Problem - String index out of range: 1

Date: 2012-10-17 18:11:55

da stehen ja ziemlich bad-formed hosts in der Datei von sixcooler, ich muss dem mal auf den Grund gehen warum die so schrottig sind. Derweil habe ich aber auch einen Fix für den Parser gemacht, damit der nicht mehr fatal sich aufhängt. Der Fix ist im git und release update kommt auch in den nächsten minuten.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 5:11 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 18:51:19

hm, hab das mal so genannt um es vom remote indexing zu unterscheiden, offenbar muss ich nochmal über die Benennung nachdenken.

Also das sollte mit mindestens 120ppm laufen (für nur einen host, bei mehreren eben mehr), wenn nicht sollte im Log was über extra sleeps stehen.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 5:51 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Crawlen nach RSS-Feeds?

Date: 2012-10-17 18:53:52

ich hab jetzt ein shell-script im bin-Verzeichnis hinzugefügt um sehr einfach rss feeds hinzufügen zu können: bin/addrss.sh
das einfach mit der URL des rss feeds aufrufen.

Das geht aber nicht automatisch in den Scheduler, ich empfehle das für ein externes Scripten im Zusammenhang mit cronjobs zu benutzen. Jedenfalls kannst du da nun sehr einfach hunderte von rss-feeds per shellscript reinpusten.

Statistik: Verfasst von Orbiter — Mi Okt 17, 2012 5:53 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Parsereinstellungen / erweitern

Date: 2012-10-17 23:01:38

Hallo an die Gemeinde,
was sagt mir dieser Satz (bei Parsereinstellungen) ?:
Mit diesen Einstellungen können Sie das Parsen zusätzlicher Dateitypen basierend auf ihren MIME-Typen ermöglichen.

Klar kann ich die an- und abwählen. Aber leider werden meine Serverseitigen MIME-Typen nicht benutzt.
Habe \“yacy\” erst heute kennengelernt und möchte weitere Files indizieren. Also absoluter Frischling.
Muss ich mir weitere Parser selberschreiben? Kann ich vorhandene modifizieren?
Gibt es Anleitungen/Beispiele?

Danke für sinnvolle Antworten.

Statistik: Verfasst von jasi — Mi Okt 17, 2012 10:01 pm


Probleme & Lösungen • Re: Local indexing beschleunigen

Date: 2012-10-17 23:59:32

Das verstehe ich dann nicht.

Ich habe ganz wenige sleeps, da ich unmengen verschiedener URLs crawle. Komme trotzdem nur auf durchschnittlich 130 ppms.
Das ganze startet mit 600ppms und nach einigen Stunden Laufzeit wird es weniger und weniger...

IO und CPU sind lange nicht ausgelastet.

Code:
Thread Pool    max. aktiv    derzeit aktivCrawler Pool       4



Ist das nicht auch seltsam? Viel mehr als 4 werden es höchst selten.

Statistik: Verfasst von Tommek — Mi Okt 17, 2012 10:59 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Parsereinstellungen / erweitern

Date: 2012-10-18 18:47:09

Das bedeutet, dass von einer Datei ohne Endung das Dateiformat bestimmt werden kann, und dann der richtige Parser ausgewählt wird.

Statistik: Verfasst von Lotus — Do Okt 18, 2012 5:47 pm


Mitmachen • Programmicon

Date: 2012-10-19 14:37:11

letzten Samstag war ich auf der Buchmesse zur Signierstunde von JoJo{.postlink} und hab gefragt ob er mir einen Pottwal malt :lol: :lol:
Hier ist das Ergebnis:
JoJo_Kaskelix_00_Original_klein.png
(Ich hab ihn gefragt ob ich das posten darf)

Also hab ich mal versucht daraus ein Programmicon oder sowas ähnliches zu machen. Nach ein wenig Grafik-Woodoo mit meinen bescheidenen Fähigkeiten ist folgendes herausgekommen:
JoJo_Kaskelix_06_Icon_k.png
Mir guckt er noch zu traurig, aber ich finde den ganz knuddelig. Habt ihr Ideen für ein schönes Programmicon?

Statistik: Verfasst von Orbiter — Fr Okt 19, 2012 1:37 pm


YaCy Coding & Architektur • Memory: Transmission.Chunk

Date: 2012-10-20 15:23:02

Hallo,

seit dem commit von Orbiter (ccc3760...) lliegen TreeMap von <byte[], URIMetadataNode> zum DHT-out super fett im Speicher und lassen mir die Peers sterben.

Da oft nicht mal alle Referenzen übertragen werden (müssen) und im Fulltext eh schon viel gecached wird, denke ich das der Cache von URIMetadataNodes nicht mal wirklich gebraucht wird.

Experimenteller Weise hab ich auf einem Peer nun mal darauf verzichtet und lade erst zum übertragen die URIMetadataNodes.
Das Speicherproblem ist damit mehr als gelöst und die evtl. auftretende mehrlast ist ist angesichts dessen zu verschmerzen.

Anderer Ansatz: Wir verwenden recht viele TreeMaps - dabei sind diese ja nun nicht sehr schlank.
Wie wäre es die byte[]-keys in eine Art wrapper zu packen, das man schlankere <key, value> Konstrukte verwenden kann?

Ich freue mich auf anregenden Gedankenaustausch dazu!

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Okt 20, 2012 2:23 pm


YaCy Coding & Architektur • Re: Memory: Transmission.Chunk

Date: 2012-10-21 01:49:17

also wir sind hier tatsächlich in einer neuen Erfahrungssammlungsphase, weil ganz unklar ist vor welchen neuen Problemen wir mit Solr stehen. Dass hier die URIMetadataNode Objekte recht groß sein können habe ich tatsächlich noch nicht beachtet. Die Lösung von dir sieht ganz ok aus, kannst du das reinmachen?

Statistik: Verfasst von Orbiter — So Okt 21, 2012 12:49 am


Mitmachen • Re: Desginarbeiten

Date: 2012-10-21 12:05:56

I found inspiration for future YaCy Network/Graph visualizations here:
http://jtnimoy.net/workviewer.php?q=178

Statistik: Verfasst von Orbiter — So Okt 21, 2012 11:05 am


Presse • Heise: Digitale Hinterhöfe

Date: 2012-10-21 12:15:21

ui, wir werden in einem heise-Artikel erwähnt:
http://www.heise.de/newsticker/meldung/ ... 33432.html{.postlink}

Statistik: Verfasst von Orbiter — So Okt 21, 2012 11:15 am


YaCy Coding & Architektur • Re: Memory: Transmission.Chunk

Date: 2012-10-21 20:12:34

Hallo,

klar - is up.

Da es etwas da mit hineinspielt wie warscheinlich die Referenzen noch im Cache sind, habe ich auch noch die dhtDispatcher-cloud-size Verkleinerung mit comitted.
\@Orbiter: ist zwar schon etwas her aber ich hatte mal danach gefragt ob das nicht auch langen sollte.
Da das bei mir nun schon so lange läuft scheint es zu mindest nicht groß zu stören.
Wenn ich damit falsch lag setze das bitte infach wieder zurück.

cu, sixcooler.

Statistik: Verfasst von sixcooler — So Okt 21, 2012 7:12 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2012-10-22 00:18:15

Sorry für das nichtmelden,

ja, den Loadbalancer (LBL) gibt es in der ursprünglichen Form nicht mehr. Ursache waren die auftretenden Layout-Probleme, verursacht durch die vielen verschiednen YaCy Versionen die den LBL beliefert haben. Daher habe ich den LBL irgendwann durch eine ganz normale YaCy Instanz ersetzt. Ich dachte mir, das ist besser wie gar nichts.
Also ist http://search.yacy.net jetzt eine ganz simple YaCy Instanz. Inzwischen auch auf einen anderen Server umgezogen, der ursprüngliche war zu klein und der Sponsoringvertrag wurde nicht verlängert. Ich suche immer noch einen Sponsor für einen entsprechend Leistungsfähigen Server - solltet ihr jemand kennen, bite mich anschreiben.… Ansonsten bitte ev. in der Netzerkkonfig-Datei eurer Peers die 85.25.151.30 in die Withelist eintragen...

Thomas

Statistik: Verfasst von Vega — So Okt 21, 2012 11:18 pm


Mitmachen • YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-10-22 13:45:35

Hab mal wieder eine schöne Vortragsmöglichkeit in Berlin bekommen:
http://open-strategies.de/sessions/frei ... -moeglichk{.postlink}

Ich mache das diesmal bewusst auf deutsch, weil ich noch ein gutes Video in Deutsch brauche. Dort will ich ein paar knackige Demos machen, Vorschläge für publikumswirksame Effekte nehme ich gerne an, inklusive Feature-Requests die exakt in diese Richtung gehen würden.

Statistik: Verfasst von Orbiter — Mo Okt 22, 2012 12:45 pm


YaCy Coding & Architektur • Re: Memory: Transmission.Chunk

Date: 2012-10-22 15:39:14

ah danke, ja das ist sehr gut so. Die Cloud-Size Verkleinerung auch, ich weiss jetzt nicht mehr so genau warum ich den Faktor 2 davor gemacht habe.

Statistik: Verfasst von Orbiter — Mo Okt 22, 2012 2:39 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2012-10-22 21:15:19

Hallo Thomas,

wenn 85.25.151.30 yacyportalsearch aka search.yacy.net ist, was ist dann 85.31.186.137 welche in der Freeworld-whitelist ist?

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Okt 22, 2012 8:15 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2012-10-22 22:29:02

Hallo Sebastian,

85.31.186.137 ist die IP-Adresse des alten Servers, die kann aus der Freeworld-whitelist raus, dafür kann (theoretisch) die neue Adresse 85.25.151.30 rein.…

Thomas

sixcooler hat geschrieben:\ Hallo Thomas,\ \ wenn 85.25.151.30 yacyportalsearch aka search.yacy.net ist, was ist dann 85.31.186.137 welche in der Freeworld-whitelist ist?\ \ cu, sixcooler.\

Statistik: Verfasst von Vega — Mo Okt 22, 2012 9:29 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-10-24 13:58:58

ich weiss nicht wie ich das geschafft habe, aber ich habe Facebook verwirrt.
Facebook_verwirrt.png

Statistik: Verfasst von Orbiter — Mi Okt 24, 2012 12:58 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • erste Suche

Date: 2012-10-24 18:58:50

guten tag yacy-community

ich habe yacy installiert um im community index suchen zu können wie mit google.
wie mache ich das? mit der hilfeseiten kam ich nicht weiter.
ich habe nur geschafft eine seite zu crawlen, aber kann zb nich im community-netzwerk nach zb transgender suchen.

vielen dank für die hilfe, ich brauche ein kleines erfolgserlebnis \^_\^

Statistik: Verfasst von ulukaiorenji — Mi Okt 24, 2012 5:58 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: erste Suche

Date: 2012-10-24 20:25:41

Hallo, und willkommen!

Wenn Du YaCy nach der Installation startest, erscheint in der Regel eine Suchseite. Was darüber gesucht wird, wird auch im Community-Index gesucht. Die Anzahl der zugelieferten Resultate werden auf der Ergebnisseite unter \“von anderen\” angezeigt. Oft erhöht eine zweite Suchanfrage nach einigen Sekunden die Anzahl der Ergebnisse, wenn Teilnehmer erst spät antworten.

Statistik: Verfasst von Lotus — Mi Okt 24, 2012 7:25 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: erste Suche

Date: 2012-10-26 20:42:57

nun hat es geklappt, ich musste zuerst lange warten, bis yacy mit den anderen leuten verbunden wurde...
kann yacy mit google konkurrieren/ ersetzen? oder is es nur ein zusatz zu google? wann gebraucht man yacy und wann google?
hat yacy mehr deep websites als google?

bei der suche nach \“transgender\” bekomme ich nur \” 442\” (google hat \“185\‘000\‘000 Ergebnisse\“), wieviel bekommst du? kann ich die anzahl gefundenen einträge irgendwie erhöhen? durch yacy die ganze nacht laufen lassen um mit immer mehr leuten verbunden werden?


bin am schauen ob ich als extreme internet addicted/ heavy web researcher yacy gebrauchen kann...

danke

Statistik: Verfasst von ulukaiorenji — Fr Okt 26, 2012 7:42 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Parsereinstellungen / erweitern

Date: 2012-10-26 20:46:56

Eigene Parser zu schreiben ist aber auch kein Hexenwerk. Die bestehenden Parser sind im Package net.yacy.document.parser zu finden.

Statistik: Verfasst von Low012 — Fr Okt 26, 2012 7:46 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2012-10-29 12:38:01

Mittlerweile ist RAM gar nicht mehr so das Problem, die Entwickler haben in den letzten Monaten hervorragende Arbeit geleistet!! Jetzt habe ich das Problem, dass mir der Speicherplatz auf der Festplatte ausgeht :-( Ich habe 2 x 450 GB SAS zu einer 900 GB gemacht (RAID0). Da läuft noch ein anderer Peer auf der gleichen Platte (Vaisheshika).

Jetzt habe ich mich mal im Enterprise-Segment umgeschaut, was eine 2 TB Platte angeht: Leider scheint es noch kein Modell mit so einer guten Zugriffszeit zu geben wie die Platten, die ich momentan verwende. Die 2 TB SAS-Platten haben alle eine Zugriffszeit von 8 ms & mehr :-( Das wirkt sich doch sehr negativ auf die Performance beim Peer aus, oder? Ich habe momentan über 68 Mio. Links im Index.

Statistik: Verfasst von LA_FORGE — Mo Okt 29, 2012 12:38 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-10-30 17:51:30

LOL{.postlink} und ROTFL{.postlink}

Statistik: Verfasst von LA_FORGE — Di Okt 30, 2012 5:51 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2012-10-30 19:01:56

PCA42 hat geschrieben:\ >
> > LA\_FORGE hat geschrieben:Was passiert eigentlich wenn man einfach > div. korrupte BLOBS manuell aus dem Index löscht? Kann das den > ganzen Index zerlegen?\ > >


YaCy sortiert eigentlich bei einem Neustart defekte Blobs von alleine aus. Bei einem manuellen Löschung wird halt der Teil an RWI-Daten entfernt, der in dem jeweiligen Blob liegt. Der Rest ist davon nicht betroffen.



Wie sieht es denn bei der v1.1 aus? Ich bekomme jede Menge \“possible corruption found\” wird es immer noch automatisch gefixt? Ich bekomme den Peer nicht mehr gestartet, hatte mit diesem Peer gerade einen krassen 200 GB Wikipedia-Crawl am laufen und habe dann irgendwann auf \“Pause\” gedrückt beim Crawler und ein Update auf die neueste Version gemacht.

Statistik: Verfasst von LA_FORGE — Di Okt 30, 2012 7:01 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2012-10-30 19:18:14

Hallo,

was die RWI-Blobs angeht sollte das immer noch so gehen.
Dein Problem mussalso eine andere Ursache haben.

Hast Du etwas Logfile für uns?

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Okt 30, 2012 7:18 pm


Solr Support • Re: ApacheCon Europe 5–8 November 2012

Date: 2012-10-30 19:56:55

Cool! Gleich ein paar neue URLs für meine mittlerweile ziemlich große Blacklist gefunden. ;)

Statistik: Verfasst von Low012 — Di Okt 30, 2012 7:56 pm


Mitmachen • Re: Programmicon

Date: 2012-10-30 20:04:35

Da hat sich dein Messebesuch ja doch noch gelohnt ;)
Ich finde den Wal super. Die Farbe erinnert auch ein bisschen an das uralte grüne Farbschema von vor gefühlt 1000 Jahren.

Statistik: Verfasst von Low012 — Di Okt 30, 2012 8:04 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: erste Suche

Date: 2012-10-30 20:24:55

Wenn ein bestimmtes Thema in YaCy (noch) nicht so vertreten ist, wie du dir das wünschst, kannst du:

Statistik: Verfasst von Low012 — Di Okt 30, 2012 8:24 pm


Mitmachen • Re: Programmicon

Date: 2012-10-30 20:27:30

ich hab Jojo ja auch gefragt ob er bei uns mitmachen will, aber er hat noch nicht auf meine Mail geantwortet... schade

Statistik: Verfasst von Orbiter — Di Okt 30, 2012 8:27 pm


Probleme & Lösungen • Re: Crawler beschleunigen

Date: 2012-11-01 11:42:02

tja da krame ich mal den alten Topic wieder raus..
(nicht nur) aufgrund eines Kunden habe ich den Crawler die letzten Tage schwer überarbeitet. Der Algorithmus ist nun so:
- lade (bis zu 100000) URLs aus dem Stack und sortiere sie in domain-Listen
- von den Domain-Listen mache eine Prognose welche Domains man ohne Bremse laden darf und lege je eine URL in eine -> zero-waiting Liste
- von der zero-waiting-Liste nehme nur ein drittel welches die meisten URLs haben (dadurch entladen sich die großen Listen früher ohne warten zu müssen)
- die zero-waiting-Liste wird persistiert und geleert
- wenn keine zero-waiting-Liste da ist bzw. nicht gefüllt werden kann, nehme die URL mit der besten Warteprognose.

Warteprognose heisst hier: wie lange muss man warten wenn man weiss was in der Robots.txt steht, ohne dass man die geladen hat.
In der Vergangenheit war diese Prognose oft falsch, weil es einige Hosts mit hohen crawl-delays gibt. Die haben dann alles versaut. Jetzt wird daher nebenläufig jede robots.txt geladen, sobald man weiss das man die mal brauchen kann, und die Warteprognose kann daher die robots.txt mit berücksichtigen, was das ganze schneller machen sollte...

Statistik: Verfasst von Orbiter — Do Nov 01, 2012 11:42 am


Probleme & Lösungen • Re: Crawler beschleunigen

Date: 2012-11-01 18:20:51

Klingt alles sehr gut:) Mal schauen wie Yacy sich verhält:)


grüße

Statistik: Verfasst von bbtuxi — Do Nov 01, 2012 6:20 pm


Solr Support • Re: Lucene/Solr

Date: 2012-11-02 14:29:12

update: hab nun auf solr 4.0.0 migriert!

Statistik: Verfasst von Orbiter — Fr Nov 02, 2012 2:29 pm


Probleme & Lösungen • Re: Meta Description und Meta Keywords

Date: 2012-11-03 14:15:12

nachdem ja nun Solr fester Bestandteil von YaCy ist, ist das in YaCy eingebaute Solr Suchinterface wohl die beste Quelle for Metadaten.
probier mal http://localhost:8090/solr/select?q=*:*&start=0&rows=3

In das q-Feld dann den Query eintragen, für eine normale Textsuche wäre
q=text_t:<Suchwort>
und für eine URL wäre das
q=sku:<url>

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 2:15 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Domains nochmal Crawlen?

Date: 2012-11-03 14:24:35

bin gerade dran das einzubauen, derweil kannst du über den neuen Host Browser auch ganze Domänen wieder rauslöschen. Einfach erst die Domäne eingeben und dann den Löschknopf drücken. Eine automatische Variante für den Crawler kommt demnächst.

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 2:24 pm


Solr Support • Re: Neues Solr Forum

Date: 2012-11-03 14:27:20

oh mist das Forum war bislang unsichtbar weil es nur für Entwickler freigegeben war :(
jetzt ist es offen.

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 2:27 pm


Solr Support • Re: Lucene/Solr

Date: 2012-11-03 14:40:19

Hallo,

Solr-4.0.0 läuft bei meinen Peers übrigens sehr gut.
Auch der kleine Problem-Peer läuft wieder fein.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Nov 03, 2012 2:40 pm


Probleme & Lösungen • Re: Crawler beschleunigen

Date: 2012-11-03 15:33:13

Hi,

hast du schon mal die robots.txt überprüft - in vielen fällen ist das das Problem.

Gruß

Johann

Statistik: Verfasst von schmekl — Sa Nov 03, 2012 3:33 pm


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-11-03 16:29:35

Hallo RoGott, dieses PuppyLinux ist ja interessant. Ich hoffe meine Antwort auf dein Posting kommt nicht zu spät und du machst noch was mit YaCy..

Wäre es möglich, ein Puplet{.postlink} mit YaCy per default drauf als mini-boot demo-cd zu machen? Wie genau? mit welcher JRE?

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 4:29 pm


Probleme & Lösungen • Re: Lokaler Crawler läuft Amok

Date: 2012-11-03 16:37:26

In the last days we had great advances in the crawler behavior so I would soggest to re-try again with the latest build from the auto-updater.

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 4:37 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-11-03 16:49:05

merkwürdig, jetzt habe ich twitter verwirrt...
twitter_wrong.png

Statistik: Verfasst von Orbiter — Sa Nov 03, 2012 4:49 pm


Mitmachen • Frage RegEx

Date: 2012-11-04 13:55:25

Hi,

wie muss ich die RegEx formulieren, wenn ich in der Blacklist global einen bestimmten Pfad ausschließen will? Ich will den Pfad /images/ global blacklisten.

Grüße

Stefan

Statistik: Verfasst von LA_FORGE — So Nov 04, 2012 1:55 pm


Mitmachen • Englisches und deutsches Forum

Date: 2012-11-04 23:25:05

Zwei Sachen die ich gerne loswerden würde:
1. Das englische Forum ersäuft im Spam.
2. Ich fände es besser, wenn das deutsche und englische Forum irgendwie zu einem Einzigen \“verschmolzen\” würden. Vielleicht indem man das Englische in einer seperaten Kategorie an das Deutsche anhängt.

Statistik: Verfasst von Jazzy — So Nov 04, 2012 11:25 pm


Mitmachen • Re: Frage RegEx

Date: 2012-11-04 23:50:26

Ich kenne mich zwar mit Regex nicht wirklich gut aus und bin auch kein Entwickler, aber ich würde das so machen:

Code:
.*.*/images/.*


Vielleicht weiss jemand noch eine besser Lösung.

Statistik: Verfasst von Jazzy — So Nov 04, 2012 11:50 pm


Mitmachen • Re: Englisches und deutsches Forum

Date: 2012-11-05 02:43:12

- ja das englische Forum war von Anfang an nicht gut gepflegt. Ich hatte ja die Hoffnung dass sowas automatisch entsteht und von alleine läuft, aber ist wohl nicht so. Damit sich englischsprachige User hier nicht gleich ausgeschlossen fühlen habe ich oben in der grauen Zeile auch mal den Text geändert.
- Das Anhängen geht schon technisch schwer (wenn du reinkopieren meinst). Ich weiss nicht ob es so schlimm ist die deutschen und englischen miteinander zu mischen, gibts denn eigentlich kein Übersetzungstool für phpbb3, das wäre optimal da könnte man sowieso sagen: Sprache egal.

Statistik: Verfasst von Orbiter — Mo Nov 05, 2012 2:43 am


Mitmachen • Re: Englisches und deutsches Forum

Date: 2012-11-05 13:30:20

Leider gibt es im englischsprachigen Forum auch kaum User, die dauerhaft dort unterwegs sind. Ich versuche das Forum halbwegs Spam-frei zu halten, bekomme aber keine Benachrichtigungen, wenn Benutzer Spam melden und kann daher nur löschen, wenn ich es selber sehe. Weitere Admin-Rechte habe ich nicht.

Andrew, der Betreiber des englischen Forums, kümmert sich zwar um das Hosting, hat aber ansonsten (soweit ich weiß) kein besonderes Interesse mehr an dem Forum. Ich denke nicht, dass er etwas gegen eine eventuelle Verschmelzung hätte. Wie auch immer sowas aussehen würde...

Statistik: Verfasst von Low012 — Mo Nov 05, 2012 1:30 pm


Mitmachen • Re: Frage RegEx

Date: 2012-11-06 14:37:54

Ich glaube, dieser Ausdruck erkennt nur URLs bei denen /images/ direkt nach dem Domain-Teil folgt. Dem folgenden Ausdruck ist egal, wo im Pfad /images/ vorkommt:

Code:
.*/(.*/)*/images/.*

Statistik: Verfasst von Low012 — Di Nov 06, 2012 2:37 pm


Mitmachen • Re: QR-Codes

Date: 2012-11-07 13:58:34

Ist der Generator ganz weg oder nur temporär?

Statistik: Verfasst von Low012 — Mi Nov 07, 2012 1:58 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Intranet-Indizierung

Date: 2012-11-07 14:08:55

Hallo zusammen,

ich habe meinen Yacy auf \“Intranet\” eingestellt. Wenn ich nun versuche, eine Domain zu crawlen, meldet er mir immer
[denied_(the host \‘www.mydomain.de\’ is global, but global addresses are not accepted: 10.11.12.13)]{style=“font-weight: bold”}

Die Adresse \“www.mydomain.de\” ist tatsächlich sowohl aus dem Inter- als auch aus dem Intranet erreichbar, löst von intern (und auch somit auch vom Yacy-Server aus) jedoch auf eine private IP-Adresse aus 10.0.0.0/8 auf.

Wieso lässt Yacy mich die Domain trotzdem nicht crawlen?

Gruß,
Puschel

Statistik: Verfasst von puschel85 — Mi Nov 07, 2012 2:08 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Intranet-Indizierung

Date: 2012-11-07 15:46:13

sieht nach einem Bug aus, aber wenn du trotzdem loslegen willst nimmst du die Netzwerkeinstellung \‘allip\’ welche sich nicht mehr um den IP-Bereich kümmert:
- in http://localhost:8090/ConfigNetwork_p.html auf defaults/yacy.network.allip.unit stellen

Statistik: Verfasst von Orbiter — Mi Nov 07, 2012 3:46 pm


Mitmachen • Re: QR-Codes

Date: 2012-11-07 15:47:17

ui wo hatte ich das nur laufen? da war ja ein wenig feedback gewesen, so ist das eingeschlafen. Wofür brauchst du das denn?

Statistik: Verfasst von Orbiter — Mi Nov 07, 2012 3:47 pm


\‘Newbies\’: Forum für Einsteiger und Anwender • Re: Intranet-Indizierung

Date: 2012-11-07 16:04:22

Danke Orbiter, vor allem für die *schnelle* Antwort - das hat mir erstmal geholfen. Wenn\’s jedoch ein Bug ist. wäre ein Fix natürlich schön ;-)

Statistik: Verfasst von puschel85 — Mi Nov 07, 2012 4:04 pm


Solr Support • Re: Lucene/Solr

Date: 2012-11-07 18:16:45

Ich hab unter:
http://www.heise.de/developer/artikel/D ... kelseite=2{.postlink}

folgendes gelesen:

\ Und vieles andere mehr\ Die für die \"Meinten Sie\"-Funktion benötigte SpellCheck-Komponente muss nicht mehr auf einem separaten Index agieren, sondern die Vorschläge beruhen jetzt direkt auf dem Hauptindex. Damit kommt es nicht mehr zu Inkonsistenzen bei der Rechtschreibprüfung und die Latenz zwischen indiziertem sowie vorgeschlagenem Inhalt ist entfernt.\



Nutzt Yacy dass schon? \“Meinten Sie\” und die \“Rechtschreibprüfung\“?

grüße

Statistik: Verfasst von bbtuxi — Mi Nov 07, 2012 6:16 pm


Mitmachen • Re: QR-Codes

Date: 2012-11-07 18:56:54

Ich brauche ihn eigentlich auch nicht. Ich wollte heute einem Kollegen nur was mit QR-Codes zeigen und habe mir gedacht, dass ich bei der Gelegenheit deinen Generator verwenden könnte.

Wie hattest du das denn implementiert? Könnte ich das auf einem Tomcat deployen? Ich habe mir mal einen aufgesetzt, um ein paar Services anzubieten, bin aber noch nicht dazu gekommen was zu bauen und daher idelt der nur rum. ;)

Statistik: Verfasst von Low012 — Mi Nov 07, 2012 6:56 pm


Mitmachen • Re: Englisches und deutsches Forum

Date: 2012-11-07 21:02:25

Also ich habe jetzt auf der homepage alle Links zum englischen Forum herausgenommen und das deutsche Forum \‘international forum\’ genannt.
Meine Idee dazu ist: das \“Newbies: Forum für Einsteiger und Anwender\” als DE-\‘Nukleus\’ in eine Länderzone unterbringen, wo die entsprechenden Sprachen alle ein Anwenderforum haben. Die anderen bisherigen deutschen Foren kommen dann in einen \‘Nerd\‘-Bereich der deutschen hacker. Wie ist das?

Statistik: Verfasst von Orbiter — Mi Nov 07, 2012 9:02 pm


Solr Support • Re: ApacheCon Europe 5–8 November 2012

Date: 2012-11-07 23:14:19

eieiei die Folien sind auf den letzten Drücker fertig geworden.…
https://twitter.com/yacy_search/statuse ... 0671545344{.postlink}

Statistik: Verfasst von Orbiter — Mi Nov 07, 2012 11:14 pm


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-11-08 03:20:32

Hallo Orbiter.


Ja kann ich machen.
Muß aber in meine Puppy-Yacy noch zwei Dinge gerade richten.
Deshalb folgende Anfragen
folgendes hat sich geänndert, ich weiß nicht wie und wann:

Lokales Crawlen0(angehalten)
eingehende Remote-Crawls0(angehalten)

wenn ich das anklicke kommt folgende Meldung:



request: GET http://localpeer/IndexCreateWWWLocalQueue_p.html

404 File not Found

Could not load resource. The file is not available.

Mein Peer heist Puppy und war auch gut im Austausch mit den anderen verbunden, nun kommen nur noch anfragen
Was muß ich machen, denn URL crawelt er ja nun nicht mehr, wenn dann nutz ich die Heuristik.
Nutze den Peer auf rogott.de rund um die Uhr jeden Tag, so er mal nicht sich festfährt

---------------------------------------------------------
So und nun eine schnelle Installationsbeschreibung auf Linux Puppy im Original englisch
hier
http://208.109.22.214/puppy/viewtopic.p ... 4bd28f5e15{.postlink}



Nun ich auf deutsch, ich habe das mal reinkopiert falls es dort mal entfernt wird, haben wir es hier.
So und nun holen wir uns wie oben beschrieben als erstes die Distro als fertiges Image ich empfehle die neuste Version
Slacko 5.3.3 oder höher von Puppy
brenne ein Cd starte und folge den Anweisungen
Puppy läuft im Speicher dann weiter, wenn es einmal sich im PC meldet macht man alle Einstellung fertig die abgefragt werden aber Achtung dann kommt ein Hinweis beim benden fragt Puppy auch ab, und da sollte man kein Passwort setzen und das wichtigste Puppy fragt wie groß der Speicher werden sollte, das ist die interne Puppyfestplatte die als Datei auf der Festplatte liegt da kommt die Auswahl 512 Mb 1 Gig 2 Gig 3 Gig und 4 Gig, 4Gig kommt nur bei Version 5.3.3 oder mittlerweile höher und sollte gewählt werden, sonst läßt sich Yacy nicht installieren.

Nachdem alle Abfragen erledigt sind Rechner neustarten.
Jetzt wird Java installiert

also jre-1.7.0.09.sfs
über das Tool quickpet uf dem Puppy Slacko Deskop
oder per download dann installieren
Danach die Yacy pet


Ich habe auf mein Lapptop Puppy und Yacy auf einer Festplatte z.B. sda4
Wie gesagt Puppy macht sein eigen Festplatte als datei , mußte D aber mindest 4 Gig groß anlegen. Dann legst Du auf z.B. sda4 das Verzeichnis DATA an und verküpfst mit der rechten Maustast die Verzeihnisse DATA in der Yacy mit dem DATA auf sda4
Die Yacy findest Du wenn Du auf dem Puppy Destkop oben links das weise Häuschen mit dem roten Dach Namens Datei anklickst, da siehst Du die Yacy schon und noch das andere DATA auf sda4 oder sonst wo anklickst und nun Verküpfungsbefehl mit der rechten Maustaste ausführst.

Meine Yacy läuft schon seit längerem sehr stabil rund um die Uhr mit eingelegter Puppy Slacko 5.3.3 CD stabiler als auf Win7
In den nächsten Tagen mache ich eine ISO CD und lege diese dann zum allgemeinen Nutzen raus.


Das wars vorerst,
ich mußte den Text kürzen deshalb alles auf dieser URL, das sich hier nicht alle URL veräffentlichen
http://www.ohnein.de/yacy/

Statistik: Verfasst von RoGott — Do Nov 08, 2012 3:20 am


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-11-08 06:23:22

oh super, habs schon mal getwittert... https://twitter.com/yacy_search/status/ ... 0881771521{.postlink}
also ich hab nun dieses .pet-File runtergeladen, was mache ich dann damit?

Statistik: Verfasst von Orbiter — Do Nov 08, 2012 6:23 am


Solr Support • Re: ApacheCon Europe 5–8 November 2012

Date: 2012-11-08 13:58:33

Das ist ganz gut gelaufen eben, das Publikum hat tatsächlich nette tweets rausgehauen!
https://twitter.com/search?q=yacy

\“I wish I had known about \@yacy_search when I was doing the utwente.nl university project 3y ago #apachecon\”
\“Yacy is a GPL licensed crawler with deep Solr integration. Awesome real-time updating of crawl network graph http://yacy.net/en/index.html\”
\”#yacy can export the link structure of a crawl in xml format - cool! #apachecon\”
\“When you\’re bored in a hotel room, spider the other guests open folders over smb with #yacy :-) #apachecon\”
\“Handy! If you already have a #solr index and just want to fill it with spidered data, you can with #yacy, even change the field mapping\”
\”#yacy seems to have a nice and intuitive interface to crawl pages when creating a search engine - even with network visualization #apachecon\”

ApacheCon_YaCy_Tweets.png

Statistik: Verfasst von Orbiter — Do Nov 08, 2012 1:58 pm


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-11-08 20:57:22

Also ich gehe davon aus, das Du Dir die Distro von der Linux Puppy Distroversion Slacko 5.3.3 als Iso schon runtergeladen hast und ein CD gebrannt hast. Da diese Version auch schon das deutsche Sprachpaket mit drin ist.
http://distro.ibiblio.org/puppylinux/puppy-5.3.3/
Lege sie ins Laufwerk und starte diese, schau sie Dir auch ruhig mal genauer an. Beim starten alles auf Deinen PC und für Dich persönlich anpassen. Danach fahre den Rechner runter, da legt Puppy zwei Dateien an, damit wird das starten später stark beschleunigt.
Ich empfehle auf das Laufwerk welches auch die Yacy nutzen soll. Bei der Abfrage wie groß Puppy seine Datei machen soll wird 512 empfohlen, nimm hier mindest 4 Gig oder höher. Und setze auf jedenfall kein Password. Sonst wird beim nächsten Start alles zerstört, warum weiß ich nicht.

Yacy brauch den Platz um anfangs starten zu können.
Nach dem nächsten Start Java 1.7 installieren, danach erst Yacy installieren. Dann muß man die Verzeichnisse verknüpfen.

So ich habe schon von meinem Linux ein Iso gebrannt, was hier herunter geladen werden kann:
http://www.ohnein.de/downloads/PuppySla ... 5.-3-3.iso{.postlink} mit 208 MB
Wer was kleiner haben möchte, sollte alles überflüssige deinstallieren.
Yacy findet man unter Internet und Netzwerk auf der Distro.

das war es erst mal.

Gruß Roland

Statistik: Verfasst von RoGott — Do Nov 08, 2012 8:57 pm


Probleme & Lösungen • Re: YaCy auf zwei Festplatten unter Win 7 und Linux Puppy

Date: 2012-11-08 22:10:36

ja nochmal
Das alles ist eine Liveversion von CD und brauch nicht auf die Festplatte installiert zu werden Man muß nur das \“DATA\” Verzeichnis extern auf eine große Festplatte legen und Verknüpfen, wie oben beschrieben, dann kann es auch schon losgehen.
Die http://www.ohnein.de/downloads/PuppySlackoYacy_5.-3-3.iso ist auch Multilingual.
Tipp von mir noch, man sollte auch Firefox und Sea Monkey rauswerfen sprich deinstallieren, die stürtzen bei mir immer ab, Opera reicht. Die Slackyversion von Puppy ist für mich jetzt die interesanteste.
Die Firewall sollte noch entsprechend angepasst werden und der Internetzugang, je nach häuslichen vorhanden sein.
Schön wäre es noch, wenn wir das ganze auch ins Wiki übernehemn können.
Wer die Puppy Version direkt als .exe in Windows installiert, wird massiv Propleme haben, das hat bei mir unter Win7 nicht funktioniert

Statistik: Verfasst von RoGott — Do Nov 08, 2012 10:10 pm


Solr Support • Re: Lucene/Solr

Date: 2012-11-09 15:17:59

Wenn sich da nicht ohne dass es an mir vorbei gegangen ist, großartig was geändert hat, wird das noch nicht genutzt. Ist aber bestimmt mindestens einen Blick wert. Die beiden Funktionen haben in der Vergangenheit ja nicht so im Mittelpunkt des Interesses gestanden und sind daher in Solr potentiell besser gelöst als in YaCy. ;)

Statistik: Verfasst von Low012 — Fr Nov 09, 2012 3:17 pm


Solr Support • Re: Lucene/Solr

Date: 2012-11-09 15:54:43

in YaCy 1.2 basiert die lokale Suche nun vollständig auf Solr (!!) und nutzt alles was Solr anbietet. Für einen Kunden habe ich auch ein Synonym-Matching gemacht, das funktioniert so dass eine Synonymdatei beim Indexieren automatisch Synonymkeywords in ein Synonymfeld von Solr schreibt und dieses dann bei der Suche auch genutzt wird.
\‘Meinten Sie\’ könnten man aus so einer Synonymdatei ableiten. Das ist aber wieder was anderes als eine interne Solr-Funktion.

In YaCy 1.2 werden auch die Snippets von Solr gemacht (!) das heisst kein Nachladen oder Nachparsen mehr. Probierts mal aus, das ist nun ganz schön schnell. Die Navigatoren kommen ebenfalls aus Solr.

Statistik: Verfasst von Orbiter — Fr Nov 09, 2012 3:54 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2012-11-09 21:33:40

please mail me!{.postlink}

Statistik: Verfasst von Orbiter — Fr Nov 09, 2012 9:33 pm


Mitmachen • Re: Frage RegEx

Date: 2012-11-10 13:37:45

Vielen Dank!!

Statistik: Verfasst von LA_FORGE — Sa Nov 10, 2012 1:37 pm


Mitmachen • Re: Frage RegEx

Date: 2012-11-10 15:11:06

Low012 hat geschrieben:\ Ich glaube, dieser Ausdruck erkennt nur URLs bei denen /images/ direkt nach dem Domain-Teil folgt. Dem folgenden Ausdruck ist egal, wo im Pfad /images/ vorkommt:\ Code: : `.*/(.*/)*/images/.*` \



Funktioniert bei mir nicht in der Blacklist :-(
v1.02/SVN 9004

Statistik: Verfasst von LA_FORGE — Sa Nov 10, 2012 3:11 pm


Suchmaschinen • Re: Google Hacks

Date: 2012-11-11 12:21:20

hab einen neuen Google Hack herausgefunden: es scheint so, dass einige Leute \‘Zeug\’ bei Wordpress hochladen und das upload-Verzeichnis dann auch noch zum listen freigegeben ist! Der Pfad dazu ist

Code:
/wp-content/uploads/



In Kombination mit \“Index Of\” ergibt sich folgende Suchanfrage:

Code:
intitle:index.of inurl:wp.content.uploads


den man dann mit einem Suchwort kombinieren kann, erfolgreich ist hier bsp.: \‘rar\‘, \‘apk\’ und ähnliches:
https://www.google.de/search?q=intitle: ... ploads+rar{.postlink}
https://www.google.de/search?q=intitle: ... ploads+apk{.postlink}

Statistik: Verfasst von Orbiter — So Nov 11, 2012 12:21 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-11 18:03:44

AAAH das haben die zusammengelegt mit einer FASHION Konferenz (!!!)
http://www.beyondberlin.com
...und zwar mit Absicht: die Bereiche sollen zusammen finden. Da bin ich aber mal gespannt!

Statistik: Verfasst von Orbiter — So Nov 11, 2012 6:03 pm


Mitmachen • Re: Frage RegEx

Date: 2012-11-12 14:19:21

Hmmm, habe es eben nochmal probiert und bei mir funktioniert es auch nicht. Das hier sollte aber funktionieren:

Code:
.*\..*/.*/images/.*


Es filtert bei mir jedenfalls http://www.eso.org/public/imags/eso0907a/ raus.

Statistik: Verfasst von Low012 — Mo Nov 12, 2012 2:19 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-13 09:14:34

Ich auch! Berichte mal!

http://open-strategies.de/content/summit-of-newthinking-und-beyond-fashion-summit-2012-unter-einem-dach

Statistik: Verfasst von Low012 — Di Nov 13, 2012 9:14 am


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-14 20:43:15

bisher war immer klar: bei einer HackerCon gehe ich im Geekshirt, bei Business im Anzug aber jetzt: FASHION??? OH JE WAS ZIEHE ICH NUR AN?

Statistik: Verfasst von Orbiter — Mi Nov 14, 2012 8:43 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-14 21:07:54

Geek Shirt. Bei Fashion darf es ausgefallen sein. ;)

Statistik: Verfasst von Lotus — Mi Nov 14, 2012 9:07 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-15 17:03:13

hrrhr hätte ich erst darauf gehört.. dachte ich. Bin _noch_ leicht overdressed mit Hemd und guten Schuhen. Jetzt nähern wir uns aber dem Get-Together Zeitpunkt im Fashion-Bereich und die Pumps-Absatzhöhe feiert Minute um Minute neue Rekorde...

Statistik: Verfasst von Orbiter — Do Nov 15, 2012 5:03 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-15 22:57:08

man muss ja heutzutage keine Bilder mehr machen, irgendjemand fotografiert ja immer{.postlink}


follow: https://twitter.com/search?q=SON12

Statistik: Verfasst von Orbiter — Do Nov 15, 2012 10:57 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-11-16 10:24:59

Plagiatssuchmaschine: http://www.copyscape.com/

Statistik: Verfasst von Low012 — Fr Nov 16, 2012 10:24 am


Mitmachen • Re: Frage RegEx

Date: 2012-11-17 10:55:26

THX

Statistik: Verfasst von LA_FORGE — Sa Nov 17, 2012 10:55 am


Probleme & Lösungen • Re: Mergen zweier Indizes

Date: 2012-11-17 10:58:37

Vielen Dank. Beim Solr-Index kann man das nicht mehr so machen, oder? Gibt es da eine andere Möglichkeit?

Statistik: Verfasst von LA_FORGE — Sa Nov 17, 2012 10:58 am


Probleme & Lösungen • Re: Mergen zweier Indizes

Date: 2012-11-17 15:30:40

Hallo,

die Blobs aus SEGMENTS/default kann man nach wie vor zusammenkopieren - den Solr-Index leider nicht.

Hier ist eine Beschreibung wie das mit dem Solr-Index gehen soll:
http://wiki.apache.org/solr/MergingSolrIndexes
Probiert habe ich es aber auch noch nicht. Wenn Du es probierst, berichte mal bitte wie es lief.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Nov 17, 2012 3:30 pm


Wunschliste • Hostbrowser: Ergänzende Möglichkeiten

Date: 2012-11-17 18:25:06

Ich hab mal mit dem Hostbrowser rumgespielt. Die Möglichkeit eines \“Delete\” gibt es ja schon. Kann vielleicht auch ein Button für \“Add to blacklist\” mit dazu? Macht das aufräumen einfacher und nachhaltiger.
Zweiter Wunsch: Button, um alle Seite eines Host zu aktualisieren, sprich delete + recrawl. Ist einen moderierten Index eine gute Ergänzung.

Statistik: Verfasst von PCA42 — Sa Nov 17, 2012 6:25 pm


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2012-11-18 01:51:34

das mit der Blackliste verstehe ich, wollte aber vor längerer Zeit schon mal so einen Knopf woanders hin machen und musste feststellen dass die Einrichtung eines Blacklisteintrags ein einziger Schmerz ist. Brr.
Ein Recrawl des Hosts stelle ich mir schon leichter vor, jedoch muss man da zumindest so viel Intelligenz einbauen dass man sieht ob man automatisch \‘?\’ akzeptieren an machen muss oder nicht.

Statistik: Verfasst von Orbiter — So Nov 18, 2012 1:51 am


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2012-11-18 09:26:23

Recrawl ist da wohl das falsche Wort gewesen, für das ich mich da entschieden habe. Besser wäre ein beschrieben wäre es als erneutes parsen alles bekannten URLs eines Hosts beschrieben.

Statistik: Verfasst von PCA42 — So Nov 18, 2012 9:26 am


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2012-11-18 11:03:58

die Struktur im HostBrowser wird bei jedem Aufruf neu aus den Daten, die in Solr stehen berechnet. \‘Neu Parsen\’ macht da wenig Sinn, \‘Neu Laden\’ schon eher, was ja dann einem Recrawl gleich kommt. Das macht allerdings aus meiner Sicht schon Sinn, vor allem wenn man weiss dass die Domäne bei einem wide Crawl aufgrund der Crawltiefenbegrenzung nur \‘berührt\’ wurde.

Statistik: Verfasst von Orbiter — So Nov 18, 2012 11:03 am


Pro-Users • YaCy <=> Solr <=> Oracle RDBMS

Date: 2012-11-18 11:39:43

Hallo,

ich suche Hilfe bei der Integration einer Oracle-DB als Backend für Solr. Ich verfolge damit keine kommerziellen Interessen, deshalb habe ich auch kein Geld für z. B. in so etwas{.postlink}. Kann bitte jemand ein Tut schreiben und in unser Wiki stellen? Dann haben alle etwas davon.

Ich hab da schonmal was gefunden{.postlink}, das scheint aber nur ein Lösungsansatz zu sein, hier werden glaube ich die Inhalte einer Oracle-DB mit Solr indexiert, mein Vorhaben ist aber umgekehrt gedacht, dass Solr den Index nicht im lokalen Dateisystem ablegt, sondern in einer Oracle-DB.

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — So Nov 18, 2012 11:39 am


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2012-11-18 13:57:28

Hallo Stefan,

wir haben ja einen DB-Konnektor für phpbb3 in der Klasse PhpBB3Dao welche vom Menü in ContentIntegrationPHPBB3_p.html aufgerufen wird. Das macht aber als Zwischenschritt einen Export nach Dublin Core. Man müsste die Klasse PhpBB3Dao hernehmen und generalisieren so dass man beliebige Tabellenfelder auf ein SolrInputDocument mappen kann. Das ist nicht soo schwer und eher eine Fleissarbeit. Momentan bin ich aber mit kommerziellen Anfragen noch eingedeckt. Wir brauchen mehr Entwickler! Kann denn da von den Anwendern von der Anforderung nicht vielleicht was machen?

Statistik: Verfasst von Orbiter — So Nov 18, 2012 1:57 pm


Solr Support • org.xml.sax.SAXParseException

Date: 2012-11-18 16:29:36

Hallo,

\ Nov 18, 2012 4:06:59 PM org.apache.solr.common.SolrException log\ SEVERE: null:org.xml.sax.SAXParseException: The element type \"config\" must be terminated by the matching end-tag \"\\".\ at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.createSAXParseException(ErrorHandlerWrapper.java:195)\ at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.fatalError(ErrorHandlerWrapper.java:174)\ at com.sun.org.apache.xerces.internal.impl.XMLErrorReporter.reportError(XMLErrorReporter.java:388)\ at com.sun.org.apache.xerces.internal.impl.XMLScanner.reportFatalError(XMLScanner.java:1414)\ at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanEndElement(XMLDocumentFragmentScannerImpl.java:1749)\ at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl\$FragmentContentDriver.next(XMLDocumentFragmentScannerImpl.java:2938)\ at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(XMLDocumentScannerImpl.java:648)\ at com.sun.org.apache.xerces.internal.impl.XMLNSDocumentScannerImpl.next(XMLNSDocumentScannerImpl.java:140)\ at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(XMLDocumentFragmentScannerImpl.java:511)\ at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:808)\ at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:737)\ at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:119)\ at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:235)\ at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:284)\ at org.apache.solr.core.Config.\(Config.java:121)\ at org.apache.solr.core.Config.\(Config.java:73)\ at org.apache.solr.core.SolrConfig.\(SolrConfig.java:117)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:776)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:534)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:356)\ at org.apache.solr.core.CoreContainer\$Initializer.initialize(CoreContainer.java:308)\ at org.apache.solr.servlet.SolrDispatchFilter.init(SolrDispatchFilter.java:107)\ at org.apache.catalina.core.ApplicationFilterConfig.getFilter(ApplicationFilterConfig.java:295)\ at org.apache.catalina.core.ApplicationFilterConfig.setFilterDef(ApplicationFilterConfig.java:422)\ at org.apache.catalina.core.ApplicationFilterConfig.\(ApplicationFilterConfig.java:115)\ at org.apache.catalina.core.StandardContext.filterStart(StandardContext.java:4072)\ at org.apache.catalina.core.StandardContext.start(StandardContext.java:4726)\ at org.apache.catalina.core.ContainerBase.addChildInternal(ContainerBase.java:799)\ at org.apache.catalina.core.ContainerBase.addChild(ContainerBase.java:779)\ at org.apache.catalina.core.StandardHost.addChild(StandardHost.java:601)\ at org.apache.catalina.startup.HostConfig.deployWAR(HostConfig.java:943)\ at org.apache.catalina.startup.HostConfig.deployWARs(HostConfig.java:778)\ at org.apache.catalina.startup.HostConfig.deployApps(HostConfig.java:504)\ at org.apache.catalina.startup.HostConfig.start(HostConfig.java:1317)\ at org.apache.catalina.startup.HostConfig.lifecycleEvent(HostConfig.java:324)\ at org.apache.catalina.util.LifecycleSupport.fireLifecycleEvent(LifecycleSupport.java:142)\ at org.apache.catalina.core.ContainerBase.start(ContainerBase.java:1065)\ at org.apache.catalina.core.StandardHost.start(StandardHost.java:840)\ at org.apache.catalina.core.ContainerBase.start(ContainerBase.java:1057)\ at org.apache.catalina.core.StandardEngine.start(StandardEngine.java:463)\ at org.apache.catalina.core.StandardService.start(StandardService.java:525)\ at org.apache.catalina.core.StandardServer.start(StandardServer.java:754)\ at org.apache.catalina.startup.Catalina.start(Catalina.java:595)\ at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)\ at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)\ at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)\ at java.lang.reflect.Method.invoke(Method.java:597)\ at org.apache.catalina.startup.Bootstrap.start(Bootstrap.java:289)\ at org.apache.catalina.startup.Bootstrap.main(Bootstrap.java:414)\



Wie kann ich die relevante Config Datei von Solr finden, wo ich diesen </config> tag vergessen habe? Ich habe die config xmls schon doppelt gecheckt aber nichts gefunden :-( Das Log gibt dazu auch nicht mehr her :-(

Statistik: Verfasst von LA_FORGE — So Nov 18, 2012 4:29 pm


Solr Support • Re: org.xml.sax.SAXParseException

Date: 2012-11-18 16:33:42

Aaah!! Wie die Nadel im Heuhaufen! Die suche nach der Phrase \‘during parsing\’ in den Logs liefert den Übeltäter zu Tage :-)

Statistik: Verfasst von LA_FORGE — So Nov 18, 2012 4:33 pm


Wunschliste • LDAP/ActiveDirectory Authentication

Date: 2012-11-18 22:45:56

- kennt sich jemand damit aus?
- Gibts eine einfache mini-Version eines LDAP-Auth Servers den wir benutzen könnten (zum Testen bzw. als Bestandteil)

Statistik: Verfasst von Orbiter — So Nov 18, 2012 10:45 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-19 09:33:06

Auskennen ist übertrieben. Ich musste mal in grauer Vorzeit Daten in einem Microsoft-LDAP-Server abladen, ab er das war es dann auch schon. LDAP finde ich aber interessant und würde mich damit gern mal auseinandersetzen, wenn ich mal Zeit habe... :lol:

Statistik: Verfasst von Low012 — Mo Nov 19, 2012 9:33 am


Fragen und Antworten • Installation unter Debian funktioniert nicht

Date: 2012-11-19 11:32:14

Unter http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink} kann man nachlesen, wie man yacy unter Debian installiert - leider endet das mit Fehlermeldung:

Code:
root# apt-get install yacyPaketlisten werden gelesen... FertigAbhängigkeitsbaum wird aufgebaut       Statusinformationen werden eingelesen... FertigDie folgenden NEUEN Pakete werden installiert:  yacy0 aktualisiert, 1 neu installiert, 0 zu entfernen und 0 nicht aktualisiert.Es müssen 36,6 MB an Archiven heruntergeladen werden.Nach dieser Operation werden 50,9 MB Plattenplatz zusätzlich benutzt.WARNUNG: Die folgenden Pakete können nicht authentifiziert werden!  yacyDiese Pakete ohne Überprüfung installieren [j/N]? JHole:1 http://debian.yacy.net/ ./ yacy 1.2.9008 [36,6 MB]Es wurden 36,6 MB in 9 s geholt (3.854 kB/s)                                   Vorkonfiguration der Pakete ...Vormals nicht ausgewähltes Paket yacy wird gewählt.(Lese Datenbank ... 201822 Dateien und Verzeichnisse sind derzeit installiert.)Entpacken von yacy (aus .../archives/yacy_1.2.9008_all.deb) ...Trigger für ureadahead werden verarbeitet ...ureadahead will be reprofiled on next rebootyacy (1.2.9008) wird eingerichtet ...Adding group `yacy' (GID 265) ...Done.Adding system user `yacy' (UID 264) ...Adding new user `yacy' (UID 264) with group `yacy' ...Not creating home directory `/var/lib/yacy'.Starting YaCy P2P Web Search: failed.invoke-rc.d: initscript yacy, action "start" failed.dpkg: Fehler beim Bearbeiten von yacy (--configure): Unterprozess installiertes post-installation-Skript gab den Fehlerwert 1 zurückFehler traten auf beim Bearbeiten von: yacyE: Sub-process /usr/bin/dpkg returned an error code (1)root#


Es scheitert ja offenbar an dieser Stelle:

Code:
Not creating home directory `/var/lib/yacy'


In der /etc/passwd steht für yacy auch ein merkwürdiger Eintrag:

Code:
yacy:x:264:265::/var/lib/yacy:/bin/false


Wieso ist als Shell da \“false\” eingetragen??

Statistik: Verfasst von wsb — Mo Nov 19, 2012 11:32 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-19 13:47:15

also in einem frischen debian funktioniert das, hab das schon x mal gemacht, zuletzt vor drei Tagen.

YaCy benutzt und benötigt hier keinen eigenen Account, da dies als linux Dienst von root ausgeführt wird. Wie es zu diesem \‘yacy\’ account kommt weiss ich nicht. Hast du den mal angelegt?

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 1:47 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-19 13:50:16

das wäre super! Wir werden ja so oft gefragt ob wir sowas wie Suchaccounts haben. Die müssen ja dann mit denen von bestimmten Usern, die schon Accounts woanders haben übereinstimmen! Da wäre ActiveDirectory wahrscheinlich die richtige Lösung, auch wenn das MS ist... ... aber da sind die User..

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 1:50 pm


Fragen und Antworten • Re: Mergen zweier Indizes

Date: 2012-11-19 13:57:43

es gibt da ein neues Feature in Solr 4 um mehrere Indexe zusammenzuschliessen: SolrCloud{.postlink}.
Dazu gibts auch ein Video: https://vimeo.com/43913870

Das könnte ein Lösung sein, um mehrere Solr Indexe zu mergen. Das geht aber nicht \‘gleich so\’ sondern muss gemanaged werden. Irgendwann muss ich das wohl auch mal angehen...

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 1:57 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-19 14:36:39

Orbiter hat geschrieben:\ also in einem frischen debian funktioniert das, hab das schon x mal gemacht, zuletzt vor drei Tagen.\ \ YaCy benutzt und benötigt hier keinen eigenen Account, da dies als linux Dienst von root ausgeführt wird. Wie es zu diesem \'yacy\' account kommt weiss ich nicht. Hast du den mal angelegt?\


Nein, ich habe den yacy-Account nicht angelegt. Ich mache nur GENAU das, was unter http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink} geschrieben steht.

Statistik: Verfasst von wsb — Mo Nov 19, 2012 2:36 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-19 16:26:12

Habe mich eben mal ein bisschen von unserem Admin aufschlauen lassen. Ich glaube, als ersten Schritt werde ich mir wirklich mal einen eigenen Auth-Server aufsetzen müssen.

Statistik: Verfasst von Low012 — Mo Nov 19, 2012 4:26 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-19 16:29:30

ui, tatsächlich, bei mir wurde auch
yacy:x:264:265::/var/lib/yacy:/bin/false
in die passwd geschrieben.

ich bin leider nicht so ganz der debian-spezialist. Hat noch jemand eine Idee wie sich das Problem analysieren lässt?

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 4:29 pm


Hilfe für Einsteiger und Anwender • Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-11-19 17:09:59

Moin,

ich versuche schon seit einiger Zeit erfolglos Dateien auf verschiedene Art zu indexieren. Yacy läuft mittlerweile in Version 1.29008 auf einem ubuntu Server 12.04.

1) smb-share: also crawl über smb://username:pwd@server/folder starten, als Netzwerk ist dabei allip eingestellt
Ergebnis: nichts, crawler rödelt aber ne Weile. im log findet man \“StackTrace host too short:...\“, \“BLOCKINGTHREAD Internal Error in serverInstantThread.job: null\“, \“BLOCKINGTHREAD shutting down thread \‘java.lang.reflect.Method.storeDocumentIndex.7\’\“, \“StackTrace String index out of range: -1\” oder \“BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread \‘java.lang.reflect.Method.storeDocumentIndex.7\’: null\”

2) gemounteter ordner: smb-share meinetwegen unter /mnt/documents mounten, die Eingangskonfiguration auf \“intranet\” stellen unter repository /mnt/documents eintragen und den crawler auf das repository loslassen.
Ergebnis: \“scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY \‘HTTP/1.1 404 File not Found\’ for URL...\”

3) lokale Dateien: ein paar der Dateien aus dem smb-share in einen lokalen ordner kopieren und den crawler über file:// darauf loslassen
Ergebnis: \“unresolved pattern\”

Gibts hier noch einen oder mehrere Bugs oder mach ich hier grundlegend etwas falsch?

Wenn ich eine Instanz unter Windows 7 aufsetze, klappt zumindest das indexieren lokaler Dateien...

Statistik: Verfasst von Michael_MPI — Mo Nov 19, 2012 5:09 pm


Hilfe für Einsteiger und Anwender • Re: Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-11-19 17:29:32

hm bin mir nicht sicher ob smb-shares mit login-info geht, das ist ja noch so eine Baustelle{.postlink}. Hast du statt dessen mal den Network Scanner ausprobiert? Der lief ja nun schon mehrmals bei einem CCC fürs Filesharing ganz gut...
File-Pfade müssen von der Syntax her richtig sein, das ist \‘file://\’ + absoluter Pfad. Also dann file:///home/xxx oder file://c:\\xxx .. bitte dreifachslash und doppelbackslash beachten.

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 5:29 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-19 17:55:59

Ich glaube bei Suse Linux gab es eine tolle GUI-Oberfläche für sowas. Kann aber auch sein, dass das nur für die Client-Konfiguration ist.

Statistik: Verfasst von Lotus — Mo Nov 19, 2012 5:55 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-19 20:55:52

Ich bin da auch nicht so der Spezialist, aber das Problem dürfte hier seinen Ursprung haben:

Code:
add_user_if_missing() {    if [ -x /usr/sbin/adduser ]; then        if ! id -u yacy > /dev/null 2>&1; then            adduser --system --home /var/lib/yacy --no-create-home \                --uid 264 --gid 265 --disabled-password --force-badname \                yacy        fi    fi}



Das steht ab Zeile 28 in der Datei debian/postinst und wird zum Abschluss der Installation des Paketes aufgerufen. Da scheint wohl was schief zu gehen.

Statistik: Verfasst von Low012 — Mo Nov 19, 2012 8:55 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-19 21:01:04

Ich habe jetzt eine virtuelle Maschine aufgesetzt (Debian) und OpenLDAP{.postlink}. Wenn man dann so gar keine Ahnung hat, kommt man da abends so nebenbei beim Fernsehen nicht besonders weit...

Eine tolle Oberfläche könnte ich also gut gebrauchen! ;)

Statistik: Verfasst von Low012 — Mo Nov 19, 2012 9:01 pm


Wunschliste • Debian Package Maintainer

Date: 2012-11-19 23:12:20

gibts hier einen debian hacker? es gibt so einiges was man am ant-deb machen müsste, bsp. haben wir offenbar das Problem dass es keine debian package updates mehr gibt wenn unsere virtuelle svn-Nummer die alte nicht übersteigt. Und bei jedem Release wird die ja auf 9000 resettet. Was kann man machen? Wie macht man es richtig? Gibts hier jemanden der das \“ant deb\” ein wenig adopiert?

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 11:12 pm


YaCy Coding & Architektur • Re: Doublettencheck

Date: 2012-11-19 23:27:07

rumpel..rumpel..altes Thema raus.…:!!

jetzt bin ich am Doublettencheck dran, und jawohl es wird die Nutch-Routine TextProfileSignature sein, die jetzt in Solr verbaut ist und also in einer verlinkten Library drin ist.
Im Source Code von org.apache.solr.update.processor.TextProfileSignature ists beschrieben:

org.apache.solr.update.processor.TextProfileSignature hat geschrieben:\ - remove all characters except letters and digits, and bring all characters to lower case,\ - split the text into tokens (all consecutive non-whitespace characters),\ - discard tokens equal or shorter than MIN\_TOKEN\_LEN (default 2 characters),\ - sort the list of tokens by decreasing frequency,\ - round down the counts of tokens to the nearest multiple of QUANT = QUANT\_RATE \* maxFreq, whereQUANT\_RATE is 0.01f\ - by default, and \maxFreq\ is the maximum token frequency). If maxFreqis higher than 1, then QUANT is always higher than 2 (which means that tokens with frequency 1 are always discarded).\ - tokens, which frequency after quantization falls below QUANT, are discarded.\ - create a list of tokens and their quantized frequency, separated by spaces, in the order of decreasing frequency.\ - This list is then submitted to an MD5 hash calculation.\


Das wird zunächst mal benutzt um einen entsprechenden Hash in den Index zu schreiben, was danach damit passiert ist wieder ein anderes Thema!

Beispiel:
- man benutzt den Ähnlichkeitshash nicht als Double-check Ersatz sondern nur um Suchergebnislisten einzuschränken. Dann vermeidet man Fehler beim Doublettencheck wo der Check \‘zu viel\’ herausgelöscht hat\’
- man benutzt den Ähnlichkeitshash um die Dokumente die angeblich ähnlich sind miteinander im Index zu verlinken, um somit Subsumptionen (einer hat von einem anderen abgeschrieben) erkennbar zu machen.
- ?

Statistik: Verfasst von Orbiter — Mo Nov 19, 2012 11:27 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-20 10:31:54

Low012 hat geschrieben:\ Ich bin da auch nicht so der Spezialist, aber das Problem dürfte hier seinen Ursprung haben:\ \ Code: : `add_user_if_missing() {    if [ -x /usr/sbin/adduser ]; then        if ! id -u yacy > /dev/null 2>&1; then            adduser --system --home /var/lib/yacy --no-create-home \                --uid 264 --gid 265 --disabled-password --force-badname \                yacy        fi    fi}` \ \ Das steht ab Zeile 28 in der Datei debian/postinst und wird zum Abschluss der Installation des Paketes aufgerufen. Da scheint wohl was schief zu gehen.\



Wer kann den Bug fixen?

Statistik: Verfasst von wsb — Di Nov 20, 2012 10:31 am


Hilfe für Einsteiger und Anwender • Re: Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-11-20 12:48:36

Hmm der Networkscanner bringt keine Ergebnisse, im LOG steht ständig \“HTTPDFileHandler access blocked, clientIP=...\“. Besteht da ein Zusammenhang?

Auf der Windows-Instanz bringt der Networkscanner Ergebnisse, wenn ich den samba-share dem crawler übergebe rödelt er eine Weile, aber es kommen Fehler bzw Warnings:

W 2012/11/20 12:44:32 StackTrace host too short: \‘smb\‘, url = http://...
java.net.MalformedURLException: host too short: \‘smb\‘, url =...
at net.yacy.cora.document.MultiProtocolURI.<init>(MultiProtocolURI.java:187)
at net.yacy.kelondro.data.meta.DigestURI.<init>(DigestURI.java:119)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:520)
at net.yacy.data.BookmarksDB.getBookmark(BookmarksDB.java:160)
at net.yacy.data.BookmarksDB.removeBookmark(BookmarksDB.java:174)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:512)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:516)
at net.yacy.data.BookmarksDB.createBookmark(BookmarksDB.java:130)
at net.yacy.search.Switchboard.stackUrl(Switchboard.java:2789)
at net.yacy.search.Switchboard\$3.run(Switchboard.java:2705)

W 2012/11/20 12:44:32 StackTrace host too short: \‘smb\‘, url = http://...
java.net.MalformedURLException: host too short: \‘smb\‘, url = ...
at net.yacy.cora.document.MultiProtocolURI.<init>(MultiProtocolURI.java:187)
at net.yacy.kelondro.data.meta.DigestURI.<init>(DigestURI.java:119)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:520)
at net.yacy.data.BookmarksDB.getBookmark(BookmarksDB.java:160)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:502)
at net.yacy.data.BookmarksDB\$Bookmark.<init>(BookmarksDB.java:516)
at net.yacy.data.BookmarksDB.createBookmark(BookmarksDB.java:130)
at net.yacy.search.Switchboard.stackUrl(Switchboard.java:2789)
at net.yacy.search.Switchboard\$3.run(Switchboard.java:2705)

Statistik: Verfasst von Michael_MPI — Di Nov 20, 2012 12:48 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-20 19:53:10

Von Microsoft gibt es auch was (ADAM), das ich in einer Windows XP-VM installiert habe:

Statistik: Verfasst von Low012 — Di Nov 20, 2012 7:53 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-20 21:22:49

Ich habe mir das Log aus dem Ursprungsposting und das Installationsskript nochmal angeschaut.

Dass das Home-Verzeichnis nicht erstellt wird ist korrekt so,weil das im Installationsskript so angegeben ist (--no-create-home). Das ist auch sinnvoll, weil das Home-Verzeichnis (/var/lib/yacy/) bereits existieren sollte und die YaCy-Programmdateien enthalten sollte.

Das /bin/false ist auch OK. Das sorgt dafür, dass der (System-)Benutzer \“yacy\” sich nicht einloggen kann: http://fibel.org/linux/lfo-0.6.0/node181.html

Wo es dann wirklich schief läuft, dürfte ab hier sein:

Code:
Starting YaCy P2P Web Search: failed.invoke-rc.d: initscript yacy, action "start" failed.



Warum das aber so ist, habe ich leider noch nicht ergründen können.

Statistik: Verfasst von Low012 — Di Nov 20, 2012 9:22 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-21 08:50:18

gibts vielleicht eine bestimmte Stelle im Log wo was steht? im syslog? Ich hab mal YaCy über /etc/init.d/yacy runtergefahren und neu gestartet, aber da stand dann nichts drin. Vielleicht nur bei einem Fehler?

Statistik: Verfasst von Orbiter — Mi Nov 21, 2012 8:50 am


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-21 09:58:10

oh je jetzt wirds ernst:
http://www.deutsche-digitale-bibliothek ... ell.htm#19{.postlink}
am 28. November also, 11:00 Uhr. Hört sich wie ein Aufruf zum DDoS an. Das geht bestimmt in die Hose, wenn man sich ansieht dass sie es noch nicht mal schaffen in der Blog-Meldung das a-tag zu schliessen..

Statistik: Verfasst von Orbiter — Mi Nov 21, 2012 9:58 am


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2012-11-22 08:00:39

Hallo Michael,

vielen Dank. Ich glaube wenn ich mich da einarbeiten würde, würde ich es evtl. hinbekommen, aber ich denke nicht, dass ich es in der Qualität hinbekommen würde, wie wenn ihr das/du machen würdet.

Wenn dein Workload wieder etwas weniger geworden ist, würde ich es gerne bei dir in Auftrag geben. Ich zahle gut :-)
Es soll aber dann auch so in der DB abgebildet werden, wie es das YaCy-Solr-Schema normalerweise in den Solr-Datendateien ablegt.

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Do Nov 22, 2012 8:00 am


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-22 17:24:39

das wird der live stream:
http://livestream.deutsche-digitale-bibliothek.de/

Ich habe übrigens an die Fraunhofer-Leute, für die ich mal an der DDB gearbeitet habe geschrieben und gefragt ob das denn nun als freie Software auch publiziert wird. In jeder Datei war damals der apache header drüber, aber es hat sich niemand getraut dazu auch eine verbindliche Aussage zu machen. Ich habe leider noch keine Antwort bekommen, ausser die, dass sich Zuständigkeiten geändert haben...

Statistik: Verfasst von Orbiter — Do Nov 22, 2012 5:24 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-22 18:16:07

Hier sind nun ein paar Bilder{.postlink}, hier wo ich YaCy erkläre{.postlink} und DeepaMehta{.postlink} erklärt bekomme{.postlink}

Statistik: Verfasst von Orbiter — Do Nov 22, 2012 6:16 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-22 20:15:01

Dann ist das Geheimnis, für welches Outfit du dich entschieden hast, jetzt gelüftet!

Statistik: Verfasst von Low012 — Do Nov 22, 2012 8:15 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-23 09:42:31

Ich habe mir jetzt mal das hier bestellt: http://entwickler-press.de/ep/psecom,id,2,buchid,124,p,0,_language,de.html

Dann muss ich mir nicht jede Information einzeln zusammensuchen und es besteht Hoffnung, dass ich dieses Jahr noch irgendwann Code produzieren kann. Bild

Statistik: Verfasst von Low012 — Fr Nov 23, 2012 9:42 am


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2012-11-23 12:39:51

ui super!

Ich habe gestern im fdroid repository auch eine LDAP Sync App gefunden. Wir brauchen ja keinen Sync aber die App muss sich ja auch authentifizieren, insofern müsste das ja eine Beispielimplementation liefern. Hierzu habe ich folgende Klasse gefunden: https://github.com/weisserd/LDAP-Sync/b ... cator.java{.postlink}

Statistik: Verfasst von Orbiter — Fr Nov 23, 2012 12:39 pm


Hilfe für Einsteiger und Anwender • Re: Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-11-23 13:57:33

Test zu Syntax von Pfaden:

Egal ob ich einen crawl mit file:///home, file:///home/ oder auch file:///home/user starte, ich bekomme immer \“-UNRESOLVED_PATTERN-\”...

Code:
E 2012/11/23 13:43:57 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /usr/share/yacy/htroot/Crawler_p.class: ; java.awt.graphicsenv='sun.awt.X11GraphicsEnvironment'I 2012/11/23 13:43:57 APICALL /Crawler_p.html?deleteold=on&crawlingDomMaxPages=10000&intention=&range=domain&indexMedia=on&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=file:///home/&bookmarkTitle=Index%20of%20file:///home/&mustnotmatch=&crawlingDomFilterDepth=1&crawlingDomFilterCheck=off&crawlingstart=Starte%20neuen%20Crawl&directDocByURL=off&crawlingDepth=99

Statistik: Verfasst von Michael_MPI — Fr Nov 23, 2012 1:57 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-23 19:09:32

oh nett!

http://www.openeverything.eu/opendata-track-summit-newthinking-recap/ hat geschrieben:\ Erfreulicher gestaltete sich dagegen der Besuch des Talks von Michael Christen, gleich nach der Mittagspause. Dieser präsentierte nach anfänglichen technischen Schwierigkeiten die freie Suchmaschine Yacy und bewarb diese als alternative Ergänzung zu herkömmlichen Suchmaschinen. Deutlich betonte er in seiner Vorstellung auch das Menschenrecht auf Zugang zu Wissen und auf Privatheit und sprach Google und Co ab, dieses zu wahren.\


http://www.openeverything.eu/opendata-t ... ing-recap/{.postlink}

Statistik: Verfasst von Orbiter — Fr Nov 23, 2012 7:09 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-23 19:47:49

Ich habe es eben mal mit einem neu aufgesetzten Debian in einer VM probiert und die Installation hat bei mir ohne Fehler funktioniert. :geek:

In [/var/log/apt/term.log]{style=“font-weight: bold”} kann ich mir nochmal die Meldungen sehen, die ich vorher auch auf der Konsole gesehen habe. In dem Fall, wo es schief gelaufen ist, kennen wird diese Meldungen schon aus dem Ursprungsposting, hilft also nicht weiter.

In [/var/log/yacy]{style=“font-weight: bold”} sind die üblichen YaCy-Logs enthalten. Steht dort in [yacy00.log]{style=“font-weight: bold”} was drin, weshalb YaCy nicht gestartet werden konnte?

Außerdem habe ich mir mal das Init-Skript angeschaut ([/etc/init.d/yacy]{style=“font-weight: bold”}) und es scheint so, dass die Meldung \“failed\” nur erscheint, wenn YaCy aus irgendwelchen Gründen schon/noch(?) läuft oder das Skript jedenfalls der Meinung ist, YaCy würde noch laufen.

War auf dem System denn YaCy irgendwann mal installiert? Eventuell würde es dann ja helfen, die Datei [/var/lib/yacy/yacy.running]{style=“font-weight: bold”} zu löschen, wenn sie existiert oder [/etc/init.d/yacy stop]{style=“font-weight: bold”} auszuführen und dann mit [/etc/init.d/yacy start]{style=“font-weight: bold”} nochmal zu starten.

Statistik: Verfasst von Low012 — Fr Nov 23, 2012 7:47 pm


Hilfe für Einsteiger und Anwender • Re: Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-11-24 10:32:14

Hallo Michael, ich glaube da war ein Bug. Ich konnte das Problem nachstellen und fixen. Das hat sich in den letzten Wochen eingeschlichen als ich den Crawler erweitert habe.
Den Fix gibts als yacy_v1.2_20121124_9025 im auto-updater.

Statistik: Verfasst von Orbiter — Sa Nov 24, 2012 10:32 am


Fragen und Antworten • \“Unlimited crawl depth for URLs matching with\”

Date: 2012-11-24 12:25:04

Hi,

finde die neue Funktion genial. Wie ist die Syntax wenn ich in diesem Feld z. B. html & htm angeben will? Wie trenne ich mehrere Angaben voneinander?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Sa Nov 24, 2012 12:25 pm


Fragen und Antworten • Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 11:00:17

Ich hoffe die Frage ist nicht zu blöde:
Wie im Betreff bereits beschrieben betreibe ich einen Peer im Robinson Mode als Public Peer. Es werden also bei Indizieren von Seite RWI\’s erstellt und Solr gefüttert. Wenn ich nun eine lokale Suche ausführe, wie wird dann gesucht? Geht das in die RWIs oder in den Solr-Index? Ich hab das gefühl, hier wird innerhalb der RWI gesucht.

Der Peer crawlt regelmäßig Nachrichtenseiten. Die möchte ich für das P2P-Netz verfügbar halten, dafür ist der RWI-Index dann da. Wenn ich aber lokal suche, sollte das doch über Solr gehen.

Statistik: Verfasst von PCA42 — So Nov 25, 2012 11:00 am


Fragen und Antworten • Re: Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 11:22:12

keine blöde Frage sonden völlig richtig! Wenn man lokal sucht, sollte nur der Solr Index benutzt werden.

Das hat allerdings einen kleinen Haken: wenn man einen alten Peer migriert hat, kommt dann nix, weil ja noch nichts im Solr Index steht, das füllt sich ja nur beim Abfragen der alten Metadaten. Wenn man aber mit so einem Peer schon den Index mit einem Solr gefüllt hat, macht die Anfrage in die RWIs keinen Sinn mehr.

Das heisst eigentlich dass die RWI-Suche bei Robinsons abhängig vom \‘Geburtsdatum\’ des Peers abgeschaltet werden muss...

Statistik: Verfasst von Orbiter — So Nov 25, 2012 11:22 am


Fragen und Antworten • Re: Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 11:42:24

Vielleicht hilft da auch einfach ein Schalter unter http://localhost:8090/ConfigPortal.html .

Statistik: Verfasst von PCA42 — So Nov 25, 2012 11:42 am


Fragen und Antworten • Re: Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 12:03:11

Hab das gleich mal so auch eingebaut. das \‘ist alt\’ Datum ist dabei das Releasedatum von 1.2.
Ein Schalter dafür finde ich nicht gut, das lässt sich ja fast nicht erklären und hat für bestimmte Situationen eben nur eine richtige Einstellung.
Wenn du das jetzt mit dem letzten Fix forcieren willst, kannst du das BDate in mySeed.txt patchen, der Wert hat bislang sonst keine Funktion gehabt.

Statistik: Verfasst von Orbiter — So Nov 25, 2012 12:03 pm


Fragen und Antworten • Re: \“Unlimited crawl depth for URLs matching with\”

Date: 2012-11-25 12:13:14

das sind normale reguläre Ausdrücke, wie in der Java-Klasse \‘Pattern\’ beschrieben:
http://docs.oracle.com/javase/6/docs/ap ... ttern.html{.postlink}

Den Pattern den du suchst, ist \“.*\.html?\”
Mehrere Pattern werden durch Pattern-Disjunktionen angegeben, indem ein \’|\’ verwendet wird um die Ausdrücke zu trennen.

Da wir ja schon öfters solche \‘regex\‘-Themen habe, hab ich einen regex-Pattern-Tester in YaCy eingebaut.
Den findest du in /RegexTest.html
Da gibts 2 Eingabefelder: einen für einen String auf den du den Test anwenden willst (meistens eine URL) und einen drunter für die RegEx. Weil ich hier Nutzer kenne deren Pattern tausende Zeichen lang sein können, ist hier ein größeres Textfeld. Pattern werden sehr lang wenn man eine gewaltige Disjunktion rein macht. Beispielsweise eine ganze Whitelist.
Wenn man auf Submit drückt, steht rechts neben dem \‘Result\‘-Feld ein \‘match\’ oder \‘no match\‘.

Statistik: Verfasst von Orbiter — So Nov 25, 2012 12:13 pm


Fragen und Antworten • Re: Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 17:47:19

So, habs getestet. Das Ranking von Solr ist für mich eine Katastrophe. Ich hab meine Peer \“älter\” gemacht, damit ich das RWI-Ranking wieder habe. Das auf Nachrichten-Webseite oft Headlines in jeder Seite eingebettet sind, findet der nicht sinnvolles.

> Vielleicht doch \“Schaltbar\” machen.

Statistik: Verfasst von PCA42 — So Nov 25, 2012 5:47 pm


Fragen und Antworten • Re: Robinson Mode, Public Peer: Lokale Suche

Date: 2012-11-25 18:15:31

Das Solr Ranking läuft zur Zeit noch über fest codiert Boosts, die Headlines bevorzugt. Ich habe vor diese Boosts über eine Webseite einstellbar zu machen, dazu bin ich aber noch nicht gekommen.

Statistik: Verfasst von Orbiter — So Nov 25, 2012 6:15 pm


Fragen und Antworten • Re: \“Unlimited crawl depth for URLs matching with\”

Date: 2012-11-25 20:45:35

Vielen Dank!!

Statistik: Verfasst von LA_FORGE — So Nov 25, 2012 8:45 pm


Hilfe für Einsteiger und Anwender • What is the growth rate of Yacy?

Date: 2012-11-25 21:19:08

I was wondering if there are any statistics on the growth / take-up of Yacy please? A graph of users or index size over time would be interesting.

Statistik: Verfasst von Fenweruha — So Nov 25, 2012 9:19 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2012-11-26 11:10:00

I think http://yacystats.de/network.html might be what you are looking for. It has the data of the last 12 months.

Statistik: Verfasst von Low012 — Mo Nov 26, 2012 11:10 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-26 12:24:58

Low012 hat geschrieben:\ War auf dem System denn YaCy irgendwann mal installiert? Eventuell würde es dann ja helfen, die Datei [/var/lib/yacy/yacy.running]{style="font-weight: bold"} zu löschen, wenn sie existiert oder [/etc/init.d/yacy stop]{style="font-weight: bold"} auszuführen und dann mit [/etc/init.d/yacy start]{style="font-weight: bold"} nochmal zu starten.\


Auf dem System war noch nie ein yacy drauf. Das Verzeichnis /var/lib/yacy/ gibt es daher nicht, auch nicht /etc/init.d/yacy. Vielleicht spielt es eine Rolle, dass das System kein Original-Debian, sondern Ubuntu 12.04 ist? Hier noch, was uname -a sagt (falls das Indizien liefert):

Code:
Linux suma 3.2.0-33-generic-pae #52-Ubuntu SMP Thu Oct 18 16:39:21 UTC 2012 i686 i686 i386 GNU/Linux

Statistik: Verfasst von wsb — Mo Nov 26, 2012 12:24 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2012-11-26 15:30:05

Low012 hat geschrieben:\ I think might be what you are looking for. It has the data of the last 12 months.\



Not looking to good is it? It\’s shrunk dramatically over the last year. Could this be because it is only a research project rather than a product for people to use? If so when will they reverse that?

Statistik: Verfasst von Fenweruha — Mo Nov 26, 2012 3:30 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-26 19:17:09

Ich werde das mal in einer virtuellen Maschine installieren und schauen, was bei mir passiert.

Statistik: Verfasst von Low012 — Mo Nov 26, 2012 7:17 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2012-11-26 19:22:14

Well, it looks like it, but there also was a dramatic growth last year when the Free Software Foundation Europe mentioned YaCy in their newsletter. The project received some media coverage and lots of people tried YaCy last November. Right now I\’d say the numbers are back to normal.

Statistik: Verfasst von Low012 — Mo Nov 26, 2012 7:22 pm


Mitmachen • 29c3

Date: 2012-11-26 19:29:21

Fährt jemand zum 29c3? Ich werde eventuell für einen Tag hin fahren, bin aber noch nicht sicher. Hamburg oder Berlin nimmt sich bei mir von der Anreise her nicht viel, aber ich hoffe, dass es im CCH etwas entspannter zugeht als im bcc. (Auch wenn ich das bcc vom Gebäude her immer sehr mochte und das CCH nicht besonders gemütlich in Erinnerung habe.)

Statistik: Verfasst von Low012 — Mo Nov 26, 2012 7:29 pm


Mitmachen • Re: 29c3

Date: 2012-11-26 20:07:17

ah ich hatte viel Lust dazu, es wird mir aber aus familiären Gründen nicht möglich sein... :(
Aber ich werde eine virtuelle Präsenz versuchen, falls Jens mir wieder eine VM in der Colocation zur Verfügung stellen kann! :)

Statistik: Verfasst von Orbiter — Mo Nov 26, 2012 8:07 pm


Wunschliste • OCR für Bilder

Date: 2012-11-26 20:27:18

Es wäre ja ziemlich cool, wenn Bilder durch eine OCR Software analysiert werden, und diese dann beispielsweise bei der Bildersuche gefunden werden, wenn der Text darin vorkommt.

Statistik: Verfasst von Lotus — Mo Nov 26, 2012 8:27 pm


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-27 01:30:17

Während meiner Beratungszeit für die DDB habe ich die Entscheider mehr als deutlich auf freie-Software - Konzepte und Nutzerbeteiligung hingewiesen. Ohne eine offene Plattform gibts auch kein offenes Wissen! Um meine Apelle möglichst dramatisch zu machen hatte ich beim ersten Workshop im Schloss Birlingshoven ein Forum eröffnet und präsentiert - mit durchaus gutem Feedback. Das war erst nur als \‘Schocker\’ für die nicht-sooo digital-affinen Leute gedacht, aber dann hat man mich gebeten das Ding doch zu bewahren, und hier ist es:

http://ddb-forum.de - das Forum zur Deutschen Digitalen Bibliothek{.postlink}!

Analog dazu gibts nun auch die Facebookseite: http://www.facebook.com/DeutscheDigitaleBibliothek

Statistik: Verfasst von Orbiter — Di Nov 27, 2012 1:30 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-27 19:43:21

Die Installation lief bei mir ohne Probleme durch. Vielleicht ist auf dem System, auf dem es zu dem Fehler kommt, aber irgendwas anders als bei mir.

Kannst du eine Liste aller installierten Packages erzeugen und hier posten (oder mir per Mail schicken: marc.nause@gmx.de), damit ich die beiden Systeme vergleichen kann und meins ggf. anpassen kann?

Code:
dpkg --get-selections | gzip -9 > packages.gz



Eventuell muss vorm Upload in dieses Forum die Dateiendung geändert werden, weil die Datei sonst abgewiesen wird. \“zip\” sollte funktionieren.

Statistik: Verfasst von Low012 — Di Nov 27, 2012 7:43 pm


Mitmachen • Re: YaCy @ Summit of New Thinking 15.-16. November

Date: 2012-11-28 00:14:40

Michael, das sind zwei nette Erklärbilder :-)

Statistik: Verfasst von Huppi — Mi Nov 28, 2012 12:14 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-11-28 00:22:39

http://sphinxsearch.com/

\ Sphinx is an open source full text search server, designed from the ground up with performance, relevance (aka search quality), and integration simplicity in mind. It\'s written in C++ and works on Linux (RedHat, Ubuntu, etc), Windows, MacOS, Solaris, FreeBSD, and a few other systems.\ \ Sphinx lets you either batch index and search data stored in an SQL database, NoSQL storage, or just files quickly and easily --- or index and search data on the fly, working with Sphinx pretty much as with a database server.\ \ A variety of text processing features enable fine-tuning Sphinx for your particular application requirements, and a number of relevance functions ensures you can tweak search quality as well.\ \ Searching via SphinxAPI is as simple as 3 lines of code, and querying via SphinxQL is even simpler, with search queries expressed in good old SQL.\ \ Sphinx clusters scale up to tens of billions of documents and hundreds of millions search queries per day, powering top websites such as Craigslist, Living Social, MetaCafe and Groupon\... to view a complete list of known users please visit our Powered-by page.\ \ And last but not least, it\'s open-sourced under GPLv2, and the community edition is free to use.\

Statistik: Verfasst von Huppi — Mi Nov 28, 2012 12:22 am


Solr Support • Re: ApacheCon Europe 5–8 November 2012

Date: 2012-11-28 01:18:44

Die ApacheCon Webseiten hostet jetzt auch meine Folien, ich poste mal den Link hier damit er besser gefunden werden kann :D http://archive.apachecon.com/eu2012/pre ... d-yacy.pdf{.postlink}

Statistik: Verfasst von Orbiter — Mi Nov 28, 2012 1:18 am


Solr Support • Re: ApacheCon Europe 5–8 November 2012

Date: 2012-11-28 01:23:38

jaa.. und es gibt nun auch Ton zum Runterladen. Videos soll es nächsten Monat geben. Hier ist nun mein Vortrag nur als Ton:
http://feathercast.apache.org/podcasts/ ... 08_004.MP3{.postlink}

Statistik: Verfasst von Orbiter — Mi Nov 28, 2012 1:23 am


Suchmaschinen • Re: Zeitungen wollen nicht mehr über Google gefunden werden

Date: 2012-11-28 08:44:44

Fefe (der ja auch mal vom \“Zorn der Verleger\” getroffen wurde, \“paperboy\“) verlinkt ein interessantes Dokument: http://blog.fefe.de/?ts=ae4bc129

Statistik: Verfasst von Low012 — Mi Nov 28, 2012 8:44 am


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-28 14:24:52

Heise hat einen Bericht darüber: http://www.heise.de/newsticker/meldung/ ... 58424.html{.postlink}

Auf http://www.deutsche-digitale-bibliothek ... stitutions{.postlink} haben sie auch OpenStreetMap statt GoogleMaps benutzt.

Nur bekomme ich mit Opera leider sowas auf allen Seiten: \“Ihr Browser kann nicht alle Inhalte dieser Seite anzeigen. Bitte aktualisieren Sie Ihren Browser auf eine neuere Version oder verwenden Sie einen anderen Browser.\” Ich dachte, das gibt es seit den 90ern nicht mehr. :lol:

Statistik: Verfasst von Low012 — Mi Nov 28, 2012 2:24 pm


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-28 14:32:49

ja wunderbar, ähnliches Fehlermeldungen habe ich auch auf dem Twitter-Account DDBForum bekommen, die dachten da alle ich sei der offizielle Communitybeauftragte :( .. das was ich ja immer wieder empfohlen habe. Naja.

Auch interessant: das DDB-Forum.de läuft nicht an, das sitzt wohl in einer Henne-Ei Situation fest. (keiner traut sich zu \‘den ersten\’ zu gehören, glaube ich)
Wollt ihr hier da mal mithelfen ein wenig Leben in die Bude zu bringen? So als \‘Anlasser\‘?

Statistik: Verfasst von Orbiter — Mi Nov 28, 2012 2:32 pm


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-28 14:56:55

Und nach mir kann man auch suchen: http://beta.deutsche-digitale-bibliothe ... marc+nause{.postlink}

Yay! :ugeek:

Statistik: Verfasst von Low012 — Mi Nov 28, 2012 2:56 pm


Presse • WDR5: Auf der Suche nach Alternativen zu \“Google\”

Date: 2012-11-28 23:43:42

das Leistungsschutzrecht hat sie wohl wachgeklingelt, und YaCy entdecken lassen!

\ Gegen-Google\ \ Seit einiger Zeit läuft weltweit ein Projekt, bei dem die Macher eine ganz eigene, freie Suchmaschine herstellen wollen. Das Projekt heißt „YaCy". Das Besondere: Die Suche soll nicht auf einem zentralen Server, sondern bei allen angeschlossenen Mitgliedern stattfinden. Um mitzumachen, muss man auf einem Computer innerhalb des eigenen Netzwerkes die freie und kostenlose Software installieren. Es entsteht dann ein lokaler Suchindex, mit dem man die Datenspeicher der eigenen Computer durchsuchen kann. Die globale Suchfunktion entsteht dann dadurch, dass alle lokalen Suchindizes der einzelnen Teilnehmer zusammen durchsucht werden.\



http://www.wdr5.de/sendungen/leonardo/s ... oogle.html{.postlink}

Das lief heute um 16:05! ausgerechnet heute!

Download der mp3-Datei hier: http://medien.wdr.de/m/1354120268/radio ... 121128.mp3{.postlink}

Statistik: Verfasst von Orbiter — Mi Nov 28, 2012 11:43 pm


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-29 13:29:21

Ist das Forum eigentlich irgendwo bei der DDB verlinkt? Ich finde es nichtmal auf den ersten Ergebnisseiten, wenn ich bei Google mit [deutsche digitale bibliothek forum]{style=“font-style: italic”} danach suche.

Statistik: Verfasst von Low012 — Do Nov 29, 2012 1:29 pm


YaCy Coding & Architektur • Re: Bewertungen / Ranking

Date: 2012-11-29 13:36:09

Hallo Marek, hast du schon was? muss ja nicht perfekt sein!
Ich muss mich jetzt auch mehr ans Solr Ranking machen, erst einmal mache ich die Boosts einstellbar.

Statistik: Verfasst von Orbiter — Do Nov 29, 2012 1:36 pm


Panorama • Re: DDB - Die Deutsche Digitale Bibliothek

Date: 2012-11-29 13:46:41

Low012 hat geschrieben:\ Ich finde es nichtmal auf den ersten Ergebnisseiten, wenn ich bei Google mit [deutsche digitale bibliothek forum]{style="font-style: italic"} danach suche.\



ja aber dafür ist dieses Topic hier auf Platz 1 :lol: :lol: :lol:
Genau deswegen hab ich auch ganz oben im ersten Posting nochmal einen Link zum ddb-forum.de drauf gemacht.

Ja ich glaube mal, das muss bei Google erst noch ankommen. Die Seite war 2 Jahre im Dornröschenschlaf und hat nun wohl dort im Crawler die Markierung \‘ändert sich nie\‘. Hoffe ich mal. Hab dort die Robots richtig gesetzt, auch die Robots-Rechte im Forum, hab einen Crawl mit YaCy ausprobiert, alles ok.

Übrigens habe ich das Forum auch bei der deutschen Nationalbibliothek \‘richtig\’ gemeldet und Feed-Back bekommen: Ja Forum sei ok, aber da müsse oben drauf stehen es sei nicht offiziell das der DDB. Hab ich gemacht. Wer nun die Titelzeile liest muss eigentlich gleich denken: DDB = Social Media Fail.

Low012 hat geschrieben:\ Ist das Forum eigentlich irgendwo bei der DDB verlinkt?\



Nein, die haben das nicht verlinkt. Nirgends.

Statistik: Verfasst von Orbiter — Do Nov 29, 2012 1:46 pm


Panorama • Umfrage Leistungsschutzrecht: Wird Google abschalten?

Date: 2012-11-30 08:42:20

Gestern Nacht wurde das Leistungsschutzrecht in der ersten Sitzung im Bundestag verhandelt. Ein schöner Artikel dazu ist hier:
http://www.welt.de/politik/deutschland/ ... i-lsr.html{.postlink}

Ist nun eigentlich schon klar was passiert wenn das #LSR in Kraft tritt?
- die Befürworter erwarten dass Google dann kräftig an die Verlage zahlt
- die Gegner befürchten, dass Google die Verlage einfach aus dem Index nimmt und somit der Schuss kräftig nach hinten los geht.

Es hängt also viel davon ab, wie sich Google verhält! Findet ihr Hinweise darauf was passieren wird? Dann bitte unten posten.

Statistik: Verfasst von Orbiter — Fr Nov 30, 2012 8:42 am


Panorama • Re: Umfrage Leistungsschutzrecht: Wird Google abschalten?

Date: 2012-11-30 10:05:27

In Belgien haben sie ja die Zeitungen auch mal gesperrt:
http://www.heise.de/newsticker/meldung/ ... 80764.html{.postlink}

Daher denke ich, dass sie auch in Deutschland damit keine Probleme hätten.

Die Sperre aus dem o.g. Artikel wurde übrigens wieder aufgehoben:
http://www.heise.de/newsticker/meldung/ ... 81611.html{.postlink}

Statistik: Verfasst von Low012 — Fr Nov 30, 2012 10:05 am


Panorama • Re: Umfrage Leistungsschutzrecht: Wird Google abschalten?

Date: 2012-11-30 10:57:33

Google hat hier offenbar in einigen Zeitungen eine \’Drohung{.postlink}\’ als Anzeige geschaltet.

Ich vermute das könnte aber bedeuten dass Google [nicht]{style=“font-style: italic”} abschalten würde, denn wenn sie schon beschlossen haben nicht abzuschalten, ist so eine Anzeige hilfreich und daher notwendig um diese Kosten zu sparen. Denkfehler?

Statistik: Verfasst von Orbiter — Fr Nov 30, 2012 10:57 am


Panorama • 楽天 ヴィトン

Date: 2012-11-30 12:45:55

WQWCQCQQQQCW
QWKZZWQWZCKZ
IPIIPPIPIJVJ
TEGGTTGTELJG
YKYYVYYVKVVV

Statistik: Verfasst von Gast — Fr Nov 30, 2012 12:45 pm


Panorama • ルイヴィトン モノグラム

Date: 2012-11-30 12:47:23

WQWCQCQQQQCW
QWKZZWQWZCKZ
IPIIPPIPIJVJ
TEGGTTGTELJG
YKYYVYYVKVVV

Statistik: Verfasst von Gast — Fr Nov 30, 2012 12:47 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-30 16:03:18

Low012 hat geschrieben:\ Die Installation lief bei mir ohne Probleme durch. Vielleicht ist auf dem System, auf dem es zu dem Fehler kommt, aber irgendwas anders als bei mir.\ \ Kannst du eine Liste aller installierten Packages erzeugen und hier posten (oder mir per Mail schicken: ), damit ich die beiden Systeme vergleichen kann und meins ggf. anpassen kann?\ \ Code: : `dpkg --get-selections | gzip -9 > packages.gz` \ \ Eventuell muss vorm Upload in dieses Forum die Dateiendung geändert werden, weil die Datei sonst abgewiesen wird. \"zip\" sollte funktionieren.\



DANKE für\’s drum kümmern! Bin jetzt endlich auch wieder dazu gekommen und habe die Liste der Packages (damit sie public einsehbar ist) auf nen Server gelegt:

http://metager.de/ubuntu-packages.txt

Hope it helps!

Statistik: Verfasst von wsb — Fr Nov 30, 2012 4:03 pm


Panorama • Basketball ShoesRed Bottoms.com

Date: 2012-11-30 17:01:50

Paddle Plank siding: You can find pair of elements that will ascertain the typical of this paddleboard harmony, in addition to level. Minor paddle chat rooms are great if you want in order to paddle pathways, wetlands, as well as other such type of fishing holes which happivwly <a href=http://www.nbabasketballshoess.com/>Cheap NBA Shoes</a>,
en to be tranquil. Exclusively coastal swimming, rather long exercise user discussion forums isnxf Basketball Shoes Sale{.postlink},
can be a most suitable personal preference. As big as any plank siding allows you to eject beforehand and thus just the tools for long-term miles. Tricky end up being challenging to handle and then uhogc <a href=http://www.nbabasketballshoess.com/>Cheap NBA Shoes</a>,
retail outlet. Find the considerably more kinds if you could bear all of them quite easily.

Statistik: Verfasst von Gast — Fr Nov 30, 2012 5:01 pm


Panorama • isabel marant

Date: 2012-11-30 19:18:14

The type within just [isabel marant shoes €178]{style=“font-weight: bold”}{.postlink} the lookup to get a very good all-natural, relaxed, definitely no charge and straightforward temperament is often a disciplined endure within your . Cleaned texture and consistancy and in addition a little wrinkly, pale fabric with effectively lit designs and styles strengthen the intention of staining outcomes,[isabel marant sneakers €137]{style=“font-weight: bold”}{.postlink} seams supplies thumb sprained ankle remedy slight don to accomplish the before specifics, an extraordinary outstanding. Every one of these result in Isabel Marant Sneakers a specific trigger which we would undoubtedly attraction.

Approximately now,[isabel marant boots €377]{style=“font-weight: bold”}{.postlink} acquired smaller if any many benefits to the globe of favor. A typical intent of sneakers or boots only agreed to become put into use in defensive plenty of of our paws in the authentic risk, which often entered experience of one\’s forerunners available as gemstone, fluids after which thorns. Even so, presently, sneakers are actually not combined with that will small motive. They might have became a designer announcement and therefore are in these modern times one of many pretty rivals6696 couple of mediums, which might assistance everyone when producing an impression. So, never be hesitant at any time again. You should [www.isabelnewarrivals.com]{style=“font-weight: bold”}{.postlink} to begin developing that walk pertaining to wandering inside the general public not to refer to see the modification within you while you have a property inside a very good lifestyle.

Statistik: Verfasst von Gast — Fr Nov 30, 2012 7:18 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-11-30 19:26:51

Super! Vielen Dank! Ich hatte eben nur Zeit, um mal kurz ein \“diff\” zu machen. Das \“Problemsystem\” und meine virtuelle Maschine unterscheiden sich schon ganz schön. Ich muss mir die Unterschiede nochmal genauer ansehen, aber ich habe schon gesehen, dass sich beide Systeme u.a. bei der installierten Java Virtual Machine unterscheiden.

Statistik: Verfasst von Low012 — Fr Nov 30, 2012 7:26 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2012-11-30 19:45:52

Auf Tagesschau.de habe ich gelesen, dass das Gesetz diese Legislaturperiode wohl nicht mehr beschlossen wird. Nach meiner Einschätzung ist das eine Diskussion die geführt wird und zum Schluss verworfen wird.
http://www.tagesschau.de/inland/leistun ... ht108.html{.postlink}

\ Nach der Beratung in den Fachausschüssen wird der Gesetzentwurf dann möglicherweise mit Änderungsvorschlägen erneut dem Bundestag vorgelegt. Ob das Gesetz aber noch in der laufenden Legislaturperiode in zweiter und dritter Lesung verabschiedet werden kann, ist ungewiss.\


Und nicht zuletzt sterben Dinosaurier irgendwann aus. ;-)
http://www.tagesschau.de/inland/jugend- ... ht100.html{.postlink}

Statistik: Verfasst von Lotus — Fr Nov 30, 2012 7:45 pm


Panorama • mulberry outlet

Date: 2012-12-01 17:41:49

The legendary Bayswater baggage [mulberry sale \$328]{style=“font-weight: bold”}{.postlink} decorated with croc and snakeskin patterns pay out tribute for the cult development of animal prints. On top of that, the manner fold may also have the opportunity to pile up about the relaxed stylish and youthful Alexa luggage in several shades. These fantastic equipment give you the chance to complement your chilly season wardrobe with timeless fashion creations. Mulberry may be the manufacturer to keep [mulberry outlet \$207]{style=“font-weight: bold”}{.postlink} a watch on if you\’d like to flaunt your trend-awareness. The choice belonging to the 6696baby most refined items and mood-boosting shades would be the magic components made use of by Mulberry to catch the attention of the attention of all design and style enthusiasts from all over the globe.[www.mulberrysbaby.com]{style=“font-weight: bold”}{.postlink} Superstars just are not able to get sufficient of both the icon and then the brand new bag models featured by this atelier.

Statistik: Verfasst von Gast — Sa Dez 01, 2012 5:41 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-12-02 08:59:44

TOPSY - social search

http://topsy.com/s?q=yacy
http://otter.topsy.com/searchdate.rss?q=yacy

Statistik: Verfasst von Orbiter — So Dez 02, 2012 8:59 am


Fragen und Antworten • erneutes crawlen

Date: 2012-12-02 14:44:55

Hallo

ich habe gesehen, dass sich einige Funktionen ja super entwickelt haben, wie z.B. die Übersicht aller Domains (\“Host Browser\” - wer hat den gemacht??) und wieviele Urls dahinter stecken oder auch die Top 1000 Domain Funktion.

Ich hatte bei alexia.com versucht zu crawlen, aber das geht nicht wegen robots-exclusion. Dann hatte ich das dort angebotene URL-Zip heruntergeladen, mit den 1 MIO meistbesuchten Webseiten, die Zahlen ersetzt und die Urls als http://www. (statt Kommata) als text im HTML oder in einer XML gespeichert aus Excel.

Leider kann mein HTML Editor die 100 MB Webseite nicht laden und ich glaube yacy auch nicht.

Dabei wäre es doch gut, diese URLs zu implementieren: http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

Der Host Browser verlinkt als Funktion zu yacy, um die nächste Ebene zu haben. Einige Domains kenne ich nicht und wollte die mal browsen aus der yacy Seite heraus, kann man nicht einen Button machen, so dass man auf den klickt und sich copy paste der URL sparen kann und dann die Domain im Browser ansehen kann?

Nebeneffekt: Dann kann man diese Seite auch nochmal abspeichern als html und alle Hosts in der Seite Hostbrowser nochmal als Crawlstartseite starten!!


So dieser Hintergrund erzeugt folgende Frage:

Ich habe nun eine Alexa Url, die in den Top 1000 Alexa Urls drin ist, in yacy aber nicht. Ich crawle die nun.
Wie kann dann sichergestellt sein, dass auch im Host Browser diese Domain ebenso (mit den vielen Unterseiten) erstens ebenso vorhanden ist oder gar ein entsprechenes Ranking aufgrund der Menge der Webseiten hat? d.h. die Unterseiten alle auch gecrawled werden.

Meine Lösung dazu wäre die Anregung, dass man per DHT eingehende URLs bzw. Domains oder die Webseite des Domain-Host-Browser Ansicht *****SELBST ****** nochmal crawled oder es in regelmässigen Abständen tut.

D.h. wenn eine Domain-liste vorhanden ist, habe ich z.B. an meiner gesehen, dass das russische Unix Forum ganz oben ist, und dass irgend einer seinen Blog für Filme gut crawled. Damit wird aber der Index zu einem Spako-getriebenen Index und ist nicht repräsentativ.


Mein Vorschlag oder Frage ist daher, URLs können über DHT oder einen eigenen oder remote Crawl kommen, ich fände es aber gut, wenn es VIERTENS einen AUTO Crawl der Domains gäbe, so dass ich selbst anfage, bei dem EIngang einer neuen, meinem Node bislang unbekannten Domain, diese nochmal selbst zu crawlen. Auch wenn mir einer die Website oder Webseiten oder die Domain des Unixforum sendet. Die Inhalte könnten ja neu sei und es macht doch dann Sinn, es nochmal selbst als Startseite zu crawlen.

Wäre es möglich, eine default-on check box zu haben, dass die Webseite einer dem Node neu bekannt werdenden Domain mit 1 Hop nochmal crawled?

Insofern angenommen UnixForum wäre nicht top, sondern gar nicht bekannt, dann würde hierzu ein Crawl gestartet und zwar nicht nur von mir, sondern von jedem Node, der diese neue Domain bekommt per DHT.

Es ist sehr interessant, die Top 1 Mio Domains von Alexa zu vergleichen mit den von Yacy aus dem Host Browser.

Wie bekommt man die Alexa Domains in Yacy ähnlich repräsentativ hinein? Ich weiss, dass man die Zahl der gecrawlten Unterseiten und überhaupt vorhandene Unterseiten als Rankingtreiber vergleicht mit den Klickbasierten Rankings von Alexa.

Aber dennoch sollten grosse Webseiten die bei Alexa sind auch durch yacy gecrawlt werden.

Hat das schon jemand versucht? und kann es ein Re-Crawl der Host Browser Seite geben, z.B. indem man die Domain auch mit HTTP verlinkt in einem zweiten Hyperlink dahinter?

Statistik: Verfasst von ribbon — So Dez 02, 2012 2:44 pm


Fragen und Antworten • Re: erneutes crawlen

Date: 2012-12-02 16:40:25

ei ribbon, das sind viele Frage, weiss gar nicht wie man die strukturiert beantworten kann. Kannst du ggf. noch ein paar Nummer davor machen, dann ist das einfacher zu zitieren.

Der HostBrowser hat eine interessante Geschichte und ich kann sie jetzt noch nicht erzählen ... später!

Die große Alexa-Liste sollte man verarbeiten können, ich empfehle dir hier mit einem emacs ranzugehen, nicht excel.

Dazu auch: man kann jetzt den Crawler mit einer langen Liste direkt starten; Crawl starts können nun mehr als einen Startpunkt haben.

\“Der Host Browser verlinkt als Funktion zu yacy, um die nächste Ebene zu haben\” verstehe ich nicht.\”

\“kann man nicht einen Button machen, so dass man auf den klickt und sich copy paste der URL sparen kann und dann die Domain im Browser ansehen kann?\” -> wo soll der Button hin?

\“Wäre es möglich, eine default-on check box zu haben, dass die Webseite einer dem Node neu bekannt werdenden Domain mit 1 Hop nochmal crawled?\” - sicher... muss nur jemand machen! Du kannst auch mal versuchen solche Dinge aus dem Log herauszufinden und dann zu scripten.

Statistik: Verfasst von Orbiter — So Dez 02, 2012 4:40 pm


Fragen und Antworten • Re: erneutes crawlen

Date: 2012-12-02 17:36:24

ok danke für die Antwort. PS: die Homepage flackert durch reloaden im explorer.
Der Button soll direkt hinter der Domain in der Host Liste. Wenn ich einen Link in der Host Liste Klicke, kommt ja die nächste-Sub-Liste der Domain in yacy, ich will den Host aber als Webseite browsen, also nicht zu //hostlisteyacy?yahoo.de sondern direkt zu www.yahoo.de{.postlink}

Wichtig ist mir, dass man eingehende Domains nochmal selbst crawled. oder man in der Host-Liste neben den Domains und dem Link zur Webseite des Hosts auch noch einen weiteren Button hat: Crawle diese Domain!!! Das wöre dann zwar manuell, aber nur zwei zeilen code für jede Domain.

und: Das Crawlen ist sehr unübersichtlich in der Gui geworden. die Expter-Crawl Seite habe ich unten gar nicht erst gefunden und für einen gestarteten Crawl finde ich auch keine Aktivität. Io_Java erro, dann war die Doman schon da und crawl verweigert. dann war ein robotexclusion drauf. dann war der skyscraper, der keinen crawl zuliess, einmal ist es mir gelungen, nach einem Crawl was zu sehen.

Wenn ich den Crawl auf 1 setzte, und die Host-Browse-Liste im HTML-Editor zu links gemacht habe, dann müsste er mir doch die 1000 URLS der Webseite anzeigen, leider geht das aber nicht. Sondern irgendwie fängt er bei der ersten URL (bei Tiefe 3) die erste Url (das war yacy.net) zu crawlen.
Dann ging er weiter und ich hatte weder die 2. Url von den 1000 noch eine Übersicht der 1000 Urls.

Kann man es nicht so strukturieren, dass erstmal alle 1000 Urls einer seite gelistet werden, dann die 100 Links auf der Seite der ersten URl von den 1000?
Bei Hop1 braucht man eine manuelle Eingreifmöglichkeit. Ich sehe eine neue Seite, crawle die mit hop 1, und habe alle 100 Links auf der Seite.
dann will ich in einer Liste manuell mit check boxen sagen, diese weitercrawlen und diese nicht.

Z,B, ausgehend von der Top 1 Mio Alexa liste oder der Top 100 Hostbrowse Liste aus yacy. Ich will meinen Crawler nicht zur Top Domain unixforum senden und dort erstmal 5 Stunden austoben lassen, wenn ich sagen will, dass er diese Domain überspringt und stattdessen die Top 8 Postion der Urls auf einer Seite zuerst crawled.

Oder Ausgabe bei Hop 1 aller gefundenen URls auf einer Seite nach Alphabet und dann kann ich mit checkboxclick definieren, was als nächstes im 1 Hop Verfahren gecrawelt wird ...


Danke Gruss

Statistik: Verfasst von ribbon — So Dez 02, 2012 5:36 pm


Off-Topic • Music Player Alternativen

Date: 2012-12-02 20:51:38

gestern hat mich das iTunes 11 Update erwischt .. oh je das ist ja nur noch eine Verkaufsplattform, Übersicht ist ganz weg.
Und man kann die iTunes Library nicht auf iTunes 10 zurückmigrieren...

Will nun iTunes nicht mehr: es gibt ja so einiges an Alternativen, was nehmt ihr da so? Empfehlungen?

Statistik: Verfasst von Orbiter — So Dez 02, 2012 8:51 pm


Mitmachen • RSS Crawlen

Date: 2012-12-02 21:51:13

yacyrss.rar

Hallo kann jemand regelmäßig diese RSS crawlen? Danke
rar in txt umbenennen !!

Statistik: Verfasst von ribbon — So Dez 02, 2012 9:51 pm


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-02 22:26:31

https://code.google.com/p/phonon-vlc-mplayer/

der quarkplayer ist wie itunes

Statistik: Verfasst von ribbon — So Dez 02, 2012 10:26 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-03 08:34:49

Ich bin leider am Wochenende nicht dazu gekommen, nochmal rein zu schauen, hoffe aber, dass ich heute Abend dazu komme.

Könntest du noch die Ausgabe von

Code:
readlink -e `which java`

hier posten?

Statistik: Verfasst von Low012 — Mo Dez 03, 2012 8:34 am


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-03 08:37:29

Orbiter hat geschrieben:\ Will nun iTunes nicht mehr: es gibt ja so einiges an Alternativen, was nehmt ihr da so? Empfehlungen?\



Wofür brauchst du es denn? Nur als Player oder willst du damit auch einen iPod/iPhone befüllen?

Statistik: Verfasst von Low012 — Mo Dez 03, 2012 8:37 am


Mitmachen • Re: RSS Crawlen

Date: 2012-12-03 09:03:09

Habe es eben probiert, aber http://news.google.com/robots.txt lässt mich nicht. :(

Statistik: Verfasst von Low012 — Mo Dez 03, 2012 9:03 am


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-03 10:23:41

Nur als Player erst mal!
Das Problem ist aber tatsächlich da: wir haben hier noch diverse alte iPods für die man ein iTunes braucht um sie zu befüllen.
Gibts da was, was die gleichen Datenstrukturen des iTunes Media-Verzeichnis nutzen kann?

Statistik: Verfasst von Orbiter — Mo Dez 03, 2012 10:23 am


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-03 10:47:52

Als Mediaplayer benutze ich meistens den ganz normalen VLC, wobei ich keine Playlists oder sowas benutze, sondern nur Alben komplett in ihrer Originalreihenfolge höre.

Für meinen alten iPod Nano benutze ich gtkPod{.postlink} und Rhythmbox{.postlink}, aber du willst ja was für den Mac, oder?

Statistik: Verfasst von Low012 — Mo Dez 03, 2012 10:47 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-03 12:04:14

Low012 hat geschrieben:\ Ich bin leider am Wochenende nicht dazu gekommen, nochmal rein zu schauen, hoffe aber, dass ich heute Abend dazu komme.\ \ Könntest du noch die Ausgabe von Code: : `` readlink -e `which java` `` hier posten?\


Klaro, hier isse:

Code:
/usr/lib/jvm/java-7-openjdk-i386/jre/bin/java

Statistik: Verfasst von wsb — Mo Dez 03, 2012 12:04 pm


Mitmachen • Re: RSS Crawlen

Date: 2012-12-03 21:54:24

hä? du sollst ja nicht die Url des RSS Feed crawlen, sondern die URl des Feed-item.
Da ist ein google-präfix vor, aber der leitet ja sofort auf die Webseite der Zeitung weiter. Die kann man crawlen.
Dann ist entweder was im RSS lesegerät in yacy nicht richtig oder Du hast die google Feed-Url in den Crawler eingegeben.

Statistik: Verfasst von ribbon — Mo Dez 03, 2012 9:54 pm


Mitmachen • Re: RSS Crawlen

Date: 2012-12-04 09:47:28

ribbon hat geschrieben:\ Dann ist entweder was im RSS lesegerät in yacy nicht richtig oder Du hast die google Feed-Url in den Crawler eingegeben.\


Das Zweite! Wenigstens weiß ich jetzt aber, dass der Crawl aus einer Datei heraus wieder ordentlich funktioniert. ;)

Statistik: Verfasst von Low012 — Di Dez 04, 2012 9:47 am


Wunschliste • SRU

Date: 2012-12-05 20:14:35

http://www.dnb.de/DE/Service/DigitaleDi ... _node.html{.postlink}

hallo, es wäre schön, wenn yacy SRU unterstützen würde, so dass Nutzer, die Suchergebnisse von anderen erhalten, diese gleich in den eigenen Datenindex integrieren können, so werden auch durch die Stichworte des Nutzers die lokalen Ergebnisse immer besser.

Ist das derzeit schon der Fall, dass mir gesandte Suchergebnisse gleich in meinen Lokalen Node einfliessen?

Wenn nein, sollte man dieses zügig integrieren?

Statistik: Verfasst von ribbon — Mi Dez 05, 2012 8:14 pm


Hilfe für Einsteiger und Anwender • Yacy startet nicht

Date: 2012-12-05 20:15:31

Hey Leute,
Habe Yacy auf meinem Ubuntu (10.04) Server installiert. Und habe zum testen mal Yacy 300MB gegeben.
Nur wenn Yacy versucht zu starten kommt nur :

\ root\@tyjadaswüsstetihrgerne\^\^:\~\# /etc/init.d/yacy start\ Starting YaCy P2P Web Search: failed.\ root\@lvps5-35-242-145:\~\# Starting YaCy P2P Web Search: failed.\



Im Ordner /var/lib/yacy/LOG ist nichts.

Mfg ternes3

Statistik: Verfasst von ternes3 — Mi Dez 05, 2012 8:15 pm


Wunschliste • Re: SRU

Date: 2012-12-05 21:33:19

Dadurch, dass die Suchergebnisse von anderen Peers zum Verifizieren gecrawlt werden, hast du diese Funktion bereits eingebaut.

Statistik: Verfasst von PCA42 — Mi Dez 05, 2012 9:33 pm


Wunschliste • Re: SRU

Date: 2012-12-05 21:33:45

das query-Attributformat in YaCy [IST]{style=“font-style: italic”} SRU!

Statistik: Verfasst von Orbiter — Mi Dez 05, 2012 9:33 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-06 10:15:51

Also an der JVM liegt es nicht. Ich habe jetzt das System auf dem Laptop fast komplett nachgebaut (ein paar Pakete fehlen noch) und kann YaCy immer noch installieren und starten.

Mittlerweile ist ja noch ein zweiter Fall aufgetreten (posting.php?mode=reply&f=18&t=4556{.postlink-local}) so dass ich nicht glaube, dass es unbedingt an einer ungewöhnlichen Konfiguration liegt.

Was mir eben auffällt: In beiden Fällen wurde apt-get als root ausgeführt. Bei meinen Tests war ich nicht root, sondern habe apt-get mit sudo ausgeführt. Ich habe im Moment leider keinen Zugriff auf mein Testsystem, so dass ich erst später ausprobieren kann, ob das einen Unterschied macht.

Statistik: Verfasst von Low012 — Do Dez 06, 2012 10:15 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2012-12-06 10:15:53

Ich denke, das ist der gleiche Fehler wie unter viewtopic.php?f=5&t=4541{.postlink-local} beschrieben.

[HONKJUPPMATEMETTOUZOSEPPWIRRYOR? ;o)]{style=“font-size: 50%; line-height: 116%;“}

Statistik: Verfasst von Low012 — Do Dez 06, 2012 10:15 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-06 17:05:44

Sehe gerade das auf mein Thema verlinkt worden ist.
Also ich habe kein Debian sondern Ubuntu
Aber sonst verlief alles wie bei mir.

Mfg ternes3

Statistik: Verfasst von ternes3 — Do Dez 06, 2012 5:05 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-06 20:04:14

\“Echter\” root oder sudo macht auch keinen Unterschied. Ich forsche weiter, aber langsam gehen mir die Ideen aus...

Statistik: Verfasst von Low012 — Do Dez 06, 2012 8:04 pm


Wunschliste • Re: SRU

Date: 2012-12-07 06:54:35

ist ja super!

Statistik: Verfasst von ribbon — Fr Dez 07, 2012 6:54 am


Wunschliste • Re: YaCy and Arado Api-Interface

Date: 2012-12-07 06:58:32

habe das mal getestet. Arado gefällt mir als Datenbank nicht schlecht, ein Export aus Yacy könnte man über den XML-RSS Export machen, doch der bricht immer bei 100.000 URLs ab. Wieso das? und warum schaffte er nicht meine 5 Mio Urls?
Das XML-RSS Formal hat noch Zeit und Permalink und anderes im XML, kann man nicht auch explizit einen Arado-Export machen? das wäre ja nur aus 5 zeilen code 3 Zeilen machen, so dass es ohne Aufsetzen eines Feeds importierbar wäre?
Ich denke es macht Sinn, auch eine SQL als Backup bedienen zu können. kann das jemand machen? würde gerne meine URLS in SQL backuppen.

Statistik: Verfasst von ribbon — Fr Dez 07, 2012 6:58 am


Hilfe für Einsteiger und Anwender • crawl von einem file starten

Date: 2012-12-08 14:45:12

hallo
ich habe eine txt datei mit urls
diese sind im format `url`
also mit einem komma oben am anfang und ende, da auch excel so exportiert.
diese wollte ich nun crawlen, aber igendwie geht es nicht so gut von dem file auf der festplatte.
werden nur hyperlinks erkannt ? oder auch urls als txt zeile?

Statistik: Verfasst von ribbon — Sa Dez 08, 2012 2:45 pm


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-08 18:03:10

Hallo,

so wie ich das in Erinnerung habe müssen Links in der Datei sein.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Dez 08, 2012 6:03 pm


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-09 14:21:23

Je Zeile eine URL sollte auch gehen.

Wie schon herausgefunden, liegt es wohl an den \’\‘.

Statistik: Verfasst von Lotus — So Dez 09, 2012 2:21 pm


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-09 21:39:14

hier sowas: http://www.dmoz.org/docs/en/rdf/content.example.txt

in diesem file

http://rdf.dmoz.org/rdf/content.rdf.u8.gz

http://www.dmoz.org/rdf.html


sollte man einfach durchcrawlen können

Statistik: Verfasst von ribbon — So Dez 09, 2012 9:39 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-11 17:14:36

Gibt es schon ne Lösung ?

mfg ternes3

Statistik: Verfasst von ternes3 — Di Dez 11, 2012 5:14 pm


Hilfe für Einsteiger und Anwender • Index exportieren und importieren

Date: 2012-12-12 16:01:45

Hallo Leute,
Gibt es die möglichkeit seinen gesamnten Index zu exportieren und in einer anderen Yacy Installation wieder importieren.

Mfg ternes3

Statistik: Verfasst von ternes3 — Mi Dez 12, 2012 4:01 pm


Hilfe für Einsteiger und Anwender • Re: Index exportieren und importieren

Date: 2012-12-12 21:27:53

das ist seit neuestem sehr cool und einfach:

exportierender Peer:
in http://localhost:8090/IndexControlURLs_p.html auf \“Create Dump\” drücken
- das zeigt danach den Pfad an wo der Dump erzeugt wurde.

importierender Peer:
in http://localhost:8090/IndexControlURLs_p.html auf \“Restore Dump\” drücken
- und im Feld \‘Dump File\’ den Pfad vorher reinkopieren.

Das kann man natürlich auch scripten, die binaries sind in <yacy>/bin/

Das geht dann so:

Code:
<yacy-mirror>/bin/indexrestore.sh `<yacy-source>/bin/indexdump.sh`

Statistik: Verfasst von Orbiter — Mi Dez 12, 2012 9:27 pm


Wunschliste • Re: OCR für Bilder

Date: 2012-12-12 23:21:31

gibts denn ein freies OCR? Das wäre tatsächlich ziemlich cool!

Statistik: Verfasst von Orbiter — Mi Dez 12, 2012 11:21 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2012-12-13 08:52:56

Ich bin leider noch nicht weiter gekommen, weil ich das Problem noch immer nicht reproduziert bekomme. :(

Kannst du dein System ein bisschen beschreiben (Laptop/PC/Server, RAM, Java-Version, ...)? Gibt es irgendwelche Besonderheiten in der Konfiguration? Läuft neben YaCy noch irgendwas anderes Server-artiges?

Statistik: Verfasst von Low012 — Do Dez 13, 2012 8:52 am


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-13 20:49:17

wäre es machbar, eine mysql.db datenbank mit urls drinne zu crawlen?

Statistik: Verfasst von ribbon — Do Dez 13, 2012 8:49 pm


Hilfe für Einsteiger und Anwender • Re: Dateien indexieren funktioniert nicht - Denkfehler?

Date: 2012-12-14 13:55:13

So nach langer Zeit ne kurze Antwort:

Seit Version 9025 funktioniert das crawlen lokaler Order oder gemounteter Shares unter Windows und Linux.

[Windows:]{style=“font-weight: bold”}
-Crawlstart mit file:///d:

[Linux]{style=“font-weight: bold”}
-Crawlstart mit file:///mnt/documents

Yacy muss beim crawlen von Shares vom gleichen User ausgeführt werden, der die Shares auch gemountet hat. Bzw. bei ubuntu muss man beim Mounten die Option uid=yacy angeben da der User yacy bei der Installation via apt-get angelegt wird und yacy dann auch ausführt.

Insofern erstmal danke [Orbiter]{style=“font-weight: bold”}!

Statistik: Verfasst von Michael_MPI — Fr Dez 14, 2012 1:55 pm


Hilfe für Einsteiger und Anwender • Poor performances of YaCy

Date: 2012-12-14 16:52:16

Hello everybody.

I\’m a new user to YaCy, and I just installed the last version of YaCy on my server.
However, it seems I achieve poor performances.
It is a standard installation, on the main Global network. I didn\’t change anything, except network port and performance related settings - see below.

YaCy appears to be mostly idle. For instance, on the \“Status\” page, I have:

Code:
Queues======Loader Queue:            0 | 200Local Crawl              0       Remote triggered Crawl   0       Pre-Queueing             0


while my speed is said to be 0 pages/minute...
Following the first minutes of launch, YaCy was very busy, retrieving a lot of data from DHT, as well as indexing at about 500 PPM. So it used to work \“fine\” I would say.

I followed what is recommended here: http://www.yacy-websuche.de/wiki/index. ... erformance{.postlink} but there is little to no change.
I increased memory from 600 MB to 5,000 MB, and the word cache from 90,000 to 450,000 words.
Yet, memory usage oscillate between 2,500 and 3,500 MB, and the word indexing cache is only at 1,000 words, according to the performance page.
CPU usage is very low as well.

So, what can I do to increase YaCy indexing rate ?

Statistik: Verfasst von OyooG — Fr Dez 14, 2012 4:52 pm


Hilfe für Einsteiger und Anwender • Re: Poor performances of YaCy

Date: 2012-12-14 18:00:42

well, this is a misunderstanding of this monitoring view!
While YaCy does exchange/transfer indexes automatically in P2P mode, it does _not_ create indexes on its own. What you see here is the indexing queue which does only anything if _you_ start a web crawl.
That means this is not \‘poor performance\‘, this is just showing that you have not started your own web crawl.

Go here: /CrawlStartExpert_p.html or /CrawlStartSite_p.html and enter a start URL. YaCy will then take web pages with not more that 120 pages per minute. It will be a multiple of that if you start more crawls at once because there is a protection again too much load on target servers by reduction of crawl speed on purpose.

Statistik: Verfasst von Orbiter — Fr Dez 14, 2012 6:00 pm


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-14 18:04:10

mach doch einen Export deiner DB und grepe dann auf \‘http\‘, dann hast du auch eine URL-Liste!

Statistik: Verfasst von Orbiter — Fr Dez 14, 2012 6:04 pm


Hilfe für Einsteiger und Anwender • Re: crawl von einem file starten

Date: 2012-12-14 20:59:46

mh danke, könnte ich mal probieren. habe eine lange url liste mit den ` ` drin, aber die kann ich ja rausnehmen.
generell ist es ja nicht so einfach (für mich) import und export für SQL zu machen, da mal bei jeglichem Tool die SQL immer in eine Server einbinden muss und nicht einfach als datei nehmen kann.
aber mit yacy bekommt man ja auch so viele urls, lerne gerade mehr über den export von yacy in den solr index.
der xml/liste/http export bricht ja bei 10,000 urls ab, wieso eigentlich nicht alle?
und gibt es für SLOR tools, wie man die dann in SQL bringen kann?

Statistik: Verfasst von ribbon — Fr Dez 14, 2012 8:59 pm


Wunschliste • Re: OCR für Bilder

Date: 2012-12-16 13:28:45

Ah, gute Frage. Ich hatte die Idee hier eigentlich nur mal weggeschrieben. ;-)
Ich hatte mal vor, privat ein kleines OCR Tool zu schreiben, bin aber aus zeitlichen Gründen nie dazu gekommen.
Meine Recherche hat \“Java OCR\” als geeignet identifiziert: vollständig in Java, ohne externe Abhängigkeiten.
http://roncemer.com/software-development/java-ocr/

Statistik: Verfasst von Lotus — So Dez 16, 2012 1:28 pm


Wunschliste • Re: OCR für Bilder

Date: 2012-12-16 16:12:54

sieht gut aus, nur habe ich das so verstanden dass diese Lib ohne weiteres keine Dokumente erkennen kann sondern erst trainiert werden muss.
Das sieht nach richtig viel Arbeit aus, da müsste erst jemand das Training durchführen und das Ergebnis als freie Daten veröffentlichen. Hat da jemand lust zu?

Statistik: Verfasst von Orbiter — So Dez 16, 2012 4:12 pm


Off-Topic • Android Twitterwall (fürs Fernsehen)

Date: 2012-12-16 16:17:21

Ich hab mal versucht ein ich-lerne-android -Projekt zu machen und dabei herausgekommen ist eine Twittterwall fürs Fernsehgucken, es ist nämlich manchmal recht lustig während dem Fernsehgucken die Tweets dazu mitzulesen.

Hier ist die Alpha-Version zum gleich installieren und ausprobieren: TVTroll - Twitterwall fürs Fernsehen{.postlink}

Jetzt überlege ich wie man daraus ggf. ein Suchinterface für YaCy machen kann, der Weg wäre nicht so weit. Aber dann mit Facetten-Navigation die für Android relevant sind wie \‘apk\‘-Filetypen. Ideen?

Statistik: Verfasst von Orbiter — So Dez 16, 2012 4:17 pm


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-17 22:27:27

Hm, also so schlimm finde ich das jetzt gar nicht.… Wenn Du die Seitenleiste wieder einblendest und ein bisschen spielst sieht das doch ganz vernünftig aus...

Thomas

Statistik: Verfasst von Vega — Mo Dez 17, 2012 10:27 pm


Off-Topic • Re: Music Player Alternativen

Date: 2012-12-18 12:44:17

ich hab die Seitenleiste auch wieder \‘entdeckt\‘, aber muss das denn sein, dass man die erst mal verbirgt? Ich nehme an, man will das ganze GUI Tablet-ähnlich anpassen. Jetzt fehlt nur noch die Voranzeige der Covers, das ist nun ein echter Rückschritt dass man die nicht mehr sehen kann. Was soll das denn?

Statistik: Verfasst von Orbiter — Di Dez 18, 2012 12:44 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-12-18 16:40:21

also wer eine schöne \‘Dateisuchmaschine\’ sucht, findet da einige im \‘Transparenzbericht\’ von Google:
http://www.google.com/transparencyrepor ... r=all-time{.postlink}

Da kann man ja noch ganz tolle Portale entdecken!

Statistik: Verfasst von Orbiter — Di Dez 18, 2012 4:40 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2012-12-19 00:26:08

https://aws.amazon.com/amis/common-crawl-quick-start

ist das bekannt ? kann es yacy auch als Amazon VM geben ?

Statistik: Verfasst von ribbon — Mi Dez 19, 2012 12:26 am


Mitmachen • Re: Raspberry Pi

Date: 2012-12-20 13:06:04

mittlerweile hat jemand in der YaCy Facebook-Gruppe{.postlink} auch mal nachgefragt.
ich hab mal geschaut was man nun dafür bezahlen muss: bei http://raspberrypi.rsdelivers.com/ bekommt man das B-Modell mit 512MB inklusive Gehäuse und Versandkosten für 45€. Hab das mal bestellt und gucke mal was man damit machen kann.

Bei Oracle gibts auch eine Java-Anleitung dazu: http://www.oracle.com/technetwork/artic ... 04896.html{.postlink}
Wenn man dann noch virtuellen Speicher bis 1GB zuweisen kann, sollte das funktionieren! Auf meinem N900 lief YaCy ja auch schon mal.

Statistik: Verfasst von Orbiter — Do Dez 20, 2012 1:06 pm


Mitmachen • Re: Raspberry Pi

Date: 2012-12-20 19:21:20

Zwei Kollegen von mir habe auch solche Dinger. Ich weiß aber nicht, ob die schon was damit veranstaltet haben. Ich habe leider noch ein ziemliches Backlog an Dingen, die ich machen möchte, weshalb ich schweren Herzens erstmal auf den Raspberry verzichte. :(

Statistik: Verfasst von Low012 — Do Dez 20, 2012 7:21 pm


Wunschliste • Re: OCR für Bilder

Date: 2012-12-21 18:28:04

Ich habe mir gerade einen Scanner zugelegt und Archiviere alte Rechnungen usw. jetzt wäre eine Lokale Suchmaschine mit OCR sehr praktisch:) Ich speichere die Dokumente als PDF 1.4 ab.

grüße

Statistik: Verfasst von bbtuxi — Fr Dez 21, 2012 6:28 pm


Hilfe für Einsteiger und Anwender • yacy läuft nicht auf SheevaPlug

Date: 2012-12-26 15:11:11

Hallo,

ich versuche yacy auf meinem SheevaPlug zu installieren.
Das OS ist Debian 6.0.6 und Java hat die Version 1.6.0_18 .
Wenn ich einfach die Linux-Version von Yacy von der Homepage herunter lade und das Startscript starte, dann startet yacy erst einmal, aber sowohl die Suche als auch die Administrationsseite sind extrem langsam. Nach einigen Stunden ist keins von beiden mehr erreichbar. Dann habe ich yacy einfach erneut gestartet und es war wieder erreichbar. Allerdings war die Zeit, bis es nicht mehr erreichbar war nach jedem Start kürzer.
Die Logs zeigen nichts, dass für mich relevant aussieht.
Auf dem Plug läuft noch Apache mit Friendica, postfix, ejabberd, ssh und ddclient.
Ich habe auch versucht, das Debian-Paket zu installieren, aber damit lässt sich yacy gar nicht starten.

Statistik: Verfasst von repatr — Mi Dez 26, 2012 3:11 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2012-12-26 18:55:38

Wahrscheinlich nimmt sich YaCy mehr RAM als das Ding per swapping aushält. Bitte von 600 auf bsp. 200MB runterstellen. Nach einem Neustart geht ja das Webinterface, dann in /Performance_p.html einen neuen Wert einstellen und YaCy neustarten.

Ansonsten müssten wir mal ins Log schauen was da drin steht.

Statistik: Verfasst von Orbiter — Mi Dez 26, 2012 6:55 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2012-12-27 15:05:25

Vielen Dank!
Scheint zu funktionieren. Bei 200 war es immer noch nicht so richtig gut, aber mit 100 klappt es bestens.
Die Suche ist nur immer noch sehr langsam. Gibt es irgendeine Möglichkeit, das zu beschleunigen?

Statistik: Verfasst von repatr — Do Dez 27, 2012 3:05 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2012-12-27 15:35:54

oh prima dass es läuft! Ja es gibt ggf eine Möglichkeit die Suche zu beschleunigen, und zwar nehme ich ann dass die Link-Verifikation (Nachladen + Parsen) bei so einem Gerät ziemlich reinhaut.
Das kannst du so ausschalten:
in /ConfigPortal.html die Option \“Snippet Fetch Strategy & Link Verification\” auf false setzen.

Statistik: Verfasst von Orbiter — Do Dez 27, 2012 3:35 pm


Off-Topic • Re: Test

Date: 2012-12-28 07:16:28

testing

Statistik: Verfasst von Don — Fr Dez 28, 2012 7:16 am


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2012-12-29 15:16:44

Man könnte vielleicht einen Wik-Artikel anlegen zu YaCy auf billigen Arm-Geräten, bei dem Einstellungen für solche Geräte empfohlen werden.
Habe auchen einen Sheeva-Plug (der hat aber leider einen kaputten RAM) und seit Kurzem einen Raspberry-Pi, bin aber leider noch nicht zum testen damit gekommen.

Statistik: Verfasst von kilian — Sa Dez 29, 2012 3:16 pm


Fragen und Antworten • Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2012-12-30 11:41:27

Hallo,

ich habe auf meinem vserver mit Ubuntu 10 LTS die aktuelle Yacy Version installiert. Klappt auch prinzipiell alles, aber nach wenigen Minuten hat sich der Yacy Daemon immer beendet (abgestürzt?).
In DATA/LOG sehe ich keine Absturzmeldungen. Gibt es noch andere Logs wo man Infos über eine Absturzursache bekommen kann?

Statistik: Verfasst von Bergschreck — So Dez 30, 2012 11:41 am


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2012-12-30 12:22:40

Jetzt habe ich das Startscript mal mit -d aufgerufen, dann läuft der Daemon anscheinend im Vordergrund.
Das letzte was er ausgespuckt hat:

Code:
INFO [job_pool-15-thread-13] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"Rw9uJY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22g5ymVY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=1 INFO [job_pool-15-thread-11] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"g5ymVY_oz9zS"D 2012/12/30 11:57:35 org.apache.solr.handler.UpdateRequestHandler bodyW 2012/12/30 11:57:35 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lauschangriff.to/user/4137/mietzestrule/ - not pushed: double occurrence in double_push_checkI 2012/12/30 11:57:35 STACKCRAWL URL 'http://www.lauschangriff.to/media/20-h%C3%B6rb%C3%BCcher/' is double registered in 'ERRORS'. Stack processing time:W 2012/12/30 11:57:35 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lauschangriff.to/9-media/ - not pushed: double occurrence in double_push_check INFO [job_pool-15-thread-12] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"jMa2_Y_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22-UxaZY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-11] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"-UxaZY_oz9zS"W 2012/12/30 11:57:35 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lauschangriff.to/user/8487/aysena/ - not pushed: double occurrence in double_push_checkI 2012/12/30 11:57:35 STACKCRAWL URL 'http://www.lauschangriff.to/user/17880/yavanna/' is double registered in 'ERRORS'. Stack processing time:D 2012/12/30 11:57:35 org.apache.solr.handler.loader.XMLLoader SolrCore.update(add)I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22Jll8bY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 D 2012/12/30 11:57:35 org.apache.solr.handler.loader.XMLLoader adding doc... INFO [job_pool-15-thread-12] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"Jll8bY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22u-9OoY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-13] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"u-9OoY_oz9zS"W 2012/12/30 11:57:35 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lauschangriff.to/user/33426/herodes/ - not pushed: double occurrence in double_push_checkI 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22EFcxUY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-13] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"EFcxUY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22uK8EiY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-11] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"uK8EiY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22ShjWfY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-12] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"ShjWfY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22lfxovQ_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=1 I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22JHHRuQ_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=1 INFO [job_pool-15-thread-13] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"lfxovQ_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22pxZzFY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-11] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"JHHRuQ_oz9zS" INFO [job_pool-15-thread-12] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"pxZzFY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22WcwluY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 INFO [job_pool-15-thread-11] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"WcwluY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.update.processor.LogUpdateProcessor [collection1] webapp=null path=/update params={} {add=[RKY1mQ_oz9zS (1422776132811358208)]} 0 7I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22MO0_aY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=20 INFO [job_pool-15-thread-14] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"MO0_aY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22j-4mIY_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=1 INFO [job_pool-15-thread-13] (EmbeddedSolrConnector.java:201) - 0 results for q=id:"j-4mIY_oz9zS"I 2012/12/30 11:57:35 org.apache.solr.core.SolrCore [collection1] webapp=null path=/select params={q=id%3A%22hfC9kQ_oz9zS%22&rows=1&start=0&fl=load_date_dt} hits=0 status=0 QTime=0 Killed



Das \“Killed\” am Schluss wundert mich ein bisschen.

Statistik: Verfasst von Bergschreck — So Dez 30, 2012 12:22 pm


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2012-12-30 15:27:03

So, das ganze sieht mir nach einem Speicherproblem aus. Der vserver hat nur 512MB Speicher, im Yacy war der JVM Speicher auf 600 eingestellt. So konnte das nix werden. Ich habe den dann mal auf 128MB reduziert, aber dann gab es wieder Abbrüche. Nun habe ich ihn auf 256MB und er läuft seit 90 Minuten absturzfrei. Allerdings ist er trotzdem speicherhungriger als eingestellt. Laut top belegt java nun 367MB resident und 2536MB virtuell.

Weiss jemand was die Minimaleinstellungen sind mit der Yacy noch läuft?

Statistik: Verfasst von Bergschreck — So Dez 30, 2012 3:27 pm


Solr Support • Re: Lucene/Solr

Date: 2012-12-30 17:44:48

Orbiter hat geschrieben:\ \..., weil es inzwischen eine \'sanfte migration\' gibt die jede aus der alten gelesenen Metadaten-DB dort entfernt und nach Solr schreibt.\


Grob geschätzt, wieviel Zeit benötigt denn so eine sanfte Migration für das Konvertieren von z.B. 1 Mio. Links auf einem standard Heimrechner?

Statistik: Verfasst von Jazzy — So Dez 30, 2012 5:44 pm


Hilfe für Einsteiger und Anwender • YaCy als Weltretter

Date: 2012-12-30 19:29:07

Hallo,
hat sich schon mal jemand Gedanken gemacht, ob es möglich ist YaCy zu einem Ersatz für Google zu machen? Also wie viele Peers müsste es geben und wieviel ihrer Systemressourcen müssten Sie dem Netzwerk spenden? Hier
http://cdprojekte.mattiasschlenker.de/P ... -_Yacy.pdf{.postlink}
habe ich eine Aussage dazu gefunden. Da ist von einer vier bis fünfstelligen Zahl von Knoten (=Seniors?) die Rede. Die Aussage wird aber nicht belegt. Gibt es dazu genauere Untersuchungen?

Statistik: Verfasst von Azuupu — So Dez 30, 2012 7:29 pm


Fragen und Antworten • http://localhost/CrawlProfileEditor_p.html

Date: 2012-12-31 01:06:12

Bild

an die Programmieren von yacy

http://localhost:8090/CrawlProfileEditor_p.html

Hinten mal ändern das mann alles wieder sehen kann

Sehe bild Oben

Statistik: Verfasst von ww1com — Mo Dez 31, 2012 1:06 am


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-01-01 12:18:46

Hm, ich habe die letzten Tage nicht mehr auf die Suche geachtet, aber als ich heute geschaut habe, war sie wieder down. Ich habs jetzt mal auf 80MB runtergestellt. Zumindest scheint das aber die Zeit bis zum Absturz zu erhöhen. Wenn ich die Verifikation ausschalte kommen zumindest alle Ergebnisse auf einmal und nicht wie zuvor erst nur ein Ergebnis und bei einer erneuten Suche dann mehr, aber wirklich schnell geht die Suche damit auch noch nicht (deutlich länger als eine Minute).

Statistik: Verfasst von repatr — Di Jan 01, 2013 12:18 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2013-01-01 20:08:12

Ich bin übrigens noch dran, aber es geht nur sehr langsam voran (Familie und so).

Soll LDAP dann die interne Nutzerverwaltung komplett ersetzen, es ergänzen oder Admin intern und sonstige Nutzer über LDAP oder wie?

Statistik: Verfasst von Low012 — Di Jan 01, 2013 8:08 pm


YaCy Coding & Architektur • Klartext Query Handling ?

Date: 2013-01-02 11:01:50

Mit der Solr Integration und dem Direkt-Forward von Solr-Queries logged YaCy ja brav den entsprechenden Traffic von remote und lokalen Suchanfragen.
Ich perönlich finde es eigentlich ganz lusting bis hilfreich mitzubekommen was mein Peer im Index haben sollte (um die Anfrage bedienen zu können), was so Thema ist usw.

[Gibt es hierzu einen Plan oder eine Tendenz/Meinung wohin sich YaCy hier entwickeln soll ?]{style=“font-weight: bold”}

D.h. soll es in Richtung.…
1) Klartext Übermittlung der Queries gehen (mit allen Vor- und Nachteilen, z.B. Queryanalyse für Admin)?
oder
2) längerfristig Solr Interface schliessen und auf 100% Wordhashes zurückfallen?

P.S.
Zur Einstummung und für jetzt Neugierige habe ich mal die queries.log meines Peers (ca. 2 Monats-Log) durch Carrot2 gejagt, das sieht dann so aus
all-image-png.png

schaut man nur auf \“Other Topics\” (obige Topthemen und verwandtes sowie °YaCy\” und lokale Abfragen :oops: ausgeblendet) liest sich das so.…
noporn.png

Statistik: Verfasst von reger — Mi Jan 02, 2013 11:01 am


YaCy Coding & Architektur • Re: Klartext Query Handling ?

Date: 2013-01-02 16:44:31

Ich sehe keinen Sinn in eine Polarisierung von 1) und 2), denn 2) hatten wir ja vor der Einführung von Solr schon, aber mit nicht so großem Erfolg wie nun mit Solr. Nur noch Solr zu machen macht auch keinen Sinn, dazu gibt es kein DHT-Konzept. Es gibt meiner Meinung nach nur folgende Alternative:
3) die Hashes in Solr ebenfall einfüttern und dann remote in Solr nach den Hashes suchen. Das macht aber auch einen Haufen Probleme.

Die hashes sond ja auch keine Privatsphärensicherheit weil man die ja auch über ein Wörterbuch knacken kann. Falls jemand eine Idee hat dann nur her damit.

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 4:44 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-01-02 16:46:55

leider gibts diese \‘spontanen Abstürze\’ ohne Logmeldung auch auf gutdimensionierten debian-Servern. Die gute Nachricht ist also: das SheevaPlug Problem hier ist möglichkeitweise gar kein generelles Problem mit dem SheevaPlug. Hinter diese spontanten Abstürze bin ich noch nicht gekommen, wäre gut wenn das noch jemand untersuchen könnte.

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 4:46 pm


Solr Support • Re: Lucene/Solr

Date: 2013-01-02 21:15:43

das ist schwer zu sagen, denn diese Migration läuft ja nur ab wenn auf die alten Metadaten zugegriffen wird, und das wird nach Möglichkeit gar nicht gemacht...
Wieso, willst du das es möglichst schnell geht?

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 9:15 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2013-01-02 21:22:00

Low012 hat geschrieben:\ Ich bin übrigens noch dran, aber es geht nur sehr langsam voran\


oh super!

Low012 hat geschrieben:\ Soll LDAP dann die interne Nutzerverwaltung komplett ersetzen, es ergänzen oder Admin intern und sonstige Nutzer über LDAP oder wie?\


nein kein Ersatz. Die Idee geht so:
- ich vermute dass in LDAP drin steht, auf welchen Pfaden der User lesend zugreifen darf. Diese Info brauchen wir.
- Bei einer Suche muss sich der User authentifizieren, oder ggf. nach einer Suche optional authentifizieren mit dem Hinweis \‘damit er alles sehen kann\’
- bei der Ermittlung der Suchergebnisliste wird ein Filter benutzt, der aufgrund der im Account hinterlegten Pfade auf alles einschränkt, was der User sehen darf.

Das ist also eine gar nicht komplizierte Sache, nur ein weiterer Suchfilter der aufgrund der LDAP-Accountdaten konfiguriert wird.
Kannst du bestätigen dass in LDAP so eine Liste der erlaubten Pfade drin steht?

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 9:22 pm


Fragen und Antworten • Re: http://localhost/CrawlProfileEditor_p.html

Date: 2013-01-02 21:23:53

da ist noch eine Spalte dazugekommen, was soll man da ändern? du musst dein Fenster breiter machen.

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 9:23 pm


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2013-01-02 21:25:53

also ich hab YaCy schon mit unter 60MB am laufen gehabt, aber seit Solr an Board ist haben wir wieder so seltsame Effekte. Es gibt ein anderer Forumsthread wo jemand herausgefunden hat, dass Solr sich ausserhalb der jvm auch Speicher besorgt und somit auch noch genügend dort sein muss. Das ist knifflig. Weiss noch jemand weiter?

Statistik: Verfasst von Orbiter — Mi Jan 02, 2013 9:25 pm


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2013-01-02 21:46:29

Hallo,

wie groß ist denn Dein Index schon?

Ich hatte ähnliche Probleme mit einem YaCy auf einem betagtem P4.

Wie Orbiter schon schrieb, nutzt Solr (virtuellen) Speicher ausserhalb des Heap-Speichers (den wir in YaCy konfigurieren) um auf seinen Index zuzugreifen.
Normalerweise ist das nicht weiter wild, da virtueller Speicher nicht Physisch vorhanden sein muss, aber er muss addressierbar sein.
32bitter sind hier leider benachteiligt was die addressierbare größe angeht.

Leider fällt mir nicht mehr ein wie ich das dann gelöst hatte.
Änderungen am Heap-Volumen zögerten den Absturz immer nur heraus - wie Du ja auch schon bemerkt hast.
Sobald mir wieder einfällt was ich da gemacht hatte melde ich mich hier wieder.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jan 02, 2013 9:46 pm


YaCy Coding & Architektur • Re: Klartext Query Handling ?

Date: 2013-01-03 02:03:40

Eine wirklich gute Lösung habe ich auch noch nicht, aber vielleicht eine zu berücksichtigende Anmerkung für Weiterentwicklung der Solr-Direktkommunikation

- EmbeddedSolr Schema sollte standardisiert werden


Obiges gesagt, wenn m.E. irgendwann ein Abstraktionslayer für P2P mit Solr notwendig wird (um Flexibilität mit lokalem Solr zu erhalten) könnte/sollte man die beiden Kommunikationswege nicht verheiraten (als simpel GedankenModell quasi ein search.RSS Peer Selektor).

Für den Augenblick halte ich für mich mal fest.… Klartext ist OK [(ich würde tatsächlich gern ein paar simple/übliche Querystatistiken in die Weiterentwicklung einfliessen lassen)]{style=“font-size: 85%; line-height: 116%;“}.

Statistik: Verfasst von reger — Do Jan 03, 2013 2:03 am


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2013-01-03 10:57:41

Orbiter hat geschrieben:\ Kannst du bestätigen dass in LDAP so eine Liste der erlaubten Pfade drin steht?\


Ich habe eben mit unserem Admin gesprochen (und ich hoffe,dass ich alles richtig verstanden habe) und der meinte, dass im ActiveDirectory lediglich steht, dass ein Benutzer bestimmten Gruppen zugeordnet ist. Will der Benutzer nun z.B. auf einem File-Server auf eine Datei zugreifen, wird mittels ACL{.postlink} entschieden, ob er das darf. Im ActiveDirectory könnte es also die Person \“Otto Mustermann\” geben, der in der Gruppe \“Entwickler\” ist. Auf dem Fileserver gibt es dann das Verzeichnis \“Projekte\“, auf das alle aus der Gruppe \“Entwickler\” zugreifen dürfen.

Das Dateisystem weiß also, welche Gruppe zugreifen darf und das ActiveDirectory, ob ein bestimmter Benutzer zu einer Gruppe gehört oder nicht.

Eine Möglichkeit, abzufragen, auf welche Dateien der Nutzer \“Otto Mustermann\” zugreifen darf, gibt es nicht. Man müsste, wenn man eine Liste von Dateien hat, über die Liste iterieren und jeweils prüfen, ob er zugreifen darf oder nicht, was natürlich einige Zeit dauern kann. :-(

Statistik: Verfasst von Low012 — Do Jan 03, 2013 10:57 am


Hilfe für Einsteiger und Anwender • Wie viel Speicher nutzt yacy ?

Date: 2013-01-05 01:48:30

Hallo Leute,
Ich wollte mal fragen wie groß Yacy so werden kann.
Nehmen wir mal 500.000 Links an wie groß wäre sowas?

Mfg ternes3

Statistik: Verfasst von ternes3 — Sa Jan 05, 2013 1:48 am


Hilfe für Einsteiger und Anwender • Re: Wie viel Speicher nutzt yacy ?

Date: 2013-01-05 03:49:28

ich hab hier einen Peer mit 9 mio Links, der braucht 21GB. Dabei sind allerdings noch sehr viele Links aus der alten Metadatenstruktur, die wesentlich weniger Speicher brauch als die Daten im Solr index weil da mehr Daten inkl. Volltext drin stehen.

Also insgesamt finde ich dass deine 11GB ein kleines bisschen viel ist, aber ich finde das nicht kritisch, was sind heute noch ein paar GB? Das ist die Größenordnung von nur _einer_ HD-Filmdatei.

Statistik: Verfasst von Orbiter — Sa Jan 05, 2013 3:49 am


Hilfe für Einsteiger und Anwender • Re: Wie viel Speicher nutzt yacy ?

Date: 2013-01-05 11:45:30

ok,
Hat mich nur gewundert.
Kann man irgendwie den Cache abstellen. ?


Mfg ternes3

Statistik: Verfasst von ternes3 — Sa Jan 05, 2013 11:45 am


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-01-05 14:55:03

Code:
System StatusProcess1.3/9000 Uptime: 2 days 15:25System ResourcesProcessors: 1Protection password-protected [Configure] AddressHost: 10.130.201.56:8090 Public Address: http://91.6.243.168:8090 YaCy Address: http://_anonufe-20967468-23.yacy Remote Proxynot usedAuto-popup on start-up Enabled [Disable] Tray-IconExperimental Memory Usage free: 128.45 MB total: 2.27 GB max: 2.27 GBTraffic [Reset]Proxy: 0 BytesCrawler: 101.58 GBIncoming Connections



\@Developer 102 GB Traffic in 2 Tagen, das ist genial!! Die Performance ist super!! Hervorragende Arbeit!! Vielen Dank!!

Statistik: Verfasst von LA_FORGE — Sa Jan 05, 2013 2:55 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-01-05 15:17:21

sixcooler hat geschrieben:\ Hallo,\ \ was die RWI-Blobs angeht sollte das immer noch so gehen.\ Dein Problem mussalso eine andere Ursache haben.\ \ Hast Du etwas Logfile für uns?\ \ cu, sixcooler.\



Läuft mittlerweile wieder einwandfrei. Trotzdem vielen Dank!

Läuft der Dubletten-Check eigentlich auch jedes mal beim Start von YaCy? Das würde nämlich erklären wenn ich Blobs mit ca. 20 Mio. URLS von einem anderen Peer in das Verzeichnis von meinem \“Hauptpeer\” kopiere, warum sich aber die Größe des Gesamtindex nur geringfügig verändert.

Statistik: Verfasst von LA_FORGE — Sa Jan 05, 2013 3:17 pm


Mitmachen • Re: RSS Crawlen

Date: 2013-01-06 00:32:20

Also so ideal ist das crawlen aus einer Datei mit Urls noch nicht.
Naja irgendwie hat er dennoch angefangen zu starten mit der Neuinstallation von der HP.
Ich dachte immer, dass erstmal die 1000 Urls der Datei geladen werden, wenn ich eine Crawl Tiefe von 0 eingebe, müssten ja genau 1000 Urls im Index sein.
Um dann bei der ersten URl wieder beginnend weiterzucrawlen.

Zudem die Frage: Kann man die Robots Exclusion umgehen?

Will jemand mal die angehangene Datei crawlen? Die kann ein guter Startpunkt sein, weil es Newszeitungen sind, die auch Google in den Nachrichtenseiten verwendet.

Statistik: Verfasst von ribbon — So Jan 06, 2013 12:32 am


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-06 00:35:01

wie viele yacy peers sind derzeit in Metager?

Statistik: Verfasst von ribbon — So Jan 06, 2013 12:35 am


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-01-07 00:31:21

Hallo,

\ Läuft der Dubletten-Check eigentlich auch jedes mal beim Start von YaCy? Das würde nämlich erklären wenn ich Blobs mit ca. 20 Mio. URLS von einem anderen Peer in das Verzeichnis von meinem \"Hauptpeer\" kopiere, warum sich aber die Größe des Gesamtindex nur geringfügig verändert.\


Doubletten in verschiedenen Blobs werden bei deren Merge zusammengeführt.
Die Angabe der RWIs ist eher als grobe Schätzung zu verstehen, da sie nur die Menge des größtem Blobs angiebt (es könnte ja theoretisch in den anderen Blobs nur Doubletten sein).

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 07, 2013 12:31 am


Hilfe für Einsteiger und Anwender • Re: Wie viel Speicher nutzt yacy ?

Date: 2013-01-07 00:50:44

Hallo,

unter /ConfigHTCache_p.html kannst Du die Größe des Caches einstellen und ggf. zu 0 setzen.

Wenn ich das richtig verstanden habe, wird dieser nun eh weniger genutzt, da die Snippets aus dem Solr-Index kommen (bin mir aber nicht sicher)

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 07, 2013 12:50 am


Mitmachen • seeks und yacy

Date: 2013-01-07 12:50:06

Hallo,

ich habe mal versucht, seeks an meine Yacy zu flanschen. Jetzt bekomme ich jedoch ein:

Code:
curl error on url http://localhost:8090/yacysearch.rss?query=linux: Operation timed out after 3001 milliseconds with 1309 bytes received



Rufe ich das Ding mit der Hand auf, bekomme ich prompt (also unter 1s) eine Antwort mit z. B. %query=linux. Konfiguriert ist das nach http://www.yacy-websuche.de/wiki/index.php/En:Seeks. Was mich halt wundert sind die 1309 bytes, was mich vermuten läßt, daß da was falsch von der seeks-engine interpretiert wird (??). seeks git trunk. Hat da schon wer mal was mit gemacht?

Statistik: Verfasst von click42 — Mo Jan 07, 2013 12:50 pm


Fragen und Antworten • Update startet nicht mehr - kelondroBufferedEcoFS.put

Date: 2013-01-07 15:55:41

Hallo zusammen

nachdem ich jetzt einige Zeit nicht dazu gekommen bin mich um meine Yacy-Installation zu kümmern habe ich heute mal wieder danach geschaut. Und siehe da: Yacy startet nicht mehr...

nach dem Start vergehen ca. 20-30 Sekunden, in denen sich Yacy auch Speicher- und CPU-technisch richtig austobt, und dann schmiert Yacy ohne weitere Meldung ab. Ein Blick in die yacy.log ergibt folgendes:

Code:
E 2013/01/07 15:18:54 STARTUP YaCy cannot start: kelondroBufferedEcoFS.put(143328) outside bounds (143286)java.lang.IndexOutOfBoundsException: kelondroBufferedEcoFS.put(143328) outside bounds (143286)        at net.yacy.kelondro.io.BufferedRecords.put(BufferedRecords.java:113)        at net.yacy.kelondro.table.Table.removeInFile(Table.java:662)        at net.yacy.kelondro.table.Table.<init>(Table.java:208)        at net.yacy.kelondro.table.SplitTable.init(SplitTable.java:218)        at net.yacy.kelondro.table.SplitTable.<init>(SplitTable.java:107)        at net.yacy.kelondro.table.SplitTable.<init>(SplitTable.java:88)        at net.yacy.search.index.Fulltext.connectUrlDb(Fulltext.java:95)        at net.yacy.search.index.Segment.connectUrlDb(Segment.java:165)        at net.yacy.search.Switchboard.<init>(Switchboard.java:400)        at net.yacy.yacy.startup(yacy.java:207)        at net.yacy.yacy.main(yacy.java:636)




System-Info:

YaCy version: 1.041/9153
Java version: 1.6.0_18


An welchen Schräubchen muss ich drehen oder wo muss ich hinlangen? Ist das Problem bekannt?


lG
Thomas

Statistik: Verfasst von Maxi-Fussel — Mo Jan 07, 2013 3:55 pm


Mitmachen • Re: Desginarbeiten

Date: 2013-01-07 23:02:38

is there anybody working on layout/graphics at the moment?

Statistik: Verfasst von kilian — Mo Jan 07, 2013 11:02 pm


Mitmachen • Re: seeks und yacy

Date: 2013-01-08 01:13:02

wenn du http://localhost:8090/yacysearch.rss?query=linux im browser aufrufst, geht das?

Statistik: Verfasst von Orbiter — Di Jan 08, 2013 1:13 am


Fragen und Antworten • Re: Update startet nicht mehr - kelondroBufferedEcoFS.put

Date: 2013-01-08 01:14:23

die Klasse kelondroBufferedEcoFS gibts gar nicht mehr!

bitte lade dir ein neues Release und schiebe das DATA-Verzeichnis vor dem Starten aus dem alten Release ins neue.

Statistik: Verfasst von Orbiter — Di Jan 08, 2013 1:14 am


Fragen und Antworten • Keine Returned Results bei Remote Search

Date: 2013-01-08 07:15:22

Hallo,

mein Peer debian-suche2 zeigt unter
Network Access / Access Tracker / Remote Search / Log
bei jedem Logeintrag unter Returned Results immer 0 (Null) an.
Ich habe schon einiges versucht mit den Netzwerk Einstellungen, aber immer wieder das gleiche Ergebnis 0...
Derzeit bin ich Peer-to-Peer Mode/freeworld, verteile und empfange via DHT aber anscheinend ohne an den Suchergebissen teilzunehmen...
Ist die Anzeige im Log kaputt oder ist das wirklich so? Bzw. was mache ich falsch?

Danke & Ciao

Statistik: Verfasst von botec — Di Jan 08, 2013 7:15 am


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2013-01-08 07:19:40

Hallo,

dieser Effekt ist bei mir auch aufgetreten. Nach einem

Code:
aptitude purge yacy


und anschliessendem reinstall ging es.
Ich vermute es lag an einem Setting in der preconfig des Pakets.

Ich kann mich alledings nicht mehr genau erinnern was ich beim zweiten mal installieren anderst gemacht haette... Sry :oops:

Ciao, Botec

Statistik: Verfasst von botec — Di Jan 08, 2013 7:19 am


Mitmachen • Re: seeks und yacy

Date: 2013-01-08 09:04:35

Genau: händisch geht das. Ich habe mittlerweile durch Ausklammern aller anderen Such-Engines herausbekommen, daß trotz Fehlermeldung etwas von der Seeks-Engine aus den Antworten der yacy-Maschine ausgewertet wird. Ganz offensichtlich ist die curl-Fehlermeldung bei der Initialisierung aufgetreten, macht man später eine Suchanfrage ist die seek-engine still und erzählt gar nichts mehr über yacy, liefert aber brav Suchergebnisse.

Scheint also falscher Alarm zu sein.

Statistik: Verfasst von click42 — Di Jan 08, 2013 9:04 am


Fragen und Antworten • Re: Update startet nicht mehr - kelondroBufferedEcoFS.put

Date: 2013-01-08 11:10:37

Danke für die schnelle Antwort!

Um\’s zu vereinfachen und für mich übersichtlicher zu machen hab ich in der sources.list alles ausser \“deb http://debian.yacy.net ./\” auskommentiert.

Ein apt-get update ergibt dann die Meldung

Code:
Ign http://debian.yacy.net ./ Release.gpgIgn http://debian.yacy.net ./ Translation-en_USIgn http://debian.yacy.net ./ ReleaseIgn http://debian.yacy.net ./ Packages/DiffIndexIgn http://debian.yacy.net ./ PackagesHit http://debian.yacy.net ./ PackagesReading package lists... Done



Ein update erfolgt NICHT.

Zugegebenermassen bin ich kein Debian-Freak.…sollte ich komplett deinstallieren und neu installieren? Das wäre schade weil doch rund 100GB Daten vorhanden sind und natürlich meine Einstellungen, welche Seiten zu crawlen sind usw. ... ?


lG
Thomas

Statistik: Verfasst von Maxi-Fussel — Di Jan 08, 2013 11:10 am


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-08 22:05:13

Hallo,

aktuell leider nur 1 Peer - http://yacy.suma-ev.de:8080/, dieser zieht demnächst um auf einen neuen Root-Server um einen größeren Index bei hoher Performance zu ermöglichen. Aktuell ist der Peer als Robinson-Peer konfiguriert, das wird auch erst einmal so bleiben, da wir bei den vom SUMA-EV betriebenen/bezahlten Peers den Inhalt des Indexes selbst bestimmen wollen. Das hat den Hintergrund das dieser Peer(s) hauptsächlich als \“Daten-Zulieferer\” für Metager/Metager2 dienen.
Wenn jemand Metager (viel Traffic) oder Metager2 (wenig Traffic) helfen will - indem er seinen Peer anzapfen lässt, bitte einfach hier melden oder mir eine Nachricht schreiben.

Gruß,
Thomas

ribbon hat geschrieben:\ wie viele yacy peers sind derzeit in Metager?\

Statistik: Verfasst von Vega — Di Jan 08, 2013 10:05 pm


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2013-01-08 22:29:52

Hm, ich bin hier etwas anderer Meinung wie Michael, also ich sehe es so/hätte es gern so:

- es sollte weiterhin eine einfach gestrickte interne Nutzerverwaltung geben, zumindest einen \“hart\” verdrahteten/gecodeten Admin. Wenn wir aber in YaCy Ldap auslesen können, sollten wir bei Bedarf auch alle anderen User aus dem LDAP Directory kommen.
- Sollte es in YaCy einen integrierten LDAP Server geben, sollte dieser auch die Benutzerverwaltung übernehmen können, die Benutzer in diesem Angelegt/verwaltet werden können - bis auf einen admin User der intern ist (und damit immer funktioniert).
Ldap Software für Java - http://directory.apache.org/ - und ein Beispiel: http://stackoverflow.com/questions/1560230/running-apache-ds-embedded-in-my-application

Gruß,
Thomas

Low012 hat geschrieben:\ Soll LDAP dann die interne Nutzerverwaltung komplett ersetzen, es ergänzen oder Admin intern und sonstige Nutzer über LDAP oder wie?\

Statistik: Verfasst von Vega — Di Jan 08, 2013 10:29 pm


Fragen und Antworten • Re: Installation unter Debian funktioniert nicht

Date: 2013-01-09 09:02:57

botec hat geschrieben:\ Hallo,\ \ dieser Effekt ist bei mir auch aufgetreten. Nach einem\ Code: : `aptitude purge yacy` \ und anschliessendem reinstall ging es.\ Ich vermute es lag an einem Setting in der preconfig des Pakets.\ \ Ich kann mich alledings nicht mehr genau erinnern was ich beim zweiten mal installieren anderst gemacht haette\... Sry ![:oops:](http://forum.yacy-websuche.de/images/smilies/icon_redface.gif "Embarrassed")\ \ Ciao, Botec\



DANKE für den Tipp, nun funzt yacy auf meinem PC auch :-)
Woran es gelegen hat, ist aber ziemlich unklar.

Statistik: Verfasst von wsb — Mi Jan 09, 2013 9:02 am


Fragen und Antworten • Ranking?

Date: 2013-01-09 10:40:05

Es gab mal so eine schöne Möglichkeit, das Ranking einzustellen; wenn ich nun jedoch
http://localhost:8090/Ranking_p.html
aufrufe, dann kommt nur \“not Found\” - wo ist\’s denn geblieben??
Aktuell - ohne Änderungem am Ranking - ist dieses \“stark verbesserungsfähig\” ;-)

Statistik: Verfasst von wsb — Mi Jan 09, 2013 10:40 am


Hilfe für Einsteiger und Anwender • Re: YaCy als Weltretter

Date: 2013-01-09 11:40:23

Hallo,

nein, dazu gibt es keine genaueren Untersuchungen - kannst Du Dir aber leicht ausrechnen - wenn jeder YaCy Peer sagen wir mal 20 Millionen Links hält, dann brauchst Du 50 Rechner um 1 Milliarde Links zu halten. Google hat etwas über 3 Milliarden Links - also sagen wir mal 150 - 200 Rechner. Soll das ganze dann aber noch mehrere 100.000 Suchanfragen pro Tag verarbeiten wird es Interessant. Nur um mal zu vergleichen - Google verarbeitet ca. 3 Milliarden Suchanfragen pro Tag.

Gruß,
Thomas

Statistik: Verfasst von Vega — Mi Jan 09, 2013 11:40 am


Fragen und Antworten • Re: Ranking?

Date: 2013-01-09 12:11:19

Hallo Wolfgang,

ich habe mir gerade mal schnell von http://yacystats.de/yacybuild/ eine aktuelle Version heruntergeladen und auf dem Laptop gestartet, das Ranking ist seit dem Wechsel zu Solr als integrierte Datenbank tatsächlich etwas anders. Also aktuell wird als \“default\” - Datenbank Apache Solr verwendet, das Ranking findest Du nun unter http://localhost:8090/RankingSolr_p.html, oder/und http://localhost:8090/RankingRWI_p.html
Im Menü kommst Du über http://localhost:8090/ConfigPortal.html - Integratet Search Design zu den oben genannten Punkten.…

Gruß,
Thomas

wsb hat geschrieben:\ Es gab mal so eine schöne Möglichkeit, das Ranking einzustellen; wenn ich nun jedoch\ \ aufrufe, dann kommt nur \"not Found\" - wo ist\'s denn geblieben??\ Aktuell - ohne Änderungem am Ranking - ist dieses \"stark verbesserungsfähig\" ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\

Statistik: Verfasst von Vega — Mi Jan 09, 2013 12:11 pm


Fragen und Antworten • Re: Ranking?

Date: 2013-01-09 14:14:06

Vega hat geschrieben:\ Hallo Wolfgang,\ \ ich habe mir gerade mal schnell von eine aktuelle Version heruntergeladen und auf dem Laptop gestartet, das Ranking ist seit dem Wechsel zu Solr als integrierte Datenbank tatsächlich etwas anders. Also aktuell wird als \"default\" - Datenbank Apache Solr verwendet, das Ranking findest Du nun unter , oder/und \ Im Menü kommst Du über - Integratet Search Design zu den oben genannten Punkten\....\ \ Gruß,\ Thomas\ \ >
> > wsb hat geschrieben:Es gab mal so eine schöne Möglichkeit, das > Ranking einzustellen; wenn ich nun jedoch\ > \ > aufrufe, dann kommt nur \"not Found\" - wo ist\'s denn geblieben??\ > Aktuell - ohne Änderungem am Ranking - ist dieses \"stark > verbesserungsfähig\" > ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\ > >



JA, danke Thomas - prima! Damit kann man das Ranking wieder gut einstellen :-)

Statistik: Verfasst von wsb — Mi Jan 09, 2013 2:14 pm


Fragen und Antworten • Re: Ranking?

Date: 2013-01-09 14:43:58

Hallo Wolfgang,

Du könntest ja mal hier Deine vorgenommenen Änderungen und die Auswirkungen/Erfolge hier posten, vielleicht ist dies ja auch für den einen oder anderen noch Interessant.

Gruß,
Thomas

Statistik: Verfasst von Vega — Mi Jan 09, 2013 2:43 pm


Mitmachen • 5 billionen urls

Date: 2013-01-09 18:45:23

hat jemand diese 5 billionen urls schonmal herunter geladen?
https://github.com/trivio/common_crawl_index

Statistik: Verfasst von ribbon — Mi Jan 09, 2013 6:45 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-09 18:47:45

danke, wie gross ist denn der index dann des robinson und wird er gefüttert? bzw womit wurde er gefüttert?
und wenn nun andere hinzukommen, dann ist doch auch der span da.
d.h. metager ist gar nicht mit freeworld verbunden?
ich dachte immer es sind mind. 5 peers, die metager unterstützen
wie kann man zu mind 7 peers bei metager kommen?
warum macht die uni da nix?

Statistik: Verfasst von ribbon — Mi Jan 09, 2013 6:47 pm


Hilfe für Einsteiger und Anwender • haslink oder link host ?

Date: 2013-01-09 21:35:38

Hallo,

gibt es eine Möglichkeit im yacy sich alle Seiten auszugeben, auf denen sich Links zu einer oder mehreren definierten Domains befindet ?

Nach dem Motto \“Suchbegriff haslink:heise.de haslink:Vogel.de\”

Statistik: Verfasst von Vogel — Mi Jan 09, 2013 9:35 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-09 22:52:51

Hallo,

der Index des jetzigen Robinson-Peers ist aktuell recht klein - siehe http://yacy.suma-ev.de:8080/Status.html.
Gefüttert wurde er mit den hier aufgeführten Seiten/RSS Feeds http://yacy.suma-ev.de:8080/Wiki.html?display=1.
Der neue Server hat ja wesentlich mehr Speicher, daher wird auch dort der Index deutlich größer werden, ich hatte eigentlich vor testhalber
mal den Deutschen Teil des DOMZ Verzeichnisses zu importieren http://www.dmoz.org/World/Deutsch/. Andere Ideen ????

Nein Metager/Metager2 fragen aktuell nicht das Freeworld-Netz ab - und haben das auch noch nie, es wurde immer nur im lokalen Index der angebundenen Peers gesucht, für eine Suche im gesamtem Freeworld-Netz sind die Antwortzeiten zu hoch, das würden die Peers/das Netz nicht hergeben (jedenfalls nicht bei Metager)

In \“guten Zeiten\” hatten der SUMA-EV 3 Rootserver gemietet, die das Freeworld-Netz gestützt haben + Daten für MG geliefert haben. Aus Kostengründen ist das aktuell heruntergefahren auf 1 Server.

Mehr Server:
Wenn uns also jemand Server Sponsoren will werden wir nicht nein sagen.… Wir können aber auch PCs anbinden die über eine DynDNS oder ähnlichen Dienst erreichbar sind und möglichst 247 erreichbar sind.

Uni:
Die Uni macht nichts mehr, da Wolfgang (wsb hier im Forum) mittlerweile seinen Dienst an der Uni beendet hat und sich jetzt ausschließlich um den SUMA-EV kümmert.
Metager wird aktuell noch in einer Kooperation mit der Uni betrieben, gehört aber dem SUMA-EV. irgendwann wird auch diese Kooperation beendet werden und wir müssen dann sehen wie wir die Serverkosten für Metager gestemmt bekommen. Metager2 hat der SUMA-Ev schon immer selbst betrieben.

So, ich hoffe das hat ein paar EDinge rund um Metager/Metager2 beleuchtet, wie gesagt für Hilfe sind wir dankbar.

Gruß,
Thomas

ribbon hat geschrieben:\ danke, wie gross ist denn der index dann des robinson und wird er gefüttert? bzw womit wurde er gefüttert?\ und wenn nun andere hinzukommen, dann ist doch auch der span da.\ d.h. metager ist gar nicht mit freeworld verbunden?\ ich dachte immer es sind mind. 5 peers, die metager unterstützen\ wie kann man zu mind 7 peers bei metager kommen?\ warum macht die uni da nix?\

Statistik: Verfasst von Vega — Mi Jan 09, 2013 10:52 pm


Mitmachen • Re: 5 billionen urls

Date: 2013-01-09 23:01:22

Nein, da es in YaCy aktuell keine Möglichkeit gibt diese Daten zu Importieren/Auszuwerten.…. Die Datenmenge ist auch enorm, allein Blekko hat 2012 81 Terrabyte an Daten gespendet http://www.heise.de/newsticker/meldung/Blekko-schenkt-Crawler-Daten-der-Common-Crawl-Stiftung-1771423.html. Der Umgang mit diesen Daten ist also alles andere als trivial, kleinere Exporte haben so 100 MegaByte Umfang.…http://www.golem.de/1111/87593.html.
Interessant sind diese Daten schon, aber als erstes müsste also eine entsprechende Importschnittstelle geschaffen werden - und dann müsste YaCy möglichst Cluster-fahig werden, dann nur in einem Cluster kann man solche Datenmengen schnell und Performant handhaben. Dank Apache Solr kann man da aber einigen Spaß machen :-).

Gruß,
Thomas

Statistik: Verfasst von Vega — Mi Jan 09, 2013 11:01 pm


Hilfe für Einsteiger und Anwender • Re: haslink oder link host ?

Date: 2013-01-10 02:34:57

im solr interface geht das tatsächlich, bsp.

http://yacy.dyndns.org:8000/solr/select ... metager.de{.postlink}

d.h. es wäre ggf . einfach solch eine suchoption ins normale interface zu basteln

Statistik: Verfasst von Orbiter — Do Jan 10, 2013 2:34 am


Mitmachen • Re: seeks und yacy

Date: 2013-01-10 08:40:36

Ich habe aber noch etwas: Ein von yacy generierter Eintrag in seeks liefert irgendwie keinen URL-Eintrag, sondern ein \“{cite}\“, z. B.

Seeks Project - An Open Decentralized Platform for Collaborative Search, Filtering and content Curation
A Startup for the seeks Project. We wish to improve seeks.fr. how to setup a collaborative search ring with seeks. seeks in a nutshell. how to use and benefit from a collaborative search ring.
{cite}ArchiveSimilar

Die letzte Zeile müßte eigentlich so aussehen:

http://bla/blubb Archive Similar

Ist zum einen praktisch, weil ich daran explizit erkennen kann, daß es meine yacy ist, die geantwortet hat ;) , die Frage ist aber nun: Liefert die yacy falsche Felder oder interpretiert seeks da was falsches...

Und noch eine Frage: Seeks macht ja für die Suchmaschinen so kleine Icons, damit man sehen kann, wer zugeschlagen hat. Gibt es da auch bei opensearch_rss einen Image/Icon-Tag für und wenn ja: kann man den in yacy einbauen? Das ist für mich ein wenig Stochern im Dunklen, weil ich nicht weiß, ob das überhaupt Yacy-Probleme sind oder nicht eher Seeks-upstream. -> Die Frage hat sich erledigt: ich sehe gerade, daß das Logo in einem channel->image-Tag der yacy-rss-Antwort liegt, das ist also eindeutig ein upstream-Problem.

Statistik: Verfasst von click42 — Do Jan 10, 2013 8:40 am


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2013-01-10 08:49:12

Mein Peer war heute morgen auch weg. Ich habe das Crash-Log angehängt.

Nur kurz zur Erklärung: Mein Peer ist entweder direkt über Port 8090 erreichbar oder über Port 80, wobei dann eine lighttpd-Instanz das Forwarding übernimmt. Solche Requests kommen daher für YaCy von 127.0.0.1. Da mein lighttpd nicht loggt, weiß ich auch nicht, woher die Suchanfrage kam. (Nur falls die Person mitliest, die die Suchanfrage, auf die ich mich gleich beziehe, gestellt hat.)

Wenn man nach \“127.0.0.1\” im Log sucht, findet man einen solchen Request, der eine Suche darstellt und dazu 8 :o identische SOLR-Queries. (Bitte selbst in der Datei suchen, das wird furchtbar unübersichtlich, wenn ich es hier poste.)

Ist das normal? Trägt das eventuell zu dem Problem bei?

Statistik: Verfasst von Low012 — Do Jan 10, 2013 8:49 am


Fragen und Antworten • AccessTracker_p.html?page=2

Date: 2013-01-10 12:18:40

Hallo,

gibt es analog zur Seite localhost:9090/AccessTracker_p.html?page=2 auch eine Möglichkeit Solr abzufragen, welche Suchanfragen schon von Solr abgearbeitet wurden?

Statistik: Verfasst von LA_FORGE — Do Jan 10, 2013 12:18 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-01-10 12:37:54

Vielen Dank!!

Statistik: Verfasst von LA_FORGE — Do Jan 10, 2013 12:37 pm


Fragen und Antworten • Re: AccessTracker_p.html?page=2

Date: 2013-01-10 12:53:31

noch nicht, wollte das noch machen stand aber beider solr-Umstellung immer ganz hinten an. Kommt auch irgendwann dran.

Statistik: Verfasst von Orbiter — Do Jan 10, 2013 12:53 pm


Hilfe für Einsteiger und Anwender • Kein Ostdeutsch

Date: 2013-01-10 14:12:46

Ich fühle mich an den Sketch erinnert, wenn ich lese

Diese Liste füllt sich, wenn Sie \‘Akzeptiere remote Crawling Anfragen\’ auf der \‘Index erzeugen\’ Seite aktiviert haben.

Fein.

Nur.

Was soll das heißen? Wo find ich das?

Die Anführungszeichen legen nahe, dass es sich um einen wörtlich Bezeichnung irgendwelcher Seiten und Optionen handelt. Muss man nur anklicken.

Find ich aber nicht.

Statistik: Verfasst von uzfH7 — Do Jan 10, 2013 2:12 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-01-10 16:13:52

Hallo,

das befindet sich unter Crawler / Harwester -> Remote Crawling oder halt /RemoteCrawl_p.html.

Dir sollte beim den Zulassen von remote-Cawls aber bewust sein das da alles mögliche an Links gecawlt wird.
Es könnten also auch Seiten sein die Du nicht mal mit der Kneifzange anklicken würdest.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jan 10, 2013 4:13 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-01-10 17:38:26

sixcooler hat geschrieben:\ das befindet sich unter Crawler / Harwester -\> Remote Crawling oder halt /RemoteCrawl\_p.html.\



Danke.

Würde vielleicht helfen (und langfristig das Forum hier von Arbeit entlasten) wenn überall derselbe Name verwendet würde. ;)

sixcooler hat geschrieben:\ Dir sollte beim den Zulassen von remote-Cawls aber bewust sein das da alles mögliche an Links gecawlt wird.\ Es könnten also auch Seiten sein die Du nicht mal mit der Kneifzange anklicken würdest.\



Ich geh jetzt einfach mal davon aus, dass der Crawler sicher ist und nicht durch böswillige Seiten mein Rechner übernommen werden kann. :)
Ansonsten: Im Begriff Freiheit ist für mich enthalten, dass ich Anderen gerade nicht im Detail vorschreibe, wie Sie ihre \“Freiheit\” gefälligst zu nutzen haben.

Apropos Rechner: Ich habe hier einen dedizierten, aber alten Rechner (AMD Sempron 64 3000+, 512MB, sda1 40 GB, sdb1 160 GB, Lubuntu 12.04, die grafische Oberfläche ist fast unbedienbar langsam, aber was soll\’s, ich greife über das lokale Netz auf die Admin-Konsole zu, eine unnuetze 1TB-Festplatte läge auch noch hier rum). Ich habe folding parallel zu yacy installiert. folding braucht mit nice 19 circa 93% der Rechenzeit, java läuft meistens mit unter 5%, also geh ich davon aus, dass yacy nicht mehr Rechenzeit anfordert.

D.h. mein Rechner entspricht wohl schon ziemlich genau dem, was hier http://www.yacy-websuche.de/wiki/index. ... mory_Usage{.postlink} als \“Modern computers have ...\” durchgeht, aber ich brauch ihn wie gesagt für nix Anders (wenn man davon absieht, dass die Idee von Anfang war, einen Heizlüfter zu ersetzen. Ganz im Ernst.). Gibt\’s da trotzdem noch was zu optimieren?

Unter Status.html?noforward=

steht:

Speicherverbrauch
Frei: 84,86 MB
Total: 227,46 MB
Maximal: 580 MB

Statistik: Verfasst von uzfH7 — Do Jan 10, 2013 5:38 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-01-10 19:52:06

Hallo,

\ Ich geh jetzt einfach mal davon aus, dass der Crawler sicher ist und nicht durch böswillige Seiten mein Rechner übernommen werden kann.\


Ich dachte dabei eher an Urheberrechts-Verletzung oder Adult-Entertainment :-)

\ Gibt\'s da trotzdem noch was zu optimieren?\


Mehr RAM - 512M könnten bei wachsendem Index knapp werden.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jan 10, 2013 7:52 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-01-10 20:14:02

Noch \‘ne Frage:

Ich habe startYACY.sh in die rc.local eingetragen. Gute Idee?

Soll/muss ich mir irgendwelche start/stop-Skripte für die /etc/init.d basteln? Gibt es Vorlagen? Ich geh mal davon aus, dass ich auf das GUI überhaupt verzichten kann, richtig?

Statistik: Verfasst von uzfH7 — Do Jan 10, 2013 8:14 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-01-10 20:43:59

sixcooler hat geschrieben:\ Ich dachte dabei eher an Urheberrechts-Verletzung\



IANAL aber AIFAIK kann Runterladen nur dann ein Problem sein, wenn die Vorlage offensichtlich rechtswidrig ist. Das wird ein automatischer Crawler kaum erkennen können. Da ist nix offensichtlich, da gibt es nur Bits.

sixcooler hat geschrieben:\ oder Adult-Entertainment ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\



Auch Erwachsene haben Anrecht auf Bespaßung. http://www.sinfest.net/archive_page.php?comicID=2503 Außerdem dachte ich, ich hab hier einen Index, in dem Suchworte auf URls verweisen, keinen Klon von archive.org

sixcooler hat geschrieben:\ Mehr RAM - 512M könnten bei wachsendem Index knapp werden.\



Mein Gedanke war eigentlich in die Richtung \“ohne Geld ausgeben\“, d.h was kann man machen um mit den Altertümern noch was beizutragen? Wenn nix, dann eben leider nix, dann Tonne. Ich werd\’ vielleicht mal \‘ne zweite swap Partition auf einer Platte, die an einem anderen Port hängt versuchen.

Statistik: Verfasst von uzfH7 — Do Jan 10, 2013 8:43 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-10 20:59:19

Danke für die Ausführung, Thomas.
Ich habe eigentlich drei Punkte hier.

1. Die Zahl der YaCy Nodes in Metager (Metager 2 insteressiert mich weniger, da Metager total gut ist) muss erhöht werden. Hier sollten wir überlegen wie. Ich dachte, dass die Zugpferde aus der Freeworld sich alle freiwillig haben anbinden lassen, so dass hier schon 10 Nodes zusammen kommen, ok das scheint nicht der Fall zu sein. Aber die Aussage, dass das Freeworldnet dem Ansturm von Metager nicht gewachsen wäre, stellt YacY schon in Frage.. Ok und dann Server ankaufen ist sicherlich durch Spenden möglich, würde ich auch machen, aber ich denke es ist dann nur eine begrenzte und nicht nachhaltige Lösung. Ich dachte, dass man wirken könne, dass ein paar Uni-Rechenzentren Metager unterstützen, aber anscheinend ist das WSB und der Suma schon nicht gelungen zur Zeit, wo Metager noch im Rechenzentrum eingebunden war/ist. Mein Tip wäre daher, dass Metager so lange wie möglich an der Uni angebunden bleibt. Und auch andere Rechenzentren dieses Tool unterstützen mit einem YaCy Node.

2. Die erhöhung der Anzahl an URLs in dem Metager-Yacy Node sollte ein weiteres Anliegen sein. Es gibt ja inzwischen schon gute Quellen an URLs (habe hier auch mehrer Millionen) und man kann ja auch Crawlen, oder diese Crawls per DHT sich besorgen. Aber gut, wenn es ein definierter Robinson sein soll, dann ist es wie es definiert ist (was wenig ist und ggf aufzeigt, dass sich keiner um weitere RSS oder Startseiten kümmert). Wie können wir also die Anzahl der URLs vergrössern? Hier ist sicherlich die Daten-Interface-Kompatibilität wichtig, die ganzen URL Daten Dumps kann man nicht so leicht importieren.

3. Die Frage nach mehr Nodes und mehr URLs ließe sich ja durch den Anschluss von Freeworld and die Metager beheben. Warum macht man das nicht? Aus inhaltlich-politischen Gründen oder weil das Netz sonst kollabiert? Ok, also der Austausch ist entscheidend, sind wir wieder bei einer Importfunktion.
Solr macht sich und gibt es dazu Informationen, wie man diese URLs lesen kann? Gibt es Tools wie SQLTableBrowser für SQL, mit denen man einen Solr Dump lesen kann? Letztlich ist die beste Import Basis ja eine txt-Datei mit URL pro Zeile. Aber bei der Freeworld-Anbindung an Metager wäre auch dieses hintergründige Maintainance.

Können wir also Metager anbinden an Freeworld?

Statistik: Verfasst von ribbon — Do Jan 10, 2013 8:59 pm


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch Status Update

Date: 2013-01-10 21:57:52

sixcooler hat geschrieben:\ das befindet sich unter Crawler / Harwester -\> Remote Crawling oder halt /RemoteCrawl\_p.html.\



Ich habe dort \“Akzeptiere Remote Crawl Anfragen\” angewählt und auf \“Speichern\” geklickt.

Wenn ich dann \“Creation Monitor\” -> \“Global Crawling\” anwähle d.h. CrawlResults.html?process=6 , ist die Liste aber immer noch leer, auch nach Neustart.

Statistik: Verfasst von uzfH7 — Do Jan 10, 2013 9:57 pm


Hilfe für Einsteiger und Anwender • Erster Einstieg zur Konfiguration

Date: 2013-01-11 12:01:11

Hy ich bin ganz neu auf dem Gebiet und deshalb habe ich einige Fragen.

Kann man Yacy so einstellen das bei meiner Suche nur bestimmte Seiten live abgesucht werden.
Wenn ja benötige ich dazu mal eine Anleitung wie man die Seiten hinzufügt die durchsucht werden sollen.
Wichtig wäre noch zu wissen ob man das abspeichern kann und immer wieder nutzen kann.


Ich bin dankbar für alle Tips!

Lg James

Statistik: Verfasst von James Dean Jr. — Fr Jan 11, 2013 12:01 pm


Mitmachen • Re: Seeks (seeks-project.info) mit YaCy verbinden

Date: 2013-01-11 12:38:11

Hallo, mit einem konfrontiert
http://www.yacy-websearch.net/wiki/index.php/En:Seeks
kann nicht installiert werden, das Geschlecht, weil ich ubuntu 12.04 64 Bit unlösbaren Abhängigkeiten:
sudo aptitude install autoconf automake libtool libpcre3 libpcre3-dev libcurl4-gnutls-dev
Leave the following dependencies unresolved:
libqt4-dbus:i386 recommends qdbus:i386 (= 4:4.8.2+dfsg-2ubuntu1~precise
sudo apt-get .…
die Ausgabe:
The following packages have unmet dependencies:
libcurl4-gnutls-dev: Depends: libldap2-dev but it is not installed
E: Unable to correct problems, you have put off (held) broken packages.
gibt es ein Repository für ubuntu 12.04 64 Bit ?

Statistik: Verfasst von mass — Fr Jan 11, 2013 12:38 pm


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2013-01-11 14:33:21

Code:
Usage with RDBMSIn order to use this handler, the following steps are required.    Define a data-config.xml and specify the location this file in solrconfig.xml under DataImportHandler section    Give connection information (if you choose to put the datasource information in solrconfig)    Open the DataImportHandler page to verify if everything is in order http://localhost:8983/solr/dataimport    Use full-import command to do a full import from the database and add to Solr index    Use delta-import command to do a delta import (get new inserts/updates) and add to Solr index Configuring DataSourcesAdd the tag 'dataSource' directly under the 'dataConfig' tag.<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="db_username" password="db_password"/>    The datasource configuration can also be done in solr config xml #solrconfigdatasource    The attribute 'type' specifies the implementation class. It is optional. The default value is 'JdbcDataSource'    The attribute 'name' can be used if there are multiple datasources used by multiple entities    All other attributes in the <dataSource> tag are specific to the particular dataSource implementation being configured.    See here for plugging in your own Oracle ExampleYou might need to download and install the Oracle JDBC Driver in the /lib directory of your Solr installation.<dataSource name="jdbc" driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@//hostname:port/SID" user="db_username" password="db_password"/>



Quelle{.postlink}

In meinem Fall muss dann der JDBC-Treiber ins Lib-Verzeichnis von YaCy, oder? DataIMPORThandler ist genau das Gegenteil von dem was ich erreichen möchte, ich will ja nicht den Inhalt einer DB indexieren, sondern die DB als Backend für Solr nutzen.

Statistik: Verfasst von LA_FORGE — Fr Jan 11, 2013 2:33 pm


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2013-01-11 16:22:51

Das{.postlink} ist eine Anleitung wie es realisiert werden kann, aber das ist zu hoch für mich :-(

Statistik: Verfasst von LA_FORGE — Fr Jan 11, 2013 4:22 pm


Mitmachen • Yacy und Flashcache

Date: 2013-01-12 00:06:29

Hallo,

ich habe seit einigen Monaten flashcache{.postlink} (SSD Cache fuer Festplatten) laufen und kann nur Gutes in Verbindung mit Yacy berichten.

Da man damit recht günstig ein sehr potentes I/O Subsytem bauen kann, dachte ich schreibe mal schnell eine Wiki Seite{.postlink} wie man das am einfachsten einrichtet.

Ein Storage nur aus SSDs ist zwar sehr schnell, aber auch sehr teuer. Die Kombination von billiger Festplatte und SSD Cache ist aber eine ganz passable Lösung.

Vielleicht gefällt es ja dem ein oder anderen...

Ciao, Botec

Statistik: Verfasst von botec — Sa Jan 12, 2013 12:06 am


Mitmachen • Re: Programmicon

Date: 2013-01-12 00:41:17

Nach langer Abstinenz wollte ich auch mal wieder etwas beisteuern und werde mich wahrscheinlich mal mit der Übersetzung auseinandersetzen.
Aber den eingefärbten Jojo Wal finde ich auch richtig gut gelungen ;-)
Hat sich im Bereich Programmicon noch etwas getan denn meine aktuelle Version 1.3 hat noch das alte mir bekannte y* Icon ?

Statistik: Verfasst von Copro — Sa Jan 12, 2013 12:41 am


Mitmachen • Re: Raspberry Pi

Date: 2013-01-12 15:53:39

Ich habe zwar die Version A mit nur 256 MB RAM aber YaCy lässt sich auch bei mir Starten. Ich bin nicht der von orbiter verlinkten Anleitung von Oracle gefolgt - werde das aber noch nachholen.
Auf meinem Pi läuft das aktuelle Raspian \“wheezy\” mit soft-float ABI von http://www.raspberrypi.org/downloads und ich habe mal IcedTea7 mit der Zero VM probiert.

\ java version \"1.7.0\_03\"\ OpenJDK Runtime Environment (IcedTea7 2.1.3) (7u3-2.1.3-1)\ OpenJDK Zero VM (build 22.0-b10, mixed mode)\ \ Danach ist er aber ziemlich ausgelastet \... obwohl der Crawler (wegen weniger als 2GB auf der SD Karte) abgeschalten ist.\ \ top - 15:51:35 up 2:00, 1 user, load average: 20.20, 11.88, 10.29\ Tasks: 65 total, 1 running, 64 sleeping, 0 stopped, 0 zombie\ %Cpu(s): 1.0 us, 5.1 sy, 93.7 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st\ KiB Mem: 188880 total, 176548 used, 12332 free, 3404 buffers\ KiB Swap: 102396 total, 7196 used, 95200 free, 29884 cached\ \ PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND\ 4458 pi 30 10 1974m 128m 10m S 94.4 69.7 11:37.93 java\ 35 root 20 0 0 0 0 S 2.2 0.0 2:36.41 mmcqd/0\



Wenn ich ihn laufen lasse ist er als raspiyacy unterwegs ... falls jemand mal einen Blick darauf werden will.

Eine schöne Zusammenfassung von Java auf dem Raspberry Pi findet sich in dem Thread:
http://www.raspberrypi.org/phpBB3/viewtopic.php?f=81&t=27805
Wünschenswert wäre also eine Standard Distribution mit hard-float ABI und dann z.B. die \”Oracle JDK 8 (with JavaFX) for ARM Early Access{.postlink}\” die dann auch für den Raspberry Pi Unterstützung mitbringt.

*SCNR*
Bild

Statistik: Verfasst von Copro — Sa Jan 12, 2013 3:53 pm


Fragen und Antworten • Re: Keine Returned Results bei Remote Search

Date: 2013-01-12 17:45:25

Kann das der Grund sein fuer das Verhalten?

Code:
I 2013/01/12 17:40:09 SearchEventCache getEvent: 1 in cache; 0 aliveE 2013/01/12 17:40:09 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /usr/share/yacy/htroot/yacy/search.class: ; java.awt.graphicsenv='sun.awt.X11GraphicsEnvironment'W 2013/01/12 17:40:09 StackTrace nulljava.lang.reflect.InvocationTargetException   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:616)   at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)   at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)   at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)   at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)   at sun.reflect.GeneratedMethodAccessor5.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:616)   at net.yacy.server.serverCore$Session.listen(serverCore.java:767)   at net.yacy.server.serverCore$Session.run(serverCore.java:658)Caused by: java.lang.NullPointerException   at net.yacy.search.query.SearchEvent.<init>(SearchEvent.java:279)   at net.yacy.search.query.SearchEventCache.getEvent(SearchEventCache.java:155)   at search.respond(search.java:314)   ... 13 moreW 2013/01/12 17:40:09 StackTrace nulljava.lang.NullPointerException   at net.yacy.search.query.SearchEvent.<init>(SearchEvent.java:279)   at net.yacy.search.query.SearchEventCache.getEvent(SearchEventCache.java:155)   at search.respond(search.java:314)   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:616)   at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)   at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)   at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)   at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)   at sun.reflect.GeneratedMethodAccessor5.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:616)   at net.yacy.server.serverCore$Session.listen(serverCore.java:767)   at net.yacy.server.serverCore$Session.run(serverCore.java:658)W 2013/01/12 17:40:09 StackTrace null



Danke & Ciao, Botec

Statistik: Verfasst von botec — Sa Jan 12, 2013 5:45 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-12 17:45:56

wunderbar, ich hab auch eben meinen Raspberry PI das erste mal gestartet und probiere jetzt mal rum was man so machen kann...

Statistik: Verfasst von Orbiter — Sa Jan 12, 2013 5:45 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-12 18:34:47

Super - dann schaut sich das ja genau der Richtige an ;-)
Ich frage mich warum die Systemauslastung bei mir aktuell so hoch ist ... weil viel zu tun sollte er ja eigentlich nicht haben.

\ uptime\ 18:29:08 up 4:38, 1 user, load average: 25.38, 24.29, 20.03\ \ tail -f DATA/LOG/yacy00.log\ I 2013/01/12 18:27:31 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%2206ZZkNgYAJHY%22&rows=0&start=0} hits=0 status=0 QTime=1065\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%222Mlp\_02euSHZ%22&rows=0&start=0} hits=0 status=0 QTime=1162\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%221udK51-Je7gQ%22&rows=0&start=0} hits=0 status=0 QTime=1113\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%223P5MYcRlyQ8Q%22&rows=0&start=0} hits=0 status=0 QTime=1239\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%22w8xJHlPCpqc4%22&rows=0&start=0} hits=0 status=0 QTime=1132\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%222UVKIlG-XgUY%22&rows=0&start=0} hits=0 status=0 QTime=1340\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%221QpItaUA5vtZ%22&rows=0&start=0} hits=0 status=0 QTime=1361\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%22w8xJHlPCpqc4%22&rows=0&start=0} hits=0 status=0 QTime=1209\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%220ayPjVEbMCLZ%22&rows=0&start=0} hits=0 status=0 QTime=1159\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%22wDkRrMwFi-dA%22&rows=0&start=0} hits=0 status=0 QTime=1220\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%2224yul7K-VV4Q%22&rows=0&start=0} hits=0 status=0 QTime=1263\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%223hxxKOEVlM4Q%22&rows=0&start=0} hits=0 status=0 QTime=1141\ I 2013/01/12 18:27:33 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%220NCSBQ68jGHA%22&rows=0&start=0} hits=0 status=0 QTime=923\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%221JXGq\_rwtdfR%22&rows=0&start=0} hits=0 status=0 QTime=1106\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%22wbrSL7I-aWrR%22&rows=0&start=0} hits=0 status=0 QTime=1181\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%2231R2dWXn90oB%22&rows=0&start=0} hits=0 status=0 QTime=1209\ I 2013/01/12 18:27:32 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%2230vjPUP290EA%22&rows=0&start=0} hits=0 status=0 QTime=1181\ I 2013/01/12 18:27:33 org.apache.solr.core.SolrCore \[collection1\] webapp=null path=/select params={q=id%3A%221EL0\_KTiAn-Q%22&rows=0&start=0} hits=0 status=0 QTime=1038\



Was macht der SolrCore da genau ? (Ich habe ja den Umstieg auf Solr gar nicht mitbekommen so lange hatte ich YaCy schon nicht mehr laufen ...)
Und gleich nachdem er den Shutdown Befehl bekommt kommen sehr viele Exceptions im Log: yacy00.log.gz

Was ich noch probieren werde ist der Wechsel von der Zero VM zur jamvm unter IcedTea7 und dann später der Umstieg auf das hard-float ABI Raspian das schon im Download Ordner wartet ;-)

Statistik: Verfasst von Copro — Sa Jan 12, 2013 6:34 pm


Hilfe für Einsteiger und Anwender • Re: Erster Einstieg zur Konfiguration

Date: 2013-01-12 20:20:18

Hallo James,

Willkommen im Forum und bei YaCy ;-]

Bei der Eingangskonfiguration (http://localhost:8090/ConfigBasic.html) die auch nach der Installation angezeigt wird kannst Du mit der Einstellung \“Suchportal für Ihre eigene Internetseiten\” festlegen, dass nur die von Dir ausgewählten Seiten indexiert und abgefragt werden. Damit bist Du dann auch nicht mit dem weltweiten \“Freeworld\” Netz von YaCy verbunden und kannst Deinen eigenen Index aufbauen.
Damit dieser Index dann auch mit den Seiten gefüllt wird die durchsucht werden sollen müssen diese durchsucht (gecrawlt) und indexiert werden. Und nach der Installation wird man sogar direkt aufgefordert seinen ersten Crawl zu starten.
Auf der Seite zum Crawl Start (http://localhost:8090/CrawlStartSite_p.html) kann man die URLs dann einzeln eingeben damit diese dann nach der Indexierung durchsucht werden können.
Um das zu beschleunigen kann man z.B. auch Bookmark Export HTML Dateien oder andere Linklisten direkt durchsuchen lassen.

Am Besten schaust Du auch einige der Lehrfilme auf der Homepage an die sehr vieles davon schon anschaulich erklären: http://www.yacy.net/de/Lehrfilme.html

Statistik: Verfasst von Copro — Sa Jan 12, 2013 8:20 pm


Mitmachen • Re: Programmicon

Date: 2013-01-12 22:34:08

Na dann, auf gutes gelingen - Unterstützung können wir ja dringend gebrauchen.…

Gruß, Thomas

Copro hat geschrieben:\ Nach langer Abstinenz wollte ich auch mal wieder etwas beisteuern und werde mich wahrscheinlich mal mit der Übersetzung auseinandersetzen.\ Aber den eingefärbten Jojo Wal finde ich auch richtig gut gelungen ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\ Hat sich im Bereich Programmicon noch etwas getan denn meine aktuelle Version 1.3 hat noch das alte mir bekannte y\* Icon ?\

Statistik: Verfasst von Vega — Sa Jan 12, 2013 10:34 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-12 22:52:47

Hallo,

dazu möchte ich Dir wie folgt antworten:

1. Nein, es gibt kaum freiwillige die Ihre Peers anbinden lassen, das Problematische bei der Anbindung an Metager ist das die Rechner möglichst 247 verfügbar sein sollten. Ein Peer der nicht Antwortet, sorgt für ein schlechtes Antwortverhalten von Metager - Metager2 hat diese Probleme übrigens nicht. Wenn Du Unterstützer gewinnen kannst für YaCy - gern, trotz vieler Kontakte ist mir das noch nicht gelungen. Wolfgang hat da auch viele Jahre gekämpft, es ist schon ein Erfolg das Metager Überhaupt an der Uni betrieben werden konnte. YaCy stellt das nicht in Frage, das wir nur auf dem lokalem Index der angebundenen Peers gesucht haben ist Performancegründen geschuldet, eine Remote Suche über das ganze YaCy netzt dauert schlichtweg zu lange. Metager braucht die Ergebnisse möglichst in 2 - 5 Sekunden, alles andere ist für die Nutzer nicht akzeptabel.

2. Ja, das ist in Arbeit - bei mehreren Peers werden auch von YaCy wieder mehr Ergebnisse geliefert - das ganze ist immer ein \“Henne\” - \“Ei\” Problem.

3. Siehe 1, letzter Satz...es ist schlichtweg zu langsam. Das würde nur funktionieren, wenn wir XXX Server in einem RZ mieten die \“nebeneinanderstehen\” und ein eigenes
Netzwerk damit Bilden.

Gruß,
Thomas

1. Die Zahl der YaCy Nodes in Metager (Metager 2 insteressiert mich weniger, da Metager total gut ist) muss erhöht werden. Hier sollten wir überlegen wie. Ich dachte, dass die Zugpferde aus der Freeworld sich alle freiwillig haben anbinden lassen, so dass hier schon 10 Nodes zusammen kommen, ok das scheint nicht der Fall zu sein. Aber die Aussage, dass das Freeworldnet dem Ansturm von Metager nicht gewachsen wäre, stellt YacY schon in Frage.. Ok und dann Server ankaufen ist sicherlich durch Spenden möglich, würde ich auch machen, aber ich denke es ist dann nur eine begrenzte und nicht nachhaltige Lösung. Ich dachte, dass man wirken könne, dass ein paar Uni-Rechenzentren Metager unterstützen, aber anscheinend ist das WSB und der Suma schon nicht gelungen zur Zeit, wo Metager noch im Rechenzentrum eingebunden war/ist. Mein Tip wäre daher, dass Metager so lange wie möglich an der Uni angebunden bleibt. Und auch andere Rechenzentren dieses Tool unterstützen mit einem YaCy Node.

2. Die erhöhung der Anzahl an URLs in dem Metager-Yacy Node sollte ein weiteres Anliegen sein. Es gibt ja inzwischen schon gute Quellen an URLs (habe hier auch mehrer Millionen) und man kann ja auch Crawlen, oder diese Crawls per DHT sich besorgen. Aber gut, wenn es ein definierter Robinson sein soll, dann ist es wie es definiert ist (was wenig ist und ggf aufzeigt, dass sich keiner um weitere RSS oder Startseiten kümmert). Wie können wir also die Anzahl der URLs vergrössern? Hier ist sicherlich die Daten-Interface-Kompatibilität wichtig, die ganzen URL Daten Dumps kann man nicht so leicht importieren.

3. Die Frage nach mehr Nodes und mehr URLs ließe sich ja durch den Anschluss von Freeworld and die Metager beheben. Warum macht man das nicht? Aus inhaltlich-politischen Gründen oder weil das Netz sonst kollabiert? Ok, also der Austausch ist entscheidend, sind wir wieder bei einer Importfunktion.
Solr macht sich und gibt es dazu Informationen, wie man diese URLs lesen kann? Gibt es Tools wie SQLTableBrowser für SQL, mit denen man einen Solr Dump lesen kann? Letztlich ist die beste Import Basis ja eine txt-Datei mit URL pro Zeile. Aber bei der Freeworld-Anbindung an Metager wäre auch dieses hintergründige Maintainance.

Können wir also Metager anbinden an Freeworld?[/quote]

Statistik: Verfasst von Vega — Sa Jan 12, 2013 10:52 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-13 16:48:24

dieser Rechner kostet 79 Euro, es sollte doch kein Problem sein, 5 Stück davon zu verschenken an Metager
http://www.one.de/shop/product_info.php ... ts_id=7678{.postlink}

Ich finde dennoch, dass Metager eine Handvoll eigene Nodes braucht und auch an das Freeworld Net angeschlossen sein sollte.
Metager kann nach 3 Sekunden NICHT eingegangene Queries ja kappen.

Aber mit kommt es mehr darauf an, dass jeder URLs per DHT and die Lokal MG-Cluster senden kann, wieso sollte der lokale Metager Node jede URL selbst crawlen, ich meinte den DHT URL Austausch, nicht unbedingt die queryhits.

Statistik: Verfasst von ribbon — So Jan 13, 2013 4:48 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-13 20:03:14

jetzt hatte ich ein wenig Zeit zum Experimentieren und hab jetzt schon mal YaCy am laufen. Mir scheint hier der RAM-Bedarf der Knackpunkt zu sein. Eine andere VM und hard-float ABI ausprobieren oder sogar ein anderes linux macht sicherlich auch Sinn.

Ich hab mal eine Wiki-Seite dazu angefangen, da können unsere Erfahrungen ja rein: http://www.yacy-websearch.net/wiki/inde ... spberry_Pi{.postlink}

Statistik: Verfasst von Orbiter — So Jan 13, 2013 8:03 pm


YaCy Coding & Architektur • Re: Klartext Query Handling ?

Date: 2013-01-14 02:39:04

Die Standardisierung des EmbeddedSolr Schema ist sicherlich richtig und notwendig innerhalb eines bestimmten Netzes, aber nicht für alle denkbaren Netze. Es könnte ja jemand auf die Idee kommen das Schema erst anzupassen und dann für das angepasste Schema ein eigenes Netz drüber zu bauen. Folglich müsste die Schemadefinition ein Teil der Netzdefinition sein.
Die Alternative, nur für p2p-Kommunikation ein unangepassstes Schema zu nutzen müssen wir nochmal überdenken bzw. näher in Betracht ziehen, vielleicht ist das der Ausweg.

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 2:39 am


Mitmachen • Re: Desginarbeiten

Date: 2013-01-14 03:17:59

as far as I know there is nobody working on design right now.

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 3:17 am


Fragen und Antworten • Re: Update startet nicht mehr - kelondroBufferedEcoFS.put

Date: 2013-01-14 03:29:35

Warum dein debian nicht erkennt dass das YaCy neuer ist weiss ich auch nicht, allerdings kenne ich den Effekt denn das hab ich auch schon mal gesehen. Wie auch immer, mit einem aktuellen YaCy geht das Updaten wieder. Ich empfehle daher folgendes:

- mache ein Back-up deiner YaCy Daten, welche in /var/lib/yacy/ stehen mit:
> sudo tar Pcf /var/lib/yacy.tar /var/lib/yacy/
- de-installiere YaCy
- installiere das neue Yacy
- packe das Backup wieder aus:
> sudo tar Pxf /var/lib/yacy.tar

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 3:29 am


Wunschliste • Re: LDAP/ActiveDirectory Authentication

Date: 2013-01-14 03:37:12

Vega hat geschrieben:\ - es sollte weiterhin eine einfach gestrickte interne Nutzerverwaltung geben, zumindest einen \"hart\" verdrahteten/gecodeten Admin. Wenn wir aber in YaCy Ldap auslesen können, sollten wir bei Bedarf auch alle anderen User aus dem LDAP Directory kommen.\


Also an der YaCy-internen Benutzerverwaltung für den Zugriff auf das YaCy Admin-Interface soll sich nichts ändern. Die Rechte in LDAP könnte auch gar nicht anständig die YaCy Rechte abbilden.

Vega hat geschrieben:\ - Sollte es in YaCy einen integrierten LDAP Server geben, sollte dieser auch die Benutzerverwaltung übernehmen können, die Benutzer in diesem Angelegt/verwaltet werden können - bis auf einen admin User der intern ist (und damit immer funktioniert).\ Ldap Software für Java - - und ein Beispiel: \


von einem in YaCy integrierten LDAP Server war nicht die Rede -- es geht hier nur darum für das Suchinterface eine externe Rechtevergabe verstehen zu können, nicht diese Rechtevergabe für andere LDAP Clients in YaCy einzubauen.

Low012 hat geschrieben:\ Soll LDAP dann die interne Nutzerverwaltung komplett ersetzen, es ergänzen oder Admin intern und sonstige Nutzer über LDAP oder wie?\


ein externer LDAP sollte nur \‘verstanden\’ werden können. Einen LDAP in YaCy einzubauen wäre ein wenig zu viel Overhead. Der externe LDAP soll auch nicht die Admin-Authentifizierung in YaCy ersetzen. Es geht nur darum dass man einen externen LDAP verstehen kann um bestimmten Usern nur bestimmte Suchergebnisse anzuzeigen zu denen diese User auch Zugangsrechte haben.

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 3:37 am


Hilfe für Einsteiger und Anwender • Re: YaCy als Weltretter

Date: 2013-01-14 03:46:00

Vega hat geschrieben:\ Google hat etwas über 3 Milliarden Links\


das haut nicht hin. Wenn du bei Google nach \‘com\’ suchst, bekommst du schon mehr als 25 Milliarden Links und das ist ausserdem die Zahl die Yahoo 2005 schon angegeben hat zur Anzahl der Links die die damals im Index hatten. Ich kenne keine weitere Quelle dazu, aber Google hat sicherlich inzwischen 100 Milliarden Links im Index.

Also 100 Milliarden / 20 Millionen = 5000 Rechner. Das ist immer noch eine überschaubare kleine Zahl, das haben auch kleinere Colocations schon herumstehen. Aber die Anzahl der Suchanfragen ist dann sicherlich noch ein Problem und man braucht mehr Rechner, wieviele kann man nur schätzen.

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 3:46 am


Hilfe für Einsteiger und Anwender • Re: haslink oder link host ?

Date: 2013-01-14 12:52:17

ich habe das Feature eingebaut in commit d2d5be032dc255b24b74e9ccf0a328d375c62e33
Es stellt ein \‘inlink\‘-Option zur Verfügung. Beispiel: Du kannst nun nach allen Dokumenten suchen, die ein \‘yacy\’ in den outbound links haben mit:
* inlink:yacy

Das heisst nun \‘inlink\’ und nicht \‘haslink\’ in Analogie zu \‘inurl\‘.
Ich habe das erst mal nur für outbound links gemacht. Ich glaube das braucht man nicht für inbound links, oder?

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 12:52 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-14 13:46:08

zur Abfrage von opensearch/rss Suchergebnissen (aus metager oder woher auch sonst) möchte ich anmerken dass es ja über das solr interface und dessen angepassten result writer eine Suchergebnisausgabe in opensearch bzw. rss gibt.

Dazu einfach den folgenden Pfad benutzen (für eine Beispielsuche nach \‘metager\’ und 30 Treffern):
/solr/select?q=text_t:metager&start=0&rows=30&wt=opensearch
oder
/solr/select?q=text_t:metager&start=0&rows=30&wt=rss

beide benutzen über die Option \‘wt\’ einen alternativen solr result writer, den ich dazugebaut habe. Das ist nicht so im Original in Solr drin. Beide Optionen \‘opensearch\’ und \‘rss\’ liefern exakt das gleiche Datenformat aber mit jeweils anderen mime-types, so dass ein Aufruf im Browser dann auch zu einem anderen Rendering führt. Das ganze ist wesentlich schneller als über das YaCy interface, macht dafür aber auch keine Remote Suche.

Statistik: Verfasst von Orbiter — Mo Jan 14, 2013 1:46 pm


Hilfe für Einsteiger und Anwender • laufen YaCy

Date: 2013-01-15 04:12:06

Seien Sie so freundlich, mir zu sagen, es gibt eine Abhängigkeit von der Anzahl der indizierten Seiten und Startzeit YaCy?
Kürzlich startete YaCy kommt zu 2 Stunden, nicht schlecht angesichts der sehr system:
Processor: AMD FX-8120 Eight-Core @ 3.90GHz (8 Cores), Motherboard: Gigabyte GA-990XA-UD3, Chipset: AMD nee ATI RD890, Memory: 32768MB
Und noch eine Frage, nicht wie kann ich aktualisieren
schreibt, die neueste Version.
apt-get update && apt-get install yacy
So ist es mit aptitude ...

und dennoch,
wie Nachrichten zu veröffentlichen, dass erschien sie in der
http://localhost:8090/yacysearch.rss?query=%query


Vielen Dank im Voraus

Statistik: Verfasst von mass — Di Jan 15, 2013 4:12 am


Hilfe für Einsteiger und Anwender • site:-Abfrage defekt?

Date: 2013-01-15 15:57:01

Auch nach einem heutigen Update auf 1.39043, robinson-mode, funktioniert bei meiner Installation (Linux) die site:-Abfrage nicht.

Eine Suche wie z.B. \“auto site:indexierteseite.de\” bringt null Ergebnisse.

Suche nach \“auto\” bring viele Ergebnisse, auch von indexierteseite.de.

(Suchen jeweils ohne \” \“)

Statistik: Verfasst von dirk — Di Jan 15, 2013 3:57 pm


Hilfe für Einsteiger und Anwender • Re: site:-Abfrage defekt?

Date: 2013-01-15 16:12:49

hab ich hier ausprobiert und geht!
bitte folgendes nachgucken/ausprobieren:
- auf einen Host-Navigator klicken. Ist der Host-Navigator da? Wenn der nicht da ist kanns auch nicht gehen.
- indexierteseite.de und www.indexierteseite.de{.postlink} unterscheiden. Sind die Links nur von www.indexierteseite.de{.postlink}, so kommt bei site:indexierteseite.de nichts und das ist im Prinzip auch richtig so.

Statistik: Verfasst von Orbiter — Di Jan 15, 2013 4:12 pm


Hilfe für Einsteiger und Anwender • Re: site:-Abfrage defekt?

Date: 2013-01-15 16:16:27

Danke orbiter für die schnelle Antwort. Mit www. funktioniert die Site-Abfrage. ,-)

Statistik: Verfasst von dirk — Di Jan 15, 2013 4:16 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-15 20:26:47

also ich muss zugeben dass ich mit der Performance auch absolut unzufrieden bin. Eine mögliche Ursache versuche ich beim IO zu suchen und habe so mal ein sysbench test gemacht um ggf. Unterschiede zwischen verschiedenen SD-Karten zu sehen.

Ich hatte eine 8GB microSD SanDisc Class 4 Karte drin und hier ist das Ergebnis:

Code:
pi@raspberrypi ~ $ sudo apt-get install sysbenchpi@raspberrypi ~ $ sysbench --test=fileio --file-total-size=2G preparepi@raspberrypi ~ $ sysbench --test=fileio --file-total-size=2G --file-test-mode=rndrw --init-rng=on --max-time=300 --max-requests=0 runsysbench 0.4.12:  multi-threaded system evaluation benchmarkRunning the test with following options:Number of threads: 1Initializing random number generator from timer.Extra file open flags: 0128 files, 16Mb each2Gb total file sizeBlock size 16KbNumber of random requests for random IO: 0Read/Write ratio for combined random IO test: 1.50Periodic FSYNC enabled, calling fsync() each 100 requests.Calling fsync() at the end of test, Enabled.Using synchronous I/O modeDoing random r/w testThreads started!Time limit exceeded, exiting...Done.Operations performed:  960 Read, 640 Write, 2016 Other = 3616 TotalRead 15Mb  Written 10Mb  Total transferred 25Mb  (85.223Kb/sec)    5.33 Requests/sec executedTest execution summary:    total time:                          300.3881s    total number of events:              1600    total time taken by event execution: 2.2570    per-request statistics:         min:                                  0.11ms         avg:                                  1.41ms         max:                                 15.48ms         approx.  95 percentile:               2.92msThreads fairness:    events (avg/stddev):           1600.0000/0.00    execution time (avg/stddev):   2.2570/0.00pi@raspberrypi ~ $ sysbench --test=fileio cleanup


Diese 8GB Karte war nur provisorisch, denn ich hatte eine 64GB SDXC Class 10 Karte bestellt; die ist heute gekommen aber ich kann das Image nicht drauf spielen weil ich offenbar keinen XC-fähigen Kartenleser hier habe. Der ist nun bestellt sowie eine \“SanDisk SDSDXPA-008G-X46 Card Extreme Pro SDHC 8GB (95MB/s)\” die wohl nochmal geschwindigkeitsmäßig was drauflegen kann. Wenn das Geschwindigkeitsproblem bei YaCy wesentlich durch die SD-Karte bestimmt wird, so sollte das damit messbar werden.

Statistik: Verfasst von Orbiter — Di Jan 15, 2013 8:26 pm


Fragen und Antworten • Re: Update startet nicht mehr - kelondroBufferedEcoFS.put

Date: 2013-01-16 11:24:28

Moin moin...


warum auch immer: nach einem Neustart des Servers startete Yacy völlig Problemlos mit der aktuellen Version und ist seitdem mächtig am crawlen.….mein armer Hoster bekommt gerade ein paar GB um die Ohren gehauen.… :-D .

Yacy läuft also, ich habe allerdings keine Ahnung wann er denn dann das Update gezogen haben soll.…


Dafür taucht jetzt eine andere Frage auf: soweit ich micht entsinne war es in der \“alten\” Version, die ich vorher drauf hatte, möglich den Index nach den Blacklisteneinträgen zu bereinigen; will sagen es gab einen Button \“Blacklist aufräumen\” oder so ähnlich, und dann hat Yacy alle URLs und Verweise usw. aus dem Index entfernt, die einen Eintrag in der Blacklist hatten. Diesen Button finde ich nicht mehr ... :-/.

Das hat den Effekt dass ich URLs hinzufüge in die Blacklist, mangels Bereinigung des Index diese aber immer noch in den Suchergebnissen auftauchen... . Auch mit einem Aufruf via Konsole zur Bereinigung des Index dahingehend wäre mir schon geholfen .…

lG
Thomas

Statistik: Verfasst von Maxi-Fussel — Mi Jan 16, 2013 11:24 am


Fragen und Antworten • robots.txt nicht korrekt geladen?

Date: 2013-01-16 16:38:59

Hallo,

ich habe mir jetzt yacy auf meinem Server installiert und teste gerade ein wenig herum.

Dabei ist mir etwas weniger schönes aufgefallen:

Anscheinend wird die robots.txt nicht immer korrekt geladen und in die Datenbank übernommen. Bei einer Suche habe ich eine Seite von meinem Friendica-Server gefunden, die eigentlich durch die robots.txt für Suchmaschinen verboten ist.

Daraufhin habe ich mir die in yacy gespeicherte Kopie der robots.txt angesehen.

Erstaunlicherweise ist für friendika.zottel.net:80 die richtige robots.txt gespeichert. Für friendika.zottel.net:443 existiert jedoch zwar ein Eintrag, der aber komplett leer ist -> alles erlaubt.

Wie kommt das zustande? https://friendika.zottel.net/robots.txt ist problemlos erreichbar.

Statistik: Verfasst von zottel — Mi Jan 16, 2013 4:38 pm


Fragen und Antworten • Re: robots.txt nicht korrekt geladen?

Date: 2013-01-16 17:22:06

danke, gut beschriebener bug: konnte ich so nachvollziehen. Ich schaue mir das an.

Statistik: Verfasst von Orbiter — Mi Jan 16, 2013 5:22 pm


Hilfe für Einsteiger und Anwender • Re: site:-Abfrage defekt?

Date: 2013-01-16 17:23:00

aber du hast auch recht damit dass dieses Problem nicht unbedingt eins sein müsste; daher habe ich den Site-Operator so angepasst dass nun www. automatisch mit abgesucht wird.

Statistik: Verfasst von Orbiter — Mi Jan 16, 2013 5:23 pm


Fragen und Antworten • Re: robots.txt nicht korrekt geladen?

Date: 2013-01-16 17:27:12

Super, danke.

Webseiten (die ja erfolgreich indiziert werden) werden nicht anders geladen als die robots.txt, oder? Der https-Zugriff auf friendika.zottel.net funktioniert nur mit SNI, deshalb die Frage, ob es damit etwas zu tun haben könnte.

Statistik: Verfasst von zottel — Mi Jan 16, 2013 5:27 pm


Fragen und Antworten • Re: robots.txt nicht korrekt geladen?

Date: 2013-01-16 17:39:49

hab den Fehler gefunden und in git gepusht, update sollte in rund 10 minuten runtergeladen werden können.
Ja, der Download für die robots.txt und die Webseiten ist der gleiche Prozess, nur wurde die robots.txt URL falsch zusammengebaut...

Statistik: Verfasst von Orbiter — Mi Jan 16, 2013 5:39 pm


Wunschliste • Re: Back und Front End Trennung im CSS bereich

Date: 2013-01-16 21:03:12

Lotus hat geschrieben:\ >
> > Kelteseth hat geschrieben:Klar das ist eine Gute Idee die ich aber > nur angehen kann wenn mir jemand mal schreiben könnte wo die Normale > Index liegt damit ich sie bearbeiten kann > ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green")\ > >


In /yacy/htroot/ ?

Fürs Arbeiten am Webinterface bietet sich an, die Option [enableTemplateCache = false]{style=“font-style: italic”} zu setzen und YaCy auf Englisch eingestellt zu lassen. Das geht unter http://localhost:8090/ConfigProperties_p.html{.postlink}
Aber Achtung: Änderungen werden durch YaCy-Updates überschrieben.


Super. Jetzt wurde alles überschrieben aber es klappt perfekt :) Ein paar Feineinstellungen, nehme ich an, und dann wird alles klappen, wie es soll :)

Statistik: Verfasst von Trennscheibe — Mi Jan 16, 2013 9:03 pm


Wunschliste • Re: Yacy-Cluster

Date: 2013-01-16 21:04:55

PCA42 hat geschrieben:\ So, ich hatte heute auch mal etwas Zeit gefunden, meinen Root-Server umzubauen. Für die Umsetzung mit lighttpd war ich von zu doof, mit ngnix war das in 5 Minuten realisiert. Installation über aptitude und dann fix ein Beispiel ([URL](http://silberpreisineuro.de/){.postlink}) auf meine Gegebenheit modifiziert. Damit hab ich dann auch noch die Möglichkeit, über den Server die Web-Seite für meine holde Weiblichkeit auszuliefern.\


Interessanter Lösungsansatz. Ich werde die Methode die Tage mal probieren. Kannst du mir behilflich sein, wenn was nicht klappt? Bin noch Anfänger.

Statistik: Verfasst von Trennscheibe — Mi Jan 16, 2013 9:04 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-16 21:41:56

Hallo,

die Idee ist ja an sich nicht schlecht, aber da gibt es 2 Probleme - erstens haben die Rechner wenig Speicher und langsame Festplatten, zweitens - wo sollen die Kisten dann stehen, wer betreibt Sie ? Natürlich wäre eine Handvoll Nodes für Metager fein - so etwas wäre besser geeignet http://www.one.de/shop/product_info.php?cPath=364_361&products_id=8023. Wenn sich 5 Leute finden die sich so eine/vergleichbare Kiste zulegen und 247 betreiben und auch noch Sinnvoll ans Internet angebunden sind...gern. Besser wären aber Rootserver bei Server4You etc, damit kann man ein eigenen Cluster Bilden und URL\’s einspeisen. Remote-Suche im Freeworld Netz ist einfach zu langsam. Das liegt einfach an den Internetzugängen/der verwendeten Peers, das sagt nichts über die Leistungsfähigkeit von YaCy aus.

Gruß
Thomas

ribbon hat geschrieben:\ dieser Rechner kostet 79 Euro, es sollte doch kein Problem sein, 5 Stück davon zu verschenken an Metager\ [http://www.one.de/shop/product\_info.php \... ts\_id=7678](http://www.one.de/shop/product_info.php?cPath=128_236&products_id=7678){.postlink}\ \ Ich finde dennoch, dass Metager eine Handvoll eigene Nodes braucht und auch an das Freeworld Net angeschlossen sein sollte.\ Metager kann nach 3 Sekunden NICHT eingegangene Queries ja kappen.\ \ Aber mit kommt es mehr darauf an, dass jeder URLs per DHT and die Lokal MG-Cluster senden kann, wieso sollte der lokale Metager Node jede URL selbst crawlen, ich meinte den DHT URL Austausch, nicht unbedingt die queryhits.\

Statistik: Verfasst von Vega — Mi Jan 16, 2013 9:41 pm


Hilfe für Einsteiger und Anwender • Re: YaCy als Weltretter

Date: 2013-01-16 21:52:43

Hallo Michael,

Du hast recht, siehe http://www.ub.uni-bielefeld.de/biblio/search/services/

[\“Laut eigener Aussage \“kennt\” Google weit über 1 Billion Internet-Adressen (Quelle: Google Blog, Stand: Juli 2008). Nicht jede davon gelangt jedoch in den Index, denn es gibt unzählige Seiten ohne Inhalt oder inhaltlich identische Seiten, die von Google von vornherein ausgefiltert werden. Die tatsächliche Indexgröße liegt daher schätzungsweise bei 50-200 Milliarden Internetseiten.\“]{style=“font-style: italic”}

Gruß,
Thomas

Orbiter hat geschrieben:\ >
> > Vega hat geschrieben:Google hat etwas über 3 Milliarden Links\ > >


das haut nicht hin. Wenn du bei Google nach \‘com\’ suchst, bekommst du schon mehr als 25 Milliarden Links und das ist ausserdem die Zahl die Yahoo 2005 schon angegeben hat zur Anzahl der Links die die damals im Index hatten. Ich kenne keine weitere Quelle dazu, aber Google hat sicherlich inzwischen 100 Milliarden Links im Index.

Also 100 Milliarden / 20 Millionen = 5000 Rechner. Das ist immer noch eine überschaubare kleine Zahl, das haben auch kleinere Colocations schon herumstehen. Aber die Anzahl der Suchanfragen ist dann sicherlich noch ein Problem und man braucht mehr Rechner, wieviele kann man nur schätzen.

Statistik: Verfasst von Vega — Mi Jan 16, 2013 9:52 pm


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-01-17 01:07:36

Hallo
Es ist eine Formel, wertet Citation Rank?

Statistik: Verfasst von mass — Do Jan 17, 2013 1:07 am


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-01-17 01:35:08

Hallo Mass,
wir haben in YaCy eine Citation Reference Datenbank, aber diese existiert ausserhalb von Solr und ist dort noch nicht eingebunden. Ich hab vor dort eine Querverbindung einzubauen und das Ranking in Solr so zu konfigurieren dass das benutzt wird.
Ist aber noch nicht fertig. Ich hoffe Mitte Februar ist das bereit fürs Release 1.4.

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 1:35 am


Mitmachen • Re: Seeks (seeks-project.info) mit YaCy verbinden

Date: 2013-01-17 01:47:47

Die Seeks-Doku, die meiner Seeks-Doku zugrundeliegt ist auch nicht ganz vollständig. Ich empfehle die Meldungen einfach zu ignorieren und zu gucken obs trotzdem geht.
Ich habe dazu die Seeks-Leute auch per email angeschrieben hier mal auf das Forum zu gucken und zu helfen, hoffentlich schaut mal einer drüber.

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 1:47 am


Mitmachen • Re: Yacy und Flashcache

Date: 2013-01-17 01:57:17

ahhh das ist eine super Sache. Ich habs noch nicht ausprobiert aber nehme mir das mal vor.
Kleiner Haken dabei ist aber noch: meistens passt der Index aber relativ leicht noch in die SSD rein. Gibts da auch eine Beschleunigung bei USB-Sticks oder schnellen SD Karten?

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 1:57 am


Fragen und Antworten • Re: Keine Returned Results bei Remote Search

Date: 2013-01-17 02:00:04

den NPE bei SearchEvent.java:279 habe ich heute mit einem Patch versehen so dass es nicht mehr zu einem Ausstieg bei der Exception kommt. Ich weiss aber noch nicht wie der NPE tatsächlich verursacht wurde, das muss ich mal weiter beobachten.

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 2:00 am


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-01-17 02:17:43

Es gibt Probleme mit dem Update. beschrieben in http://forum.yacy-websuche.de/viewtopic.php?f=18&t=4577
Und noch eine Frage, nicht wie kann ich aktualisieren
schreibt, die neueste Version.
apt-get update && apt-get install yacy
So ist es mit aptitude ...
auf Version bisher:
1.04/9079

Statistik: Verfasst von mass — Do Jan 17, 2013 2:17 am


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-01-17 02:22:29

es scheint ein Problem mit dem debian-Update von YaCy 1.0x auf 1.3 zu geben.
Mache folgendes:
- backup von /var/lib/yacy/
- yacy deinstallieren
- neue Version installieren,
- wenn nötig, /var/lib/yacy/ wiederherstellen
- damit YaCy starten

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 2:22 am


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-01-17 02:32:55

Grundsätzlich war ich erwartet hatte. , Das ist nur Angst vor dem Verlust
Citation.blob ,text.blob
habe so lange her, und konnte nicht in Einklang zu bringen :Citation.blob ,text.blob

Statistik: Verfasst von mass — Do Jan 17, 2013 2:32 am


Fragen und Antworten • Re: robots.txt nicht korrekt geladen?

Date: 2013-01-17 08:53:49

Wunderbar, vielen Dank!

Statistik: Verfasst von zottel — Do Jan 17, 2013 8:53 am


Fragen und Antworten • HTTPS via Proxy will nicht

Date: 2013-01-17 09:51:36

Hallo,

ich wollte jetzt den Yacy auf meinem Server als Proxy nutzen. Dazu habe ich einen SSH-Tunnel zu meinem Server aufgebaut und im Firefox localhost:17717 (mein Yacy-Port, der auch geforwardet wird) als Proxy für alles eingetragen.

Per http kann ich auf diese Weise problemlos auf alles zugreifen, aber sobald ich https nutze, bekomme ich von FF gemeldet:

\ Fehler: Verbindung unterbrochen\ Die Verbindung zum Server wurde zurückgesetzt, während die Seite geladen wurde.\



FF 18.0, Yacy 1.39031

Geht https grundsätzlich nicht oder läuft da irgendetwas schief?

EDIT: In der proxyAccess00.log kommen meine Versuche, auf https-Seiten zuzugreifen, gar nicht vor.

Statistik: Verfasst von zottel — Do Jan 17, 2013 9:51 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-17 10:54:25

das geht nicht weil YaCy kein https proxy ist. YaCy entstand aus einem caching+\‘scraping\’ http proxy. Bei einem https proxy ist es ja (das ist ja der Zweck von https) nicht möglich den Inhalt der Übertragung zu sehen; somit gab es nie in YaCy den Anspruch htttps zu können, obwohl so eine Funktion wahrscheinlich recht einfach wäre.

Sent from my HTC Vision Using ForumTouch for Android

Statistik: Verfasst von Orbiter — Do Jan 17, 2013 10:54 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-17 11:02:01

Ach so, ok. Alles klar, danke.

Statistik: Verfasst von zottel — Do Jan 17, 2013 11:02 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-17 11:46:04

Hm, vielleicht bin ich zu blöd, aber anscheinend geht es gar nicht, FF so zu konfigurieren, dass er für http einen Proxy nimmt, für https aber nicht?

Ich kann zwar einen [anderen]{style=“font-style: italic”} Proxy für https einstellen, aber offenbar nicht [gar keinen,]{style=“font-style: italic”} wenn gleichzeitig einer für http aktiv ist. (Feld leer lassen funktioniert nicht.)

Wie macht Ihr das alle? Es wäre doch extrem unpraktisch, den Proxy für jede https-Seite auszumachen, um ihn direkt danach für http wieder einzuschalten? Zumal ich meist auch https-Seiten im Hintergrund offen habe, die sich selbst aktualisieren, was ja dann auch nicht funktioniert, sobald der Yacy-Proxy aktiv ist.

Statistik: Verfasst von zottel — Do Jan 17, 2013 11:46 am


Fragen und Antworten • Nichts geht mehr seit Update

Date: 2013-01-18 10:38:07

Hallo,

seit ich vorhin auch 9035 geupdatet habe, geht überhaupt nichts mehr.

Erst hatte ich lauter \“Too many open files\” im Log (gestern noch kein Problem). Also habe ich die entsprechenden ulimits für User yacy hochgesetzt.

Dann ließ sich yacy wieder starten, aber wenn ich auf die Admin-Konsole ging, schien das CSS-Stylesheet zu fehlen, und alle paar Sekunden ging ein JS-Dialog mit der Meldung \“no rss file found\” auf, so dass das ganze unbenutzbar war.

Also startete ich yacy mehrfach neu. Meistens ging das auch, aber das Problem mit dem \“no rss file found\” und dem fehlenden Stylesheet war immer da.

Beim vorletzten Versuch bekam ich, schon bevor sich meine Node zu anderen Nodes verband, große Mengen von OutOfMemory-Fehlern im Log, dann nichts mehr. Der Java-Prozess lief noch, tat aber nichts mehr.

Beim nächsten Restart ging es unerklärlicherweise dann wieder. Jetzt tauscht yacy fleißig Daten mit anderen Nodes aus, antwortet aber nicht mehr auf http-Requests im Browser.

Was ist da los?

Statistik: Verfasst von zottel — Fr Jan 18, 2013 10:38 am


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-01-18 11:02:59

Öhm ... Ich musste feststellen, dass yacy plötzlich nicht mehr auf dem eigentlich konfigurierten Port 17717 lief, sodern auf dem Default 8090.

Dort sah jetzt alles aus wie gewohnt, aber ich konnte mich mit meinem Admin-Passwort nicht mehr anmelden.

Tut mir leid, das geht wirklich gar nicht.

Ich kann auf einem Server keine Software betreiben, die mal eben eigenmächtig den Port ändert, auf dem sie lauschen will, und das konfigurierte Admin-Passwort nicht mehr akzeptiert.

Mag ja sein, dass durch irgendwelche Probleme mal die Config flöten geht, speziell wenn sie in einer Datenbank steht und OutOfMemory Errors auftreten. Aber dann darf die Software nicht mehr starten. Sich einfach auf irgendwelche Defaults zurückzusetzen ist absolut inakzeptabel.

Meine Node ist erst einmal gestoppt. Wenn mir jemand plausibel darlegen kann, warum das so war (ich helfe, falls nötig, gern mit Logs), und dass das nach einem Fix nicht mehr passieren kann, setze ich sie vielleicht wieder in Betrieb.

Statistik: Verfasst von zottel — Fr Jan 18, 2013 11:02 am


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-01-18 11:32:28

wie hast du denn das update gemacht?

Statistik: Verfasst von Orbiter — Fr Jan 18, 2013 11:32 am


YaCy Coding & Architektur • Re: Klartext Query Handling ?

Date: 2013-01-18 17:19:22

Orbiter hat geschrieben:\ Die Alternative, nur für p2p-Kommunikation ein unangepassstes Schema zu nutzen müssen wir nochmal überdenken bzw. näher in Betracht ziehen, vielleicht ist das der Ausweg.\


Ich bin zwar nicht ganz auf dem aktuellen Stand, aber nach dem was ich verstanden habe, könnte doch ein Mapping eine Lösung sein. D.h. es gibt bestimmte Felder mit standardisiertem Namen. Von diesem Standard gibt es nun ein Mapping auf ein beliebiges Feld. Und einzige Voraussetzung ist, dass immer ein Mapping mit dem zugehörigen Feld existieren muss. D.h. es gibt Felder, die müssen existieren, dürfen aber auch anders heißen.

Statistik: Verfasst von Lotus — Fr Jan 18, 2013 5:19 pm


Hilfe für Einsteiger und Anwender • Re: laufen YaCy

Date: 2013-01-18 17:23:38

Ja, je mehr Seiten YaCy verwaltet, desto länger dauert der Start. 2 Stunden sind aber unüblich. Üblich sind bei großem Index höchstens Minuten.

Updates sind über die EIngangsseite des Admin-Bereiches oben rechts zu erreichen.

Cache löschen kann negativen Einfluss auf die Leistunge haben, wenn Auszüge der Suchergebnisse (Snippets) generiert werden.

Statistik: Verfasst von Lotus — Fr Jan 18, 2013 5:23 pm


Mitmachen • Re: Yacy und Flashcache

Date: 2013-01-19 02:07:27

Man kann ja eine alte 32GB SSD nehmen um eine lahme 200GB Platte zu beschleunigen. Einen Index groesser 32GB hat man ja schnell... :)
Ja man kann mit flashcache alles beschleunigen was ein Blockdevice ist. Es muss auch keine SSD sein. Eine schnelle Platte mit 15k RPM kann z.B. auch eine 5k4 RPM Platte beschleunigen. Oder ein schneller USB Stick/SDHC Karte eine Platte. Der Fantasie sind da kaum Grenzen gesetzt...

Ciao, Botec

Statistik: Verfasst von botec — Sa Jan 19, 2013 2:07 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-19 12:44:47

Nimm die automatische Konfiguration, dann gibt es keine Probleme:
http://localhost:8090/autoconfig.pac
http://localhost:8090/ProxyIndexingMonitor_p.html

Statistik: Verfasst von Lotus — Sa Jan 19, 2013 12:44 pm


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2013-01-19 16:29:18

Die Anleitung oben ist für den Anschluss von Solr an einen MySQL-Server. Das ist auch besser so. Von Oracle bin ich mittlerweile weg, da die Lizenzkosten so hoch sind, dass ich es mir nicht leisten kann. Falls ihr es nach og. Anleitung für die Community implementieren wollt, ist die SQL-Server Lösung sowieso besser. Ich denke, dass viele Unis und wissenschaftl. Einrichtungen von so einem Feature profitieren würden.

Statistik: Verfasst von LA_FORGE — Sa Jan 19, 2013 4:29 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-01-19 18:27:29

ok, ich habe jetzt noch einmal ein wenig Debugging betrieben und festgestellt, dass yacy mit folgender Fehlermeldung abbricht:

Code:
## A fatal error has been detected by the Java Runtime Environment:##  Internal Error (os_linux_zero.cpp:236), pid=2940, tid=2548970608#  Error: caught unhandled signal 11## JRE version: 6.0_18-b18# Java VM: OpenJDK Zero VM (14.0-b16 mixed mode linux-arm )# Derivative: IcedTea6 1.8.13# Distribution: Debian GNU/Linux 6.0.5 (squeeze), package 6b18-1.8.13-0+squeeze2# An error report file with more information is saved as:# /usr/share/yacy/hs_err_pid2940.log## If you would like to submit a bug report, please include# instructions how to reproduce the bug and visit:#   http://icedtea.classpath.org/bugzilla#Aborted



Die Datei /usr/share/yacy/hs_err_pid2940.log habe ich unter http://repatr.de/public/hs_err_pid2940.html gespeichert.
Der Absturz ist während einer Suchanfrage \“wikipedia\” passiert.
Vielleicht hilft das weiter das Problem zu beheben.

Statistik: Verfasst von repatr — Sa Jan 19, 2013 6:27 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-01-19 19:35:34

Im Bild der Wissenschaft 22013 gibt es einen sehr interessanten Artikel zur Websuche: \“Der König des Daten-Dschungels\”

\ Ein tschechischer Forscher hat eine Technologe entwickelt, mit der sich Bildmotive, Filme und Musik im Internet schnell und zuverlässig aufspüren und analysieren lassen.\



http://mufin.fi.muni.cz/imgsearch/similar

Weitere Links habe ich hier hinterlegt:
http://www.volker-huppert.de/home/pmwiki.php/Websuche/HomePage

Statistik: Verfasst von Huppi — Sa Jan 19, 2013 7:35 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-01-19 19:48:33

YaCy auf dem SheevaPlug, das ist ja klasse. Bei mir stehen noch Tests aus auf Pandaboard und Raspberry Pi. Leider kommen vor den YaCy Tests noch ein paar andere auf diesen kleinen Kisten.

Statistik: Verfasst von Huppi — Sa Jan 19, 2013 7:48 pm


Mitmachen • Re: Seeks (seeks-project.info) mit YaCy verbinden

Date: 2013-01-20 12:33:49

Dazu habe ich eine Antwort vom Seeks-Maintainer Emmanuel bekommen:

\ his problem has probably nothing to do with Seeks itself, but the user\ package dependencies.\ See\ [https://help.ubuntu.com/community/Packa \... gProcedure](https://help.ubuntu.com/community/PackageManagerTroubleshootingProcedure){.postlink}\ for troubleshooting.\ \ However, I personnaly use the libcurl4-openssl-dev instead of the\ libcurl4-gnutls-dev package. Since gnutls seems to be the culprit\ here, this may avoid the dependency problem. Though it remains very\ likely that this user\'s packaging system is in a broken state.\ \ (Maybe see\ [https://help.ubuntu.com/community/Packa \... gProcedure](https://help.ubuntu.com/community/PackageManagerTroubleshootingProcedure){.postlink}\ for troubleshooting)\

Statistik: Verfasst von Orbiter — So Jan 20, 2013 12:33 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-20 12:45:31

Prima! Dan brauche ich nicht zu basteln, sondern kann Eure Installationsanleitungen verwenden :-)

Da auch mein DSL-Anschluß nächste Woche von 2000 RAM auf 6000 RAM hochgeschaltet wird, kann dann der Pi rund um die Uhr hier mitlaufen

Wennn wir ein fertiges Image mit YaCy-Installation bereitstellen können, wird es sicher auch weitere Mitstreiter geben. Und für den Linux-Tag könnte das ein netter Hingucker werden :-)

Statistik: Verfasst von Huppi — So Jan 20, 2013 12:45 pm


Off-Topic • videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-20 18:25:23

Hallo. Zum einfügen von Videos in 127.0.0.1:8090/Blog.html .?
127.0.0.1:8090/WikiHelp.html leider gibt es die Möglichkeit, INSERT-Bilder.

Statistik: Verfasst von mass — So Jan 20, 2013 6:25 pm


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-20 18:55:59

Hola!
no the YaCy embedded Wiki is an old feature that needs either maintenance or retirement. At the time the YaCy-embedded Wiki was created (2004, mainly a one-day-hack) not even youtube existed (2005).
(the YaCy-embedded blog uses the YaCy-embedded wiki syntax).
Maybe someone finds it interesting to do some work for that feature. How would you like to use the wiki?

Statistik: Verfasst von Orbiter — So Jan 20, 2013 6:55 pm


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-20 20:11:00

http://www.yacy-websuche.de/wiki/index.php/De_Talk:Wiki hier fand Sie nicht. Leider selbst nicht verstehe in der Programmierung.

Statistik: Verfasst von mass — So Jan 20, 2013 8:11 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-20 23:40:52

hat jemand schonmal die oracle JRE ausprobiert? Hab an verschiedenen Stellen gelesen, dass das manchmal was bringt.

Statistik: Verfasst von kilian — So Jan 20, 2013 11:40 pm


Mitmachen • Re: Themensuche \“Motorrad\” - Argumentationsaufbau

Date: 2013-01-21 00:33:41

Hallo Huppi,

Ist zwar schon ein alter Thread aber da ich mich auch wieder bei meinem Motorradforum angemeldet habe wollte ich wissen, ob es Deinen Motorrad Peer noch gibt ?
Mich würde auch die Konfiguration interessieren diese Spezialsuche auch dem Freenet anzubieten ohne den eigenen Index zu kompromittieren, falls das nicht mittlerweile durch die Konfigurationsoptionen zu einfach geworden ist.
Ich habe aktuell auch keinen richtigen gemieteten Server mehr, aber die Breitbandanbindung zuhause mit theoretisch 2Mbit Upload will ich jetzt wieder aktiv nutzen.
Ob es der Raspberry Pi wird (was ich aktuell bezweifle) oder doch der etwas stärkere Proliant-N36L der noch irgendwo rumsteht wird sich zeigen.

Als Anwendungsfall den ich auch gerne selbst nutzen würde wäre so etwas wie motosearch ein richtig guter Anfang.

Statistik: Verfasst von Copro — Mo Jan 21, 2013 12:33 am


Mitmachen • Re: Raspberry Pi

Date: 2013-01-21 03:48:02

Ich habe auch eine 4GB Class4 Sandisk MicroSD mit einem SD Kartenadapter im Einsatz - aber noch keine Benchmarks gemacht.
Gedacht war es nur davon zu booten und die Daten dann auf Netzwerk auszulagern - aber bei mir wird es wohl eher der RAM sein der die Grenzen definiert.
Nachdem auch die jamvm mit IcedTea keine richtige Verbesserung gebracht hat wollte ich also mal die Vorschauversion vom neuen Oracle JDK probieren.
Ich habe also das Original raspbian auf die SD Karte kopiert und die Pre-Release jdk1.8.0 von Oracle geholt.

\ java version \"1.8.0-ea\"\ Java(TM) SE Runtime Environment (build 1.8.0-ea-b36e)\ Java HotSpot(TM) Client VM (build 25.0-b04, mixed mode)\



Habe die startYaCy.sh JAVA_ARGS Konfiguration etwas geändert damit ich mit dem hartcodierten java binary aus dem Paket starten kann:

Übrig blieb:

Code:
JAVA_ARGS="-Xss256k -XX:ReservedCodeCacheSize=124m -XX:-UseGCOverheadLimit -XX:+UseAdaptiveSizePolicy -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8";



Dann noch die schon geänderten Bilder in htroot/env/grafics und ein paar Änderungen zum aktuell doch limitierten Speicher gemacht.
Für den Arbeitsspeicher in der DATA/SETTINGS/yacy.conf die Werte

Code:
javastart_Xms=Xms120mjavastart_Xmx=Xmx125m


Für den Festplattenspeicher, um lokale Crawls zu starten in der defaults/yacy.init

Code:
# minimum free disk space for crawling (MiB)disk.free = 1500



Rein gefühlsmäßig läuft er nun um Längen besser und schneller und ich denke so kann ich ihn nebenher laufen lassen.
raspiyacy_banner_principal.png
Habe hier die Bitmap Dateien zum Drüberkopieren von meinem Peer im Falle es wirklich ein angepasstes Image geben soll: raspiyacy.zip

Wäre es zum Bereitstellen nicht sinnvoller ein extra raspbian repository wie das schon existierende debian repository{.postlink} zu erstellen ?
Dabei könnte man ja auch die verschiedenen Java VM + JRE Möglichkeiten als Abhängigkeiten auflisten.
Zumindest das Early Access darf aktuell noch nicht weiterverbreitet werden und ob es dazu dann auch eine Lizenz gibt ist auch noch fraglich.

Statistik: Verfasst von Copro — Mo Jan 21, 2013 3:48 am


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-01-21 08:40:39

Mit aptitude (ist ein Debian-Squeeze-Server, und ich nutze das Debian-Paket).

Die Speicher-Situation ist recht knapp, 1 GB RAM ist vorhanden, und diverse Websites laufen mit einem Apache auf dem System, die allerdings bis auf eine alle praktisch keinen Traffic haben.

Ich hatte yacy einen initialen Heap von 256 MB und einen maximalen von 400 MB zugebilligt. Der tatsächliche Speicherverbrauch lag weit darüber (ca. 1 GB ingesamt inkl. virtuellem Speicher), was wohl an Solr liegt, habe ich irgendwo gelesen?

EDIT: Wo ich jetzt so überlege, kann sein, dass ich den Heap irgendwann auf 256MB begrenzt hatte. Kann ich jetzt aber nichtmehr sicher sagen.

Mein erstes Update via aptitude lief problemlos, nach dem zweiten passierten oben geschilderte Probleme.

Zunächst lief die Node ja auch nach dem Update noch auf Port 17717, bis nach einem erneuten Startversuch im log eine große Anzahl OutOfMemory-Errors auftraten.

Übrigens, ich hatte vorher irgendwann einmal festgestellt, dass der Inhalt der yacy.conf nicht meinen Einstellungen entsprach (auf jeden Fall in Bezug auf die Heap-Größe, und ich glaube auch in Bezug auf die Portnummer, aber ich bin mir nicht mehr sicher, ob ich diesen Wert je nachgesehen habe). Ich war deshalb davon ausgegangen, dass die übers Web-Interface vorgenommenen Einstellungen primär in der Datenbank gesichert werden und conf-Datei keine Rolle mehr spielt, wenn einmal die entsprechenden Tabellen in der Datenbank angelegt wurden.

Meine Theorie ist deshalb:

Irgendeine Änderung im Update hat dazu geführt, dass meine (natürlich recht knappen) Speichereinstellungen nicht mehr ausreichen, um die Node korrekt zu betreiben. Bei einem OutOfMemory-Absturz wurden dann die DB-Tabellen mit der Konfiguration zerstört, was dazu führte, dass die yacy.conf neu eingelesen wurde, die aber meine Konfigurationsänderungen nicht enthielt. (Oder nur zum Teil, denn z.B. der Nodename zottel war erhalten geblieben.)

Das kann natürlich kompletter Blödsinn sein, ich habe ja noch keine Ahnung von den internen Abläufen in yacy.

Statistik: Verfasst von zottel — Mo Jan 21, 2013 8:40 am


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-01-21 10:01:59

Ich hab jetzt eben nochmal probiert, die Node mit den 600M Default-Heap laufen zu lassen. Das geht zumindest auf diesem Server leider nicht.

Der schon installierte Friendica-Server kommuniziert ständig mit anderen Servern und gibt z.T. recht große Last auf den mysqld. Eine zeitlang lief es ganz gut, aber dann musste ich yacy doch abschießen, weil die Load bei plötzlicher höherer Last auf dem Friendica-Server letztlich auf über 45 angewachsen war. X-)

Mal sehen, ich werde noch ein wenig experimentieren

Was würdet Ihr für den minimalen Java-Heap halten, mit dem yacy noch stabil läuft?

Statistik: Verfasst von zottel — Mo Jan 21, 2013 10:01 am


Pro-Users • YaCy High-Availability Set-Up

Date: 2013-01-21 10:07:11

ich habe mal ein System-Set-Up für eine High-Availability Konfiguration von YaCy ins Wiki geschrieben die folgenden Ansprüchen genügt:
* keine Downtime bei Software Updates
* regelmäßiges Index Back-up
* keine Downtime beim Back-Up
* Watchdog und automatisches Restart von Suchpeers ohne Downtime
* Load Balancer auf Suchpeers

Bild

Steht im Wiki: http://www.yacy-websearch.net/wiki/inde ... ailability{.postlink}

Hier gibts aber noch kleine Probleme, vielleicht weiss ja jemand von euch weiter:
* beim ersten Indexierungslauf kann der ngnix auch auf den 2. Peer yacy1 verweisen so dass bis zur ersten Replikation keine Ergebnisse kommen. Wie kann man automatisch die ngnix-Konfig so einstellen dass bis zur ersten Replikation nur der yacy0 angefragt wird?
* wie macht man eine Speichermengenbegrenzung für den Backup store? (man braucht hier nur einen cronjob der die ältesten Files löscht, aber wie listet man X älteste Files auf so dass Y neue stehen bleiben?)
* was fehlt ggf. noch?

Statistik: Verfasst von Orbiter — Mo Jan 21, 2013 10:07 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-21 10:23:12

Danke, das hat funktioniert.

Ich hatte so eine Autoconfig-URL schon gesucht, aber nirgends gefunden. Steht das nicht in den Wiki-Anleitungen oder habe ich nur falsch gesucht? :-)

Statistik: Verfasst von zottel — Mo Jan 21, 2013 10:23 am


Solr Support • Re: Map Failed

Date: 2013-01-21 14:24:18

Hallo,

nun hatte ich das besagte Problem mal wieder auf dem gleichen Peer.
Woanders hier im Forum hatte ich schon erwähnt das ich leider nicht mehr weiss was denn genau die Lösung war.
Hier scheint es aber eine andere Ursache zu haben

Nach langem Probieren stellte ich fest das die Änderung in der solrconfig die Ursache waren.

Code:
<directoryFactory name="DirectoryFactory" class="${solr.directoryFactory:solr.MMapDirectoryFactory}"/>


Das benötigt weiteren Virtuellen Speicher.
Was normalerweise kein Problem ist - nur dieser Peer ist noch ein 32Bitter und da ist das halt Mangelware.

Auch in der Quelle zu dieser Änderung https://issues.apache.org/jira/browse/SOLR-2247 ist erwähnt das es nur mit 64bit-JVMs läuft.

Wer also ebenfalls noch 32Bitter einsetzt sollte mal probieren

Code:
<directoryFactory name="DirectoryFactory" class="${solr.directoryFactory:solr.NRTCachingDirectoryFactory}"/>

zu nutzen.

\@Orbiter: Deine Änderungen zu \‘ramBufferSizeMB\’ und \‘mergeFactor\’ in der solrconfig sind auskommentiert - ist das so gewollt?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 21, 2013 2:24 pm


Solr Support • Re: Map Failed

Date: 2013-01-21 18:15:09

Ui!

sixcooler hat geschrieben:\ Nach langem Probieren stellte ich fest das die Änderung in der solrconfig die Ursache waren.\ Code: : `` \ Das benötigt weiteren Virtuellen Speicher.\ Was normalerweise kein Problem ist - nur dieser Peer ist noch ein 32Bitter und da ist das halt Mangelware.\ \ Auch in der Quelle zu dieser Änderung ist erwähnt das es nur mit 64bit-JVMs läuft.\ \ Wer also ebenfalls noch 32Bitter einsetzt sollte mal probieren Code: : `` zu nutzen.\


ich hab dazu auch noch einen super Artikel gefunden: http://blog.thetaphi.de/2012/07/use-luc ... 64bit.html{.postlink}
Da drin ist erklärt dass man mit der MMapDirectoryFactory den Heap für Java möglichst [klein]{style=“font-style: italic”} stellen sollte! Das erklärt dann auch einige Probleme die wir hatten wenn der Heap wohl zu großzügig war...
Also habe ich die Änderung wieder rückgängig gemacht, den NRTCachingDirectoryFactory wieder reingeschrieben aber in das startYACY.sh einen Test auf 64 bit gemacht der dann eine Systemvariable setzt um die MMapDirectoryFactory wieder zu aktivieren. Bin gespannt ob das klappt...

sixcooler hat geschrieben:\ \@Orbiter: Deine Änderungen zu \'ramBufferSizeMB\' und \'mergeFactor\' in der solrconfig sind auskommentiert - ist das so gewollt?\


Oh je das ist wohl dann schon aufkommende Senilität. Hab den Merge Factor nun auskommentiert aber die ramBufferSizeMB wieder rückgängig gemacht bzw. auskommentiert gelassen weil diese Größe für embedded Dinge wie beim RPi zu groß sind.
Mal schauen wie es jetzt läuft.

Statistik: Verfasst von Orbiter — Mo Jan 21, 2013 6:15 pm


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-21 20:29:36

Ich muss zugeben, dass ich diese Seite auf dem Peer auch erst suchen musste. Irgendwo steht dazu auch etwas im Wiki. Wo erwartest Du es denn im Wiki? Falls Du nicht angemeldet bist, kann ich es dort dann ergänzen.

Statistik: Verfasst von Lotus — Mo Jan 21, 2013 8:29 pm


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-01-22 05:08:18

Da ich die HostBrowser.html gerade auf Deutsch übersetzt habe stellen sich mir noch folgende Fragen.

Statistik: Verfasst von Copro — Di Jan 22, 2013 5:08 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-22 09:18:28

Ich hab jetzt nochmal gesucht und dann prompt das hier gefunden: http://www.yacy-websearch.net/wiki/inde ... Autoconfig{.postlink} :-)

Ich hätte mir allerdings gewünscht, dass obige Seite statt De:FirstSetup (oder zusätzlich) auf http://www.yacy-websearch.net/wiki/inde ... foxMozilla{.postlink} verlinkt ist.

Danke!

Statistik: Verfasst von zottel — Di Jan 22, 2013 9:18 am


Mitmachen • Re: Raspberry Pi

Date: 2013-01-22 10:56:20

Ich hab jetzt noch zwei Karten durchgetestet und Benchmarks gemacht, mit überraschendem Ergebnis! sysbench lief auf drei SD Karten und als Vergleich auch auf einer normalen normalschnellen Festplatte in einem i7-System. Das Ergebnis:

8GB SanDisc microSD HC Class 4:
85.223Kb/sec, 5.33 Requests/sec
64GB Platinum SD XC Class 10:
37.219Kb/sec, 2.33 Requests/sec (2 mal getestet, ja langsamer als die Class 4!!)
8GB SanDisk Extreme Pro 95 MB/s SD HC Class 10:
1.5255Mb/sec, 97.63 Requests/sec
Festplatte in i7:
1.3919Mb/sec 89.08 Requests/sec

Wenn ich nicht was falsch gemacht habe dann heisst das:
- die SDXC Class 10 ist langsamer als die SDHC Class 4 (vielleicht kann der RPi XC-Karten zwar lesen, aber nicht so gut?)
- die SanDisk Extreme Pro schlägt im RPi sogar eine Festplatte in einem schnellen Rechner
- die SanDisk Extreme Pro ist 18x schneller als eine normale SD Class 4!!!

Tatsächlich \‘fühlt\’ sich die Extreme Pro auch schnell an im RPi. Der Preis für die Extreme Pro ist auch nicht so gewaltig, die 8GB haben 16 Euro gekostet.

Copro hat geschrieben:\ Ich habe also das Original raspbian auf die SD Karte kopiert und die Pre-Release jdk1.8.0 von Oracle geholt.\


wäre interessant zu sehen wie die 1.6er-1.8er Versionen gegeneinander abschneiden, ich hab die 1.6er genommen um ein möglichst kleines und von Overhead freies Java zu testen. Mein Installationsvorgang steht im Wiki: http://www.yacy-websearch.net/wiki/inde ... spberry_Pi{.postlink}

Copro hat geschrieben:\ Habe die startYaCy.sh JAVA\_ARGS Konfiguration etwas geändert damit ich mit dem hartcodierten java binary aus dem Paket starten kann:\ - \"-server\" entfernt, um die Anwendung zu starten: (\"Error occurred during initialization of VM Server VM is only supported on ARMv7+ VFP\") - \"-XX:MaxPermSize=256m\" entfernt, um die Warnung abzustellen: (\"Java HotSpot(TM) Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0\") \


Diese Fehlermeldungen habe ich nicht bekommen! Beide Optionen müsste man mal generell hinterfragen; ein MaxPermSize=256m macht auch wenig Sinn wenn sowieso nur 120mb freigegeben sind.

Copro hat geschrieben:\ Übrig blieb:\ Code: : `JAVA_ARGS="-Xss256k -XX:ReservedCodeCacheSize=124m -XX:-UseGCOverheadLimit -XX:+UseAdaptiveSizePolicy -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8";` \


Und er ReservedCodeCacheSize in der Größe macht auch keinen Sinn. Ich denke diese Optionen müssten generell alle nochmal auf den Prüfstand.

Copro hat geschrieben:\ Dann noch die schon geänderten Bilder in htroot/env/grafics und ein paar Änderungen zum aktuell doch limitierten Speicher gemacht.\


welche geänderten Bilder?

Copro hat geschrieben:\ Wäre es zum Bereitstellen nicht sinnvoller ein extra raspbian repository wie das schon existierende [debian repository](http://debian.yacy.net/){.postlink} zu erstellen ?\ Dabei könnte man ja auch die verschiedenen Java VM + JRE Möglichkeiten als Abhängigkeiten auflisten.\ Zumindest das Early Access darf aktuell noch nicht weiterverbreitet werden und ob es dazu dann auch eine Lizenz gibt ist auch noch fraglich.\


naja es gibt ja auch die 1.6er Version die man verwenden kann. Ein eigenes repository wäre sicherlich auch nicht schlecht, aber der Java Installationsprozess kannst du im Package Manager so nicht abbilden! Oder? Wenn du ein Package zusammenbekommst verlinke ich das gerne unter rpi.yacy.net.

Statistik: Verfasst von Orbiter — Di Jan 22, 2013 10:56 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-22 11:14:00

zottel hat geschrieben:\ Ich hätte mir allerdings gewünscht, dass obige Seite statt De:FirstSetup (oder zusätzlich) auf [http://www.yacy-websearch.net/wiki/inde \... foxMozilla](http://www.yacy-websearch.net/wiki/index.php/De:IntegrationFirefoxMozilla){.postlink} verlinkt ist.\


[psst... es ist ein wiki!]{style=“font-size: 50%; line-height: 116%;“}

Statistik: Verfasst von Orbiter — Di Jan 22, 2013 11:14 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-22 12:35:00

Lotus hatte angeboten, das zu machen, also habe ich gesagt, was ich gern hätte. Ist das schlimm?

Ich mache gerade ein paar Tage überhaupt was mit yacy, da bastele ich noch nicht am Wiki.

Statistik: Verfasst von zottel — Di Jan 22, 2013 12:35 pm


Hilfe für Einsteiger und Anwender • Crawl auf Startseiten beschränken

Date: 2013-01-22 13:51:20

Hi,

ich möchte eine Liste mit 20.000 unterschiedlichen Urls indizieren (ausschließlich Startseiten), also zB
http://www.domain1.com
http://www.domain2.com
http://www.domain3.com
.…

Dazu habe ich nun in \“Crawl Start (Expert)\” ein File angegeben und die Crawlingtiefe auf 0 eingestellt. Daraufhin werden aber nicht nur die Urls in der Liste indiziert, sondern auch andere Urls (andere Domains, robots.txt-Seiten, etc.).

Meine Fragen dazu:
1) Was muss ich einstellen, damit exakt die 20.000 in der Datei angegebenen Urls indiziert werden und nichts anderes sonst?
2) Kann man irgendwo sehen, was bei jeder Url gefunden wurde? (also zB \“200 ok\“, oder \“404 not found\“, \“301 moved\“, etc.)
3) Wie viele Urls können maximal in der Datei angegeben werden?
4) Besteht die Möglichkeit, einen erneuten Crawl auf nur zB alle \“404 not found\“-Seiten zu beschränken und zB die \“200 ok\“-Seiten unverändert im Index zu belassen?

Vielen Dank, wär wirklich super, wenn mir jemand helfen könnte.

LG

Statistik: Verfasst von hotel24 — Di Jan 22, 2013 1:51 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-01-22 15:31:00

Super Anleitung im Wiki - werde ich bei Gelegenheit auch mal ausprobieren. Deutsche Übersetzung der Wiki Seite (De:Raspberry_Pi{.postlink})
Ich wollte nur möglichst nahe am echten raspbian bleiben und habe deswegen nicht mehr die Soft-ABI Version installiert. Damit habe ich ja dann keine Wahl und kann die VFP Versionen der Oracle Embedded JREs nicht nutzen.
Hier der Benchmark von meiner Karte:

Code:
sysbench --test=fileio --file-total-size=1G --file-test-mode=rndrw --init-rng=on --max-time=300 --max-requests=0 runsysbench 0.4.12:  multi-threaded system evaluation benchmarkRunning the test with following options:Number of threads: 1Initializing random number generator from timer.Extra file open flags: 0128 files, 8Mb each1Gb total file sizeBlock size 16KbNumber of random requests for random IO: 0Read/Write ratio for combined random IO test: 1.50Periodic FSYNC enabled, calling fsync() each 100 requests.Calling fsync() at the end of test, Enabled.Using synchronous I/O modeDoing random r/w testThreads started!Time limit exceeded, exiting...Done.Operations performed:  3180 Read, 2120 Write, 6674 Other = 11974 TotalRead 49.688Mb  Written 33.125Mb  Total transferred 82.812Mb  (282.5Kb/sec)   17.66 Requests/sec executedTest execution summary:    total time:                          300.1760s    total number of events:              5300    total time taken by event execution: 9.2857    per-request statistics:         min:                                  0.10ms         avg:                                  1.75ms         max:                                639.11ms         approx.  95 percentile:               3.50msThreads fairness:    events (avg/stddev):           5300.0000/0.00    execution time (avg/stddev):   9.2857/0.00



Die Änderung der JAVA_ARGS habe ich nur gemacht, dass man YaCy mit der Pre-Release 1.8.0 überhaupt (und dann ohne Warnungen) starten konnte. Ich habe nun auch das Argument ReservedCodeCacheSize entfernt.
Mit geänderten Bildern meinte ich nur individuelle Icons für YaCy mit der Raspberry drauf - den Link zum ZIP Archiv habe ich weiter unten im Beitrag angehängt: raspiyacy.zip{.postlink}
Und wegen des rpi Repositories - ich bin leider kein debian Mann. Ich dachte nur es gibt die Möglichkeit auch java dependencies einzubauen - und auch aus den (embedded) Archiven bei Oracle sollte sich ja sowas bauen lassen (wenn das erlaubt ist). Laut der Oracle Seite wird die Installation auch manuell beschrieben: http://www.oracle.com/technetwork/articles/java/raspberrypi-1704896.html

Statistik: Verfasst von Copro — Di Jan 22, 2013 3:31 pm


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-22 21:58:58

Ich habe einige Querverweise ergänzt.
Dabei ist mir auch aufgefallen, dass dieses Thema gleich auf der Wiki-Startseite rechts oben verlinkt wird:
http://www.yacy-websearch.net/wiki/index.php/De:Start

Statistik: Verfasst von Lotus — Di Jan 22, 2013 9:58 pm


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-22 22:01:56

Und es gibt redundante Seiten:
http://www.yacy-websearch.net/wiki/inde ... foxMozilla{.postlink}
http://www.yacy-websearch.net/wiki/inde ... ntegration{.postlink}
leider funktioniert das Werkzeug \“Links auf diese Seite\” im WIki nicht.

Statistik: Verfasst von Lotus — Di Jan 22, 2013 10:01 pm


Off-Topic • Re: Android Twitterwall (fürs Fernsehen)

Date: 2013-01-22 23:58:47

Als die TVTroll App funktioniert wunderbar und es ist wirklich interessant was da auch um die Uhrzeit noch gepostet wird.
Ich habe bis jetzt nur etwas statisch für weit weniger spektakuläre Apps etwas Code geschrieben aber mich würde das stark interessieren im Falle das auch für YaCy im GIT Repository landet.

Das mit der Facetten Navigation verstehe ich nicht ganz - aber eine Dateisuche z.B. nur nach filtetype .apk ist eine sehr gute Idee.
Als ich zum ersten Mal über eine Android YaCy Anwendung spekuliert hatte dachte ich an ein einfaches Such-Widget wie das der OpenSearch Android App was ich mal hier mit OpenSearch{.postlink} testweise mit meinem YaCy Peer konfiguriert hatte. (Der Code dazu steht unter einer Apache 2.0 Lizenz weiterhin bei Google Code: http://code.google.com/p/android-open-search/ und könnte sicher auch schon gebrandet von einem Peer angeboten werden.

Statistik: Verfasst von Copro — Di Jan 22, 2013 11:58 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-23 00:35:40

Soweit ist das eigentlich das richtige Vorgehen und ich würde sagen das sollte genau so klappen ...
Ich habe das ebenfalls gerade ausprobiert und ich habe auf der Seite für den Crawl Start (Experte){.postlink} die URLs der Domänen einfach in das Eingabefeld kopiert mit einer Domäne pro Zeile.
Bei 20000 Links ist das natürlich besser aus einer Datei heraus - von daher sollte auch das kein Problem sein und das Format der Datei habe ich genauso benutzt und einfach pro Zeile eine URL.
Damit die robots.txt nicht indexiert wird habe ich diese zusätzlich im Must-Not-Match Filter: angegeben.

Hier z.B. das Ergebnis für http://www.google.de im Host Browser bei dem nur das Hauptdokument indexiert wurde:
YaCy_google.png

Ist zwar nur 50% aber hier die Antworten im Überblick:
1) Was muss ich einstellen, damit exakt die 20.000 in der Datei angegebenen Urls indiziert werden und nichts anderes sonst?
1.A) Bei mir wurde jeweils genau die Startseite indexiert und mit dem Ausschluss der robots.txt sollte auch diese Datei nicht auftauchen

2) Kann man irgendwo sehen, was bei jeder Url gefunden wurde? (also zB \“200 ok\“, oder \“404 not found\“, \“301 moved\“, etc.)
2.A) Ja, aktuell sehr übersichtlich im Host Browser{.postlink}

3) Wie viele Urls können maximal in der Datei angegeben werden?
3.?) Ich denke da gibt es kein Limit das ich direkt angeben könnte. Wenn Deine Maschine bzw. der Arbeitsspeicher der YaCy Instanz ausreicht kann man sicher noch weit mehr als 20000 Einträge in die Liste packen.

4) Besteht die Möglichkeit, einen erneuten Crawl auf nur zB alle \“404 not found\“-Seiten zu beschränken und zB die \“200 ok\“-Seiten unverändert im Index zu belassen?
4.?) Im Host Browser kann man sich die Liste aller fehlgeschlagenen Crawls / Host zwar anzeigen lassen - aber eine einfache Möglichkeit genau diese \“404 not found\“-Seiten erneut crawlen zu lassen wüsste ich nicht. Vielleicht kann ja jemand anderes weiterhelfen.

Statistik: Verfasst von Copro — Mi Jan 23, 2013 12:35 am


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-23 04:16:04

Judging from your homepage linked the profile I guess you are actively using the blog feature of YaCy on your \‘moon\’ YaCy node and you also want to include videos and not only images.
I have added the simple feature to embed Youtube and Vimeo videos with Wiki style tags in my gitorious clone here: https://gitorious.org/~copro/yacy/copros-rc1

If you use this code to build YaCy you can already use these tags to displays a Youtube or Vimeo video with the id specified and fixed width 425 pixels and height 350 pixels.
i.e. use [[Youtube:QZsWG4-7Qfk]] to embedd this video: https://www.youtube.com/watch?v=QZsWG4-7Qfk
i.e. use [[Vimeo:32200946]] to embedd this video: http://vimeo.com/32200946

I am not sure if I should push this upstream to the rc1 release but I am also unsure how to exclude it from my next merge request :oops:
So probably Orbiter has to do some cherry-picking the next time around.

Statistik: Verfasst von Copro — Mi Jan 23, 2013 4:16 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-01-23 08:57:05

Danke.

Statistik: Verfasst von zottel — Mi Jan 23, 2013 8:57 am


Hilfe für Einsteiger und Anwender • Lesen von txt mit Links

Date: 2013-01-23 11:46:49

Hallo Community,

Ich bin ganz begeistert von Yacy und meine Test für die Indizierung verliefen in den ersten Schritten auch sehr erfolgreich.

Jetzt geht es ans Eingemachte:
Ich möchte eine Datenbank mit Hilfe von DeepLinks auslesen (Rechte sind natürlich alle vorhanden). Um nicht für jedes Stichwort der Datenbank eine eigene HTML-Seite anlegen zu müssen, habe ich die Links für Yacy in einer Text-Datei generiert. Diese lese ich in der Form : <file://Pfad zur Datei/txt-Datei>. Das funktioniert mit dem Servlet (Crawl Start Experte) auch ohne Probleme, sowohl unter Windows als auch auf dem letztendlich dafür vorgesehenen Linux-Server.

Aber: Es gibt leider doch ein kleines Problem, bisher nur unter Windows getestet, weil ich den Server mit so was nicht belasten will:
1.) Um die ganze Sache zu vereinfachenun zu beschleunigen, habe ich pro Datei für 1Mio Stichwörter Links erzeugt.
2.) Diese Testdatei ist ca. 35 MB groß. Yacy liest auch, steigt aber nach ca. 10.000 verarbeiteten Links aus. Die Download-Daten sind 136 MB groß.
3.) Die Link-Tiefe ist mit \“0\” eingestellt.
4.) Beim Indizieren hat Yacy anscheinend mit den \“letzten\” Einträgen in der Textdatei angefangen.
5.) Die Java-Engine ist nach der Aktion ca 500.000 K groß und Yacy sagt mir: Bereit für neue Crawls.

Was ist zu tun? Muss ich wirklich für die knapp 6 MIO Stichwörter kleinere Dateien (ca. 10.000 Einträge) erzeugen oder gibt es einen anderen Weg damit Yacy an die Daten kommt?

PS Den Peer werde ich erst nach erfolgter vollständiger Indizierung freigeben :-)

Peter

Statistik: Verfasst von crawlnew — Mi Jan 23, 2013 11:46 am


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-01-23 12:35:46

Ich habe noch ein bisschen rumgesucht und getestet.

Mein Problem scheint weitgehend diesem hier zu entsprechen: http://bugs.yacy.net/view.php?id=83

Dort habe ich dann das hier gefunden: viewtopic.php?f=5&t=3411&p=23550#p23550{.postlink-local} und daraufhin \“Use Standard Memory Strategy\” unter /PerformanceMemory_p.html deaktiviert.

Das führt immerhin dazu, dass die Node gefühlt wesentlich länger durchhält (ca. 2-3h statt ca. 1h), bevor das Web-Interface nicht mehr ansprechbar ist, vor allem ist sie in der Lage, des öfteren bei knapp werdendem Speicher wieder genug freizugeben, dass sie weiterlaufen kann. Die Speicherkurve geht aber kontinuierlich nach oben, und irgendwann geht das dann offenbar nicht mehr.

Mein Index ist mit ca. 1,9 Millionen Wörtern vielleicht auch etwas groß für 256M Heap Limit? Ca. 900.000 davon stammen von eigenen Crawls, der Rest wurde von anderen Peers auf meine Node verteilt. Und wenn ich das richtig verstanden habe, gibt es ja keine Möglichkeit, die Index-Größe zu begrenzen, oder?

Vmtl. hat das insofern auch nichts mit dem Update zu tun, sondern der index wurde schlicht immer größer und dadurch die Speichersitutaion immer knapper.

Hat jemand noch eine Idee, was ich noch probieren könnte? Gibt es irgendetwas, was ich tun könnte, um bei der Fehlersuche zu helfen?

Statistik: Verfasst von zottel — Mi Jan 23, 2013 12:35 pm


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-23 14:45:47

Hi Copro, excellent! I just merged your code.

Statistik: Verfasst von Orbiter — Mi Jan 23, 2013 2:45 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-23 14:47:47

Vielen Dank für die Antworten, das hilft mir sehr weiter! :)
Durch mehrere Tests erscheint es mir so, als ob der Crawler bei einer \“301 Weiterleitung\” nicht die angegebene Starturl, sondern die über die Weiterleitung aufgerufene Seite indiziert. Dies hat mich offensichtlich eingangs verwirrt, da ich dachte, dass dazu Crawling Depth 1 notwendig wäre. Daher sind wohl auch Urls im Index aufgetaucht, die nicht in meiner Urlliste eingetragen sind.

Die robots.txt wird scheinbar standardmäßig bei jeder Url aufgerufen und wird diese dann, wenn vorhanden, ebenfalls indiziert? Denn bei einem Test mit 1000 Urls waren letztendlich 1.376 Urls im Index, trotz Crawling Depth 0.

Mit der Liste von 20.000 Urls treten 2 unterschiedliche Ergebnisse auf: Manchmal hängt sich das System auf, manchmal funktioniert das Crawling, aber es werden nur rd. die Hälfte der Seiten indiziert.

Statistik: Verfasst von hotel24 — Mi Jan 23, 2013 2:47 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-23 15:18:36

hotel24 hat geschrieben:\ Die robots.txt wird scheinbar standardmäßig bei jeder Url aufgerufen und wird diese dann, wenn vorhanden, ebenfalls indiziert? Denn bei einem Test mit 1000 Urls waren letztendlich 1.376 Urls im Index, trotz Crawling Depth 0.\



Die robots.txt wird nicht bei jeder URL sondern bei jedem neuen Host geladen. Wenn deine Liste nur verschiede Hosts hat, dann wohl hier bei jeder URL.
Sie wird aber nicht indexiert! Die robots.txt landet in einer anderen Datenbank.

Mehr Seiten im Index kann sein, denn es werden auch Fehlerseiten und Weiterleitungen rein geschrieben. Diese werden aber bei einer Suche ausgeblendet. Es ist aber auffällig, dass hier so viele extradokumente sind, da könnte noch irgendwo was faul sein. Kannst du rausbekommen was im Index ist und da nicht sein soll?
Rufe mal folgendes auf:
/solr/select?q=*:*&start=0&rows=100&fl=sku
da hast du eine Auswahl von 100 URLs aus deinem Index. Kannst du da Auffälligkeiten finden?

Statistik: Verfasst von Orbiter — Mi Jan 23, 2013 3:18 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-23 16:11:18

Ich habe nun folgende Abfrage /solr/select?q=*:*&start=0&rows=100&fl=sku gemacht (\“robots.txt\” beim Must-Not-Match Filter wurde nicht angegeben), bzw. habe ich dann die rows gleich mal auf 2000 eingestellt und gleich alle Ergebnisse angesehen und dann gleich auch mal den httpstatus_i mit abgefragt (also /solr/select?q=*:*&start=0&rows=2000&fl=sku,httpstatus_i).

Es sind sehr viele 404er im Ergebnis, alles robots.txt-Pages sowie viele -1er (heißt das: keine Serverantwort?). Und dann gibt es noch vereinzelte 301er, 403er, 503er, etc. D.h., die 376 zusätzlichen Urls im Index sind scheinbar nicht gefundene robots.txt. Um diese Vermutung zu bestätigen habe ich jetzt noch folgende Abfrage gemacht: /solr/select?q=httpstatus_i:404%20AND%20sku:*robots*&start=0&rows=2000&fl=httpstatus_i,sku. Und es sind tatsächlich 377 Treffer (wo der eine zusätzliche Treffer herkommt hab ich jetzt auf die schnelle nicht rausbekommen ;) ).

Dass diese nicht gefundenen robots.txt-Seiten in den Index gelangen verwirrt mich zwar etwas, aber nun kenn ich mich aus. Ich werde wie zu Beginn vorgeschlagen beim Must-Not-Match Filter die robots.txt ausschließen und dann sollte alles passen. :)

Statistik: Verfasst von hotel24 — Mi Jan 23, 2013 4:11 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-23 16:24:32

Ich habe nun beim Must-Not-Match Filter folgendes eingetragen:
on URLs for Crawling: .*robots.txt.*
on URLs for Indexing: .*robots.txt.*

Damit bin ich ausgegangen, dass nun die robots.txt-Pages nicht mehr im Index aufscheinen. Aber die nicht gefundenen robots.txt-Pages werden unverändert indiziert. Was mache ich hier falsch?

Statistik: Verfasst von hotel24 — Mi Jan 23, 2013 4:24 pm


Fragen und Antworten • durchsuchen von webapps mit login

Date: 2013-01-24 11:10:27

Hallo,


ich versuche, Yacy als Suchmaschine (Robinson-Modus, Indizierungsziele via Proxy) für einen geschlossenen Bereich einzusetzen, stosse jetzt aber darauf, dass das per se garnicht möglich ist.

Gibt es irgendwelche Tweaks/Optionen, Yacy dazu zu bewegen, die Bereiche nach dem Login zu durchsuchen? es geht hier um ein Forum und die von den Mitgliedern hochgeladenen PDFs, die in die Suche integriert werden sollen.


vielen Dank schonmal im Voraus,

Alli

Statistik: Verfasst von allistair — Do Jan 24, 2013 11:10 am


Fragen und Antworten • Re: durchsuchen von webapps mit login

Date: 2013-01-24 15:44:55

das geht nicht aber nicht weil es etwas weltbewegendes wäre in einen http-request des crawlers ein http-authentify einzubauen, sondern weil dann die somit erhaltenen Daten ungeschützt sein würden. Man müsste, um nicht eine Sicherheitslücke zu erstellen, in YaCy die gleiche authentifikationsmethode einrichten wie im Forum, nur das können wir nicht.

Abhilfe: schalte den Schutz im Forum für den Moment des Crawlens aus. Dann hast du die Sicherheitslücke bewusst selbst aufgemacht und es ist kein Konzeptfehler von YaCy

Statistik: Verfasst von Orbiter — Do Jan 24, 2013 3:44 pm


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-01-24 19:17:35

ich hätte die bitte, dass man für die Domain einen Hyperlink einfügt, der auf die Domain verweist, so dass in einem neuen Tab die Domain/Webseite angesehen werden kann. bislang gehen nur die yacy verlinkungen auf zur Admin Befehlsoberfläche.
Ich will das ding auch browsen können, bzw eine Hostbrowser webseite auch crawlen können

Statistik: Verfasst von ribbon — Do Jan 24, 2013 7:17 pm


Hilfe für Einsteiger und Anwender • Re: Lesen von txt mit Links

Date: 2013-01-24 20:09:51

ich habe es auch probiert eine txt mit 1 mio urls einzulesen und es geht nicht gut.
viele robots.txt urls werden ausgeschlossen und bei einem testlauf von 1400 urls waren nur 700 dann drin am ende

Statistik: Verfasst von ribbon — Do Jan 24, 2013 8:09 pm


Hilfe für Einsteiger und Anwender • Re: Lesen von txt mit Links

Date: 2013-01-25 11:57:04

Hi,

bei meinen Tests scheint sich zu zeigen, dass es anscheinend auch vom MIME-TYPE abhängt. Ich bekomme andere Ergebnisse, wenn ich eine txt- oder eine html-Datei einlese.
Es sient auch so aus, als ob man an der Form des Links \“drehen\” kann, wenn man sie z.B. in eine table einbettet, kommen noch einmal andere Ergebnisse. Zur Zeit teste ich aber mit kleineren Datein ca. 5.000 Links.

Ich lasse wissen, wie man es am Besten hinkriegt.

Peter

Statistik: Verfasst von crawlnew — Fr Jan 25, 2013 11:57 am


Hilfe für Einsteiger und Anwender • Re: Lesen von txt mit Links

Date: 2013-01-25 14:40:45

Also... 10.000 Links scheinen die Obergrenze zu sein.

Statistik: Verfasst von crawlnew — Fr Jan 25, 2013 2:40 pm


Hilfe für Einsteiger und Anwender • Darstellung der Suchergebnisse

Date: 2013-01-25 15:08:56

Hallo,

ich habe gerade mal ein paar Sachen indiziert. Es klappt alles (fast) so wie ich will.

Eine Ausnahme, Beispiel siehe hier http://server-d.dare-web.de:8090 :
1.) Suche nach Aal -> 2 Ergebnisse beide beginnen mit ... names. // function qsPageItemsAbstraction() { } Ideen...
2.) Suche nach Aalsuppe -> 1 Ergebnis ist so, wie es sein soll.
Was läuft im 1. Fall falsch?

PS Achtung! Die Seite ist eine Testseite ohne die nötigen Verweise! Die Range der Links für einen Test reicht von aa bis abfallschere.

Statistik: Verfasst von crawlnew — Fr Jan 25, 2013 3:08 pm


Hilfe für Einsteiger und Anwender • Re: Lesen von txt mit Links

Date: 2013-01-25 16:33:22

ach das ist doch doof, kann jemand das auf 2 Mio setzen ?

Statistik: Verfasst von ribbon — Fr Jan 25, 2013 4:33 pm


Hilfe für Einsteiger und Anwender • Zugang zu Yacy absichern

Date: 2013-01-25 18:11:50

Guten Tag, ich habe Yacy auf einem Root-Server installiert und die Installation lief ohne Probleme. Im Augenblick würde ich gerne den Zugang zur Suche ( allgemein) mit einem Passwort sperren und erst mal Erfahrungen mit Yacy sammeln.

Ich habe zu vielen Themen Infos gefunden aber nicht, wie ich den PORT am besten umleite oder sperren kann. Bestimmt haben auch mal andere so einen Wunsch gehabt und eine Lösung gefunden. Ich freue mich über jeden Tipp. Danke

Auf dem Server läuft Debian 6.

Katasun

Statistik: Verfasst von katasun — Fr Jan 25, 2013 6:11 pm


Hilfe für Einsteiger und Anwender • Re: Zugang zu Yacy absichern

Date: 2013-01-25 18:17:04

Habe ich gerade gemacht -:) Startseite ->System Status ->Sicherheit (Konfigurieren)

Statistik: Verfasst von crawlnew — Fr Jan 25, 2013 6:17 pm


Hilfe für Einsteiger und Anwender • Re: Zugang zu Yacy absichern

Date: 2013-01-25 18:46:29

Danke, einfach übersehen oder nicht probiert. Ja das ist natürlich die Antwort auf mein Problem.

schönes WE

Katasun

Statistik: Verfasst von katasun — Fr Jan 25, 2013 6:46 pm


Hilfe für Einsteiger und Anwender • Re: Zugang zu Yacy absichern

Date: 2013-01-26 09:29:53

die Suche kann man auch nur per Admin-PW zulassen über /ConfigPortal.html -> Enable Search for Everyone? -> Only the administator is allowed to search

Statistik: Verfasst von Orbiter — Sa Jan 26, 2013 9:29 am


Hilfe für Einsteiger und Anwender • web interface

Date: 2013-01-26 18:53:15

Hello.
In recent sometimes hangs web interface. This happens when using the search engine .Or how long we have to wait until the page loads ,it happens in 5-10 minutes.
Helps only restart YaCy.

There is a possibility to fix this?

Statistik: Verfasst von mass — Sa Jan 26, 2013 6:53 pm


Off-Topic • Minecraft...

Date: 2013-01-27 13:55:26

.…spielt das noch jemand hier ? ich habe gerade damit angefangen und muss sagen das es trotz Retro-Grafik irgendwie fesselnd ist.… Wenn jemand Lust hat auf ein Multiplayer-Spiel (auf Anfängerniveau) - Server könnte ich aufsetzen und freigeben...

[Thomas]{style=“font-style: italic”}

Statistik: Verfasst von Vega — So Jan 27, 2013 1:55 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-01-27 22:47:48

Hallo
ich habe schon seit längerem einen Rootserver angemietet, auf dem ich Yacy alleinig packen will und nach jetzt einen Jahr experimentieren und ausprobieren, mich für die Robisonvariante entschieden habe, weil die meines erachtens bei mir stabiler läuft und ich kontroliere was ich drinn haben will, könnte ich mir vorstellen, das ich diese mit Eurer Diskusion entsprechen zusätzlich zur Verwendung stellen könnte.
Voraussetzung ich kann sie dann auch auf allen meinen Webseiten als Suchmaschine einbinden.
Allerdings benötige ich Hilfe zur installation.
Das wäre dann die vierte Yacy die ich betreibe.

Selber habe ich zuwenig Breitbandinternetzugang um so eine große Maschine wie oben verlinkt sinnvoll an ein schnelles Netz zu bringen.
Haben tuhe ich so eine Maschine hier gerade geschenkt bekommen.
Nur müßte ich mehr Powerzugang bein Internet haben und das bekomme ich erst nach einen entsprechenden Wohnortwechsel.

Den Dmoz Katalog wollte ich auch demnächst einlesen nur den deutschen soweit ich das hinbekomme, selber habe ich auch noch auf meiner rogott.de Seite einen Katalog mit über 150.000 Webseiten indexiert.

Naja vielleicht interessiert es Euch ja.
Ich bin offen für Yacy.

Gruß Roland

Statistik: Verfasst von RoGott — So Jan 27, 2013 10:47 pm


Hilfe für Einsteiger und Anwender • Re: Zugang zu Yacy absichern

Date: 2013-01-28 13:45:54

Danke schön, manche \“Knöpfe\” sind thematisch etwas gemischt. Als nächstes bin ich mal auf die Suchergebnisse gespannt. Ich hatte mal vor ein paar Jahren getestet und die Ergebnisse wichen im positiven von Google ab.

Gruss

Katasun

Statistik: Verfasst von katasun — Mo Jan 28, 2013 1:45 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-28 16:02:50

Mein Resümee der bisherigen Versuche:

- Im (solr)Index befinden sich sowohl gefundene Seiten als auch alle Fehlerseiten.
- robots.txt-Seiten können generell nicht von Crawling und Indizierung ausgeschlossen werden (also auch nicht mit einem Eintrag im Must-Not-Match Filter)
- Gefundene robots.txt-Seiten werden in einem anderen Index abgelegt.
- Nicht gefundene robots.txt-Seiten wiederum landen im (solr)Index.
- Die Anzahl der via File übergebenen Start Urls ist dzt. mit rd. 10.000 Stück begrenzt.

Sind meine Annahmen korrekt? Wär super, wenn mir jemand Feedback geben könnte.
Danke!

Statistik: Verfasst von hotel24 — Mo Jan 28, 2013 4:02 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-28 17:51:15

hotel24 hat geschrieben:\ - Im (solr)Index befinden sich sowohl gefundene Seiten als auch alle Fehlerseiten.\


richtig, sie haben eine Marktierung mit dem http response code und die YaCy Suche zeigt aber nur solche an die fehlerfrei gefunden wurden. Die fehlerbehafteten Seiten sind im Index, aber das sind minimaleinträge und dienen der Dokumentation dass diese Seiten bereits versucht wurden zu laden.

hotel24 hat geschrieben:\ - robots.txt-Seiten können generell nicht von Crawling und Indizierung ausgeschlossen werden (also auch nicht mit einem Eintrag im Must-Not-Match Filter)\


Das verstehe ich nicht, robots.txt Seiten werden nicht geladen um indexiert zu werden und wenn sie im Index landen, dann waren sie verlinkt. Das sind robots.txt Seiten normalerweise nicht. Wenn sie verlinkt wurden, können sie auch vom Must-Not-Match ausgeschlossen werden. Es kann aber nicht verhindert werden dass sie geladen und beachtet werden.

hotel24 hat geschrieben:\ - Gefundene robots.txt-Seiten werden in einem anderen Index abgelegt.\


fast richtig, sie werden in einer extra Datenbank abgelegt aber nicht indexiert. Die werden natürlich abgespeichert damit sie vom Crawler beachtet werden können.

hotel24 hat geschrieben:\ - Nicht gefundene robots.txt-Seiten wiederum landen im (solr)Index.\


sollte nicht so sein. nicht gefundene robots.txt Seiten sollten lediglich zu einem Eintrag in der robots.txt Datenbank führen (einem leeren Eintrag).

hotel24 hat geschrieben:\ - Die Anzahl der via File übergebenen Start Urls ist dzt. mit rd. 10.000 Stück begrenzt.\


richtig das war so, hab ich aber eben auf 10 mio erhöht, aber nicht getestet. Bin gespannt ob das funktioniert oder irgendwo knallt...


Bitte gib mal ein konkretes Beispiel an wo eine robots.txt indexiert wurde, bzw. gefunden oder nicht im solr landet, dann gucke ich mal nach wie es dazu kommt.

Statistik: Verfasst von Orbiter — Mo Jan 28, 2013 5:51 pm


Mitmachen • Re: Yacy und Flashcache

Date: 2013-01-28 18:05:05

dein Wiki-Artikel ist echt super, ich fürchte aber das kann man nur nachvollzielen wenn man ein Linux-System ganz neu aufzieht. Ich hab hier einen gut konfigurierten Server laufen den ich dafür nicht platt machen will, aber im keller steht noch ein ganz altes Ding was ich mal wiederbeleben könnte...

Daher mal ein Aufruf an alle die gerade mal dabei sind einen Server platt zu machen und neu zu konfigurieren: könnt ihr das mal ausprobieren?

Statistik: Verfasst von Orbiter — Mo Jan 28, 2013 6:05 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-01-28 18:49:04

I apologize, but in the log as follows:

Code:
I 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 843; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 844; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 845; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 846; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 847; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 848; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 849; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 850; proper: falseI 2013/01/28 21:46:30 MEMORY checkProper: below treshold; tresholdCount: 851; proper: falseI 2013/01/28 21:46:34 MEMORY checkProper: below treshold; tresholdCount: 852; proper: falseI 2013/01/28 21:46:34 YACY hello/server: responded remote peer 'chebuvara_xp' [89.222.166.200] in 428807 millisecondsI 2013/01/28 21:46:34 HTTPDFileHandler access blocked, clientIP=127.0.0.1I 2013/01/28 21:46:38 MEMORY performed explicit GC, freed 830 KB (requested/available/average: 11304 / -300 / 88 KB)I 2013/01/28 21:46:38 MEMORY checkProper: below treshold; tresholdCount: 853; proper: falseW 2013/01/28 21:46:38 BusyThread Thread 'net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs short memory cycle. Free mem: -301 KB, needed: 976 KBI 2013/01/28 21:46:38 MEMORY checkProper: below treshold; tresholdCount: 854; proper: false

Statistik: Verfasst von mass — Mo Jan 28, 2013 6:49 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-29 08:52:36

Gute Nachricht! Welche Version ist das? Für Mac, Win, Linux?

Statistik: Verfasst von crawlnew — Di Jan 29, 2013 8:52 am


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-29 11:05:37

für alle, einfach die aktuelle Version aus dem auto-updater ziehen /ConfigUpdate_p.html

Statistik: Verfasst von Orbiter — Di Jan 29, 2013 11:05 am


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-29 16:48:50

:) Scheint zu gehen... Datei mit 53000 URLs indiziert. (Windows 7)

Statistik: Verfasst von crawlnew — Di Jan 29, 2013 4:48 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-01-29 17:00:06

Danke für die Antworten und das Update! :)
Hier ein Beispiel zur robots.txt-Situation:

- In Crawl Start (Expert) folgende Url eingegeben: http://www.alles-wird-gut.co.at/ (Werter Betreiber bitte um Nachsicht, dass Deine Seite hier nach dem Zufallsprinzip zu Testzwecken herangezogen wird ;) )
- Crawl mit Standardeinstellungen durchgeführt
- Im Creation Monitor wird 1 indizierte Seite angegeben
- im robots.txt Monitor steht der hostname und modDate
- die solr-Abfrage /solr/select?q=*:*&start=0&rows=100 ergibt 2 Ergebnisse, die Seite http://www.alles-wird-gut.co.at/ mit httpstatus_i=200 sowie die Seite http://www.alles-wird-gut.co.at/robots.txt mit httpstatus_i=404

Statistik: Verfasst von hotel24 — Di Jan 29, 2013 5:00 pm


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-01-29 20:04:34

Great thanks to you.
Indeed, I use the blog.

Statistik: Verfasst von mass — Di Jan 29, 2013 8:04 pm


Off-Topic • Re: Minecraft...

Date: 2013-01-31 12:41:43

Hallo alle zusammen,

aus lauter neugierde hab ich einen Vanilla-Server aufgesetzt, die Kiste steht bei mir daheim und hängt an einem VDSL-50 Anschluss, also Upload ist genug vorhanden, sonstige Ressourcen auch. Das ganze ist noch nicht abgesichert, es kann da also jeder \“drauf\” - sollte es da Probleme mit Vandalismus etc. geben ändere ich das. Aktuell läuft der Server mit Schwierigkeitsgrad \“Friedlich\” - also geeignet um mal einfach loszulaufen und zu probieren. Ich bin leider nicht so oft online, mein \“Haus\” ist eine Höhle im Berg - Richtung Schnee/schlechtes Wetter... Fackeln sind auf dem Dach.…. Also wenn jemand mal Lust hat - Adresse ist: \”[tokeek.homedns.org]{style=“font-weight: bold”}\”

[Gruß
Thomas]{style=“font-style: italic”}

Statistik: Verfasst von Vega — Do Jan 31, 2013 12:41 pm


Hilfe für Einsteiger und Anwender • IOException NIOFSIndexInput

Date: 2013-01-31 15:25:09

After about a day or so of uptime, I get a continuous (the log files start getting swamped, with timestamps showing that this error occurs over 100 times per second) stream of IOException\’s. My CPU goes to 100%, so it\’s not just an IO issue. I think I set my yacy to use only 300MB, and my data directory to 2G. I\’m using the 1.3 pre-compiled linux jar. I had to pkill the process.

E 2013/01/31 06:40:08 org.apache.solr.core.SolrCore java.io.IOException: null: NIOFSIndexInput(path=\“/opt/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/data/index/_65f_Lucene40_0. tim\“)
at org.apache.lucene.store.NIOFSDirectory\$NIOFSIndexInput.readInternal(NIOFSDirectory.java:190)
at org.apache.lucene.store.BufferedIndexInput.refill(BufferedIndexInput.java:272)
at org.apache.lucene.store.BufferedIndexInput.readByte(BufferedIndexInput.java:51)
at org.apache.lucene.store.DataInput.readVInt(DataInput.java:108)
at org.apache.lucene.store.BufferedIndexInput.readVInt(BufferedIndexInput.java:219)
at org.apache.lucene.codecs.BlockTreeTermsReader\$FieldReader\$SegmentTermsEnum\$Frame.loadBlock(BlockTreeTermsReader.java:2342)
at org.apache.lucene.codecs.BlockTreeTermsReader\$FieldReader\$SegmentTermsEnum.seekExact(BlockTreeTermsReader.java:1678)
at org.apache.lucene.index.TermContext.build(TermContext.java:95)
at org.apache.lucene.search.TermQuery.createWeight(TermQuery.java:167)
at org.apache.lucene.search.IndexSearcher.createNormalizedWeight(IndexSearcher.java:647)
at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:280)
at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1385)
at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1260)
at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:390)
at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:411)
at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:206)
at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:129)
at org.apache.solr.core.SolrCore.execute(SolrCore.java:1699)
at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)
at org.apache.solr.client.solrj.request.QueryRequest.process(QueryRequest.java:90)
at org.apache.solr.client.solrj.SolrServer.query(SolrServer.java:301)
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:199)
at net.yacy.cora.federate.solr.connector.SolrServerConnector.getQueryCount(SolrServerConnector.java:330)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.exists(AbstractSolrConnector.java:65)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.exists(MirrorSolrConnector.java:257)
at net.yacy.search.index.Fulltext.exists(Fulltext.java:474)
at transferRWI.respond(transferRWI.java:204)
at sun.reflect.GeneratedMethodAccessor51.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.nio.channels.ClosedChannelException
at sun.nio.ch.FileChannelImpl.ensureOpen(FileChannelImpl.java:94)
at sun.nio.ch.FileChannelImpl.read(FileChannelImpl.java:665)
at org.apache.lucene.store.NIOFSDirectory\$NIOFSIndexInput.readInternal(NIOFSDirectory.java:175)
... 38 more


I also get a handful of OutOfMemoryError\’s:

E 2013/01/31 06:40:26 org.apache.solr.update.CommitTracker auto commit error...:java.lang.IllegalStateException: this writer hit an OutOfMemoryError; cannot commit
at org.apache.lucene.index.IndexWriter.prepareCommit(IndexWriter.java:2717)
at org.apache.lucene.index.IndexWriter.commitInternal(IndexWriter.java:2875)
at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:2855)
at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:531)
at org.apache.solr.update.CommitTracker.run(CommitTracker.java:215)
at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask\$Sync.innerRun(FutureTask.java:334)
at java.util.concurrent.FutureTask.run(FutureTask.java:166)
at java.util.concurrent.ScheduledThreadPoolExecutor\$ScheduledFutureTask.access\$201(ScheduledThreadPoolExecutor.java:178)
at java.util.concurrent.ScheduledThreadPoolExecutor\$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:603)
at java.lang.Thread.run(Thread.java:722)

Ideas?

Statistik: Verfasst von dennisn — Do Jan 31, 2013 3:25 pm


Fragen und Antworten • Domain Navigator blendet www. aus und funktioniert so nicht

Date: 2013-02-01 14:03:31

Bei uns zeigt der Domain Navigator bei Domänen, die mit www. beginnen, anscheinend seit dem letzten Update, das www. nicht mehr an.

Das wäre an sich nicht schlimm. Wenn man aber die Domäne ankreuzt wird damit eine Suche in einer Domäne mit dem Domänennamen ohne www angestoßen:

site:[www. fehlt hier].irgendwas.de

Das ergibt aber 0 Treffer. Damit ist der Domain Navigator unbrauchbar.
Ist dieses Problem bekannt? Gibt es einen Möglichkeit, das anders einzustellen?

Habe die Foren bereits durchsucht. Es scheint aber bisher nicht erwähnt zu werden.

Vielen Dank. M. Behrens

Statistik: Verfasst von mbehrens — Fr Feb 01, 2013 2:03 pm


Off-Topic • Re: Android Twitterwall (fürs Fernsehen)

Date: 2013-02-01 18:43:44

Copro hat geschrieben:\ Such-Widget wie das der OpenSearch Android App was ich mal hier mit [OpenSearch](http://forum.yacy-websuche.de/viewtopic.php?f=9&t=3192&p=22029h#p22094){.postlink} testweise mit meinem YaCy Peer konfiguriert hatte. (Der Code dazu steht unter einer Apache 2.0 Lizenz weiterhin bei Google Code: und könnte sicher auch schon gebrandet von einem Peer angeboten werden.\



also diese android-open-search - Extension ist sowas wie die \“Manage Search Engines..\“-Funktion im Firefox Suchfenster, wo man ja auch seinen YaCy Peers als Suchprovider eintragen kann. Glaube ich. Das ist schon mal nicht schlecht aber ich hätte gerne irgendeine Sache, die mehr auf die Anwendungssituation des Suchenden eines Android-Handys angemessen ist. Also etwas wo wir Google ad-hoc schlagen können, bsp. weil wir die Suche nach apk-files direkt anbieten. Das meine ich mit Facetten, eine solche Auswahlfunktion für android-spezielle Inhalte.

Copro hat geschrieben:\ Als die TVTroll App funktioniert wunderbar und es ist wirklich interessant was da auch um die Uhrzeit noch gepostet wird.\


Hierzu gibts nun ein [Update]{style=“font-weight: bold”}: weil es da einen Twitterer gibt welche immer die aktuellen Fernsehsendungen twitter wird das benutzt um die Sendungen gleich im Menü anzuzeigen. Gibts auch wieder nur als Download unter tvtroll.anomic.de

Copro hat geschrieben:\ Ich habe bis jetzt nur etwas statisch für weit weniger spektakuläre Apps etwas Code geschrieben aber mich würde das stark interessieren im Falle das auch für YaCy im GIT Repository landet.\


Den Source muss ich noch ein wenig für mich behalten weil der einfach brutal kacke ist... Aber vielleicht kommt dann auch mal eine Suchbox-Variante für YaCy, das geht dann ins Git und ich würde ich über coautoren sehr freuen!

Statistik: Verfasst von Orbiter — Fr Feb 01, 2013 6:43 pm


YaCy Coding & Architektur • Greasemonkey Script for Initiating Crawls

Date: 2013-02-02 06:38:26

The proxy is a cool way to automatically fill the index, but as I understand it, it doesn\’t play well with sites which use cookies. I\’ve thrown together a proof-of-concept alternative which uses a Greasemonkey script to initiate crawls of all URL\’s which are visited. It also allows the crawls to have a customizable depth, which I think the proxy doesn\’t support (I believe the proxy only indexes the single page which is visited).

The code is at https://github.com/JeremyRand/YaCyIndexerGreasemonkey . Just thought people might be interested in it.

(Sorry if this is the wrong place to post this; feel free to move this thread to a different area if necessary.)

Statistik: Verfasst von biolizard89 — Sa Feb 02, 2013 6:38 am


Fragen und Antworten • Re: Domain Navigator blendet www. aus und funktioniert so ni

Date: 2013-02-02 10:09:04

hier gabs einen anderen topic wo es darum ging dass der domain navigator nicht gehen würde, dabei hatte der user nur das \‘www.\’ vergessen davor zu schreiben. Also dachte ich es wäre sinnvoller wenn hosts mit und ohne www davor für den domain navigator gleich sein sollte.

Aber das hat wohl nicht ganz geklappt, der Bug war wie du es beschrieben hast da, hab den aber eben gefixt. bitte update probieren.

Statistik: Verfasst von Orbiter — Sa Feb 02, 2013 10:09 am


Mitmachen • Re: Themensuche \“Motorrad\” - Argumentationsaufbau

Date: 2013-02-02 13:50:19

Beide Peers haben den Umzug in\’s neue Haus nicht überstanden. Deine Nachfrage ist aber eine gute Gelegenheit, einen neuen Anfang zu machen :-)
Ich würde aber jetzt doch auf einen gemieteten Server gehen wollen, mindestens für das Suchinterface. Ein kleines Netz mit Peers in verschiedenen Privatwohnungen könnte das ja ergänzen (Indexfütterung).

Ich bin bis März viel beruflich unterwegs. Sollen wir dann mal telefonieren?

Statistik: Verfasst von Huppi — Sa Feb 02, 2013 1:50 pm


Fragen und Antworten • Re: Domain Navigator blendet www. aus und funktioniert so ni

Date: 2013-02-04 08:28:27

Hey, super. Wir werden den Hotfix baldmöglichst einspielen. Falls es dann noch Schwierigkeiten gibt, melde ich mich nochmal.

Aber erstmal: vielen Dank für die schelle Reaktion! ;)
Beste Grüße, Michael

Statistik: Verfasst von mbehrens — Mo Feb 04, 2013 8:28 am


Fragen und Antworten • Re: Domain Navigator blendet www. aus und funktioniert so ni

Date: 2013-02-04 09:33:19

Hotfix ist eingespielt. Domain Navigator funktioniert wieder.

Vielen Dank!

M. Behrens

Statistik: Verfasst von mbehrens — Mo Feb 04, 2013 9:33 am


Fragen und Antworten • How do I know if a scheduled crawl has finished

Date: 2013-02-04 12:50:48

Hi,
How do I know if a scheduled crawl has finished?

Statistik: Verfasst von oneaty — Mo Feb 04, 2013 12:50 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-04 13:35:29

- While a crawl is running you can see that as an entry in /Crawler_p.html; when the crawl is finished it disappears there
- the fact that the crawl is started by the scheduler can be seen in /Table_API_p.html where the call count went up by one
- and finally: in /CrawlProfileEditor_p.html is an entry with the status \“Finished\”

Statistik: Verfasst von Orbiter — Mo Feb 04, 2013 1:35 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-04 14:22:00

Thanks, Orbiter.

Well, something may be wrong with my settings or something else.
Today, I scheduled a crawl which, soon after, showed in /Table_API_p.html (not sure if this is the page titled \“Recorded Actions\“; is it?). It showed today\’s date as Last Exec Date.
What do you mean by \“call count\” in the /Crawler_p.html page? There are many counts there (please, be patient, I\’m a dummy)
Also, in /CrawlProfileEditor_p.html there is no entry regarding that new crawl; actually, there are no new entries for the other scheduled crawls I had previously scheduled, that should have run in the late few days.
Thanks for the prompt reply.

Statistik: Verfasst von oneaty — Mo Feb 04, 2013 2:22 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-04 16:51:14

oneaty hat geschrieben:\ Today, I scheduled a crawl which, soon after, showed in /Table\_API\_p.html (not sure if this is the page titled \"Recorded Actions\"; is it?). It showed today\'s date as Last Exec Date.\


thats correct, this interface is just a recording of the request. It does not mean that the request is completely worked off.

oneaty hat geschrieben:\ What do you mean by \"call count\" in the /Crawler\_p.html page? There are many counts there (please, be patient, I\'m a dummy)\


Thats about the /Table_API_p.html page. There is just one count and I mean the column \‘call count\’

oneaty hat geschrieben:\ Also, in /CrawlProfileEditor\_p.html there is no entry regarding that new crawl; actually, there are no new entries for the other scheduled crawls I had previously scheduled, that should have run in the late few days.\


That should be in the table \“Crawl Profile List\” at the bottom. If there is an entry there with the \“Status\” column with \‘Running\‘, it shows also in the /Crawler_p.html page. If this is finished then the entry status is just changed to \‘finished\’ and the entry remains there.

Statistik: Verfasst von Orbiter — Mo Feb 04, 2013 4:51 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-02-04 20:11:40

oh super, danke für die Übersetzung!
deine Icon-Anpassung ist auch super, mal gucken wie ich das noch unter bekomme...

Was mir nun noch fehlt, ist eine Anleitung wie man so ein RPi Image wieder von der SD Karte herunterkopiert, und zwas so, dass
-(1) man nicht die vollen X Gigabyte der Kartengröße dumpen muss
-(2) man das wieder so auf eine neue Karten ziehen kann, dass sich die Kartengröße wieder neu einstellen lässt
-(3) man irgendwie Kontrolle über die IP des Servers bekommt, damit man in der Anleitung schreiben kann: http://<ip>:8090/ is die Adresse von YaCy

Dann könnten wir ein Image zum Download anbieten!
Ideen?

Statistik: Verfasst von Orbiter — Mo Feb 04, 2013 8:11 pm


Fragen und Antworten • Re: Nichts geht mehr seit Update

Date: 2013-02-04 20:18:01

wenn dein Rechner nach Ausschöpfung der 600mb Heap für YaCy nicht mehr genug Speicher hat, dann tendiert das eingebettete Solr dazu eine OutOfMemoryException zu werfen weil die mit NIO arbeiten und das sich den Speicher \‘ausserhalb\’ des Heaps besorgt, und dort aufgrund der großzügigen Zuweisung an YaCy nicht mehr genügend ist.

Wir sind von dem Effekt auch noch immer überrascht und müssen noch mehr Erfahrung sammeln. Ich empfehle hier mal YaCy wesentlich [weniger]{style=“font-style: italic”} Speicher zuzuweisen! Vielleicht müssen wir das auch mal in Zukunft per Standard so machen.

Statistik: Verfasst von Orbiter — Mo Feb 04, 2013 8:18 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-04 20:26:56

\ Thats about the /Table\_API\_p.html page. There is just one count and I mean the column \'call count\'\


ok

\ That should be in the table \"Crawl Profile List\" at the bottom. If there is an entry there with the \"Status\" column with \'Running\', it shows also in the /Crawler\_p.html page. If this is finished then the entry status is just changed to \'finished\' and the entry remains there.\



As you can see in this picture, the new crawl I scheduled today is highlighted in red:
Bild

But I didn\’t see any entry at the \“Crawl Profile List\” regarding that new crawl task, as you can see in the following pic:
Bild

So my concern is if this crawl has been successfully finished or not, and why (and how to monitor its running progress)

Statistik: Verfasst von oneaty — Mo Feb 04, 2013 8:26 pm


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-02-04 21:30:48

ok!

Hab da nun einen Link in die Legende (Titelzeile) eingebaut; wo sollte denn der Link ansonsten hin?

Das mit dem Crawlen ist so eine Sache: wenn man die Sachen im HostBrowser sehen kann, dann hat man sie auch im Index; Das könnte der Grund sein dass ein Crawl fehl schlägt weil das beim Double-Check den Crawl schnell beenden lässt. Man müsste das dann komplett anders machen, z.B. so: \“Ganze Domain Löschen und komplett neu erfassen\“. Dazu wäre es relativ einfach einen Knopf hin zu machen. So ok?

Statistik: Verfasst von Orbiter — Mo Feb 04, 2013 9:30 pm


Hilfe für Einsteiger und Anwender • Re: Darstellung der Suchergebnisse

Date: 2013-02-05 11:13:08

Hallo,

ja da hat wohl der html Parser was falsch verstanden. Ich muss das im Detail angucken und melde mich.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 11:13 am


Hilfe für Einsteiger und Anwender • Re: Lesen von txt mit Links

Date: 2013-02-05 11:15:45

das habe ich vor ein paar Tagen aufgrund eines anderen Threads hier hochgesetzt

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 11:15 am


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-02-05 11:16:40

woran hängts denn?

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 11:16 am


Fragen und Antworten • Re: Yacy Daemon beendet sich immer nach kurzer Zeit

Date: 2013-02-05 11:30:35

diese acht identischen Requests sollten sich im offset unterscheiden. Die Solr-Integration in YaCy ist insofern schwierig, als dass man den Zugriff auf Solr dem YaCy Suchschema anpassen muss, und das geht so:
- alle Ergebnis-Referenzen fetchen
- bei der Anzeige aus der URL-DB lesen und verifizieren.
- bei weitergebätterten Seiten kommen die Referenzen aus dem Cache

Beim \‘draufsetzen\’ von Solr liess sich das nicht so leicht nachstellen, weil ich hier nicht zwischen Referenzmenge und URL-DB unterscheiden kann, beides kommt gleichzeitig aus Solr. Hier habe ich einen Kompatibilitätslayer erst mal reingebaut, der 100 Ergebnisse komplett zieht und die in die Zwischenablage legt. Diese 100 wurden (ist jetzt anders) in 10 einzelrequests zu 10 Ergebnissen aus Solr gezogen. Von diesen 10 Requests sind hier wohl noch 8 zu sehen. Inzwischen ist das anders; vom Schema her ähnlich, aber nur noch 2 Requests. Aber insgesamt muss sich das weiter verbessern. Bei der Konsolidierung von externen und internen Ergebnissen ist das aber nicht so einfach: nimmt man zu wenige lokale Ergenisse in einen \‘Mischpool\‘, so bekommt man wesentlich mehr externe Ergebnisse. Nimmt man zu viele interne, ist der intere Aufwand zu hoch.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 11:30 am


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-02-05 12:02:20

für Remote Crawling musst du einen Senior Peer haben, das steht leider nicht im Interface. Das baue ich mal rein.
Hast du einen Senior Peer?

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 12:02 pm


Mitmachen • Re: Programmicon

Date: 2013-02-05 12:48:37

Copro hat geschrieben:\ Hat sich im Bereich Programmicon noch etwas getan denn meine aktuelle Version 1.3 hat noch das alte mir bekannte y\* Icon ?\


da hat sich nichts getan. Ich hätte ja gerne die Unterstützung eines Designers aber Jojo wollte ja nicht... :(

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 12:48 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-02-05 12:53:16

Also YaCy Läuft auf dem Raspberry Pi, aber nur wenn man da eine richtig flotte SD Karte rein macht, sonst killt der IO-Aufwand auch noch die kleine Performance des RPi. Allerdings sollte der SheevaPlug etwas mehr Performance haben, also auch dort laufen. Bitte im Zweifel die RPi - Anleitung im Wiki für das SheevaPlug anwenden (oder anpassen)

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 12:53 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-02-05 13:04:40

Huppi hat geschrieben:\ \


interessant ist dieser \‘similar\‘-Button/Link zu jedem Bild. Wüsste gerne wie der das macht. Mit meinen Tests sah das eher so aus als wenn der nur das Farbschema gesucht hat. Das könnten wir hier auch.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 1:04 pm


Pro-Users • Re: YaCy <=> Solr <=> Oracle RDBMS

Date: 2013-02-05 13:12:53

man müsste hier aber auch die Felder der DB richtig auf die Felder von YaCy mappen, was nicht so ganz einfach ist:
- wäre ein großer Zufall wenn die Bedeutung übereinstimmen würde (z.B. eine Bibliotheksdatenbank mit Dublin Core Feldern hätte chancen)
- dann muss man schauen dass alle Felder, die YaCy zum funktionieren braucht auch richtig gefüllt werden. Und das heisst auch das man da ggf. Funktionen braucht um Felder automatisch zu füllen. Und sowas ist nicht einfach generisch zu machen.
- eine schöne GUI brauchs auch... ..mit einer Formalisierung was auf was zu mappen ist.

So etwas wäre auch \‘ausserhalb\’ von YaCy sinnvoller, weil es dann nicht nur YaCy-User nutzen könnten. Es geht ja hierbei nur um Solr und RDBMS. Man kann ja YaCy mit einem externen Solr betreiben und dort dann die DB hin übertragen, ggf. sogar mit einem einfachen Script.

In meinem CampusParty - Vortrag habe ich sogar eine klitzekleine Solr-Einführung gemacht, indem ich ein \‘Hello World\’ für Solr vorgeführt habe:

Code:
curl -OL „http://archive.apache.org/dist/lucene/solr/3.6.1/apache-solr-3.6.1.tgz“tar xfz apache-solr-3.6.1.tgzcd apache-solr-3.6.1/example/java -jar start.jaropen http://localhost:8983/solr/admin/curl 'http://localhost:8983/solr/update/json?commit=true' -H 'Content-type:application/json' -d '{"add":{"doc":{"id":"data1", "title":"Hello World"}}}'curl 'http://localhost:8983/solr/update/json?commit=true' --data-binary @exampledocs/books.json -H 'Content-type:application/json'curl 'http://localhost:8983/solr/select/?q=*%3A*'



Daran erkennt man wie einfach es ist, Felder von Solr mit einem Script zu füllen. Du müsstest dir da nur was drum herum stricken, was deine Datenbank ausliest und die Felder eines Solr füllt, welcher von YaCy extern angesprochen wird.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 1:12 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-05 13:17:34

mass hat geschrieben:\ Allocated 25 GB of RAM for YaCy.(residue 25 MB of 25 GB)., With free on the hard drive 510 GB.\


25GB RAM is way too much! You can also run into memory problems if you don\’t leave enough space for the OS.
If you have less than one million links then it must be sufficient to have less than 4GB of RAM for YaCy. Maybe less.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 1:17 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-05 14:28:59

well that looks like there went something wrong. There should be an error in the log; this can be seen either in /ViewLog_p.html directly after the crawl start or in DATA/LOG/yacy00.log

A different approach (if the crawl actuall would have been started, which seems not to be the case) is a look inside the rejected urls at /IndexCreateParserErrors_p.html

But anyway: from the auto-generated Must-match entry I can see that you must be running an non-updated 1.3er version. right? If yes, please try an update using the auto-udater at /ConfigUpdate_p.html

To reproduce the problem I started the same crawl at blogdosakamoto . blogosfera . uol . com . br but this was successful! Please have a look if updating solves the problem.

Statistik: Verfasst von Orbiter — Di Feb 05, 2013 2:28 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-05 15:07:17

For Operating System 6.5 GB of 32 GB. It is necessary to consider that the Ubuntu 12.04 takes 1 GB.
2 GB or no choice once.
Most interesting is that prior to upgrading to Solr, such \“brakes\” was not, and it was a decent memory of the reserve YaCy.
Links more than 100 million.

Code:
I 2013/02/05 18:09:49 HTTPDFileHandler access blocked, clientIP=127.0.0.1

Statistik: Verfasst von mass — Di Feb 05, 2013 3:07 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-05 15:44:14

I\’ll do that, thanks a lot for your help.
Unfortunately, I\’ve run out of disk space, among other reasons, because of Yacy (I believe it produces a growing local index, or DHT, or both, or something else that I\’m not aware of, right? thus contributing to running out of disk space).
As soon as I finish a disk clean up procedure - which hopefully will take only a couple of days - I\’ll follow your advice, upgrade Yacy and try to see what happens.
And let you know.
See you soon, please don\’t close this topic yet.

Statistik: Verfasst von oneaty — Di Feb 05, 2013 3:44 pm


Hilfe für Einsteiger und Anwender • Yacy als Lokale Suchmaschine für ein nicht so grosses Land

Date: 2013-02-06 01:05:18

Hallo Com,

Ich bin ein absoluter Yacy Neuling... hab mich zwar ne zeitlang mit Yacy auseinander gesetzt aber in erster Linie für SEO zwecke.

Was ich mich jetzt frage ist: Wie geeignet wäre Yacy um eine Lokale Suchmaschine für ein kleineres Land zu starten (eigentlich hab ich zwei Länder im Kopf...)

Die Fragen die mich beschäftigen:

1. Kommt yacy gut klar mit anderen Sprachen?
2. Ist es möglich die Seiten beim crawlen / indexieren auf TDLs einzugränzen? z.B. nur .de crawlen / indexieren?
3. Was für eine infrastruktur brauch ich für:
a) bei ca. 100\‘000 Domains
b) bei ca. 1\‘000\‘000 Domains
4. Die Hauptfrage ist ob dies eine gute Idee ist? Umsetzbar?

Vielen Dank für eure Hilfe!

Gruss

Statistik: Verfasst von mirk — Mi Feb 06, 2013 1:05 am


Mitmachen • Re: Programmicon

Date: 2013-02-06 08:37:24

Ich finde ja immer noch die Idee von itgrl gut, die Schwanzflosse für das Icon zu benutzen. Eventuell in einer noch etwas stilisierteren Form als hier: viewtopic.php?f=15&t=1724&p=15191#p15068{.postlink-local}

Leider ist es mit meinen zeichnerischen Fähigkeiten nicht so weit her... :(

Statistik: Verfasst von Low012 — Mi Feb 06, 2013 8:37 am


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-02-06 18:38:54

Hallo Mirk,

zu 1.: ja, und auch mit allem was es so an UTF8 gibt
zu 2.: sicher! Da gibts ja einen must-match Filter, einfach (z.B.) \“.*\.de\” rein schreiben
zu 3.: weiss nicht. Relevant ist eher die Anzahl der Links, und hier ist relevant was Solr kann und wie groß deine Anforderung an Suchanfragenskalierung ist. Das ist wesentlich wichtiger als die Anzahl der Dokumente, denn da musst du ein wenig mehr Infrastruktur schaffen. Wenn das für ein Land erfolgreich sein soll, so musst du mit vielen Anfragen pro Sekunde rechnen und dann musst du da einen Serverpark hin stellen mit Load Balancing.
zu 4.:selbstverständlich, selbstverständlich.

Statistik: Verfasst von Orbiter — Mi Feb 06, 2013 6:38 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-02-06 19:23:22

Hallo orbiter

die yacy läuft jetzt ganz gut, aaaaaaaaber ich kann mich nicht mehr einloggen Password weg,
Auf einem OnlineRootServer Debian 5 mit 1 Tb Festplatte Nur 2 Gig Arbeitspeicher komme ich also nicht mehr ins Backoffice von Yacy.
Hier läuft sie ohne Probleme http://espch.de/
http://81.7.10.240:8090/
aber wenn ich nun einen Crawel starten will, kommt eine Passwordabfrage an der ich nicht vorbei komme.

Nun habe ich noch einen zweiten OnlineRootServer 500 Gig Festplatte 4 Gig Arbeitspeicher auch Debian, frist das dortige yacy bei der zweiten Suchabfrage fest, auch innerhalb Office, denn da komme ich rein, frist sie sich fest und läßt sich nur über Konsole starten, läuft aber nicht lange, dann ist sie wieder Festgefressen

Kannst Du mir hier helfen.
Gruß Roland

Statistik: Verfasst von RoGott — Mi Feb 06, 2013 7:23 pm


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-02-06 20:37:26

Ja das habe ich auch vor, und auch schon Online installiert, nur läuft sie noch nicht so, wie ich es möchte, wäre nur mal auch gut zuwissen, welches hier der bessere Modus wäre, ich habe die Erfahrung gemacht, dass das im Robinsonmodus am ruhigsten und stabilsten ist.
Doch ich lasse mich gern belehren.
Als Land habe ich mich speziell für Thüringen und eventuell Mitteldeutschland entschieden.

Statistik: Verfasst von RoGott — Mi Feb 06, 2013 8:37 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-02-06 20:49:41

Ah nun habe ich das gefunden, und genau bei wikepedia passiert das aucch bei meiner Maschine die Online auf Debian 6 läuft und 4 Gig Arbeitsspeicher zur Verfügung hat.
Während die andere bei 2 Gig Speicher und Debian 5 relativ Stabil läuft.

Statistik: Verfasst von RoGott — Mi Feb 06, 2013 8:49 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-02-07 08:43:16

RoGott hat geschrieben:\ die yacy läuft jetzt ganz gut, aaaaaaaaber ich kann mich nicht mehr einloggen Password weg\



Wenn du auf dem Server lynx (oder links o.ä.) installiert hast, kannst du mal versuchen, dich per SSH zum Server zu verbinden und dann eine lokale Verbindung zu YaCy herzustellen. Wenn das klappt, musst du dich bis zur Benutzerkonfiguration durchhangeln, was mit lynx ein ein bisschen mühsam sein kann.

Alternativ kannst du versuchen, das Skript \$YACYDIR/bin/passwd.sh zu benutzen. Die Syntax müsste sein:

passwd.sh neuespasswort

Danach heißt der Admin-User \“admin\” und das Passwort ist \“neuespasswort\“.

Beides funktioniert aber nur, wenn YaCy läuft und der Zugriff auf YaCy von localhost erlaubt ist. Ist das nicht der Fall, kannst du das Skript reconfigureYACY.sh (im Hauptverzeichnis von YaCy) benutzen. Dazu musst du eventuell erst ein YaCy-Update \“von Hand\” (tar.gz. von http://yacystats.de/yacybuild/ runterladen) durchführen, weil das Skript bis vor zwei Wochen einen Bug hatte, der das korrekte Setzen eines neuen Passworts verhindert hat. reconfigureYACY.sh sollte selbsterklärend sein, ist aber nur auf Englisch verfügbar. Wenn du YaCy vorher per \“kill\” abgeschossen haben solltest, meckert das Skript beim Start und du musst noch die Datei yacy.running (glaube ich, sagt das Skript dir aber auch) im DATA-Verzeichnis löschen.

Statistik: Verfasst von Low012 — Do Feb 07, 2013 8:43 am


Hilfe für Einsteiger und Anwender • Yacy läuft aber es lässt sich aber nicht aufrufen.

Date: 2013-02-07 12:55:05

Hi Leute,
Wenn man /etc/init.d/yacy start eingibt kommt :
already running

aber es lässt sich nicht unter http://www.developer-elite.de:8090/ aufrufen.
Hat jmd eine Idee was das Problem ist ?

Mfg ternes3

Statistik: Verfasst von ternes3 — Do Feb 07, 2013 12:55 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-02-07 13:40:02

Wenn man über solr alle erfolgreich indizierten Webpages durchsuchen will, muss man die Abfrage mittels /solr/select?q=httpstatus_i:200 einschränken. Dann passt alles.

Nun stellt sich für mich noch eine andere Frage. Ich möchte exakt jene URLs indizieren, die ich im File angegeben habe. Das funktioniert auch gut. In weiterer Folge möchte ich diese Seiten nun nur alle 7 Tage auf Änderungen überprüfen. Dazu habe ich im Bereich \“Document Double-Check\” die Checkbox \“Re-load\” mit 7 Tage markiert. Das Problem ist allerdings, dass diese Regel nicht für die Start-URLs angewendet wird. D.h. in meinem Falle werden trotz dieser Einstellung alle URLs jedes Mal frisch indiziert. Gibt es eine Möglichkeit, diese Einstellung irgendwo zu ändern?

Abgesehen davon, was passiert, wenn eine erfolgreich aufgenommene Seite im Zuge des nächsten Durchlaufes nicht mehr vorhanden ist und zb einen 410er zurückliefert. Werden die ursprünglich indizierten Inhalte dann gelöscht? Gibt es evtl. die Möglichkeit, dass der ursprünglich indizierte Inhalt bestehen bleibt und die Seite erst dann aus dem Index fällt, wenn diese zB 3 Mal hintereinander eine Fehlerseite zurückliefert?

PS: Ein kleiner Punkt ist mir nebenbei aufgefallen. Wenn man \“Use filter\” auswählt, dann deaktivieren sich die Checkboxen \“Delete sub-path\” und \“Delete only old\“. Erst wenn man mit der Maus ins Feld \“Use filter\” klickt, werden die Checkboxen wieder aktiv.

Statistik: Verfasst von hotel24 — Do Feb 07, 2013 1:40 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-02-07 14:42:20

Ich habe versucht das hinzubekommen, aber ich bekomm das nicht auf die Reihe. Ich kann da nur auf Hilfe aus dem Forum hoffen.
Gruss Roland

Statistik: Verfasst von RoGott — Do Feb 07, 2013 2:42 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-07 21:11:21

Do you have more than 100 million documents in your Index? Thats a lot!
Is this a p2p peer or a robinson peer?

Statistik: Verfasst von Orbiter — Do Feb 07, 2013 9:11 pm


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-02-07 21:14:19

ich will dich ja nicht unbedingt aus freeworld weglocken, aber bei einem so großen Vorhaben wäre eine Netzeinstellung ohne p2p-Beteiligung noch besser, also über /ConfigBasic.html dann das Search Portal auswählen.

Statistik: Verfasst von Orbiter — Do Feb 07, 2013 9:14 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-02-07 21:15:07

debian 5 läuft besser als debian 6?

Statistik: Verfasst von Orbiter — Do Feb 07, 2013 9:15 pm


Hilfe für Einsteiger und Anwender • Re: Yacy läuft aber es lässt sich aber nicht aufrufen.

Date: 2013-02-07 21:16:33

ich kanns aufrufen!
Manche router lassen auch keine externen hostnamen zu und wollen die intranetadresse haben, jedenfalls machte mein alter router das so.

Statistik: Verfasst von Orbiter — Do Feb 07, 2013 9:16 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-02-07 21:34:49

hotel24 hat geschrieben:\ In weiterer Folge möchte ich diese Seiten nun nur alle 7 Tage auf Änderungen überprüfen. Dazu habe ich im Bereich \"Document Double-Check\" die Checkbox \"Re-load\" mit 7 Tage markiert. Das Problem ist allerdings, dass diese Regel nicht für die Start-URLs angewendet wird. D.h. in meinem Falle werden trotz dieser Einstellung alle URLs jedes Mal frisch indiziert.\


diese Beobachtung ist richtig; es wäre ja blöd wenn man dem Crawler eine URL gibt und der dann sagt \“mimimi, ich weiss es besser und weigere mich erst mal das überhaupt zu laden\“. Deswegen wir die übergebene URL schon mal prinzipiell geladen.

hotel24 hat geschrieben:\ Gibt es eine Möglichkeit, diese Einstellung irgendwo zu ändern?\


nein. Du rufst das ja explizit auf weil du das willst. Wenn du eine 7-Tage-Regel für die übergebenen URLs willst, darfst du die selber erst nach sieben Tagen wirder dort als Crawl start einstellen.

hotel24 hat geschrieben:\ Abgesehen davon, was passiert, wenn eine erfolgreich aufgenommene Seite im Zuge des nächsten Durchlaufes nicht mehr vorhanden ist und zb einen 410er zurückliefert. Werden die ursprünglich indizierten Inhalte dann gelöscht?\


Ja und Nein. Dafür gibt es die beiden Regeln \“Document Deletion\” und \“Document Double-Check\“. Bei \“Document Deletion\” wird einfach alles, was du vor X tagen (das stellst du ein) erfasst hast gelöscht. Bei \“Document Double-Check\” wird alles was zum neuen Ladezeitpunkt X Tage alt ist als nicht-Double erkannt und neu geladen. Was du brauchst, ist der erste Punkt (\“Document Deletion\“) um alle Dokumente, die nicht mehr existieren vor dem Crawl zu löschen. Falls sie dann noch existieren, werden sie neu erfasst.

hotel24 hat geschrieben:\ Gibt es evtl. die Möglichkeit, dass der ursprünglich indizierte Inhalt bestehen bleibt und die Seite erst dann aus dem Index fällt, wenn diese zB 3 Mal hintereinander eine Fehlerseite zurückliefert?\


Nein, aber das wäre ja auch nur sinnvoll wenn die Seite eine merkwürdige Verfügbarkeit hätte. Der Fall \“Document Deletion\” mit einem anständigen Zeitintervall (z.B. 1 Monat) wäre hier was angemessenes.

hotel24 hat geschrieben:\ PS: Ein kleiner Punkt ist mir nebenbei aufgefallen. Wenn man \"Use filter\" auswählt, dann deaktivieren sich die Checkboxen \"Delete sub-path\" und \"Delete only old\". Erst wenn man mit der Maus ins Feld \"Use filter\" klickt, werden die Checkboxen wieder aktiv.\


ja hier stimmt noch was nicht. Es hat damit zu tun dass ein Deletion bei Sub-Path nicht sinnvoll ist, wenn es keinen Sub-Path gibt. Aber die Logik ist hier noch nicht ganz vollständig, muss man überlegen.

Statistik: Verfasst von Orbiter — Do Feb 07, 2013 9:34 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-07 21:40:34

p2p . \“moon\” Peer.

Statistik: Verfasst von mass — Do Feb 07, 2013 9:40 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-07 22:14:37

Hello mass,

a negative value of available-Heap looks funny.

have You tried to use the Generation-Memory-Strategy?
(in /PerformanceMemory_p.html uncheck \‘use Standard Memory Strategy\‘)

I\’ve never tried it on that much Heap - but it is worth a try.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Feb 07, 2013 10:14 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 05:27:07

hello sixcooler.
I have not found)
(in / PerformanceMemory_p.html uncheck \‘use Standard Memory Strategy\‘)

Statistik: Verfasst von mass — Fr Feb 08, 2013 5:27 am


Hilfe für Einsteiger und Anwender • 1. YaCy beendet sich 2. Crawl paused

Date: 2013-02-08 08:36:30

Hallo,

ich habe zwei Rechner, auf denen YaCy unter Lubuntu 12.04 läuft (jeweils auf verschiedenen Ports)

1. Esprimo mit 512 MB RAM. Yay beendet sich ständig. Ich habe jetzt aufgrund der Empfehlung in diesem thread viewtopic.php?f=5&t=4562{.postlink-local} den Speicher unter \“Admin Konsole\” -> \“Leistung\” den JVM-Speicher auf 120 MB heruntergedreht, nutzt aber nichts.

2. Esprimo mit 1 GB RAM. YaCy läuft stabil, aber der Crawl stopt dauernd: \“Crawling is paused! If the crawling was paused automatically, please check your disk space.\”

df -h sagt mir

Code:
Dateisystem    Größe Benutzt Verf. Verw% Eingehängt auf/dev/sda1        37G     25G   11G   70% /



aber davon ist noch nichts besser. Wie jetzt weiter?

Außerdem zeigt /Crawler_p.html zwar keine Crawl-Ergebnisse, allerdings steht dort \“Running Crawls (14)\” und es blinkt munter das Wort \“Running\” bei jedem Crawl, was nicht gerade den Eindruck von Pausieren erweckt. Das soll wohl dann heißen, dass ein Crawl running und zugleich paused (i.G, zu terminatedf) ist. Die dritte Möglichkeit ist dann wohl runnung und non-paused. Vermut ich mal, denn irgendwelche Dokumentation hab ich dazu nicht gefunden. Das ist gelinde gesagt ein verwirrendes Benutzerinterface. Wenn ein Crawl drei Zustände hat, was spricht dann gegen drei verschiedene Bezeichnungen: running, passed, terminated?

Bei aller Liebe zum Projekt, aber
1. keine umfassende Dokumentaztion
2. kein konsistentes Benurzerinterface
3. keine hilfreichen Fehlermeldung
4. wirre Abstürze
sind keine Empfehlung.

Gruß, Gerald

Statistik: Verfasst von uzfH7 — Fr Feb 08, 2013 8:36 am


Hilfe für Einsteiger und Anwender • Re: Kein Ostdeutsch

Date: 2013-02-08 08:56:17

Hallo,

Orbiter hat geschrieben:\ Hast du einen Senior Peer?\



/Status.html?noforward= sagt mir
\“Sie lassen YaCy bei sich im Senior Modus laufen und unterstützen den globalen Index, den Sie auch selbst durchsuchen können.\”

Allerdigs habe ich inzwischen gravierendere Probleme. viewtopic.php?f=18&t=4597{.postlink-local}

Gruß, Gerald

Statistik: Verfasst von uzfH7 — Fr Feb 08, 2013 8:56 am


Hilfe für Einsteiger und Anwender • Re: 1. YaCy beendet sich 2. Crawl paused

Date: 2013-02-08 10:32:45

Das Crawl Pausieren soll natürlich die Funtionsfähigeit deines Servers und der Suche schützen und deswegen wird ja auch pausiert.
Es bringt ja nix wenn deine Platte bis zum Rand vollgepumpt wird.
Wie groß ist denn der Index auf dem Esprimo? Also Anzahl von Dokumente?

Statistik: Verfasst von Orbiter — Fr Feb 08, 2013 10:32 am


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-08 13:02:57

Ok, I\’m back.
I have followed your advice on updating Yacy, but I\’ve chosen the option Automatic Install, on the Manual Update section.
Now, my question is:
Does this install process takes significant time?
Because it\’s been now some 10 minutes after Yacy started the install process and opened a CMD window (I\’m running over Windows Vista), which seems to be filling the scren with infinite dots, and nothing seems to happen.
Is this normal?

Statistik: Verfasst von oneaty — Fr Feb 08, 2013 1:02 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-08 14:03:10

I aborted the install process (Closed the cmd line window and purged Javaw process).
Then I shut dwon my Firewall (Commodo).
I restarted Yacy and I confirmed that the upgrade didn\’t work, since the system version number wasn\’t changed.
Then I selected Install Release from Manual System Update section and what I got was this two messages:
Bild

and

Bild

Again, it seems that the install procedure was in an infinite loop.
Again, I canceled the cmd line window and purged the Javaw process.
Then I restarted Yacy and this time I choose Automated System Update, like you\’ve said before.
This time, nothing seem to happen and, by the end, I\’m still running 1.04/9000 version.
As far as my Linux knowledge goes, tar.gz seems to be a Linux file. Does this has something to do with my inabbility to upgrade Yacy on Windows Vista?

Statistik: Verfasst von oneaty — Fr Feb 08, 2013 2:03 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 14:53:59

Hello mass,

in http://moon.yacy/PerformanceMemory_p.html you should find it under the Memory-Graph.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Feb 08, 2013 2:53 pm


Hilfe für Einsteiger und Anwender • Re: Crawl auf Startseiten beschränken

Date: 2013-02-08 16:18:45

Vielen Dank für die ausführlichen Anworten!

Klingt für mich alles logisch, wie YaCy die Punkte behandelt. (Bei mnogosearch läuft es ein wenig anders, daher muss ich mich erst umgewöhnen ;) )

Aber eines verstehe ich leider noch nicht ganz. Wenn die Start-URL sowieso bei jedem Crawlingdurchgang neu indiziert wird, warum sollte diese mit \“Document Deletion\” zuvor gelöscht werden? Die Seite wird ja so und so neu indiziert und liefert entweder ein vorhandenes Dokument oder eine Fehlerseite zurück. Oder ist das nur in meiner Situation ein spezieller Fall, weil ich Crawlingtiefe 0 verwende und der Einsatz von \“Document Deletion\” macht erst ab Crawlingtiefe 1 Sinn?

Meine Idealvorstellung zur Erstellung eines Verzeichnisses sieht so aus:
1. Ausschließlich vorgegebene URLs aus Liste indizieren
2. Regelmäßige Aktualisierung, zB Recrawl alle 7 Tage
3. Wenn Fehlerseite zurückgeliefert wird, alten Seiteninhalt behalten (weil evtl. wichtig für Verzeichnis und nur zufällig gerade nicht erreichbar)
4. Dokument erst als Fehlerseite ablegen wenn zB 3x nicht verfügbar.

Evtl. irgendeine Idee, wie Pkt. 3 und 4 realisierbar wären?

Statistik: Verfasst von hotel24 — Fr Feb 08, 2013 4:18 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 19:05:23

uh, strange happened!
In \“Login as Administrator\” that does not highlights
And this:

Statistik: Verfasst von mass — Fr Feb 08, 2013 7:05 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 20:06:49

When searching for the output:

Statistik: Verfasst von mass — Fr Feb 08, 2013 8:06 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 20:13:37

If you honestly, you better come back to 1.04/9000
There were minor problems, but everything worked.
To 1.3, unfortunately does not work at all (
Only now cleaned the APT, and .deb package is not (

Statistik: Verfasst von mass — Fr Feb 08, 2013 8:13 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-08 23:24:59

Hello mass,

I\’ve no idea what happend to your peer, but it looks like something whent wrong on the update-process.

Perhaps you shoud try to remove everything except \‘DATA\’ from your yacy-installation-dir and unpack from fresh archive.

The current versions definitely run fine - even with indexes of that size :-)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Feb 08, 2013 11:24 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-09 05:28:21

Hello sixcooler,
Delete all (including the /bvar/lib/yacy/) , save / usr / share / yacy / DATA?
Reinstall it, and then replaced by a new backup?

When you reinstall the last time I saved /var/lib/yacy

Statistik: Verfasst von mass — Sa Feb 09, 2013 5:28 am


Hilfe für Einsteiger und Anwender • Re: 1. YaCy beendet sich 2. Crawl paused

Date: 2013-02-09 05:37:36

Hallo,

zunächst der aktuelle Stand.

Auf dem 1. Rechner hat mich heute des Webinterface mit den beiden Zeilen

Code:
501 Exception occurred: Java heap space501 Exception occurred: Java heap space



begrüßt.

Auf dem 2. Rechner wird jetzt auch nicht mehr pausiert, sonder YaCy stürzt ab. Kein java-Prozess mehr mit top auffindbar.

Orbiter hat geschrieben:\ Das Crawl Pausieren soll natürlich die Funtionsfähigeit deines Servers und der Suche schützen und deswegen wird ja auch pausiert.\ Es bringt ja nix wenn deine Platte bis zum Rand vollgepumpt wird.\



Das ist sicher nett gedacht, aber die Platte darf vollgepumpt werden. Es sind immer noch 11GB frei. Ich hatte auch schon eine 160GB Platte eingebaut, die ich wieder ausgebaut habe da YaCy sie offenbar nicht annähernd ausnutzen will. Daher ist der Index jetzt auch (wie alles im Rechner) auf der Systempartition.

Orbiter hat geschrieben:\ Wie groß ist denn der Index auf dem Esprimo? Also Anzahl von Dokumente?\



/IndexControlURLs_p.html sagt

\“Der lokale Index enthält im Moment 4.817.105 URL-Referenzen\”

Ist das der gewünschte Wert?

Statistik: Verfasst von uzfH7 — Sa Feb 09, 2013 5:37 am


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-09 16:42:15

Hallo mass,

did you install from dep-Package or something like that?

I\’ve never tested these distro-packages.

\@ALL:
Does some know the file-structure of the distro-package an can tell mass here how to get a clean setup?

The \‘DATA\‘-directory and its subfolders should hold all your index and settings.
If installed from tar.gz it is save to delete everything that came from that archive but hold this DATA-dir.

I hope you\’ll get a more detailed answer here soon.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Feb 09, 2013 4:42 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-09 20:23:30

Mm made ​​so: save directory DATE
YaCy reinstalled, did not help ((
Only helped to add RAM to 1GB
Just out of space in /

Statistik: Verfasst von mass — Sa Feb 09, 2013 8:23 pm


YaCy Coding & Architektur • YAML CSS für Servlets?

Date: 2013-02-10 21:05:18

Ich bin die Tage über yaml.de gestolpert und bin von dem Design begeistert! Ich finde das könnte ein wunderbarer Kandidat für ein Design-Update für die YaCy UI werden. Schaut euch doch mal das Framework an, das sieht super aus. Natürlich bräuchte es ein wenig Customization. Leider wäre es nicht so einfach die alten Skins dazu zu verwenden. Aber wir könnten zumindest das Namensschema für die Farben benutzen.

Statistik: Verfasst von Orbiter — So Feb 10, 2013 9:05 pm


Fragen und Antworten • Re: robots.txt nicht korrekt geladen?

Date: 2013-02-11 08:10:44

Hello.
I do not know correctly chosen a theme or not , http://127.0.0.1:8090/ConfigRobotsTxt_p.html do not save the settings. And by default ,all prohibited.

Statistik: Verfasst von mass — Mo Feb 11, 2013 8:10 am


Panorama • Der SuMa-eV hat nun auch ein Board

Date: 2013-02-11 15:51:51

http://forum.suma-ev.de

.. mit den Foren:
Einsteiger, MetaGer, Suchmaschinen, Internet und Netzpolitik, Internet-Technologien, Suchen im Internet OHNE Suchmaschinen, Dies & das - Off Topic

Das zweite und dritte darin (Suchmaschinen, Internet und Netzpolitik) überschneidet sich mit den beiden Forum im Bereich Informationsfreiheit (Suchmaschinen, Panorama) hier bei uns. Aber das SuMa-eV Forum wird vielleicht eher ein Treffpunkt für \‘Politiker\’ und weniger für \‘Techniker\’ wie hier sein, ggf. findet man dort Leute die was bewirken können. Jedenfalls wäre das ganz gut.

Statistik: Verfasst von Orbiter — Mo Feb 11, 2013 3:51 pm


Panorama • Re: Der SuMa-eV hat nun auch ein Board

Date: 2013-02-11 16:09:10

Orbiter hat geschrieben:\ http://forum.suma-ev.de\ \ .. mit den Foren:\ Einsteiger, MetaGer, Suchmaschinen, Internet und Netzpolitik, Internet-Technologien, Suchen im Internet OHNE Suchmaschinen, Dies & das - Off Topic\ \ Das zweite und dritte darin (Suchmaschinen, Internet und Netzpolitik) überschneidet sich mit den beiden Forum im Bereich Informationsfreiheit (Suchmaschinen, Panorama) hier bei uns. Aber das SuMa-eV Forum wird vielleicht eher ein Treffpunkt für \'Politiker\' und weniger für \'Techniker\' wie hier sein, ggf. findet man dort Leute die was bewirken können. Jedenfalls wäre das ganz gut.\



Danke für\’s Posten, Michael!
Ist aber alles noch beta ...

Schöne Grüße!
Wolfgang SB

Statistik: Verfasst von wsb — Mo Feb 11, 2013 4:09 pm


Hilfe für Einsteiger und Anwender • Re: web interface

Date: 2013-02-12 14:46:23

Download sources generally
https://gitorious.org/yacy/rc1/trees/21 ... b5d417c64e{.postlink}
But to collect .deb package can not, if you can help.
Thank you in advance.
Have not been able to solve the problem with the \“brakes\” on version 1.3

Statistik: Verfasst von mass — Di Feb 12, 2013 2:46 pm


Hilfe für Einsteiger und Anwender • Re: yacy läuft nicht auf SheevaPlug

Date: 2013-02-12 17:45:24

ja auf Debian 5 trotz niedrigeren Arbeitsspeichen 2Gig, bis jetzt, auf Debian 6 mit 4 Gig Arbeitspeicher 500 Gig Festplatte bleibt sie ständig stehen, ist also nicht erreichbar im Robinson Modus, da mir im Seniormodus die Yacy mit URL vollgepackt wird mit URL die ich nicht haben will,
aber sie schreibt weiterhin Logfile, ist aber nicht im 8090 Port aufzurufen, hat bisher nur 20000 links indexiert.

Statistik: Verfasst von RoGott — Di Feb 12, 2013 5:45 pm


Fragen und Antworten • Re: Yacy \“bug\” report

Date: 2013-02-15 08:12:51

Code:
D 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_pt{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_ro: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ro{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_ru: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ru{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_sv: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_sv{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.th.ThaiWordFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_th: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_th{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.tr.TurkishLowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_tr: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_tr{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def idD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: id{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast,required, required=true}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema id is required in this schemaD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def skuD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: sku{type=text_en_splitting_tight,properties=indexed,tokenized,stored,omitNorms}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def nameD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: name{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def manuD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: manu{type=text_general,properties=indexed,tokenized,stored,omitNorms}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def catD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: cat{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def featuresD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: features{type=text_general,properties=indexed,tokenized,stored,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def includesD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: includes{type=text_general,properties=indexed,tokenized,stored,termVectors,termPositions,termOffsets}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def weightD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: weight{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def priceD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: price{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def popularityD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: popularity{type=int,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def inStockD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: inStock{type=boolean,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def storeD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: store{type=location,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def titleD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: title{type=text_general,properties=indexed,tokenized,stored,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def subjectD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: subject{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def descriptionD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: description{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def commentsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: comments{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def authorD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: author{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def keywordsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: keywords{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def categoryD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: category{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def content_typeD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: content_type{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def last_modifiedD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: last_modified{type=date,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def linksD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: links{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def textD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: text{type=text_general,properties=indexed,tokenized,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def text_revD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: text_rev{type=text_general_rev,properties=indexed,tokenized,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def manu_exactD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: manu_exact{type=string,properties=indexed,omitNorms,omitTermFreqAndPositions,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def payloadsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: payloads{type=payloads,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def _version_D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema field defined: _version_{type=long,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_iD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_i{type=int,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_sD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_s{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_valD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_val{type=int,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_sxtD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_sxt{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_lD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_l{type=long,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_lsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_ls{type=long,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_t{type=text_general,properties=indexed,tokenized,stored}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_txtD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_txt{type=text_general,properties=indexed,tokenized,stored,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_enD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_en{type=text_en,properties=indexed,tokenized,stored,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_bD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_b{type=boolean,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_bsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_bs{type=boolean,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_fD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_f{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_fsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_fs{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_dD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_d{type=double,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_dsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_ds{type=double,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_coordinateD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_coordinate{type=tdouble,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_dtD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_dt{type=date,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_dtsD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_dts{type=date,properties=indexed,stored,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_pD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_p{type=location,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tiD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_ti{type=tint,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tlD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_tl{type=tlong,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tfD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_tf{type=tfloat,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tdD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_td{type=tdouble,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_tdtD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_tdt{type=tdate,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_piD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_pi{type=pint,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def *_cD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *_c{type=currency,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def ignored_*D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: ignored_*{type=ignored,properties=omitNorms,omitTermFreqAndPositions,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def attr_*D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: attr_*{type=text_general,properties=indexed,tokenized,stored,multiValued}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema reading field def random_*D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: random_*{type=random,properties=indexed,stored,omitTermFreqAndPositions}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema Dynamic Field Ordering:[*_coordinate{type=tdouble,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, ignored_*{type=ignored,properties=omitNorms,omitTermFreqAndPositions,multiValued}, random_*{type=random,properties=indexed,stored,omitTermFreqAndPositions}, attr_*{type=text_general,properties=indexed,tokenized,stored,multiValued}, *_val{type=int,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}, *_sxt{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}, *_txt{type=text_general,properties=indexed,tokenized,stored,multiValued}, *_dts{type=date,properties=indexed,stored,omitTermFreqAndPositions,multiValued}, *_tdt{type=tdate,properties=indexed,stored,omitTermFreqAndPositions}, *_ls{type=long,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}, *_en{type=text_en,properties=indexed,tokenized,stored,multiValued}, *_bs{type=boolean,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued,sortMissingLast}, *_fs{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}, *_ds{type=double,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,multiValued}, *_dt{type=date,properties=indexed,stored,omitTermFreqAndPositions}, *_ti{type=tint,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_tl{type=tlong,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_tf{type=tfloat,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_td{type=tdouble,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_pi{type=pint,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_i{type=int,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_s{type=string,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast}, *_l{type=long,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_t{type=text_general,properties=indexed,tokenized,stored}, *_b{type=boolean,properties=indexed,stored,omitNorms,omitTermFreqAndPositions,sortMissingLast}, *_f{type=float,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_d{type=double,properties=indexed,stored,omitNorms,omitTermFreqAndPositions}, *_p{type=location,properties=indexed,stored,omitTermFreqAndPositions}, *_c{type=currency,properties=indexed,stored,omitTermFreqAndPositions}]D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema no default search field specified in schema.D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema using default query parser operator (OR)I 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema unique key field: idD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='author' dest='author_s' maxChars='100D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='cat' dest='text' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='name' dest='text' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='manu' dest='text' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='features' dest='text' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='includes' dest='text' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='manu' dest='manu_exact' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema copyField source='price' dest='price_c' maxChars='0D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field creation for schema field: *____currencyD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *____currency{type=currency_type_string,properties=indexed,omitNorms}D 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field creation for schema field: *____amount_rawD 2013/02/15 06:56:02 org.apache.solr.schema.IndexSchema dynamic field defined: *____amount_raw{type=amount_raw_type_tlong,properties=indexed,omitNorms}I 2013/02/15 06:56:02 org.apache.solr.schema.FileExchangeRateProvider Reloading exchange rates from file currency.xmlI 2013/02/15 06:56:02 org.apache.solr.schema.FileExchangeRateProvider Reloading exchange rates from file currency.xmlI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] Opening new SolrCore at /home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./, dataDir=/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./data/I 2013/02/15 06:56:03 org.apache.solr.core.JmxMonitoredMap JMX monitoring is enabled. Adding Solr mbeans to JMX Server: com.sun.jmx.mbeanserver.JmxMBeanServer@1e893dfI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] Added SolrEventListener for newSearcher: org.apache.solr.core.QuerySenderListener{queries=[]}I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] Added SolrEventListener for firstSearcher: org.apache.solr.core.QuerySenderListener{queries=[{q=static firstSearcher warming in solrconfig.xml}]}W 2013/02/15 06:56:03 org.apache.solr.core.SolrCore New index directory detected: old=null new=/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./data/index/I 2013/02/15 06:56:03 org.apache.solr.core.CachingDirectoryFactory return new directory for /home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./data/index forceNew:falseI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore created json: solr.JSONResponseWriterI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore adding lazy queryResponseWriter: solr.VelocityResponseWriterI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore created velocity: solr.VelocityResponseWriterI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore created xslt: solr.XSLTResponseWriterI 2013/02/15 06:56:03 org.apache.solr.response.XSLTResponseWriter xsltCacheLifetimeSeconds=5I 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /select: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /query: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /get: solr.RealTimeGetHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /browse: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /update: solr.UpdateRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /update/json: solr.JsonUpdateRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /update/csv: solr.CSVRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.extraction.ExtractingRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /update/extract: solr.extraction.ExtractingRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.FieldAnalysisRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /analysis/field: solr.FieldAnalysisRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.DocumentAnalysisRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /analysis/document: solr.DocumentAnalysisRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /admin/: solr.admin.AdminHandlersI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /admin/ping: solr.PingRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /debug/dump: solr.DumpRequestHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /replication: solr.ReplicationHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /spell: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /tvrh: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /terms: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers adding lazy requestHandler: solr.SearchHandlerI 2013/02/15 06:56:03 org.apache.solr.core.RequestHandlers created /elevate: solr.SearchHandlerD 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader Unable to set the 'reuse-instance' property for the input chain: com.ctc.wstx.stax.WstxInputFactory@b2c64I 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader xsltCacheLifetimeSeconds=60D 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader Unable to set the 'reuse-instance' property for the input chain: com.ctc.wstx.stax.WstxInputFactory@1956391I 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader xsltCacheLifetimeSeconds=60D 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader Unable to set the 'reuse-instance' property for the input chain: com.ctc.wstx.stax.WstxInputFactory@bbf7aaI 2013/02/15 06:56:03 org.apache.solr.handler.loader.XMLLoader xsltCacheLifetimeSeconds=60I 2013/02/15 06:56:03 org.apache.solr.search.SolrIndexSearcher Opening Searcher@1352447 mainI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore Hard AutoCommit: if uncommited for 15000ms; I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore Soft AutoCommit: disabledI 2013/02/15 06:56:03 org.apache.solr.handler.component.SpellCheckComponent Initializing spell checkersI 2013/02/15 06:56:03 org.apache.solr.spelling.DirectSolrSpellChecker init: {name=default,field=name,classname=solr.DirectSolrSpellChecker,distanceMeasure=internal,accuracy=0.5,maxEdits=2,minPrefix=1,maxInspections=5,minQueryLength=4,maxQueryFrequency=0.01}I 2013/02/15 06:56:03 org.apache.solr.handler.component.SpellCheckComponent No queryConverter defined, using default converterI 2013/02/15 06:56:03 org.apache.solr.handler.component.QueryElevationComponent Loading QueryElevation from: /home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./conf/elevate.xmlD 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  component:org.apache.solr.handler.component.QueryComponent@a974c7D 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  component:org.apache.solr.handler.component.FacetComponent@131f2b4D 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  component:org.apache.solr.handler.component.MoreLikeThisComponent@3526cfD 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  component:org.apache.solr.handler.component.HighlightComponent@186ed7aD 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  component:org.apache.solr.handler.component.StatsComponent@150f0a7D 2013/02/15 06:56:03 org.apache.solr.handler.component.SearchHandler Adding  debug component:org.apache.solr.handler.component.DebugComponent@e771f3I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting socketTimeout to: 0I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting urlScheme to: http://I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting connTimeout to: 0I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting maxConnectionsPerHost to: 20I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting corePoolSize to: 0I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting maximumPoolSize to: 2147483647I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting maxThreadIdleTime to: 5I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting sizeOfQueue to: -1I 2013/02/15 06:56:03 org.apache.solr.handler.component.HttpShardHandlerFactory Setting fairnessPolicy to: falseI 2013/02/15 06:56:03 org.apache.solr.client.solrj.impl.HttpClientUtil Creating new http client, config:maxConnectionsPerHost=20&maxConnections=10000&socketTimeout=0&connTimeout=0&retry=falseI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1]  CLOSING SolrCore org.apache.solr.core.SolrCore@175b7f9I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore QuerySenderListener sending requests to Searcher@1352447 main{StandardDirectoryReader(segments_1:1)}E 2013/02/15 06:56:03 org.apache.solr.core.SolrCore java.lang.NullPointerException   at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:179)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:129)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1699)   at org.apache.solr.core.QuerySenderListener.newSearcher(QuerySenderListener.java:63)   at org.apache.solr.core.SolrCore$5.call(SolrCore.java:1479)   at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)   at java.util.concurrent.FutureTask.run(FutureTask.java:166)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)   at java.lang.Thread.run(Thread.java:636)I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] webapp=null path=null params={event=firstSearcher&q=static+firstSearcher+warming+in+solrconfig.xml&distrib=false} status=500 QTime=10 I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore QuerySenderListener done.I 2013/02/15 06:56:03 org.apache.solr.handler.component.SpellCheckComponent Loading spell index for spellchecker: defaultI 2013/02/15 06:56:03 org.apache.solr.handler.component.SpellCheckComponent Loading spell index for spellchecker: wordbreakI 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] Registered new searcher Searcher@1352447 main{StandardDirectoryReader(segments_1:1)}I 2013/02/15 06:56:03 org.apache.solr.core.SolrCore [collection1] Closing main searcher on request.D 2013/02/15 06:56:03 org.apache.solr.search.SolrIndexSearcher Closing Searcher@1352447 main   fieldValueCache{lookups=0,hits=0,hitratio=0.00,inserts=0,evictions=0,size=0,warmupTime=0,cumulative_lookups=0,cumulative_hits=0,cumulative_hitratio=0.00,cumulative_inserts=0,cumulative_evictions=0}   filterCache{lookups=0,hits=0,hitratio=0.00,inserts=0,evictions=0,size=0,warmupTime=0,cumulative_lookups=0,cumulative_hits=0,cumulative_hitratio=0.00,cumulative_inserts=0,cumulative_evictions=0}   queryResultCache{lookups=0,hits=0,hitratio=0.00,inserts=0,evictions=0,size=0,warmupTime=0,cumulative_lookups=0,cumulative_hits=0,cumulative_hitratio=0.00,cumulative_inserts=0,cumulative_evictions=0}   documentCache{lookups=0,hits=0,hitratio=0.00,inserts=0,evictions=0,size=0,warmupTime=0,cumulative_lookups=0,cumulative_hits=0,cumulative_hitratio=0.00,cumulative_inserts=0,cumulative_evictions=0}I 2013/02/15 06:56:03 org.apache.solr.update.UpdateHandler closing DirectUpdateHandler2{commits=0,autocommit maxTime=15000ms,autocommits=0,soft autocommits=0,optimizes=0,rollbacks=0,expungeDeletes=0,docsPending=0,adds=0,deletesById=0,deletesByQuery=0,errors=0,cumulative_adds=0,cumulative_deletesById=0,cumulative_deletesByQuery=0,cumulative_errors=0}I 2013/02/15 06:56:03 org.apache.solr.update.DefaultSolrCoreState SolrCoreState ref count has reached 0 - closing IndexWriterI 2013/02/15 06:56:03 org.apache.solr.update.DefaultSolrCoreState Closing SolrCoreState - canceling any ongoing recoveryE 2013/02/15 06:56:03 org.apache.solr.core.CoreContainer Unable to create core: collection1org.apache.solr.common.SolrException: Failure initializing default SSL context   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:721)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:566)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:850)   at org.apache.solr.core.CoreContainer.load(CoreContainer.java:534)   at org.apache.solr.core.CoreContainer.load(CoreContainer.java:356)   at org.apache.solr.core.CoreContainer.<init>(CoreContainer.java:169)   at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.<init>(EmbeddedSolrConnector.java:101)   at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:132)   at net.yacy.search.Switchboard.<init>(Switchboard.java:434)   at net.yacy.yacy.startup(yacy.java:207)   at net.yacy.yacy.main(yacy.java:636)Caused by: org.apache.http.conn.ssl.SSLInitializationException: Failure initializing default SSL context   at org.apache.http.conn.ssl.SSLSocketFactory.createDefaultSSLContext(SSLSocketFactory.java:360)   at org.apache.http.conn.ssl.SSLSocketFactory.getSocketFactory(SSLSocketFactory.java:175)   at org.apache.http.impl.conn.SchemeRegistryFactory.createDefault(SchemeRegistryFactory.java:49)   at org.apache.http.impl.conn.tsccm.ThreadSafeClientConnManager.<init>(ThreadSafeClientConnManager.java:101)   at org.apache.solr.client.solrj.impl.HttpClientUtil.createClient(HttpClientUtil.java:103)   at org.apache.solr.handler.component.HttpShardHandlerFactory.init(HttpShardHandlerFactory.java:132)   at org.apache.solr.core.CoreContainer.getShardHandlerFactory(CoreContainer.java:1416)   at org.apache.solr.handler.component.SearchHandler.inform(SearchHandler.java:139)   at org.apache.solr.core.SolrResourceLoader.inform(SolrResourceLoader.java:587)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:716)   ... 10 moreCaused by: java.security.ProviderException: Could not initialize NSS   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:201)   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:103)   at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)   at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)   at java.lang.reflect.Constructor.newInstance(Constructor.java:532)   at sun.security.jca.ProviderConfig$3.run(ProviderConfig.java:262)   at sun.security.jca.ProviderConfig$3.run(ProviderConfig.java:244)   at java.security.AccessController.doPrivileged(Native Method)   at sun.security.jca.ProviderConfig.doLoadProvider(ProviderConfig.java:244)   at sun.security.jca.ProviderConfig.getProvider(ProviderConfig.java:224)   at sun.security.jca.ProviderList.getProvider(ProviderList.java:232)   at sun.security.jca.ProviderList.getService(ProviderList.java:330)   at sun.security.jca.GetInstance.getInstance(GetInstance.java:157)   at java.security.Security.getImpl(Security.java:696)   at java.security.AlgorithmParameters.getInstance(AlgorithmParameters.java:130)   at sun.security.x509.AlgorithmId.decodeParams(AlgorithmId.java:121)   at sun.security.x509.AlgorithmId.<init>(AlgorithmId.java:114)   at sun.security.x509.AlgorithmId.parse(AlgorithmId.java:381)   at sun.security.x509.X509Key.parse(X509Key.java:168)   at sun.security.x509.CertificateX509Key.<init>(CertificateX509Key.java:75)   at sun.security.x509.X509CertInfo.parse(X509CertInfo.java:705)   at sun.security.x509.X509CertInfo.<init>(X509CertInfo.java:169)   at sun.security.x509.X509CertImpl.parse(X509CertImpl.java:1751)   at sun.security.x509.X509CertImpl.<init>(X509CertImpl.java:196)   at sun.security.provider.X509Factory.engineGenerateCertificate(X509Factory.java:107)   at java.security.cert.CertificateFactory.generateCertificate(CertificateFactory.java:322)   at sun.security.provider.JavaKeyStore.engineLoad(JavaKeyStore.java:763)   at sun.security.provider.JavaKeyStore$JKS.engineLoad(JavaKeyStore.java:55)   at java.security.KeyStore.load(KeyStore.java:1201)   at sun.security.ssl.TrustManagerFactoryImpl.getCacertsKeyStore(TrustManagerFactoryImpl.java:221)   at sun.security.ssl.TrustManagerFactoryImpl.engineInit(TrustManagerFactoryImpl.java:51)   at javax.net.ssl.TrustManagerFactory.init(TrustManagerFactory.java:247)   at org.apache.http.conn.ssl.SSLSocketFactory.createSSLContext(SSLSocketFactory.java:229)   at org.apache.http.conn.ssl.SSLSocketFactory.createDefaultSSLContext(SSLSocketFactory.java:358)   ... 19 moreCaused by: java.io.FileNotFoundException: /usr/lib/libnss3.so   at sun.security.pkcs11.Secmod.initialize(Secmod.java:186)   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:197)   ... 53 moreE 2013/02/15 06:56:03 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Failure initializing default SSL context   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:721)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:566)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:850)   at org.apache.solr.core.CoreContainer.load(CoreContainer.java:534)   at org.apache.solr.core.CoreContainer.load(CoreContainer.java:356)   at org.apache.solr.core.CoreContainer.<init>(CoreContainer.java:169)   at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.<init>(EmbeddedSolrConnector.java:101)   at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:132)   at net.yacy.search.Switchboard.<init>(Switchboard.java:434)   at net.yacy.yacy.startup(yacy.java:207)   at net.yacy.yacy.main(yacy.java:636)Caused by: org.apache.http.conn.ssl.SSLInitializationException: Failure initializing default SSL context   at org.apache.http.conn.ssl.SSLSocketFactory.createDefaultSSLContext(SSLSocketFactory.java:360)   at org.apache.http.conn.ssl.SSLSocketFactory.getSocketFactory(SSLSocketFactory.java:175)   at org.apache.http.impl.conn.SchemeRegistryFactory.createDefault(SchemeRegistryFactory.java:49)   at org.apache.http.impl.conn.tsccm.ThreadSafeClientConnManager.<init>(ThreadSafeClientConnManager.java:101)   at org.apache.solr.client.solrj.impl.HttpClientUtil.createClient(HttpClientUtil.java:103)   at org.apache.solr.handler.component.HttpShardHandlerFactory.init(HttpShardHandlerFactory.java:132)   at org.apache.solr.core.CoreContainer.getShardHandlerFactory(CoreContainer.java:1416)   at org.apache.solr.handler.component.SearchHandler.inform(SearchHandler.java:139)   at org.apache.solr.core.SolrResourceLoader.inform(SolrResourceLoader.java:587)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:716)   ... 10 moreCaused by: java.security.ProviderException: Could not initialize NSS   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:201)   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:103)   at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)   at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)   at java.lang.reflect.Constructor.newInstance(Constructor.java:532)   at sun.security.jca.ProviderConfig$3.run(ProviderConfig.java:262)   at sun.security.jca.ProviderConfig$3.run(ProviderConfig.java:244)   at java.security.AccessController.doPrivileged(Native Method)   at sun.security.jca.ProviderConfig.doLoadProvider(ProviderConfig.java:244)   at sun.security.jca.ProviderConfig.getProvider(ProviderConfig.java:224)   at sun.security.jca.ProviderList.getProvider(ProviderList.java:232)   at sun.security.jca.ProviderList.getService(ProviderList.java:330)   at sun.security.jca.GetInstance.getInstance(GetInstance.java:157)   at java.security.Security.getImpl(Security.java:696)   at java.security.AlgorithmParameters.getInstance(AlgorithmParameters.java:130)   at sun.security.x509.AlgorithmId.decodeParams(AlgorithmId.java:121)   at sun.security.x509.AlgorithmId.<init>(AlgorithmId.java:114)   at sun.security.x509.AlgorithmId.parse(AlgorithmId.java:381)   at sun.security.x509.X509Key.parse(X509Key.java:168)   at sun.security.x509.CertificateX509Key.<init>(CertificateX509Key.java:75)   at sun.security.x509.X509CertInfo.parse(X509CertInfo.java:705)   at sun.security.x509.X509CertInfo.<init>(X509CertInfo.java:169)   at sun.security.x509.X509CertImpl.parse(X509CertImpl.java:1751)   at sun.security.x509.X509CertImpl.<init>(X509CertImpl.java:196)   at sun.security.provider.X509Factory.engineGenerateCertificate(X509Factory.java:107)   at java.security.cert.CertificateFactory.generateCertificate(CertificateFactory.java:322)   at sun.security.provider.JavaKeyStore.engineLoad(JavaKeyStore.java:763)   at sun.security.provider.JavaKeyStore$JKS.engineLoad(JavaKeyStore.java:55)   at java.security.KeyStore.load(KeyStore.java:1201)   at sun.security.ssl.TrustManagerFactoryImpl.getCacertsKeyStore(TrustManagerFactoryImpl.java:221)   at sun.security.ssl.TrustManagerFactoryImpl.engineInit(TrustManagerFactoryImpl.java:51)   at javax.net.ssl.TrustManagerFactory.init(TrustManagerFactory.java:247)   at org.apache.http.conn.ssl.SSLSocketFactory.createSSLContext(SSLSocketFactory.java:229)   at org.apache.http.conn.ssl.SSLSocketFactory.createDefaultSSLContext(SSLSocketFactory.java:358)   ... 19 moreCaused by: java.io.FileNotFoundException: /usr/lib/libnss3.so   at sun.security.pkcs11.Secmod.initialize(Secmod.java:186)   at sun.security.pkcs11.SunPKCS11.<init>(SunPKCS11.java:197)   ... 53 moreE 2013/02/15 06:56:04 STARTUP FATAL ERROR: cannot get the default core; available = 600078552, free = 145586392java.io.IOException: cannot get the default core; available = 600078552, free = 145586392   at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.<init>(EmbeddedSolrConnector.java:120)   at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:132)   at net.yacy.search.Switchboard.<init>(Switchboard.java:434)   at net.yacy.yacy.startup(yacy.java:207)   at net.yacy.yacy.main(yacy.java:636)E 2013/02/15 06:56:04 UNCAUGHT-EXCEPTION Thread main: nulljava.lang.NullPointerException   at net.yacy.yacy.startup(yacy.java:416)   at net.yacy.yacy.main(yacy.java:636)java.lang.NullPointerException   at net.yacy.yacy.startup(yacy.java:416)   at net.yacy.yacy.main(yacy.java:636)W 2013/02/15 06:56:04 StackTrace nulljava.lang.NullPointerException   at net.yacy.yacy.startup(yacy.java:416)   at net.yacy.yacy.main(yacy.java:636)I 2013/02/15 06:56:04 UPNP no device foundI 2013/02/15 06:56:04 UPNP listening for deviceS 2013/02/15 06:56:04 BusyThread thread 'net.yacy.utils.UPnP.addPortMapping' terminated.

Statistik: Verfasst von davide — Fr Feb 15, 2013 8:12 am


Fragen und Antworten • Yacy \“bug\” report - does not start

Date: 2013-02-15 08:14:11

Downloaded Yacy 1.3 from http://yacy.net/release/yacy_v1.3_20121227_9000.tar.gz

The command:
./startYACY.sh -d >>DEBUG 2>>DEBUG

produces the attached file. Yacy does not start.

[Edit:]{style=“font-weight: bold”}
The deusch-ish board seems to tell that attachments are forbidden. Here is the file:

Code:
****************** YaCy Web Crawler/Indexer & Search Engine *********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                ****  STOP         YaCy: execute stopYACY.sh and wait some seconds             ****  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 << Asserts are enabled[ YaCy v1.3, build 20121227 by Michael Christen / www.yacy.net ]-------------------------------------------------------------------------------STARTUP: Trying to load logging configuration from file /home/davide/Downloads/yacy/DATA/LOG/yacy.loggingS 2013/02/15 06:55:58 STARTUP YaCy version: 1.3/9000S 2013/02/15 06:55:58 STARTUP Java version: 1.6.0_18S 2013/02/15 06:55:58 STARTUP Operation system: LinuxS 2013/02/15 06:55:58 STARTUP Application root-path: /home/davide/Downloads/yacyS 2013/02/15 06:55:58 STARTUP Data root-path: /home/davide/Downloads/yacyS 2013/02/15 06:55:58 STARTUP Time zone: UTC+0000; UTC+0000 is 1360911358780S 2013/02/15 06:55:58 STARTUP Maximum file system path length: 65535E 2013/02/15 06:55:58 STARTUP WARNING: the file /home/davide/Downloads/yacy/DATA/yacy.running exists, this usually means that a YaCy instance is still runningS 2013/02/15 06:55:58 BusyThread thread 'net.yacy.utils.UPnP.addPortMapping' deployed, starting job.S 2013/02/15 06:55:58 SWITCHBOARD Index Primary Path: /home/davide/Downloads/yacy/DATA/INDEXS 2013/02/15 06:55:58 SWITCHBOARD Lists Path:     /home/davide/Downloads/yacy/DATA/LISTSS 2013/02/15 06:55:58 SWITCHBOARD HTDOCS Path:    /home/davide/Downloads/yacy/DATA/HTDOCSS 2013/02/15 06:55:58 SWITCHBOARD Work Path:    /home/davide/Downloads/yacy/DATA/WORKS 2013/02/15 06:55:58 SWITCHBOARD Dictionaries Path:/home/davide/Downloads/yacy/DATA/DICTIONARIESS 2013/02/15 06:55:58 SWITCHBOARD initializing librariesD 2013/02/15 06:55:59 net.yacy.upnp.Discovery Sending discovery message on 239.255.255.250:1900 multicast address form ip 192.168.1.11:M-SEARCH * HTTP/1.1HOST: 239.255.255.250:1900MAN: "ssdp:discover"MX: 3ST: urn:schemas-upnp-org:device:InternetGatewayDevice:1I 2013/02/15 06:55:59 LibraryProvider retrieving PND data from triplestore INFO [main] (Domains.java:608) - loaded globalHosts cache of hostnames, size = 0S 2013/02/15 06:55:59 SWITCHBOARD Loading sessionid file defaults/sessionid.namesD 2013/02/15 06:55:59 com.hp.hpl.jena.util.SystemUtils Using thread classloaderS 2013/02/15 06:55:59 SWITCHBOARD Starting Indexing ManagementW 2013/02/15 06:55:59 SolrScheme  solr scheme file /home/davide/Downloads/yacy/defaults/solr.keys.list is missing declaration for 'author_s'W 2013/02/15 06:55:59 SolrScheme  solr scheme file /home/davide/Downloads/yacy/DATA/SETTINGS/solr.keys.default.list is missing declaration for 'author_s'I 2013/02/15 06:55:59 Word hashCache.size = 20000I 2013/02/15 06:55:59 SWITCHBOARD Initializing Segment '/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/default.I 2013/02/15 06:56:00 org.apache.solr.core.CoreContainer New CoreContainer 21057622I 2013/02/15 06:56:00 org.apache.solr.core.CoreContainer Loading CoreContainer using Solr Home: '/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40'I 2013/02/15 06:56:00 org.apache.solr.core.SolrResourceLoader new SolrResourceLoader for directory: '/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/'I 2013/02/15 06:56:00 LibraryProvider creating vocabulary map from PND triplestoreI 2013/02/15 06:56:00 org.apache.solr.core.CoreContainer Registering Log ListenerI 2013/02/15 06:56:00 org.apache.solr.core.CoreContainer Creating SolrCore 'collection1' using instanceDir: /home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/.I 2013/02/15 06:56:00 org.apache.solr.core.SolrResourceLoader new SolrResourceLoader for directory: '/home/davide/Downloads/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/./'I 2013/02/15 06:56:00 org.apache.solr.core.SolrConfig Adding specified lib dirs to ClassLoaderI 2013/02/15 06:56:00 org.apache.solr.core.SolrConfig Using Lucene MatchVersion: LUCENE_40I 2013/02/15 06:56:01 org.apache.solr.core.Config Loaded SolrConfig: solrconfig.xmlI 2013/02/15 06:56:01 org.apache.solr.schema.IndexSchema Reading Solr SchemaI 2013/02/15 06:56:01 org.apache.solr.schema.IndexSchema Schema name=exampleD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created string: org.apache.solr.schema.StrFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: string{class=org.apache.solr.schema.StrField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created boolean: org.apache.solr.schema.BoolFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: boolean{class=org.apache.solr.schema.BoolField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created int: org.apache.solr.schema.TrieIntFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: int{class=org.apache.solr.schema.TrieIntField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created float: org.apache.solr.schema.TrieFloatFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: float{class=org.apache.solr.schema.TrieFloatField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created long: org.apache.solr.schema.TrieLongFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: long{class=org.apache.solr.schema.TrieLongField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created double: org.apache.solr.schema.TrieDoubleFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: double{class=org.apache.solr.schema.TrieDoubleField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created tint: org.apache.solr.schema.TrieIntFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: tint{class=org.apache.solr.schema.TrieIntField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created tfloat: org.apache.solr.schema.TrieFloatFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: tfloat{class=org.apache.solr.schema.TrieFloatField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created tlong: org.apache.solr.schema.TrieLongFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: tlong{class=org.apache.solr.schema.TrieLongField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created tdouble: org.apache.solr.schema.TrieDoubleFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: tdouble{class=org.apache.solr.schema.TrieDoubleField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created date: org.apache.solr.schema.TrieDateFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: date{class=org.apache.solr.schema.TrieDateField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created tdate: org.apache.solr.schema.TrieDateFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: tdate{class=org.apache.solr.schema.TrieDateField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created binary: org.apache.solr.schema.BinaryFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: binary{class=org.apache.solr.schema.BinaryField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created pint: org.apache.solr.schema.IntFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: pint{class=org.apache.solr.schema.IntField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created plong: org.apache.solr.schema.LongFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: plong{class=org.apache.solr.schema.LongField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created pfloat: org.apache.solr.schema.FloatFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: pfloat{class=org.apache.solr.schema.FloatField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created pdouble: org.apache.solr.schema.DoubleFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: pdouble{class=org.apache.solr.schema.DoubleField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created pdate: org.apache.solr.schema.DateFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: pdate{class=org.apache.solr.schema.DateField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created random: org.apache.solr.schema.RandomSortFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: random{class=org.apache.solr.schema.RandomSortField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.WhitespaceTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_ws: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ws{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.synonym.SynonymFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_general: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_general{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.synonym.SynonymFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.EnglishPossessiveFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.PorterStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.EnglishPossessiveFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.PorterStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_en: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_en{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.WhitespaceTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.synonym.SynonymFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.WordDelimiterFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.PorterStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.WhitespaceTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.WordDelimiterFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.PorterStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_en_splitting: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_en_splitting{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.WhitespaceTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.synonym.SynonymFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.WordDelimiterFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.en.EnglishMinimalStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.RemoveDuplicatesTokenFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_en_splitting_tight: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_en_splitting_tight{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.synonym.SynonymFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.solr.analysis.ReversedWildcardFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_general_rev: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_general_rev{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.KeywordTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.TrimFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.pattern.PatternReplaceFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created alphaOnlySort: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: alphaOnlySort{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.phonetic.DoubleMetaphoneFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created phonetic: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: phonetic{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.WhitespaceTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.payloads.DelimitedPayloadTokenFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created payloads: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: payloads{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.KeywordTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created lowercase: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: lowercase{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.path.PathHierarchyTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_path: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_path{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created ignored: org.apache.solr.schema.StrFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: ignored{class=org.apache.solr.schema.StrField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created point: org.apache.solr.schema.PointTypeD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: point{class=org.apache.solr.schema.PointType,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created location: org.apache.solr.schema.LatLonTypeD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: location{class=org.apache.solr.schema.LatLonType,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created geohash: org.apache.solr.schema.GeoHashFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: geohash{class=org.apache.solr.schema.GeoHashField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created currency: org.apache.solr.schema.CurrencyFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: currency{class=org.apache.solr.schema.CurrencyField,analyzer=org.apache.solr.schema.FieldType$DefaultAnalyzer,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.ar.ArabicNormalizationFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.ar.ArabicStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_ar: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ar{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.bg.BulgarianStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_bg: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_bg{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.util.ElisionFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_ca: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ca{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.cjk.CJKWidthFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.cjk.CJKBigramFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_cjk: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_cjk{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.cz.CzechStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_cz: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_cz{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_da: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_da{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.de.GermanNormalizationFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.de.GermanLightStemFilterFactoryD 2013/02/15 06:56:01 org.apache.solr.util.plugin.AbstractPluginLoader created text_de: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:01 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_de{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.el.GreekLowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.el.GreekStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_el: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_el{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.es.SpanishLightStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_es: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_es{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_eu: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_eu{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.fa.PersianCharFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.ar.ArabicNormalizationFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.fa.PersianNormalizationFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_fa: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_fa{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_fi: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_fi{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.util.ElisionFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.fr.FrenchLightStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_fr: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_fr{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.util.ElisionFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.ga.IrishLowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_ga: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_ga{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.gl.GalicianStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_gl: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_gl{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.in.IndicNormalizationFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.hi.HindiNormalizationFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.hi.HindiStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_hi: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_hi{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_hu: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_hu{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_hy: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_hy{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.id.IndonesianStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_id: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_id{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.util.ElisionFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.it.ItalianLightStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_it: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_it{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.lv.LatvianStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_lv: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_lv{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.miscellaneous.StemmerOverrideFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_nl: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_nl{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.snowball.SnowballPorterFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_no: org.apache.solr.schema.TextFieldD 2013/02/15 06:56:02 org.apache.solr.schema.FieldTypePluginLoader fieldtype defined: text_no{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args=null}D 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.standard.StandardTokenizerFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.LowerCaseFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.core.StopFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created : org.apache.lucene.analysis.pt.PortugueseLightStemFilterFactoryD 2013/02/15 06:56:02 org.apache.solr.util.plugin.AbstractPluginLoader created text_pt: org.apache.solr.schema.TextField

Statistik: Verfasst von davide — Fr Feb 15, 2013 8:12 am


Fragen und Antworten • Table_API_p.html, maximal 25 aufgezeichnete Aktionen?

Date: 2013-02-16 09:43:11

Hallo zusammen

Ich beginne derzeit eine themenbasierte Suchmaschine aufzubauen (habe eine Liste mit ~1500 Domains an der Hand, eine neu gekaufte i5-Maschine mit 32GB Ram und 3TB HDD vorerst nur für Yacy).
Dabei ist mir aufgefallen, dass beim Process Scheduler (Table_API_p.html) nach 25 aufgezeichneten Aktionen quasi Schluss ist, mehr aufgezeichnete Aktionen werden nicht angezeigt.
Nun kann man das ja mit der Suche im Process Scheduler ja behelfsmässig umgehen und so die entsprechenden Werte setzen, allerdings ist so die Gefahr hoch einen Process zu übersehen und unter Umständen so ein gewünschter Recrawl nicht gesetzt wird.

Meine eingesetzte Version ist: 1.39012

Wenn es nicht zuviele Umstände macht und das Problem wieder einmal nicht vor dem Rechner sitzt wäre ich sehr sehr froh wenn der \“Fehler\” behoben wird.

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — Sa Feb 16, 2013 9:43 am


Fragen und Antworten • Re: Table_API_p.html, maximal 25 aufgezeichnete Aktionen?

Date: 2013-02-16 10:37:17

du kannst doch in der Tabelle blättern?

Statistik: Verfasst von Orbiter — Sa Feb 16, 2013 10:37 am


Pro-Users • Re: YaCy Solr Oracle RDBMS

Date: 2013-02-16 12:41:07

\@Michael vielen Dank!!

Hab ich gemacht, d. h. ich hab ein Connector der Solr mit der DB verbindet, also diese \“Vernetzung\” steht. Jetzt bräuchte ich Hilfe beim Erzeugen der Datenfelder vom YaCy Solr Schema innerhalb der DB, das ist zu hoch für mich :-((

Statistik: Verfasst von LA_FORGE — Sa Feb 16, 2013 12:41 pm


Fragen und Antworten • Re: Table_API_p.html, maximal 25 aufgezeichnete Aktionen?

Date: 2013-02-16 17:49:44

Hallo Orbiter

Nein, ein Blättern war nicht möglich. Es wurde nichts angezeigt womit man blättern kann.

Vor ca. einer Stunde hab ich das Suchfeld leer gelassen und Enter gedrückt und siehe da, es erscheint die komplette Process Scheduler Liste, inkl. den Pfeil-Grafiken für das Blättern und der Info \“0-92 von 92\” dazwischen. Aber Blättern geht dann immer noch nicht, vermutlich weil eh schon alle Process Scheduler angezeigt werden.

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — Sa Feb 16, 2013 5:49 pm


YaCy Coding & Architektur • /usr/share/java outdated, wie updaten?

Date: 2013-02-16 20:52:54

im debian startscript von YaCy (/etc/init.d/yacy) gibts eine classpath-Zuweisung nach /usr/share/java

Code:
CP="$CP:/usr/share/java/javatar.jar"CP="$CP:/usr/share/java/commons-httpclient.jar"CP="$CP:/usr/share/java/commons-fileupload.jar"CP="$CP:/usr/share/java/commons-logging.jar"CP="$CP:/usr/share/java/commons-codec.jar"CP="$CP:/usr/share/java/commons-discovery.jar"CP="$CP:/usr/share/java/commons-io.jar"CP="$CP:/usr/share/java/pdfbox.jar"CP="$CP:/usr/share/java/bcprov.jar"CP="$CP:/usr/share/java/bcmail.jar"CP="$CP:/usr/share/java/jakarta-poi.jar"CP="$CP:/usr/share/java/jakarta-poi-scratchpad.jar"CP="$CP:/usr/share/java/oro.jar"CP="$CP:/usr/share/java/xerces.jar"CP="$CP:/usr/share/java/jsch.jar"CP="$CP:/usr/share/java/ant.jar"    # bzip-stuffCP="$CP:/usr/share/java/jmimemagic.jar"CP="$CP:/usr/share/java/log4j-1.2.jar"CP="$CP:/usr/share/java/odfutils.jar"CP="$CP:/usr/share/java/jrpm.jar"CP="$CP:/usr/share/java/tmextractors.jar"CP="$CP:/usr/share/java/servlet-api.jar"CP="$CP:/usr/share/java/j7zip.jar"


aber diese Klassen in /usr/share/java sind hoffnungslos veraltet! Warum müssen die denn da überhaupt eingebunden werden? Ich habe diese CP-Definition mal testweise entfernt und YaCy startet problemlos. Frage:
- diese CP-Erweiterungen in YaCy entfernen oder
- die Java-Packages in debian aktualisieren; wie geht das denn? Ich hab dazu nichts gefunden.

Statistik: Verfasst von Orbiter — Sa Feb 16, 2013 8:52 pm


Fragen und Antworten • Re: Table_API_p.html, maximal 25 aufgezeichnete Aktionen?

Date: 2013-02-17 07:26:17

Hallo Orbiter

Jetzt nach einem Neustart des Yacy-Rechners haben die Navigationspfeile auch eine Funktion zum Blättern. Seltsam...

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — So Feb 17, 2013 7:26 am


Fragen und Antworten • Re: Yacy \“bug\” report - does not start

Date: 2013-02-17 16:51:08

davide hat geschrieben:\ E 2013/02/15 06:55:58 STARTUP WARNING: the file /home/davide/Downloads/yacy/DATA/yacy.running exists, this usually means that a YaCy instance is still running\


Maybe run killYACY.sh, wait a few seconds, and then try to start it again? I don\’t know.

Statistik: Verfasst von Jazzy — So Feb 17, 2013 4:51 pm


YaCy Coding & Architektur • Re: /usr/share/java outdated, wie updaten?

Date: 2013-02-19 15:27:29

Das sieht doch so aus, wie Bibliotheken, die vor Urzeiten mal in YaCy mitgeliefert wurden?
Ich weiß nicht, wie mit den von YaCy benötigten Bibliotheken derzeit unter dem YaCy Debian Package umgegangen wird. Aber wahrscheinlich ist entfernen genau die richtige Aktion. ;-)

Statistik: Verfasst von Lotus — Di Feb 19, 2013 3:27 pm


YaCy Coding & Architektur • Re: /usr/share/java outdated, wie updaten?

Date: 2013-02-19 16:39:45

ja ich hatte kurz überlegt ob ich die Einbindung weg machen soll, aber Sorgen bereitet mir die Tatsache, dass diese Klassen in diesem Pfad tatsächlich sind! Wie kommen die dorthin und was lässt die dorthin laden?

Statistik: Verfasst von Orbiter — Di Feb 19, 2013 4:39 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-02-19 17:59:03

Orbiter hat geschrieben:\ Was mir nun noch fehlt, ist eine Anleitung wie man so ein RPi Image wieder von der SD Karte herunterkopiert, und zwas so, dass\ -(1) man nicht die vollen X Gigabyte der Kartengröße dumpen muss\ -(2) man das wieder so auf eine neue Karten ziehen kann, dass sich die Kartengröße wieder neu einstellen lässt\ -(3) man irgendwie Kontrolle über die IP des Servers bekommt, damit man in der Anleitung schreiben kann: \:8090/ is die Adresse von YaCy\ \ Dann könnten wir ein Image zum Download anbieten!\ Ideen?\


Clonezilla (http://clonezilla.sourceforge.net/) erfüllt die Anforderungen zumindest, wenn man am PC Festplatten/Partitionen sichert und klont. Clonezilla greift dazu auf eine Reihe von Klon-Tools zurück, die auf deren Webseite aufgelistet sind.

Statistik: Verfasst von Lotus — Di Feb 19, 2013 5:59 pm


Fragen und Antworten • Re: durchsuchen von webapps mit login

Date: 2013-02-20 09:37:45

Moin Orbiter,

yacy wird via reverse-proxy eingesetzt, da hängt also schon ein entsprechender schutz vor.

ich hab das jetzt anders gelöst und lasse eine seite crawlen, die kein login erfordert, dafür aber
nur von localhost aus erreichbar ist.


beste grüße,


allistair

Statistik: Verfasst von allistair — Mi Feb 20, 2013 9:37 am


Panorama • The Google Store Experience

Date: 2013-02-22 19:12:38

aus http://tapastic.com/episode/1976
Bild

Statistik: Verfasst von Orbiter — Fr Feb 22, 2013 7:12 pm


YaCy Coding & Architektur • Re: Greasemonkey Script for Initiating Crawls

Date: 2013-02-23 14:45:29

Wondeful! I linked your script in http://yacy.net/en/API.html
If possible please write a little more description into your readme and please put a backling to http://yacy.net into the readme as well, if you like.

Statistik: Verfasst von Orbiter — Sa Feb 23, 2013 2:45 pm


Mitmachen • Re: Programmicon

Date: 2013-02-23 14:51:26

Die Schwanzflosse war tatsächlich gut.
http://itgrl.net und http://itgrl.de gibts zwar noch aber da ist nichts nennenswertes mehr drauf... schade, ich weiss leider nicht wie ich an die Dame herankommen könnte.

Statistik: Verfasst von Orbiter — Sa Feb 23, 2013 2:51 pm


Fragen und Antworten • Re: How do I know if a scheduled crawl has finished

Date: 2013-02-23 14:54:30

the tar.gz file is the generic release and used by all system-specific YaCy versions for updating. The system core is same everywhere, only the start wrapper is different.

Statistik: Verfasst von Orbiter — Sa Feb 23, 2013 2:54 pm


Pro-Users • Re: YaCy Solr Oracle RDBMS

Date: 2013-02-23 15:05:28

Es gibt einige Felder die man füllen sollte, andere sind optional. Das sind insgesamt schon recht viele, aber versuche die doch erst mal optional zu füllen:


## primary key of document, the URL hash, string (mandatory field)
id

## url of document, string (mandatory field)
sku

## last-modified from http header, date (mandatory field)
last_modified

## mime-type of document, string (mandatory field)
content_type

## content of title tag, text (mandatory field)
title

## id of the host, a 6-byte hash that is part of the document id (mandatory field)
host_id_s

## the md5 of the raw source (mandatory field)
md5_s

## the size of the raw source (mandatory field)
size_i

## fail reason if a page was not loaded. if the page was loaded then this field is empty, text (mandatory field)
failreason_t

## fail type if a page was not loaded. This field is either empty, \‘excl\’ or \‘fail\’
failtype_s

## html status return code (i.e. \“200\” for ok), -1 if not loaded (see content of failreason_t for this case), int (mandatory field)
httpstatus_i

## number of unique http references; used for ranking
references_i

## depth of web page according to number of clicks from the \‘main\’ page, which is the page that appears if only the host is entered as url
clickdepth_i

## needed (post-)processing steps on this metadata set
process_sxt


### optional but highly recommended values, part of the index distribution process

## time when resource was loaded
load_date_dt

## date until resource shall be considered as fresh
fresh_date_dt

## ids of referrer to this document
referrer_id_txt

## the name of the publisher of the document
publisher_t

## the language used in the document
language_s

## number of links to audio resources
audiolinkscount_i

## number of links to video resources
videolinkscount_i

## number of links to application resources
applinkscount_i


### optional but highly recommended values, not part of the index distribution process

## tags that are attached to crawls/index generation to separate the search result into user-defined subsets
collection_sxt

## content of author-tag, texgen
author

## content of description-tag, text
description

## content of keywords tag; words are separated by space
keywords

## character encoding, string
charset_s

## number of words in visible area, int
wordcount_i

## total number of inbound links, int
inboundlinkscount_i

## number of inbound links with nofollow tag, int
inboundlinksnofollowcount_i

## external number of inbound links, int
outboundlinkscount_i

## number of external links with nofollow tag, int
outboundlinksnofollowcount_i

## number of images, int
imagescount_i

## response time of target server in milliseconds, int
responsetime_i

## all visible text, text
text_t

## additional synonyms to the words in the text
synonyms_sxt

## h1 header
h1_txt

## h2 header
h2_txt

## h3 header
h3_txt

## h4 header
h4_txt

## h5 header
h5_txt

## h6 header
h6_txt

Statistik: Verfasst von Orbiter — Sa Feb 23, 2013 3:05 pm


Hilfe für Einsteiger und Anwender • Yacy festgefressen

Date: 2013-02-23 20:04:48

Hi, ich hatte damals mit Yacy aufgehört, da es nicht mehr vernünftig durchstarten möchte. Es bleibt mit permanent halber CPU Last einfach hier stehen:

\ matthias\@aterferum:\~\$ \'/home/matthias/Arbeitsfläche/yacy/startYACY.sh\' -t\ \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\* YaCy Web Crawler/Indexer & Search Engine \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\ \*\*\*\* (C) by Michael Peter Christen, usage granted under the GPL Version 2 \*\*\*\*\ \*\*\*\* USE AT YOUR OWN RISK! Project home and releases: \*\*\*\*\ \*\* LOG of YaCy: DATA/LOG/yacy00.log (and yacy\.log) \*\*\ \*\* STOP YaCy: execute stopYACY.sh and wait some seconds \*\*\ \*\* GET HELP for YaCy: see and \*\*\ \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\ \>\> YaCy started as daemon process. Administration at \<\<\ I 2012/10/23 09:46:27 HeapReader BLOB /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20111204161012542.blob: merged 0 free records\ I 2012/10/23 09:58:49 HeapReader saturation of aV8cogzea0iN.20111204115221413.blob.OHnMAlNN5lcv.idx: keylength = 4, vallength = 4, size = 11646, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2012/10/23 09:58:57 HeapReader using a dump of the index of /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20111204115221413.blob.\ I 2012/10/23 09:58:57 HeapReader BLOB /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20111204115221413.blob: merged 0 free records\ I 2012/10/23 10:06:35 HeapReader saturation of aV8cogzea0iN.20111203172425714.blob.9fIhEynbwj2F.idx: keylength = 4, vallength = 4, size = 15946, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2012/10/23 10:07:29 HeapReader using a dump of the index of /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20111203172425714.blob.\ I 2012/10/23 10:07:37 HeapReader BLOB /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20111203172425714.blob: merged 0 free records\ I 2012/10/23 10:29:05 HeapReader saturation of aV8cogzea0iN.20120225120009934.blob.-27F72Z4rnXj.idx: keylength = 4, vallength = 4, size = 41442, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2012/10/23 12:19:23 HeapReader using a dump of the index of /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20120225120009934.blob.\ I 2012/10/23 12:20:51 HeapReader BLOB /home/matthias/Arbeitsfläche/yacy/DATA/HTCACHE/file.array/aV8cogzea0iN.20120225120009934.blob: merged 0 free records\



Durch den Import vieler Wikis war das damals auch ganz schön groß geworden:
/DATA 55GB

Wie kriege ich die Instanz wieder lauffähig?

Statistik: Verfasst von Seitenreiter — Sa Feb 23, 2013 8:04 pm


YaCy Coding & Architektur • Re: Greasemonkey Script for Initiating Crawls

Date: 2013-02-23 22:59:24

Orbiter hat geschrieben:\ Wondeful! I linked your script in \ If possible please write a little more description into your readme and please put a backling to into the readme as well, if you like.\


Done, now the readme has a link to the YaCy site and has some installation/customization instructions. If there\’s anything else you think the readme should specify, let me know. :)

Statistik: Verfasst von biolizard89 — Sa Feb 23, 2013 10:59 pm


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-02-24 18:09:08

habs noch nicht testen können, ziel ist, dass ich meine hostbrowserwebseite abspeichere, und ein anderer die Doamians auf der Webseite als startseite dann crawlen kann, daher müssen die domains des hostbrowsers ins web verlinks sein und nicht zu yacy.

Statistik: Verfasst von ribbon — So Feb 24, 2013 6:09 pm


Off-Topic • I\’ve advertised this project a little :)

Date: 2013-02-24 18:39:21

Bild

It have just went on main page of Polish Digg-like website called Wykop.

Statistik: Verfasst von pinguini — So Feb 24, 2013 6:39 pm


Off-Topic • Re: I\’ve advertised this project a little :)

Date: 2013-02-24 19:53:33

wow, fascinating! Thank You! I tweetet that: https://twitter.com/yacy_search/status/ ... 3242829824{.postlink}

Statistik: Verfasst von Orbiter — So Feb 24, 2013 7:53 pm


Hilfe für Einsteiger und Anwender • Re: IOException NIOFSIndexInput

Date: 2013-02-26 17:24:46

the NIOFSIndexInput could be caused by a synchronization problem (or not-synchronized access to a not-synchronized method) which is fixed in yacy_v1.3_20130226_9150. Please try this.

Statistik: Verfasst von Orbiter — Di Feb 26, 2013 5:24 pm


Hilfe für Einsteiger und Anwender • Re: Yacy festgefressen

Date: 2013-02-27 14:05:24

Keiner eine Idee? :(

Statistik: Verfasst von Seitenreiter — Mi Feb 27, 2013 2:05 pm


Hilfe für Einsteiger und Anwender • Re: Yacy festgefressen

Date: 2013-02-27 21:03:23

bitte mal versuchen: HTCACHE in DATA löschen. Wenn das nix bringt: mit \‘startYACY.sh -l\’ starten, bis zum \‘festfressen\’ warten, dann ein kill -3 auf den java-Prozess schicken (Prozess siehst du mit fuser yacy.log) und dann den Thread Dump aus yacy.log hier posten.

Statistik: Verfasst von Orbiter — Mi Feb 27, 2013 9:03 pm


Hilfe für Einsteiger und Anwender • Re: Yacy festgefressen

Date: 2013-02-27 22:15:43

Danke! Danach startete er wirklich durch und man kam auch ins Frontend. Allerdings scheint er jetzt wieder Probleme an anderer Stelle zu haben. Na ich schau mal :)

Statistik: Verfasst von Seitenreiter — Mi Feb 27, 2013 10:15 pm


YaCy Coding & Architektur • Re: /usr/share/java outdated, wie updaten?

Date: 2013-03-01 13:30:31

Ohne jetzt ins *.deb geschaut zu haben: Sind diese Bibliotheken vielleicht als Abhängigkeiten angegeben und werden von Debian (bzw. apt-get oder aptitude) installiert, wenn sie dort noch nicht liegen?

Statistik: Verfasst von Low012 — Fr Mär 01, 2013 1:30 pm


Mitmachen • Re: Programmicon

Date: 2013-03-01 13:31:52

Ich hatte mal einen kurzen Mailverkehr mit ihr. Ich müsste mal schauen, ob ich die Mails noch irgendwo archiviert habe.

Statistik: Verfasst von Low012 — Fr Mär 01, 2013 1:31 pm


Hilfe für Einsteiger und Anwender • Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-03-03 21:06:57

Ich wollte YaCy mal testen, komme aber leider nicht weit. Da ich auch keine Antwort im Forum oder Wiki gefunden habe, wende ich mich hier an die Forumsmitglieder:

- Frische Installation von \“yacy_v1.3_20130103_9012.exe\” unter Win7-64Ult SP1
- Später per Web-Interface update auf yacy_v1.3_20130302_9241.tar
- Auf der \“Eingangskonfiguration\” habe ich \“Deutsch\“, \“Intranet Indexierung\“, und den Peernamen eingestellt.
- Im Router habe ich UPnP freigegeben, und sehe, dass YaCy den Router dann auch korrekt so konfiguriert, dass der den Port 8090 auf meinen PC weiterleitet. Trotzdem meldet YaCy \“Ihr Peer kann nicht von außen erreicht werden\“. Auch das testweise Abschalten der Windows-Firewall und Deaktivierung des Virenscanner und Neustart von Windows und YaCy bringt keine Änderung.
Die Erreichbarkeit wäre zwar für \“Intranet Indexierung\” auch nicht nötig, aber ich will ja auch mal die anderen Anwendungsfälle testen.

Statistik: Verfasst von HansS713 — So Mär 03, 2013 9:06 pm


Hilfe für Einsteiger und Anwender • \“Intranet Indexierung\” macht nicht was ich erwarte

Date: 2013-03-03 22:15:10

Als ersten Test (und wg. Fehlermeldung \“Ihr Peer kann nicht von außen erreicht werden\“, siehe anderes Thema) habe ich Anwendungsfall \“Intranet Indexierung\” eingestellt. Bei \“Seiten Crawler Start\” habe ich \“file:///C:/Users\” eingeben, dann \“Starte neuen Crawl\” - das liefert aber nicht das erwartet Ergebnis:

1. Der Crawler pausiert mehrfach, wobei auf der Übersichtsseite was von \“prüfen sie freien Speicher\” steht. Der Rechner hat aber mehr als genug freien Speicher, und auf Seite \“Crawler Überwachung\” kann ich \“Lokaler Crawler\” auch wieder starten.

2. Im Statusfenster sehe ich auch Dateien C:\Windows usw. vorbei kommen, und am Ende bekomme ich auf der \“Status\“-Seite LINKS: 183396 - das ist viel mehr als \“C:\Users\*\” hat (aber viel weniger als C:\*) - was hat YaCy denn da gemacht?

3. Auf der \“Status\“-Seite sehe ich WORDS: 0. Bedeutet das, dass YaCy keine Inhalte verarbeitet hat?

4. Wie geht YaCy mit \“Junctions\” um? Win7 benutzt die ja selbst an vielen Stellen (ich finde das eher chaotisch statt hilfreich), und ich selbst hab damit auch z.B. \“C:\Users\Public\” per Junction nach \“D:\Users\Public\” umgeleitet.

Statistik: Verfasst von HansS713 — So Mär 03, 2013 10:15 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-03-03 22:42:32

das dauert manchmal einen Moment bis ein reconnect-Versuch statt findet; diese Meldung ist nur immer der letzte Stand. Bitte einfach mal Neustarten und gucken obs weiter so ist..

Als Gegencheck probieren: die eigene IP am router ablesen, und versuchen mit einem anderen Gerät aus einem ganz anderen Netz darauf zuzugreifen. Ich mache das bsp. dann übers Mobiltelefon. Wenn du dann die eigene YaCy-Seite siehst, aber nach einem Neustart trotzdem keinen Senior-Status bekommst ist was faul.

Statistik: Verfasst von Orbiter — So Mär 03, 2013 10:42 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-03-04 12:25:19

Das Problem des \“Festfressens\” ist bei mir seit Orbiters Änderungen in den letzten zwei Tagen nicht mehr aufgetreten. :)

Statistik: Verfasst von Low012 — Mo Mär 04, 2013 12:25 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-03-04 21:45:00

Habe getestet, dass ich über die öffentliche IP meines Routers mein YaCy zuhause von meinen Rechner im Büro erreichen kann. Trotzdem zeigt er immer noch \“Ihr Peer kann nicht von außen erreicht werden\“, was ja demnach definitiv falsch ist. Mit welcher Gegenstelle versucht mein YaCy denn zu kommunizieren - und brauche ich vielleicht eine DynDNS?

Statistik: Verfasst von HansS713 — Mo Mär 04, 2013 9:45 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-03-04 22:09:25

dem dezentralen Character von YaCy folgend versucht YaCy mit keiner Zentrale sondern mit irgendeinem andren Peer ein \‘Ping\’ auszutauschen. Das geht so dass nach einem Bootstraping (dein Peer läd von den im Netz-Info-File, Beilage des Release, die Adressen von Bootstrap-Peers/Principals und bekommt von dort die Liste der Senior-Peers, die diese kennen) kontraktiert dein Peer einen anderen Senior, wenn dieser existiert dann versucht er die Adresse, von dem der Request kam, wieder anzufragen. Wenn das klappt antowortet der Peer innerhalb der gleichen http-Session noch mit einem Status: Senior oder Junior. Das findet mit mehreren anderen Peers gleichzeitig beim Start statt. Wenn die dann alle nicht erreichbar sind, bleibt dein Status auf Virgin, wenn diese aber erreichbar sind und dein Peer nicht antwortet bekommst du den Status Junior.
Hast du Junior oder Virgin?

Statistik: Verfasst von Orbiter — Mo Mär 04, 2013 10:09 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-03-04 22:53:46

Staus ist \“Virgin\” - also wenn ich das richtig verstanden habe, erreicht mein Peer die anderen schon nicht. Wie kann ich das noch weiter prüfen?

Statistik: Verfasst von HansS713 — Mo Mär 04, 2013 10:53 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-03-05 10:31:11

Also ich habe schonmal abgeschaltet: http://yacy.allesehersonerdshier.net/yacy/list.html?listname=Freunde_des_Leistungsschutzrechts.black&col=black ;)
Ich habe die Blacklist{.postlink} des Projekts D64 LSR-Stopper{.postlink} übernommen und um die Seiten des BDZV (Bundesvereinigung deutscher Zeitungsverleger) und des VDZ (Verband deutscher Zeitschriftenverleger) ergänzt.

Das wird zwar die Zeitungen nicht weiter jucken, die werden sich wohl eher freuen, dass \“dieses komischen YaCy-Programm\” nicht mehr vorbei kommt, aber ich habe das gute Gefühl, nichts Böses mehr zu tun. :lol:

Statistik: Verfasst von Low012 — Di Mär 05, 2013 10:31 am


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-03-05 11:53:58

oh wow, super Liste da muss ich die nicht suchen gehen wenn ich (oder jeder andere) genau das umgekehrte macht, wenn Google tatsächlich abschaltet...
Ich darf nochmal in Erinnerung rufen dass das LSR nur kommerzielle Verwerter in die Pflicht nehmen will und ein privater SuMa-Betreiber ist also nicht betroffen. Von daher sollte das kein Problem fürs freeworld-Netz und dessen Betreiber sein, aber wer ängstlich ist kann ja deine Liste verwenden.

Statistik: Verfasst von Orbiter — Di Mär 05, 2013 11:53 am


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-03-05 12:32:20

Ja, vielleicht kehre ich das auch irgendwann um und crawle das alles absichtlich, aber erstmal gebe ich meinem kindlichen Bedürfnis nach, schließe sie aus und harre der Dinge, die da kommen mögen. :)

Statistik: Verfasst von Low012 — Di Mär 05, 2013 12:32 pm


Suchmaschinen • Re: faroo.com

Date: 2013-03-05 17:49:42

Ich kann mich erinnern, als ich Faroo vor einiger Zeit ausprobiert habe wurde innerhalb der Benutzeroberfläche auch irgendwo angezeigt, dass mehrere Millionen Peers vorhanden sind. Komisch finde ich da nur, ohne hier irgendjemandem etwas unterstellen zu wollen, dass laut Alexa.com die Webseite von Yacy um einiges populärer ist als die von Faroo (Traffic Rank: 287\‘101 vs. 483\‘688, Sites Linking In: 719 vs. 262).

Ausserdem scheint es etwas seltsam, dass bei mehreren Millionen Peers, das Support-Forum von Faroo so gut wie nie benutzt wird.

Aber mal abgesehen davon, die Faroo-Software funktioniert eigentlich gar nicht mal so schlecht und liefert auch brauchbare Ergebnisse. Schade nur, dass es ein kommerzielles Projekt ist, und nicht open-source.

Alexa-Statistiken:
http://www.alexa.com/siteinfo/yacy.net
http://www.alexa.com/siteinfo/faroo.com

Statistik: Verfasst von David — Di Mär 05, 2013 5:49 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-03-06 19:35:56

Ich glaube das Google die Verlage aus dem Index dann nehmen wird, die meisten verbreiten eher nur Halbwahrheiten, Google kann seine eigenen Nachrichten dann erzeugen, außerdem würden sich die Verlage dadurch nur selbst ins Knie schießen. Absterben werden diese Verlage sowieso und kleinereLokale werden an Aufschub gewinnen, da Google alles translatet, verbreiten die sich dann auch.

Statistik: Verfasst von RoGott — Mi Mär 06, 2013 7:35 pm


YaCy Coding & Architektur • Re: YAML CSS für Servlets?

Date: 2013-03-08 01:06:36

es war harte Arbeit aber der erste Entwurf ist nun da: https://gitorious.org/yacy/searchpage_template_yaml4

Das ist nun ein Template für eine Suchseite, die das YJSONP-Interface von Solr abfragt.

Das tolle ist: das ist nun wieder ein kleines Projekt ausserhalb des YaCy Servers. Wer eine Webseite mit Suche bauen will kann damit starten.

Statistik: Verfasst von Orbiter — Fr Mär 08, 2013 1:06 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-03-08 21:47:54

http://search.yacy.net ist nicht erreichbar!

Statistik: Verfasst von kilian — Fr Mär 08, 2013 9:47 pm


Fragen und Antworten • Welche Versionen sind stabil?

Date: 2013-03-09 12:34:11

Hallo,

hab mal wieder YaCy auf meinem alten Notebook am laufen. (Peer: weizenbog :-)).
Woher weiß ich, welche Versionen stabil sind, und welche eher zum testen gedacht? Was ist der unterschied zwischen \“signed\” und \“unsigned\“.

Statistik: Verfasst von kilian — Sa Mär 09, 2013 12:34 pm


Fragen und Antworten • Re: Welche Versionen sind stabil?

Date: 2013-03-09 12:39:48

Wir haben zur Zeit leider nur noch zwei Release-Provider, nämlich

http://www.yacystats.de/yacybuild/
(da kommen die \‘signed\’ her, automatisch generiert, also alles was im GIT landet)

und

http://yacy.net/en/index.html
(main releases, unsigned, nur bei Releasenummeränderungen)

http://kaskelix.de/update/
(development releases, unsigned, manuell generiert, immer wenn es funktionieren sollte)

die letzten beiden sind von mir und das \‘unsigned\’ ist eher Faulheit. Ich weiss das ist doof.
\‘Stable\’ Releases kommen immer von der Home Page, http://yacy.net/en/index.html und haben die pseudo-SVN-Nummer 9000
Die Nummer stammt noch vom Umzug von SVN nach GIT, in GIT gibts ja sowas nicht.
Ich mache aber kommende Woche ein main release, wir sind also auch im dev-bereich momentan relativ stabil.

Statistik: Verfasst von Orbiter — Sa Mär 09, 2013 12:39 pm


Fragen und Antworten • Frage Index-Migration

Date: 2013-03-09 13:11:51

Hallo,

kann man die Funktion zum migrieren des alten Index auch in der Shell separat aufrufen? Ich frage deshalb, weil ich gestern 40 GB neue Indexdaten von einem sekundären Peer ins Index-Verzeichnis von YaCy kopiert habe, sie werden auch geladen während dem Start von Yacy, der Button zum Migrieren ist aber bei mir seit der v1.39266 verschwunden und wenn ich die migrateurldb_p.html manuell aufrufe, steht dort: no urldb index available entries in old index left to migrate :-(

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Sa Mär 09, 2013 1:11 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-03-09 13:20:11

habs wiederbelebt! ... mit Hilfe von ngnix und einer geheimen Auswahl von \‘freiwilligen\’ peers..

Statistik: Verfasst von Orbiter — Sa Mär 09, 2013 1:20 pm


Fragen und Antworten • Re: Welche Versionen sind stabil?

Date: 2013-03-09 14:58:37

Ich finde das nicht sehr intuitiv mit den 9000, kann man das nicht anders machen?

Kommt nächste Woche dann quasi YaCy 1.4?

Wärs ein großer Aufwand eine andere Versionsnummerierung einzuführen?

Statistik: Verfasst von kilian — Sa Mär 09, 2013 2:58 pm


Mitmachen • password protected pages bust

Date: 2013-03-09 16:49:13

Hello
Today, looking at the interface of said http://127.0.0.1:8091/AccessTracker_p.html?page=0
below shows:
The following are registered as hosts attempting to access password protected pages bust
Host Access Time
157.55.33.100 1
Looked affiliation ip - msnbot-157-55-33-100.search.msn.com
blacklisted of course it is not))
Ripe question for what it\’s done!

Statistik: Verfasst von mass — Sa Mär 09, 2013 4:49 pm


Pro-Users • Re: YaCy Solr Oracle RDBMS

Date: 2013-03-09 18:16:32

Vielen Dank!! Genial, was ihr da gestrickt habt. Man merkt deutlich, da steckt überall ne Menge Hirnschmalz drin und viel Engagement der Entwickler!! Ich hab mir ein EBook gekauft \“Oracle SQL\” ich kann nämlich genauso wenig Datenbank-Schemas erstellen wie (Java)programmieren, nämlich überhaupt nicht :-( Aber das kann man ja lernen.

Aber ob ich YaCy SQL beibringen kann um als Storage Engine eine DB-Anbindung zu einem in der DB eingebetteten Solr zu verwenden glaube ich nicht :-( Evtl. kann man\’s ja mal mit auf die Wishlist nehmen und einen Konfigurationspunkt & -funktion \“Configure a third party Solr Instance\” implementieren.

Statistik: Verfasst von LA_FORGE — Sa Mär 09, 2013 6:16 pm


Fragen und Antworten • Some help for search video image audio

Date: 2013-03-10 13:18:59

Hello all.

I\’m new , I have index 50k urls. The default setting for text search works well.
But only image and video search result empty.

It display 3of33 and pages nv button 123 :roll: .

Just no any image or video data show, in result region . What I mistake ?
All of default settings....…

Any helps will thanks a lot.

Statistik: Verfasst von yugongtian — So Mär 10, 2013 1:18 pm


Fragen und Antworten • Re: Some help for search video image audio

Date: 2013-03-10 13:21:36

I have test windows 7 and debian 6 system. also empty. :ugeek:

Statistik: Verfasst von yugongtian — So Mär 10, 2013 1:21 pm


Fragen und Antworten • Re: Some help for search video image audio

Date: 2013-03-11 00:40:15

I worked on this the last days, do you tried the latest development version? Use the built-in auto-updater.

Statistik: Verfasst von Orbiter — Mo Mär 11, 2013 12:40 am


Fragen und Antworten • Re: Some help for search video image audio

Date: 2013-03-11 05:07:03

Thanks for your reply.
For Debian system I have used command line:
----------------------------------------
manual update:
apt-get update && apt-get install yacy

aptitude upgrade
No packages will be installed, upgraded, or removed.
0 packages upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
Need to get 0 B of archives. After unpacking 0 B will be used.

apt-get install yacy
Reading package lists... Done
Building dependency tree
Reading state information... Done
yacy is already the newest version.
----------------------------------------------------------------

Do you mean when update complete, then use ant dist a new zip Package?

Statistik: Verfasst von yugongtian — Mo Mär 11, 2013 5:07 am


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-03-11 17:57:40

Hab jetzt einen Spendenknopf auf YaCy.net zu Skrill und PayPal reingemacht.

Die Zuflüsse über den flattr-Knopf waren nicht so hoch, da sind seit Einrichtung 46€ zusammengekommen. Das ist natürlich nix was dieses Projekt tragen kann, bsp. habe ich für die Linuxtage am kommenden WE wieder rund 200€ Netto Kosten für Anfahrt und Hotel. Ausserdem haben das die anderen drei Helfer wohl auch. Und Flyer+Kulis sind da auch noch nicht mit drin, dafür habe ich nun jedes Jahr auch rund 500€ ausgegeben (wir hauen bei beiden Messen zusammen ungefähr 600 Kulis und 600 Flyer raus). Arbeitsausfallkompensation ist auch noch ein offenes Thema.

Wären wir ein non-profit Unternehmen (in dieser Rechtsform), so wären wir pleite. Deswegen sind die auf der YaCy-Homepage eingetragenen \‘Donation\‘-Beträge auch als Abgeltung für Beratungsleistungen angegeben, das ermöglicht es mir innerhalb der gleichen Rechtsform auch die Kosten (steuerlich korrekt) zu kompensieren. Die \‘Spendenbeiträge\’ müssen aber in Zukunft wesentlich höher sein, sonst ist ein Abgelten der gemeinsamen Aufwendungen nie möglich; bis dahin müssen alle freiwilligen Helfer weiterhin in die eigene Tasche greifen...

Statistik: Verfasst von Orbiter — Mo Mär 11, 2013 5:57 pm


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2013-03-14 13:03:10

http://www.electrosound.tv/

Statistik: Verfasst von Orbiter — Do Mär 14, 2013 1:03 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-03-14 20:35:12

am Samstag hab ich das Ding in Chemnitz dabei, wenn ich es nicht dummerweise vergesse. Da werde ich versuchen den anwesenden Linux-Profis entsprechendes Wissen rauszuleiern was man noch machen kann. U.a. würde mich eine \‘Hochzeit\’ mit Owncloud und Samba interessieren...

Statistik: Verfasst von Orbiter — Do Mär 14, 2013 8:35 pm


Mitmachen • Re: Wichtige Termine 2013 - Helfer gesucht

Date: 2013-03-14 20:37:07

wer ist nun auch noch \‘zufällig\’ ab Samstag in Chemnitz? keine Angst, wird keiner verpflichtet, aber es wäre schön su viele YaCy Supporter wie möglich kennen zu lernen. Also wer noch Zeit hat und nicht allzu weit hat: wie wärs mit einem Ausflug nach Chemnitz?

Statistik: Verfasst von Orbiter — Do Mär 14, 2013 8:37 pm


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-03-14 21:10:55

Hallo Orbiter

habe das Projekt jetzt umgesetzt.
Yacy läuft nach anfänglichen Schwierigkeiten jetzt stabil aufn Onlineserver.
Habe auch Deinen Rat beherzigt ohne p2p in Virginmodus, wenn ich diese mit p2p und im Seniormodus laufen lasse, kommen Daten rein, die ich nicht haben will, und es wird recht eng auf Server.
Ich setze sie jetzt als Abfrage auf verschiedenen Webseiten ein. Die Hauptseite ist (wenn ich ein wenig Werbung machen darf)
http://www.thueringer-suche.de
Ohne viel Schnickschnack drumherum.
Jetzt muß diese nur noch sich qualitativ füllen.
Gruß Roland

Statistik: Verfasst von RoGott — Do Mär 14, 2013 9:10 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-03-15 14:51:18

So, mein Raspberry Pi ist jetzt auch bestellt. Ich konnte irgendwie nicht widerstehen... :ugeek:

Statistik: Verfasst von Low012 — Fr Mär 15, 2013 2:51 pm


Mitmachen • Chemnitzer Linuxtage 2013 #CLT2013

Date: 2013-03-15 21:44:12

bin im wunderhässlichen Mercure in Chemnitz angekommen und freue mich auf die Cateringtage!
Thomas hat eine CLT2013-Suche gemacht, die ich auf http://clt.yacy.de gemappt habe!

Wer ist denn jetzt noch hier? Kommt vorbei am YaCy Stand! Wir haben wieder Kulis!

Statistik: Verfasst von Orbiter — Fr Mär 15, 2013 9:44 pm


Mitmachen • Re: Chemnitzer Linuxtage 2013 #CLT2013

Date: 2013-03-15 22:02:47

twitter this: https://twitter.com/yacy_search/status/ ... 7515394049{.postlink}

Statistik: Verfasst von Orbiter — Fr Mär 15, 2013 10:02 pm


Fragen und Antworten • 1.4version Suggestions function not work

Date: 2013-03-17 11:27:38

Hello:
The main 1.49003 and 9000 suggestions not work .
Lost did you mean data .even install /derewo-v-100000t-2009-04-30-0.1
No any suggestions keywords data will index.autocomplete also can not work.
How to fix it? :roll:

Statistik: Verfasst von yugongtian — So Mär 17, 2013 11:27 am


Fragen und Antworten • Frage Dump and Restore of Solr Index

Date: 2013-03-17 13:45:51

Hallo,

wenn ich bei einem Peer einen Dump von einem Solr Index mache und ihn beim Zielpeer importiere, wird der Index dann mit dem bereits bestehenden gemerged oder wird er komplett überschrieben?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — So Mär 17, 2013 1:45 pm


Fragen und Antworten • Re: Frage Dump and Restore of Solr Index

Date: 2013-03-18 12:13:16

Hallo Stefan,

er wird überschrieben - jedenfalls sagte mir Michael das in Chemnitz als er schnell die Neuheiten im Forum sichtete.…

Gruß,
Thomas

Statistik: Verfasst von Vega — Mo Mär 18, 2013 12:13 pm


Fragen und Antworten • Re: Frage Dump and Restore of Solr Index

Date: 2013-03-18 12:28:26

ja so ist, das ist anders als mit dem alten Index. Man könnte verschiedene Indexe mit Hilfe eines Solr Shards konsolidieren, dann muss aber jeder Index auch in einem eigenen Server laufen, die YaCy dann als Solr Shard zugewiesen werden muss.

Statistik: Verfasst von Orbiter — Mo Mär 18, 2013 12:28 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-03-18 17:19:15

http://blogdalu.magazineluiza.com.br/co ... 8/2013/03/{.postlink}

Statistik: Verfasst von Orbiter — Mo Mär 18, 2013 5:19 pm


Fragen und Antworten • Cleaner? Seedlist löschen? Und 404-Fehler

Date: 2013-03-19 22:06:29

Nabend,

nach etwas Abstinenz habe ich YaCy (Version 1.49015) mal wieder am Testlaufen. Dabei drängen sich gleich mehrere Fragen/Anmerkungen auf.

1. Gibt es den Cleaner (RWI & URL) noch? Den finde ich aktuell nicht, möchte aber an Hand meiner aktuellen Blacklist URLs löschen.
2. Gibt es die Möglichkeit die lokale Seedliste zu löschen? Ich hatte da seit einem Jahr knapp 7.600 Peers drin, die angeblich alle online waren. Die Liste wurde auch immer brav per FTP-Upload an alle verteilt. Upsi! Das Abarbeiten/Anpingen jedes einzelnen Peers hat aber viel zu lange gedauert. Als schlechteste Lösung habe ich einfach meinen Peer komplett neu aufgesetzt.
3. Auf der Seite Indexverwaltung läuft dieser Link ins Leere (404) http://localhost:8090/ContentAnalysis_p.html

Sorry, falls die Fragen schon mal gestellt wurden. Dann habe ich nicht ausdauern genug danach gesucht.

Gruß
daburna
- alter YaCy-Hase

Statistik: Verfasst von daburna — Di Mär 19, 2013 10:06 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-03-20 14:12:03

Bild{.postlink}

Statistik: Verfasst von Low012 — Mi Mär 20, 2013 2:12 pm


Solr Support • Suchabfrage vereinfachen

Date: 2013-03-20 14:18:19

Im Rahmen von solr verwende ich folgende Abfrage:
q=title:\“suchwort\”~10\^10000 OR id:\“suchwort\”~10\^10000 OR description:\“suchwort\”~10\^50 OR body:\“suchwort\”~10\^1

Das funktioniert auch so weit gut. Nun möchte ich aber die Abfrage ändern, sodass das Suchwort nur einmal eingegeben werden muss:
qq=\“suchwort\”&q=title:\$qq~10\^10000 OR id:\$qq~10\^10000 OR description:\$qq~10\^50 OR body:\$qq~10\^1

Das funktioniert aber leider nicht. Hat irgendjemand eine Idee, wie sich das lösen lässt?
(q=\“suchwort\”~10&qf=title\^10000+id\^10000+description\^50+body\^1 möchte ich nicht verwenden, da ~10 nicht mehr individuell pro Feld einstellbar ist.)

Danke!

Statistik: Verfasst von hotel24 — Mi Mär 20, 2013 2:18 pm


Off-Topic • Re: Urlaub

Date: 2013-03-20 23:00:08

bin nun für zwei Wochen im Urlaub, der Wetterbericht verspricht anstrengende 41 Grad!

Statistik: Verfasst von Orbiter — Mi Mär 20, 2013 11:00 pm


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-03-20 23:01:04

wunderbar! hab ich es schon getwittert? mache ich morgen

Statistik: Verfasst von Orbiter — Mi Mär 20, 2013 11:01 pm


Mitmachen • YaCy\@Linuxtag in Berlin 22.-25. Mai Berlin

Date: 2013-03-21 15:33:16

ich habe uns wieder beim Linuxtag in Berlin angemeldet und weil die Organisation des Linuxtag uns beim Stand in Chemnitz besucht und daran erinnert hat, dass wir uns noch anmelden sollen sind wir wohl auch recht sicher dabei!

http://www.linuxtag.org/2013/

jetzt brauchen wir wieder [[Standhelfer!]{style=“font-weight: bold”}]{style=“font-size: 150%; line-height: 116%;“}
Wer will dabei sein?

so sah es vor zwei Jahren aus:
Bild

Statistik: Verfasst von Orbiter — Do Mär 21, 2013 3:33 pm


Fragen und Antworten • Re: 1.4version Suggestions function not work

Date: 2013-03-21 15:37:55

I fixed \‘something\‘, maybe \‘it\‘. Please use the auto-updater.

There was a small bug which prevented that the suggestions are shown. But while testing the fix it appeared to me that it should be possible to enhance this a bit more. More about that maybe in two weeks after holiday (please remind me then).

Statistik: Verfasst von Orbiter — Do Mär 21, 2013 3:37 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-03-21 17:01:27

Auch wenn ich mich in letzter Zeit sehr rar gemacht habe: Der Termin ist in der Urlaubsplanung drin. Ich wäre also wieder mit von der Partie.

Statistik: Verfasst von PCA42 — Do Mär 21, 2013 5:01 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-03-21 18:27:16

Super! Marc will auch dabei sein!

Statistik: Verfasst von Orbiter — Do Mär 21, 2013 6:27 pm


Hilfe für Einsteiger und Anwender • Re: Yacy als Lokale Suchmaschine für ein nicht so grosses La

Date: 2013-03-22 08:39:30

https://twitter.com/yacy_search/status/ ... 2920822784{.postlink}

Statistik: Verfasst von Orbiter — Fr Mär 22, 2013 8:39 am


Fragen und Antworten • SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 19:47:17

So steht es als letzte Zeile und ich komme nicht mehr in Yacy rein, obwohl ich sie über Konsole starten und stoppen kann.
Logfile die letzten Zeilen.

I 2013/03/24 18:37:01 HeapReader close HeapFile searchfl.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:306) -> net.yacy.kelondro.blob.Heap.close(Heap.java:312) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:265) -> net.yacy.search.Switchboard.close(Switchboard.java:1711) -> net.yacy.yacy.startup(yacy.java:421) -> net.yacy.yacy.main(yacy.java:655)
D 2013/03/24 18:37:01 Blacklist Shutting down blacklists ...
D 2013/03/24 18:37:01 Blacklist All blacklists has been shutdown.
S 2013/03/24 18:37:01 SWITCHBOARD SWITCHBOARD SHUTDOWN TERMINATED
I 2013/03/24 18:37:01 net.yacy.cora.lod.JenaTripleStore Saving user triplestores
S 2013/03/24 18:37:01 SHUTDOWN goodbye. (this is the last line)


Wasmuß ich jetzt machen, um auf Yacy wieder zugreifen zu können.
Gruß

Statistik: Verfasst von RoGott — Do Mär 28, 2013 7:47 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 19:53:27

Das sieht nach einem heruntergefahrenem YaCy aus - da wirst Du YaCy wieder starten müssen.

Statistik: Verfasst von sixcooler — Do Mär 28, 2013 7:53 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 21:11:57

Aber wenn ich sie starte, zeigt sie sich nicht im Browser, auch nach Stunden nicht.

Statistik: Verfasst von RoGott — Do Mär 28, 2013 9:11 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 21:16:40

http://81.7.10.240:8090/
liegt nicht offline sondern onlineserver

Statistik: Verfasst von RoGott — Do Mär 28, 2013 9:16 pm


Hilfe für Einsteiger und Anwender • Re: Problem beim Hochladen einer URL-Datei

Date: 2013-03-28 21:24:53

Das Problem hat sich gelöst. Habe unter /Performance_p.html den JVM Speicher von 600MB auf 10.000MB erhöht. Nun läuft das System stabil.
Lt. /PerformanceMemory_p.html benötigt das System für das Einlesen der URLs aus der Datei sowie für den Crawlingprozess bis zu 7.000MB JVM Speicher.

Statistik: Verfasst von hotel24 — Do Mär 28, 2013 9:24 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 21:26:11

Evtl. habe ich das Problem nicht richtig verstanden.

Du startest YaCy mit startYACY.sh oder startYACY.bat - und dann kannst Du nicht mit dem Browser auf http://localhost:8090 zugreifen?
Was steht dann in der yacy00.log?

Statistik: Verfasst von sixcooler — Do Mär 28, 2013 9:26 pm


Hilfe für Einsteiger und Anwender • Re: Problem beim Hochladen einer URL-Datei

Date: 2013-03-28 21:29:15

Wow - das ist viel - aber eine gute Erkenntniss!
Bei den 7G Speicher hattest Du 700.000 Urls zu crawlen reingeschoben?
Sind das Urls unterschiedlicher Domains?
Oft streiken ja die DNS bei zu vielen Anfragen.

Statistik: Verfasst von sixcooler — Do Mär 28, 2013 9:29 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 21:37:39

ja ich starte mit /etc/init.d/yacy start
und hier das gesammte oolog file

S 2013/03/28 18:42:08 STARTUP YaCy version: 1.39163
S 2013/03/28 18:42:08 STARTUP Java version: 1.6.0_18
S 2013/03/28 18:42:08 STARTUP Operation system: Linux
S 2013/03/28 18:42:08 STARTUP Application root-path: /usr/share/yacy
S 2013/03/28 18:42:08 STARTUP Data root-path: /usr/share/yacy
S 2013/03/28 18:42:08 STARTUP Time zone: UTC+0100; UTC+0000 is 1364492528401
S 2013/03/28 18:42:08 STARTUP Maximum file system path length: 65535
E 2013/03/28 18:42:08 STARTUP WARNING: the file /usr/share/yacy/DATA/yacy.running exists, this usually means that a YaCy instance is still running
S 2013/03/28 18:42:08 SWITCHBOARD Index Primary Path: /usr/share/yacy/DATA/INDEX
S 2013/03/28 18:42:08 SWITCHBOARD Lists Path: /usr/share/yacy/DATA/LISTS
S 2013/03/28 18:42:08 SWITCHBOARD HTDOCS Path: /usr/share/yacy/DATA/HTDOCS
S 2013/03/28 18:42:08 SWITCHBOARD Work Path: /usr/share/yacy/DATA/WORK
S 2013/03/28 18:42:08 SWITCHBOARD Dictionaries Path:/usr/share/yacy/DATA/DICTIONARIES
S 2013/03/28 18:42:08 SWITCHBOARD initializing libraries
I 2013/03/28 18:42:08 net.yacy.cora.protocol.Domains loaded globalHosts cache of hostnames, size = 0
S 2013/03/28 18:42:08 SWITCHBOARD Loading sessionid file defaults/sessionid.names
I 2013/03/28 18:42:08 LibraryProvider retrieving PND data from triplestore
D 2013/03/28 18:42:08 com.hp.hpl.jena.util.SystemUtils Using thread classloader
I 2013/03/28 18:42:09 HeapReader saturation of robots.bheap.UKmloD-MyeCz.idx: keylength = 3, vallength = 3, size = 3931, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2013/03/28 18:42:09 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/robots.bheap.
I 2013/03/28 18:42:09 Heap initializing heap /usr/share/yacy/DATA/WORK/robots.bheap
I 2013/03/28 18:42:09 HeapReader saturation of api.bheap.fuu5AY4kOjvL.idx: keylength = 11, vallength = 2, size = 117, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2013/03/28 18:42:09 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/api.bheap.
I 2013/03/28 18:42:09 HeapReader BLOB /usr/share/yacy/DATA/WORK/api.bheap: merged 0 free records
I 2013/03/28 18:42:09 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheap
I 2013/03/28 18:42:09 HeapReader generating index for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 0 MB. Please wait.
I 2013/03/28 18:42:09 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 1 entries, 0 gaps.
I 2013/03/28 18:42:09 Heap initializing heap /usr/share/yacy/DATA/WORK/pkcounter.bheap
I 2013/03/28 18:42:09 HeapReader saturation of admin_bookmarks.bheap.XjNzncmMc5Ku.idx: keylength = 1, vallength = 2, size = 34, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2013/03/28 18:42:09 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap.
I 2013/03/28 18:42:09 Heap initializing heap /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap
I 2013/03/28 18:42:09 HeapReader saturation of rss.bheap.IgIwNYEk7EQb.idx: keylength = 4, vallength = 3, size = 8953, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2013/03/28 18:42:09 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/rss.bheap.
I 2013/03/28 18:42:09 HeapReader BLOB /usr/share/yacy/DATA/WORK/rss.bheap: merged 0 free records
I 2013/03/28 18:42:09 Heap initializing heap /usr/share/yacy/DATA/WORK/rss.bheap
S 2013/03/28 18:42:09 SWITCHBOARD Starting Indexing Management
I 2013/03/28 18:42:09 Word hashCache.size = 20000
I 2013/03/28 18:42:09 SWITCHBOARD Initializing Segment \‘/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS.
I 2013/03/28 18:42:09 LibraryProvider creating vocabulary map from PND triplestore
I 2013/03/28 18:42:10 HeapReader saturation of text.index.20130302142701051.blob.uTT5S3jtQpYj.idx: keylength = 6, vallength = 4, size = 738666, maximum saving for index-compression = 4 MB, exact saving for value-compression = 2 MB
I 2013/03/28 18:42:10 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130302142701051.blob.
I 2013/03/28 18:42:10 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130302142701051.blob: merged 0 free records
I 2013/03/28 18:42:15 HeapReader saturation of text.index.20130302130708461.blob.XCnQv_97nES7.idx: keylength = 7, vallength = 4, size = 4173443, maximum saving for index-compression = 27 MB, exact saving for value-compression = 15 MB
I 2013/03/28 18:42:15 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130302130708461.blob.
I 2013/03/28 18:42:15 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130302130708461.blob: merged 0 free records
I 2013/03/28 18:42:15 HeapReader saturation of text.index.20130324173814134.blob.JxCQOvkQuXSX.idx: keylength = 5, vallength = 4, size = 166991, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2013/03/28 18:42:15 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130324173814134.blob.
I 2013/03/28 18:42:15 HeapReader saturation of text.index.20130323142030019.blob.vbGc-4fixKvT.idx: keylength = 6, vallength = 4, size = 275114, maximum saving for index-compression = 1 MB, exact saving for value-compression = 1 MB
I 2013/03/28 18:42:15 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130323142030019.blob.
I 2013/03/28 18:42:15 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20130323142030019.blob: merged 0 free records
I 2013/03/28 18:42:22 HeapReader saturation of citation.index.20130302155422379.blob.6ugndBJI7ZZq.idx: keylength = 7, vallength = 4, size = 6434033, maximum saving for index-compression = 42 MB, exact saving for value-compression = 24 MB
I 2013/03/28 18:42:22 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20130302155422379.blob.
W 2013/03/28 18:42:29 StackTrace 92662540 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 121861632 free at Thu Mar 28 18:42:29 CET 2013
net.yacy.cora.util.SpaceExceededException: 92662540 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 121861632 free at Thu Mar 28 18:42:29 CET 2013
at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:277)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:409)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:387)
at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:215)
at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:130)
at net.yacy.kelondro.index.RowHandleMap.<init>(RowHandleMap.java:101)
at net.yacy.kelondro.blob.HeapReader.initIndexReadDump(HeapReader.java:179)
at net.yacy.kelondro.blob.HeapReader.<init>(HeapReader.java:91)
at net.yacy.kelondro.blob.HeapModifier.<init>(HeapModifier.java:58)
at net.yacy.kelondro.blob.ArrayStack.<init>(ArrayStack.java:206)
at net.yacy.kelondro.rwi.ReferenceContainerArray.<init>(ReferenceContainerArray.java:68)
at net.yacy.kelondro.rwi.IndexCell.<init>(IndexCell.java:95)
at net.yacy.search.index.Segment.connectCitation(Segment.java:170)
at net.yacy.search.Switchboard.<init>(Switchboard.java:478)
at net.yacy.yacy.startup(yacy.java:225)
at net.yacy.yacy.main(yacy.java:655)
I 2013/03/28 18:42:29 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20130308140649193.blob, 604 MB. Please wait.
I 2013/03/28 18:42:38 MEMORY performed necessary GC, freed 33235 KB (requested/available/average: 32977 / 63756 / 0 KB)
W 2013/03/28 18:42:40 StackTrace 40522960 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 54847776 free at Thu Mar 28 18:42:40 CET 2013
net.yacy.cora.util.SpaceExceededException: 40522960 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 54847776 free at Thu Mar 28 18:42:40 CET 2013
at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:277)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:409)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:387)
at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:215)
at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:130)
at net.yacy.kelondro.index.RowHandleMap.putUnique(RowHandleMap.java:264)
at net.yacy.kelondro.index.RowHandleMap\$initDataConsumer.call(RowHandleMap.java:468)
at net.yacy.kelondro.index.RowHandleMap\$initDataConsumer.call(RowHandleMap.java:407)
at java.util.concurrent.FutureTask\$Sync.innerRun(FutureTask.java:334)
at java.util.concurrent.FutureTask.run(FutureTask.java:166)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:603)
at java.lang.Thread.run(Thread.java:636)
E 2013/03/28 18:42:47 UNCAUGHT-EXCEPTION Thread main: Java heap space
java.lang.OutOfMemoryError: Java heap space

java.lang.OutOfMemoryError: Java heap space
W 2013/03/28 18:42:47 StackTrace Java heap space
java.lang.OutOfMemoryError: Java heap space
I 2013/03/28 18:42:47 HeapReader using existing gap dump instead of writing a new one: citation.index.20130302155422379.blob.6ugndBJI7ZZq.gap
I 2013/03/28 18:42:47 HeapReader using existing idx dump instead of writing a new one: citation.index.20130302155422379.blob.6ugndBJI7ZZq.idx
I 2013/03/28 18:42:47 HeapReader close HeapFile citation.index.20130302155422379.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:87) -> net.yacy.kelondro.blob.HeapModifier.finalize(HeapModifier.java:92) -> java.lang.ref.Finalizer.invokeFinalizeMethod(Native Method) -> java.lang.ref.Finalizer.runFinalizer(Finalizer.java:101) -> java.lang.ref.Finalizer.access\$100(Finalizer.java:32) -> java.lang.ref.Finalizer\$FinalizerThread.run(Finalizer.java:178)

Statistik: Verfasst von RoGott — Do Mär 28, 2013 9:37 pm


Hilfe für Einsteiger und Anwender • Re: Problem beim Hochladen einer URL-Datei

Date: 2013-03-28 22:00:08

Ja, 700.000 Urls unterschiedlicher Domains.

Statistik: Verfasst von hotel24 — Do Mär 28, 2013 10:00 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-03-28 22:48:06

Da langt der zugewiesene Speicher nicht.

In der Datei DATA/SETTINGS/yacy.conf kannst Du den Wert hinter \‘javastart_Xmx\’ erhöhen.
also z.B.: javastart_Xmx=Xmx1024m

(je nach dem wie groß bisher der zugewiesene Speicher war)
Danach kannst Du es wieder versuchen YaCy zu starten.

Achte beim nächsten Start darauf das keine alte Instanz von YaCy läuft.
Entferne vor dem nächsten Start DATA/yacy.running.

Statistik: Verfasst von sixcooler — Do Mär 28, 2013 10:48 pm


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-03-29 10:58:38

I perhaps pushed too hard on the poor 32 bit YaCy install. It filled up the index so full in only a few days with the crawling and indexing that it became unusable. I found that if I put it in Robinson mode, it is the only way to keep it from crashing over time. This is not good - in Robinson it no longer can search for me on the global network, so for an \“end user\” this case means YaCy is only good for a few days and then must be shut down. If not, all YaCy can do is serve remote search requests on a URL/RWI database that will never be updated (stale) and the local user can only search on the relatively small index stored locally - not ideal!

I have started a new test on this 32 bit - I have deleted all the data and index using the web interface Index Administration, and then deleted /etc/yacy/yacy.conf, so it will re-initialize with only the default values. It should run in this configuration, and function at a minimum be able to act as a local/global search portal for the end user. I will not use it as a web proxy just yet, as I believe any crawling could bring it to a similar fate of crashing too soon. This would be how a normal end user might install and use YaCy I would think, so it should be able to run OK forever in this way - if not, then there is a problem that needs addressed, some way to keep YaCy in default configuration from using up all it\’s memory and crashing. I hope it will not fail, and then I can attribute my tinkering as the cause of it going so bad on the first try. This long term test will show if YaCy can manage in the default 600MB heap space, which many users will probably just leave alone I would guess. It will only restart when the cron job pulls an update from the repository, otherwise it will run continuous for this test. I will restart it manually also if/when it crashes and save the logs for review.

I am still puzzled by this SOLR error that causes even my good 64-bit to pause the crawler queues at random. It is very infrequent and by the time I see it, it is usually old news, and the logs are long since wiped away. These YaCy logs are VERY verbose, and the default 20MB (20 files) gets over run in a hurry! If I get lucky, I will be \“tail -f\” watching when it happens someday. Otherwise, this is a most distressing problem with no easy solution I can find, except manually resume the queues when I visit the admin web console - much crawling time is lost in this regard.

The colors are not all listed on the network legend, well not in a easy to understand way on a few terms. Here is what I mean:

dark green font:senior/principal peers
light green font:passive peers
pink font:junior peers
red point:this peer

I see there is no reference to the color of the actual \“circles\” on the network graph - no mention of blue anywhere on the legend. Also, it mentions dark/light green, but I can only see one color green text on the graph, maybe it is too subtle for me to see. What I see are blue circles, green circles, and grey circles. It looks like all the grey ones are lined up with pink font labels, so they must be juniors I guess. Maybe they are really pink circles, but on the green ring they look grey...

Now there are two others, the blue and the bright green circles. The blue circles I take to mean senior, as most of those are the large ones, makes some sense. But the green ones, I am not sure. It is too jumbled, but it looks like they might also be junior too, like the pinks ones. I can not be sure what these colors mean. :?
Last question, how do you keep your RWI and URL index from going old and stale? I mean some sites one crawl is OK, but others, forum, news, etc. must be crawled all the time to gather new words and URL - how can this be done on the entire local index? I can see how to do it with a manual crawl, but what of the DHT-in entries - how can they be kept fresh? There must be a way that the index does not keep old entries forever?

Statistik: Verfasst von killswitch — Fr Mär 29, 2013 10:58 am


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-03-29 11:54:34

I have also never been to a German forum before. How many Germans will speak English and understand me? 100%? 50%? 10%?

In the U.S., we can learn German in some universities, but unless we travel overseas, no one could use it! A lot of people learn Spanish, I had some in high school (9-12th grade level) that I can\’t remember. Spanish is good for speaking to our Mexican friends to the south. Also, a popular one here is French - but also not used much. I suppose if we went to Quebec, Canada it could be used. My brother tried to learn Mandarin Chinese in uni!! Hard work he said and no use also here for the most part, so it will be forgotten shortly without any use.

Lots of people here have one or two classes of a foreign language, but not too many are fluent in another second or third language. It does not see much use here I think for most people!

Statistik: Verfasst von killswitch — Fr Mär 29, 2013 11:54 am


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-03-29 18:26:32

The new 32-bit killswitch_US_East test is going along nicely.

It has accumulated 1,161,644 URL\’s and 165,316 RWI\’s in the first 8 hours, a rapid pace. This could be influenced by the fact that it was known to the network prior to the reset of the database/index, perhaps making it fill faster than a virgin client. The memory usage has been very stable at the default settings Xms=90 Xmx=600:

Memory Usage
free: 13.4 MB
total: 116 MB
max: 116 MB

Bild

Statistik: Verfasst von killswitch — Fr Mär 29, 2013 6:26 pm


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-03-29 19:09:37

I have made another small tweak, as I found the logging throughput was nearing 1.5GB/day! That is a lot of logging. mostly INFO type things. I came to this measurement by \“rough guess\“, as each yacyXX.log file is 1MB in size, and there was about 1 minute between each time stamp on the files.

I have done a find/replace inside yacy.logging to change all INFO to WARNING, we\’ll see how this does. It certainly will free up some I/O on the disks - I think the logging might have been a high percentage of total I/O but I am not too sure, has anyone else noticed this massive logging to be a problem, or is it normally OK? IT seems to be in excess of what a \‘normal\’ program might do.

*Edit note:

I have found after restarting the processes to change the logging, that the maximum memory on our 32 bit friend has changed:

Memory Usage
free: 84.88 MB
total: 187.16 MB
max: 580 MB

Maybe during the first start when it copies yacy.init --> yacy.config it did not use the Heap Xmx setting... After the restart, I see it has taken effect. I think the Xmx variable must be in [MB]{style=“font-weight: bold”}, and the \“Memory Usage max:\” must be in [MiB]{style=“font-weight: bold”}, as they never seem to match exactly.

Statistik: Verfasst von killswitch — Fr Mär 29, 2013 7:09 pm


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-03-30 05:17:54

After reducing the logging verbosity, I was able to track down a recent queue pause event:

62_remotetriggeredcrawl_isPaused_cause : failed to send http://www.abc.net.au/melbourne/?ref=portal_m10 to solr

The log is full of this:

Code:
W 2013/03/29 19:18:53 SOLR failed to send http://www.abc.net.au/local/sites/festivals/default.htm to solrorg.apache.solr.common.SolrException: com.spatial4j.core.exception.InvalidShapeExce$E 2013/03/29 19:18:54 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: com.spatial4j.core.exception.InvalidShapeException: Invalid latitude: latitudes are range -90 to 9$        at org.apache.solr.schema.LatLonType.createFields(LatLonType.java:70)        at org.apache.solr.update.DocumentBuilder.addField(DocumentBuilder.java:193)        at org.apache.solr.update.DocumentBuilder.toDocument(DocumentBuilder.java:269)        at org.apache.solr.update.AddUpdateCommand.getLuceneDocument(AddUpdateCommand.java:73)        at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:201)        at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)        at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)        at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:481)        at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:350)        at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:246)        at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:173)        at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:92)        at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)        at org.apache.solr.core.SolrCore.execute(SolrCore.java:1816)        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)        at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117)        at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)        at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:176)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:171)        at net.yacy.cora.federate.solr.connector.CachedSolrConnector.add(CachedSolrConnector.java:224)        at net.yacy.search.index.Fulltext.putDocument(Fulltext.java:418)        at net.yacy.search.index.Segment.storeDocument(Segment.java:556)        at net.yacy.search.Switchboard.storeDocumentIndex(Switchboard.java:2697)        at net.yacy.search.Switchboard.storeDocumentIndex(Switchboard.java:2640)        at sun.reflect.GeneratedMethodAccessor27.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:616)        at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:96)        at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:78)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)        at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)        at java.util.concurrent.FutureTask.run(FutureTask.java:166)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1146)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:679)Caused by: com.spatial4j.core.exception.InvalidShapeException: Invalid latitude: latitudes are range -90 to 90: provided lat: [153.0205]        at com.spatial4j.core.io.ParseUtils.parseLatitudeLongitude(ParseUtils.java:139)        at org.apache.solr.schema.LatLonType.createFields(LatLonType.java:68)        ... 35 more



The URL is not identical, but it is from the same domain around the same time. The error occurs over and over again in the logs, always that same Latitude error with the digit 153.0205.

Other commonly recurring errors have to do with embedded \“referer\” URL\’s which seem to break the crawler:

Code:
W 2013/03/29 20:14:15 StackTrace nulljava.lang.IllegalArgumentException        at java.net.URI.create(URI.java:859)        at org.apache.http.client.methods.HttpGet.<init>(HttpGet.java:69)        at net.yacy.cora.protocol.http.HTTPClient.GETbytes(HTTPClient.java:344)        at net.yacy.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:136)        at net.yacy.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:182)        at net.yacy.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:182)        at net.yacy.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:182)        at net.yacy.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:76)        at net.yacy.repository.LoaderDispatcher.loadInternal(LoaderDispatcher.java:279)        at net.yacy.repository.LoaderDispatcher.load(LoaderDispatcher.java:162)        at net.yacy.repository.LoaderDispatcher.load(LoaderDispatcher.java:148)        at net.yacy.crawler.data.CrawlQueues$Loader.run(CrawlQueues.java:660)Caused by: java.net.URISyntaxException: Illegal character in query at index 297: https://twitter.com/intent/session?original_referer=http://pesn.com/2012/08/31/9602173_Keshe_Foundation_Pro$        at java.net.URI$Parser.fail(URI.java:2825)        at java.net.URI$Parser.checkChars(URI.java:2998)        at java.net.URI$Parser.parseHierarchical(URI.java:3088)        at java.net.URI$Parser.parse(URI.java:3030)        at java.net.URI.<init>(URI.java:595)        at java.net.URI.create(URI.java:857)        ... 11 more



Another earlier pause was caused here:

Code:
W 2013/03/29 20:15:23 SOLR failed to send http://www.abc.net.au/adelaide/ to solrorg.apache.solr.common.SolrException: com.spatial4j.core.exception.InvalidShapeException: Invalid latitude:$W 2013/03/29 20:15:24 SOLR failed to send http://www.abc.net.au/adelaide/ to solr, pausing Crawler!W 2013/03/29 20:15:24 SWITCHBOARD Crawl job '50_localcrawl' is paused: failed to send http://www.abc.net.au/adelaide/ to solrW 2013/03/29 20:15:24 SWITCHBOARD Crawl job '62_remotetriggeredcrawl' is paused: failed to send http://www.abc.net.au/adelaide/ to solr



This happened after the same repetitive \“Invalid Latitude\” errors as shown above - eventually is pauses the queue although I do not understand why it would care about a Latitude value enough to stop the crawler.

The only other repetitive errors I get are minor I believe and of no concern:

Code:
W 2013/03/29 23:52:20 YACY yacyClient.queryRemoteCrawlURLs error asking peer 'proteo':java.io.IOException: Client can't execute: Read timed outW 2013/03/29 23:52:21 YACY yacyClient.crawlReceipt error:Client can't execute: Timeout waiting for connection from pool...W 2013/03/29 23:52:28 YACY Received 1/1 double URLs from peer QeBVdlzNGU-q:_anonufe-28333482-243/1.00008136



Assume the top two are just hitting timeout values set, no problem, and the bottom one the URL must already be in the local index. I am glad to have more information for you regarding queue pausing, and even a little error on URL parsing that might be fixable!

[*Edit note:]{style=“font-weight: bold”} Please inform if (any) should be reported as actual bugs - I do not know enough about the intended behavior of YaCy yet to figure out what is a bug and what is supposed to be happening!

Statistik: Verfasst von killswitch — Sa Mär 30, 2013 5:17 am


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-01 06:59:33

wir haben (schon vor ein paar Tagen) die Zusage für unseren Stand bekommen!

Statistik: Verfasst von Orbiter — Mo Apr 01, 2013 5:59 am


Solr Support • Re: Suchabfrage vereinfachen

Date: 2013-04-01 07:02:12

das geht je nach solr query parser. davon gibts nämlich mehrere. man kann auch die Menge der default Felder benennen. dazu bitte im Solr wiki nachgucken!

Statistik: Verfasst von Orbiter — Mo Apr 01, 2013 6:02 am


Fragen und Antworten • Plug-ins for content viewers

Date: 2013-04-02 15:08:13

Hi,

I would like the ability to preview search results straight in my browser.
For example, when one of the documents returned by a search is a Microsoft Word file (.doc extension) I would prefer Yacy to start a Word viewer in my browser, rather than downloading the .doc file.

Is this possible?

Thank you.
Sync

Statistik: Verfasst von sync — Di Apr 02, 2013 2:08 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-02 17:25:52

:D Thanks waiting for you.

Statistik: Verfasst von yugongtian — Di Apr 02, 2013 4:25 pm


Hilfe für Einsteiger und Anwender • YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-04 17:48:24

YaCy läuft bei mir auf einem Rechner ohne Probleme. Nun habe ich YaCy auf einem weiteren Rechner installiert, wo es leider zu Problemen kommt. Ich starte das Tool mittels ./startYACY.sh und es lässt sich via Browser aufrufen. Allerdings nach ca. 10 Sekunden bricht die Verbindung ab und die Seite ist nicht mehr aufrufbar.

Irgendjemand eine Idee, was hier das Problem sein könnte?

Danke und LG

Statistik: Verfasst von hotel24 — Do Apr 04, 2013 4:48 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-05 15:59:22

Der Serverprovider hat mir mitgeteilt, dass für JAVA zu wenig Speicher zur Verfügung steht. Derzeit ist für JAVA am Server ein Maximum von 1 GB zugeteilt. Bei YaCy ist der Defaultwert für JAVA mit 600 MB eingestellt. Also scheinbar geht YaCy über die 600 MB hinaus. Kann das sein?

Statistik: Verfasst von hotel24 — Fr Apr 05, 2013 2:59 pm


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-04-06 00:39:30

The default* YaCy 32 bit install test is complete. Approximately 7 days after starting the node, the memory was \“full\” as the graph below shows. Performing a single search for \“freedom\” crashed the web interface within a minute or two, and it was no longer responsive. The java task is still running since I performed these tests yesterday, but the web interface is inaccessible. I\’m not sure if the process is doing anything useful, the logs are just filling up with:

E 2013/04/05 18:22:35 BUSYTHREAD Runtime Error in serverInstantThread.job, thread \‘net.yacy.search.Switchboard.cleanupJob\’: null; target exception: null
.
.
W 2013/04/05 18:27:36 StackTrace null
java.lang.reflect.InvocationTargetException

These messages appear repetitively in the log file since yesterday.

Bild

Bild

Since this is the behavior of the default install, what can be done to prevent the memory from filling but still be able to search in freeworld? If I turn off DHT-In, I cannot search freeworld (remote search) any longer, is this correct? Is there any way to keep YaCy from outgrowing a small memory footprint? How do you keep it running on the Raspberry Pi continuously, for instance? My \“low memory\” 32 bit test only worked for a week with only passive use (no local searching or proxy)..?

Statistik: Verfasst von killswitch — Fr Apr 05, 2013 11:39 pm


Hilfe für Einsteiger und Anwender • Re: New USA User, many questions: interface/memory/crash...

Date: 2013-04-06 00:46:29

Also I wanted to report how to fix the crawler pause! So far, the only way I know how to fix is to blacklist the domain(s) that cause trouble for the crawler.

I take the domain (host) from the variable (62_remotetriggeredcrawl_isPaused_cause) on Advanced Properties, and the put it in as a URL filter on the Filter & Blacklists page.

So far I have blacklisted:
*.abc.net.au/*
*.chem.cmu.edu/*
*.washingtonpost.com/*

This does a good job at preventing the crawler pausing. Unfortunately, it means I do not index those sites at all!

Statistik: Verfasst von killswitch — Fr Apr 05, 2013 11:46 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-06 02:22:40

Hallo,

das was da in YaCy eingestellt wird (per default zu 600MB) ist der Heap-Speicher - ein Bereich der z.B. für Objekte verwendet wird.
Es gibt weitere Speicher-Arten, weswegen YaCy eigentlich immer mehr als den eingestellten Heap nutzt.
Seit YaCy Solr nutzt ist noch eine große Verwendung von Virtuellem Speicher hinzugekommen.
Dieser muss zwar nicht physikalisch vorhanden sein, sondern nur addressierbar sein - aber evtl. ist dieses das Problem bei Deinem Provider.
32Bit-Systeme addressieren maximal irgendwas um die 3GB, wo auch schon schnell Probleme aufkommen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Apr 06, 2013 1:22 am


Off-Topic • Re: Urlaub

Date: 2013-04-06 18:34:29

TheBeachPanorama.jpg
schön, nur leider überfüllt..

Statistik: Verfasst von Orbiter — Sa Apr 06, 2013 5:34 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-06 20:02:50

Vielen Dank für die Info. Ich hab mir das nun genauer angesehen. Bei den oben beschriebenen Einstellungen benötigt der JAVA Prozess über 2 GB virtuellen Speicher. Ich werde den Provider bitten, die Speicherbegrenzung nach oben zu drehen. Dann sollte es ja eigentlich klappen.

LG hotel24

Statistik: Verfasst von hotel24 — Sa Apr 06, 2013 7:02 pm


Fragen und Antworten • Chrooted yacy

Date: 2013-04-07 16:36:16

Hello

I would like to try yacy at my server, but I can only do it in chroot

I have experience installing pretty hard things in chroot but not something based on java, no. That seems to be challenging. Had anyone succeeded in installing yacy in chroot, please, or I would better drop this idea altogether from the very beginning?

Also, would there be any difficulties if I use a bit outdated system, say, debian lenny?

Thanks

Statistik: Verfasst von andmed — So Apr 07, 2013 3:36 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-07 17:18:02

Hurra! Hast du schon eine Idee wegen eines Hotels?

Statistik: Verfasst von Low012 — So Apr 07, 2013 4:18 pm


Off-Topic • Re: Urlaub

Date: 2013-04-07 17:23:47

Deswegen fahre ich dieses Jahr an die Ostsee! ;)

Statistik: Verfasst von Low012 — So Apr 07, 2013 4:23 pm


YaCy Coding & Architektur • Suche bestimmte Build aus dem 1.3er Branch

Date: 2013-04-07 19:03:22

Hi,

ich suche die 1.3er-Build wo ihr gerade die Funktion zum migrieren des alten Index eingebaut habt.

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — So Apr 07, 2013 6:03 pm


YaCy Coding & Architektur • Re: Suche bestimmte Build aus dem 1.3er Branch

Date: 2013-04-07 19:32:21

hier gibts noch alte releases: http://kaskelix.de/update/

Statistik: Verfasst von Orbiter — So Apr 07, 2013 6:32 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-07 19:38:24

nee, würde aber wieder Kreuzberg bevorzugen...

Statistik: Verfasst von Orbiter — So Apr 07, 2013 6:38 pm


Fragen und Antworten • Re: Chrooted yacy

Date: 2013-04-07 20:12:10

Well-well

I\’ve done it

What I have to complain about now - it lets admin access open to anyone on a PUBLIC IP address. That is really BAD for default configuration... I stoppped it until I find out how I can disable this.

As I have several interfaces I am also looking for option to enable YACY only for selected net interfaces...

Statistik: Verfasst von andmed — So Apr 07, 2013 7:12 pm


Fragen und Antworten • Re: Chrooted yacy

Date: 2013-04-07 20:49:13

access without a password should only be possible if you access the interface from the same IP.
During the first 10 minutes the access is open to anyone, but then a random password is set.

Statistik: Verfasst von Orbiter — So Apr 07, 2013 7:49 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-08 14:02:10

Der Speicher wurde vom Provider erhöht und das Tool läuft jetzt!

Juchuuu und Danke nochmal! :-)

Statistik: Verfasst von hotel24 — Mo Apr 08, 2013 1:02 pm


Fragen und Antworten • Re: Chrooted yacy

Date: 2013-04-08 14:53:40

gid/egid:0/0
Segmentation fault occurred at 0000001c in /var/yacy/jre/bin/java[java:15968] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
Apr 7 21:38:50 ******* kernel: grsec: From *******: Segmentation fault occurred at 00000004 in /var/yacy/jre/bin/java[java:15983] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
Apr 7 21:38:50 ******* kernel: grsec: From *******: Segmentation fault occurred at b6913280 in /var/yacy/jre/bin/java[java:15968] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
gid/egid:0/0
Segmentation fault occurred at 0000001c in /var/yacy/jre/bin/java[java:15968] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
Apr 7 21:38:50 ******* kernel: grsec: From *******: Segmentation fault occurred at 00000004 in /var/yacy/jre/bin/java[java:15983] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
Apr 7 21:38:50 ******* kernel: grsec: From *******: Segmentation fault occurred at b6913280 in /var/yacy/jre/bin/java[java:15968] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0

6913280 in /var/yacy/jre/bin/java[java:15968] uid/euid:10031003 gid/egid:10031003, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0

Statistik: Verfasst von andmed — Mo Apr 08, 2013 1:53 pm


Fragen und Antworten • Re: Chrooted yacy

Date: 2013-04-08 15:25:22

I don\’t see that this is related to YaCy. YaCy can run in any place of the file system and especially chroot-ing would not be harmfull because running YaCy just there where you decompress it is the default. The only place where YaCy stores its data is the DATA subdirectory inside YaCy. All other configurations (debian, MacOS X) where the DATA directory has to be at a different place (deb package: /var/lib/yacy and MacOS X: ~/Library/YaCy) use a symbolic link for that.

Segmentation Faults happen in programs (such as the JVM) due to memory errors. I guess that is not related to chroot.

Statistik: Verfasst von Orbiter — Mo Apr 08, 2013 2:25 pm


Fragen und Antworten • Re: Plug-ins for content viewers

Date: 2013-04-08 15:43:05

I believe that\’s more a configuration issue in the browser than a YaCy-issue.

Configuring your system the way it is described here{.postlink} should give you the desired result.

I hope that helps.

Statistik: Verfasst von Low012 — Mo Apr 08, 2013 2:43 pm


Solr Support • fette /solr/select - Abrfagen

Date: 2013-04-08 16:22:14

Hallo,

ich habe seit einger Zeit immer wieder Abfragen von /solr/select?q=... die meinem Peer arg schütteln.
Der Response dazu ist dann gerne 30-40MB mit sehr viel im <str name=\“text_t\”>.
Damit ist mein Upload eine Zeit lang ausgelastet (diese Abfragen kommen gerne zu mehreren) und der Speicher (Heap) geht auch zu neige.

Muss denn immer der ganze <str name=\“text_t\”> bei einem Select übertragen werden?
Irgendwo müsste ja schon eine Funktion existieren um die Snippets zu kürzen - könnte man die da nicht auch einsetzen?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Apr 08, 2013 3:22 pm


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-08 16:24:39

wobei ist das, beim DHT Transfer?

Statistik: Verfasst von Orbiter — Mo Apr 08, 2013 3:24 pm


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-08 18:39:38

/solr/select-Abfragen sind, dachte ich, einfach Suchen - geht da nun auch DHT drüber?
Die Abfragende IP ist irgendwer - aber keine von meinem IPs.
So fand ich z.B. eine Abfrage unter /Connections_p.html vor - das waren dan ca 40MB die der Peer senden musste :-)

Code:
/solr/select?q=%28%28text_t%3A%28%22clement%22+AND+%22moulin%22%29%5E2.0%29+OR+%28url_paths_sxt%3A%28%22clement%22+AND+%22moulin%22%29%5E20.0%29+OR+%28title%3A%28%22clement%22+AND+%22moulin%22%29%5E100.0%29+OR+%28synonyms_sxt%3A%28%22clement%22+AND+%22moulin%22%29%5E1.0%29%29+AND+httpstatus_i%3A200&defType=edismax&bq=fuzzy_signature_unique_b%3Atrue%5E100000.0&start=0&rows=20&facet=true&facet.limit=30&facet.sort=count&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&facet.field=host_s&facet.field=url_protocol_s&facet.field=url_file_ext_s&hl=true&hl.fragsize=220&hl.simple.post=%3C%2Fb%3E&hl.simple.pre=%3Cb%3E&hl.snippets=1&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&hl.fl=h1_txt&hl.fl=h2_txt&hl.fl=text_t&fl=*%2Cscore&wt=xml&version=2.2

Statistik: Verfasst von sixcooler — Mo Apr 08, 2013 5:39 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-08 19:47:53

Kreuzberg hört sich gut an, da gibt es doch diesen leckeren Asiaten... ;)
Ich habe heute den Urlaub für den Freitag eingetragen und würde bald buchen wollen, damit nicht am Ende alle schönen Zimmer weg sind.

Statistik: Verfasst von Low012 — Mo Apr 08, 2013 6:47 pm


Solr Support • E-Mail Regex

Date: 2013-04-09 22:08:41

Hallo,
kann ich mit SOLR aus einem Feld prüfen ob dort eine E-Mail Adresse enthalten ist? Die E-Mailadresse muss dann in einem seperaten Feld gespeichert werden.
Hat das schon mal jemand umgesetzt oder so etwas ähnliches?

Danke

Statistik: Verfasst von Benny — Di Apr 09, 2013 9:08 pm


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-10 07:06:44

ach ja, DHT hatte ich geplant ein wenig umzustellen. Zur Zeit gehen nur Suchanfragen so.

Ja das ist zu viel. Auch diese merkwürdigen Suchanfragen mit den sich wiederholenden Feldern ist mir aufgefallen, ich weiss noch nicht ob das ein Fehler ist oder wie es dazu kommt. Jedenfalls wäre es richtig die Datenmenge zu begrenzen.

Was wäre eine sinnvolle Größe? Ich will das Feld text_t nicht komplett rauswerfen, weil es den Index des suchenden Peers schön mit anfüllt und dessen Suche weiterhin verbessert. Wie wäre es mit 10kb Obergrenze? Oder ist das noch zu viel?

Statistik: Verfasst von Orbiter — Mi Apr 10, 2013 6:06 am


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-04-10 08:44:29

Ist das noch aktuell ?

[Thomas]{style=“font-style: italic”}

RoGott hat geschrieben:\ Ich habe versucht das hinzubekommen, aber ich bekomm das nicht auf die Reihe. Ich kann da nur auf Hilfe aus dem Forum hoffen.\ Gruss Roland\

Statistik: Verfasst von Vega — Mi Apr 10, 2013 7:44 am


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-10 12:09:21

[Wir brauchen noch Standhelfer!]{style=“font-weight: bold”}
Also ich hab nun erst vier Namen bei den Standhelfern... Bitte alle mal kurz überlegen ob ihr den Spass verpassen wollt! Das ist nicht nur Arbeit, der Linuxtag in Berlin ist auch sowas wie ein freie-Software Familientreffen...

Hab auch eine Wiki-Seite angelegt: http://www.yacy-websuche.de/wiki/index.php/LT2013

Statistik: Verfasst von Orbiter — Mi Apr 10, 2013 11:09 am


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-10 13:59:44

Hallo,

ja ich denke 10K sollte gut gehen - in der betreffenden Anfrage hatte ich ja eher ca 1M/doc.

Cu, Sebastian.

Statistik: Verfasst von sixcooler — Mi Apr 10, 2013 12:59 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-10 14:14:52

Hallo,

hab mich auch gerade mal dort eingetragen.
Da ich Berliner bin: wenn Du noch irgendwas z.B. von einer Druckerei abzuholen hast oder dergleichen gebe einfach bescheid.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Apr 10, 2013 1:14 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-04-10 14:15:01

Ich habe Roland zumindest auf einem Rechner YaCy vor einiger Zeit (so um den Zeitpunkt meines letzten Postings) neu eingerichtet.

Statistik: Verfasst von Low012 — Mi Apr 10, 2013 1:15 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-10 16:36:52

Oh Sebastian super!
Druckerei: gute Idee. Ich habe zwar noch einige Flyer aber will ggf neue machen. Und die Druckerei in Berlin letztes Jahr war super.

Statistik: Verfasst von Orbiter — Mi Apr 10, 2013 3:36 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-04-11 01:04:41

Ah ok.

Statistik: Verfasst von Vega — Do Apr 11, 2013 12:04 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-11 01:22:54

Es gab wieder ein paar Änderungen.…. Aktuell ist es ein Root-Server mit 12GB Ram der die Suche für das Forum und eben search.yacy.net hostet.
Aktuell ist also ein einzelner YaCy-Peer der als Demo-Portal ackern muss, wobei sich die Suchanfragen in Grenzen halten, die meisten Anfragen kommen über Metager2.
Ansonsten habe ich an Konfiguration einiges geändert, viele statische Inhalte (CSS/JS) werden von einem Nginix-Server nachgeladen, dieser dient auch als Reverse Proxy.
Das ganze sollte dazu führen das es etwas schneller ist und der YaCy Server bei vielen Anfragen nicht gleich in die Knie geht - das muss ich aber mit Benchmarks/Lasttests mal testen - ist auch noch nicht alles 100% fertig. Da es mit dem DNS-Servern von Strato die yacy.net/yacy.de halten immer mal etwas Probleme gibt ist die Demo-Suche wie folgt erreichbar:

http://search.yacy.net - Statische Files über Nginix
http://search.tokeek.de - Statische Files über Nginix + Reverseproxy
http://178.63.84.82 - Statische Files über Nginix + Reverseproxy
http://178.63.84.82:8092 - Statische Files über Nginix

Außerdem habe ich ein wenig mit dem Layout der Startseite gespielt, bin aber noch nicht fertig - Meinungen/Ideen dazu ? Außerdem suche ich noch ein paar nette selbst-gemachte Background-Images, die ausdrücklich in YaCy verwendet werden dürfen... Sonst muss ich immer mal in den Garten gehen und welche machen ;-).

ToDo - SSL Verschlüsselung über Nginix .…

Gruß,
Thomas

Statistik: Verfasst von Vega — Do Apr 11, 2013 12:22 am


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-11 01:32:50

Ich hab irgendwo bei Solr gelesen das man die XML Ausgabe dann - ähnlich wie bei HTML - mit GZIP Komprimieren soll, das wäre ja zumindest einen Versuch wert, oder ?

Bei normalem HTML bringt das ja schon einiges, sieht man gut wenn man sich in Firebug mal die Ausgaben unter http://178.63.84.82:8092 und http://178.63.84.82 ansieht und vergleicht.

Thomas

Statistik: Verfasst von Vega — Do Apr 11, 2013 12:32 am


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-04-11 02:26:04

Da wir auch bei Spenden usw. Transparenz pflegen - Ich habe die gespendeten Bitcoins (6 Stück) am 29.03 in Euros umgetauscht - das ergibt einen Erlös von genau 447,75 €. [Danke allen Spendern!]{style=“font-weight: bold”} Ich werde Michael das Geld nach seinem Urlaub zukommen lassen/mit Ihm abstimmen was damit geschieht.

Thomas

PS: Arg, noch ein paar Tage gewartet wären es noch einige Euros mehr geworden - aber das kann man ja nie vorher wissen.

Statistik: Verfasst von Vega — Do Apr 11, 2013 1:26 am


Off-Topic • Re: Minecraft...

Date: 2013-04-11 02:37:25

So, die Kiste gibt es immer noch - inzwischen als Bukkit-Server mit 1.5 Beta, es gibt einfach zu schöne Plugins dafür.…
Ein nettes ist Dynmap - da sieht man was wir so treiben, inzwischen spielen ein 2 Leute von rechenkraft.net immer mal mit :-).
So sieht unsere Welt aktuell aus Weltkarte{.postlink}. (Reverse proxy kommt noch ;-) )

Thomas

Statistik: Verfasst von Vega — Do Apr 11, 2013 1:37 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-11 10:39:25

Vega hat geschrieben:\ Außerdem habe ich ein wenig mit dem Layout der Startseite gespielt, bin aber noch nicht fertig - Meinungen/Ideen dazu ? Außerdem suche ich noch ein paar nette selbst-gemachte Background-Images, die ausdrücklich in YaCy verwendet werden dürfen\... Sonst muss ich immer mal in den Garten gehen und welche machen ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink").\



Sieht gut aus! Welche Größe sollten denn die Bilder mindestens haben? Das aktuelle hat 1366×970 Pixel, oder?

Statistik: Verfasst von Low012 — Do Apr 11, 2013 9:39 am


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-04-11 10:40:38

Über die anderen Spendenknöpfe sind nun nach einem Jahr rund 100€ zusammen gekommen. aber dein Bitcoins sind ja der Hammer!. Ich würde sagen wir lassen das Geld bei dir und schauen mal welche Ausgaben davon gedeckt werden können. Natürlich stehen wieder Ausgaben für den Linuxtag an, ggf. neue Flyer aber Kulis sind noch genügend da. Hotel- und Reisekosten gibts noch bei allen Beteiligten. Darf ich dich damit zum Bitcoin-Kassenwart nominieren?

Statistik: Verfasst von Orbiter — Do Apr 11, 2013 9:40 am


Off-Topic • Re: Minecraft...

Date: 2013-04-11 12:20:13

Dein Weltkarten-Link hat es nun geschafft aus dem off-Topic ein YaCy-Topic zu machen! weil: als ich darauf geklickt hatte, beschwert sich Firefox dass es die URL wegen dem exotischen Port 8123 nicht öffnen darf. Das haben wohl andere auch: http://www.supernature-forum.de/tutoria ... uegen.html{.postlink}

Interessanterweise ist das nicht ein default-gesperrter Port sondern ein benutzergenerierter. Keine Ahnung wie es dazu kam, aber da frage ich mich ob auch der YaCy Port 8090 da mal \‘versehentlich\’ hineingeraten kann? Man muss also folgendes machen, um den Port wieder frei zu bekommen:
- in Firefox die URL \“about:config\” aufrufen
- Den Wert network.security.ports.banned aufrufen
- Den Port 8123 löschen (und bei ausgesperrten YaCy Usern eben den Port 8090 :( )

Statistik: Verfasst von Orbiter — Do Apr 11, 2013 11:20 am


Solr Support • Re: fette /solr/select - Abrfagen

Date: 2013-04-11 13:29:04

Hallo,

sicher ist auch eine Komprimierung eine gute Idee.
Aber es ändert nichts daran das das Zeuch auch in diversen Caches liegt und mächtig Speicher frist.
Von daher fänd ich ein reduzieren schon besser.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Apr 11, 2013 12:29 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-11 14:18:21

:?: Are you back?

Statistik: Verfasst von yugongtian — Do Apr 11, 2013 1:18 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-11 14:43:16

yes I am just fixing some problems with the clickdepth and references counters which are important for the ranking...

Statistik: Verfasst von Orbiter — Do Apr 11, 2013 1:43 pm


Mitmachen • Re: YaCy\@Linuxtag 22.-25. Mai in Berlin

Date: 2013-04-11 20:02:34

Updates:
Hotel: wahrscheinlich kann ich bei meiner Schwester in Neukölln übernachten...
Helfer: Friedhelm und Sabine vom SuMa-eV werden auch wieder am Stand dabei sein (nicht die ganzen vier Tage) und am Dienstag Abend gehen wir schon mal ein Bier trinken, letztes Jahr waren wir in einem super Biergarten!

Statistik: Verfasst von Orbiter — Do Apr 11, 2013 7:02 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-12 08:56:21

Hurra, dann wird es ja am Samstag richtig kuschelig am Stand! Vielleicht komme ich ja dieses Jahr mal dazu, mir einen Vortrag anzuhören. Das habe ich auf allen Linuxtagen, auf denen ich war, bis jetzt nur einmal geschafft. ;)
Und nicht am Dienstag so viel Bier trinken, dass die Folgen bis Freitag reichen. Ich will am Freitag auch noch was machen, wenn ich schon mal in der großen Stadt bin! :D
Mit dem Hotel werde ich mal schauen und hier posten, wenn ich was gebucht habe.

Statistik: Verfasst von Low012 — Fr Apr 12, 2013 7:56 am


Off-Topic • Re: videos en 127.0.0.1:8090/Blog.html

Date: 2013-04-12 08:59:38

Maybe someone finds it interesting to do some work for that feature. How would you like to use the wiki?

_________________
Hello!I am JasonRain.I like play games.Like theseWow Gold{.postlink},Aion Kinah{.postlink} andGW2 Gold{.postlink}which I often buy from Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von JasonRain — Fr Apr 12, 2013 7:59 am


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-04-12 08:59:55

Recrawl ist da wohl das falsche Wort gewesen, für das ich mich da entschieden habe. Besser wäre ein beschrieben wäre es als erneutes parsen alles bekannten URLs eines Hosts beschrieben.

_________________
Hello!I am JasonRain.I like play games.Like theseWow Gold{.postlink},Aion Kinah{.postlink} andGW2 Gold{.postlink}which I often buy from Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von JasonRain — Fr Apr 12, 2013 7:59 am


Fragen und Antworten • Re: HTTPS via Proxy will nicht

Date: 2013-04-12 09:04:16

das geht nicht weil YaCy kein https proxy ist.

_________________
Hello!I am JasonRain.I like play games.Like theseWow Gold{.postlink},Aion Kinah{.postlink} andGW2 Gold{.postlink}which I often buy from Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von JasonRain — Fr Apr 12, 2013 8:04 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-04-12 15:13:59

Hey Michael, das könnte was für sich sein. :geek:

Futuristic UI: http://visualpunker.tumblr.com/tagged/fui

Statistik: Verfasst von Low012 — Fr Apr 12, 2013 2:13 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-04-12 16:20:15

wenn du mich damit impfen willst, damit ich wieder eine hübsche YaCy Monitoring Grafik mache: ja so könnte das klappen.…

Statistik: Verfasst von Orbiter — Fr Apr 12, 2013 3:20 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-12 16:36:50

now after some checks with the ranking, bug fixes and some extensions I will start to write a wiki article about ranking.
There are now three new attributes about counters for external references:
references_internal_i, references_external_i, references_exthosts_i

With these, I am currently testing the following formula for a ranking function:
div(add(references_internal_i,product(references_external_i,references_exthosts_i)),add(clickdepth_i,1))

Statistik: Verfasst von Orbiter — Fr Apr 12, 2013 3:36 pm


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-04-12 20:02:05

Ja das ist abgeschlossen

Statistik: Verfasst von RoGott — Fr Apr 12, 2013 7:02 pm


Fragen und Antworten • Re: SHUTDOWN goodbye. (this is the last line)

Date: 2013-04-12 22:10:27

Danke läuft wieder, hatte nur bis jetzt keine Zeit.
Habe auf 800 gestellt.

Gruß Roland

Statistik: Verfasst von RoGott — Fr Apr 12, 2013 9:10 pm


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-04-12 23:28:43

Ich war von Anfang an als ich dieses Projekt entdeckt hatte völlig begeistert. Für ein Projekt dieser Art sind allerdings mehrere Verständnis-Dimensionen oder Talente nötig, um das in Gang zu bringen. Ich hatte relativ schnell das Gefühl, dass so etwas fehlt wie ein Manager, der Erfahrungen aus der Wirtschaft mitbringt. Ich kam eben auf die Seite und habe erfreut festgestellt, dass man nun endlich auch über verbreitete Zahlungssysteme Geld spenden kann, z.B. Paypal, sogleich wollte ich 10,- EUR spenden, um dann festzustellen, dass ich mit einem Klick entweder nur 5, 25 oder 50,- EUR spenden kann!!! Ich habe dann 5 gespendet. Ich glaube dass richtig viele Leute die Macht der zentralen Suchmaschinen gerne \“angreifen\” würden, auch Leute die Geld haben. Diesen Geldstrom müsst ihr glaube ich mitnutzen, ein einfaches Eingabefeld für Beträge trägt dazu bei. Ansonsten vielen Dank für Eure Arbeit, ich selbst trag ja außer klugen Tips nichts bei bisher ;)

Statistik: Verfasst von kaisef — Fr Apr 12, 2013 10:28 pm


Hilfe für Einsteiger und Anwender • In Suchergebnissen /tag/ und /category/ ausschließen?

Date: 2013-04-13 08:28:24

Moin Moin, ich nutze Yacy im Robinsonmodus, was an sich schon sehr gut funktioniert. Ein großes Problem habe ich bis jetzt aber noch nicht in den Griff bekommen, nämlich, dass in den Suchergebnissen oft die ersten 2, oder 3 Ergebnisse Seitens sind wie (hier im Beispiel für den Suchbegriff \“test\“) z.B.:

http://irgendeineseite.de[/tag/]{style=“font-weight: bold”}test
ODER...
http://irgendeineseite.de[/category/]{style=“font-weight: bold”}test

Die wirklich relevanten Einträge (wie z.B. Wiki-Einträge zu \“test\“) kommen dann erst weiter unten, was das \“Sucherlebnis\” deutlich schmälert. Nach etlichen vielfältigen Experimenten mit Filter/Blacklisting wie z.B.….

Code:
.*.*/.*/tag/.*.*/tag/.*/.*



... ist es mir nicht gelungen, bestimmte Begriffe die zwischen zwei Slashes stehen vom Crawling bzw Indexing auszuschließen. Hat jemand vielleicht eine Idee, wie man solche Begriffe global eliminieren kann? (ein No-Match für jeden einzelnen Crawl kommt leider nicht in Frage).

Besten Dank für Eure Hilfe!

Statistik: Verfasst von dürer — Sa Apr 13, 2013 7:28 am


Off-Topic • Re: Android Twitterwall (fürs Fernsehen)

Date: 2013-04-13 12:58:55

Ich habe gesehen, RTL bietet eine ähnliche App an:
http://www.rtl.de/cms/mein-rtl/rtl-mobi ... e-app.html{.postlink}

Statistik: Verfasst von Lotus — Sa Apr 13, 2013 11:58 am


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-13 14:55:52

Good news . Thanks a lot. ;)

Statistik: Verfasst von yugongtian — Sa Apr 13, 2013 1:55 pm


Solr Support • Unknown Field nachträglich einfügen

Date: 2013-04-13 17:16:22

Code:
W 2013/04/13 17:12:33 SOLR failed to send http://seeker.healthcallings.com/jobsearch/results/US/Occupational%20Therapy%20Assistant/254/Laboratory to solrorg.apache.solr.common.SolrException: ERROR: [doc=21344YOUIuNa] unknown field 'references_internal_i'



Hi,

Bin der Anleitung auf der Seite IndexFederated_p.html gefolgt, um eine externe Solr-Instanz aufzusetzen. Wie bekomme ich og. Feld jetzt dort nachträglich rein? Reicht es aus, einfach das YaCy-Schema aus der neuen Build seitdem der Fehler auftritt ins Solr-Verzeichnis kopieren und dann Solr neuzustarten?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Sa Apr 13, 2013 4:16 pm


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-13 17:48:07

ja, bei einem externen Solr muss immer das Schema.xml nachgepflegt werden. Leider ist das jetzt durch die Hinzunahme eines zweiten Cores auch noch ein wenig komplizierter geworden. Den zweiten Core wirst du aber noch nicht bemerkt haben weil er noch nicht bei den default-Einstellungen aktiv ist.

Das komplette Solr Schema kann von YaCy automatisch generiert werden und ist für den default core unter

Code:
http://[yacyaddress:yacyport]/api/schema.xml?core=collection1


erreichbar.

Man kann das Erzeugen des Schemas für den externen Solr auch ganz leicht scripten, das sieht dann in etwa so aus:

Code:
cd [yacy-peer]/bin./apicat.sh /api/schema.xml?core=collection1 > [externer_solr]/collection1/conf/schema.xml./apicat.sh /api/schema.xml?core=webgraph > [externer_solr]/webgraph/conf/schema.xml

Statistik: Verfasst von Orbiter — Sa Apr 13, 2013 4:48 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-13 17:57:58

ok, this needs a bit of explanation: the new fields must be filled with a web crawl to make it functional, and the formula as given above is purely experimental. It considers the number of external links to a web pages and the number of different external domains as important and increases the ranking further if the web page has a low click depth. All values which appear in the forumla are computed in a two-pass process:

- first the documents are indexed and a web structure index is generated in parallel. The references and clickdepth values are filled with dummy values and the document gets also a \‘ready for postprocessing\’ flag.
- when all crawls are finished, a postprocessing step is performed: all documents with the postprocessing flag are then filled with the actual values after a clickdepth computation and a reference count. This can only be done after all crawls because only then the information is present.

That means right after the crawl is finished the ranking formula using this values will not work, you must wait additionally until the postprocessing is finished. This can currently only be monitored in the log, not in the web interface. However, this process is pretty fast.

The counting of external references and the clickdepth can be consideres as something like a \‘poor mans citation rank\’ which can be the basis for a page-rank-like second postprocessing step. Before the development for this can start we need more experience with the current formula.

[Please do your own experiments with the formula and give a feed-back for enhancements here!]{style=“font-weight: bold”}

Statistik: Verfasst von Orbiter — Sa Apr 13, 2013 4:57 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-04-13 22:38:11

OK, hier ist noch mehr: http://jayse.tv/v2/the-work/ :mrgreen:

Statistik: Verfasst von Low012 — Sa Apr 13, 2013 9:38 pm


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-14 00:28:34

Vielen Dank

Statistik: Verfasst von LA_FORGE — Sa Apr 13, 2013 11:28 pm


Presse • Die Welt: Tipps für den Umgang mit Suchmaschinen

Date: 2013-04-14 10:07:30

Wolfgang hat ein Interview gegeben und uns schön empfohlen!

http://www.welt.de/wirtschaft/article11 ... hinen.html{.postlink}

\ Alternativen\ \ Bei Yacy handelt es sich um eine freie Suchmaschinen-Software. Nutzer werden Teil des Suchnetzes und bestimmen mit über den Suchindex. \"Es gibt keine zentrale Instanz, um Zensur zu verhindern\", so der Experte. Das Surfverhalten kann Yacy deshalb nicht erheben.\

Statistik: Verfasst von Orbiter — So Apr 14, 2013 9:07 am


Panorama • Digitale Bildungslandschaften (Software, Projekte)

Date: 2013-04-14 12:12:20

Wer kennt irgendetwas zu dem Thema \‘digitalisierung von Bildungslandschaften\‘? Es geht dabei um die Etablierung von kommunalen Konzepten (KiTas, Unis, VHS, privatwirtschaftliche Unternehmen, Bürgerinitiativen, Weiterbildung aller Art) und Stadtplanungssachen im Bezug auf Bildung.
Dabei geht es um den Austausch von Fähigkeiten, Wissen, praktisches (z.B. Bau eines Jugendzentrums), informelle Bildung.

Hat jemand von euch so etwas schon mal benutzt, ist in einem solchen digitalen Bildungsnetz oder kennt jemand Beispiele wo man eine Initiative zur Errichung so einer Sache gestartet hat?

Oder: wenn es so etwas nicht gibt, was könnte man nehmen um eine Unterstützungsinfrastruktur aufzubauen? ggf. nicht einfach ein Forum, das ist den nicht-digitalen Menschen zu \‘techie\‘. Könnte man so etwas wie Diaspora forken um \‘was für Bildung\’ draus zu machen? Hat da jemand Ideen oder Erfahrungen?

Statistik: Verfasst von Orbiter — So Apr 14, 2013 11:12 am


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-14 12:40:59

Oops! Hab ich genauso gemacht (die alte schema.xml sicherheitshalber vorher gelöscht). Es erscheint aber immer noch

Code:
W 2013/04/14 12:37:39 SOLR failed to send http://www.urbandictionary.com/define.php?term=Vegan to solrorg.apache.solr.common.SolrException: ERROR: [doc=iuYVVQ1SRHQa] unknown field 'references_internal_i'



Und in der gerade neu generierten schema.xml finde ich den string references_internal_i auch nicht, wenn ich danach suche (v1.49048).

Statistik: Verfasst von LA_FORGE — So Apr 14, 2013 11:40 am


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-14 19:09:09

hab das heute nochmal ausprobiert, funktioniert eigentlich! Die entsprechenden Felder sind drin.

Statistik: Verfasst von Orbiter — So Apr 14, 2013 6:09 pm


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-14 22:01:42

Muss ich die Solr Instanz vorher plattmachen und ganz von vorne anfangen? Eigentlich müsste das doch auch nachträglich funktionieren.

Statistik: Verfasst von LA_FORGE — So Apr 14, 2013 9:01 pm


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-14 22:05:57

Hah! Ich nehm alles zurück! Auf dem Mac hat\’s auf anhieb geklappt und beim parsen der xml hat sich dann auch \‘references_internal_i\’ qualifiziert. Ich schiebe die XML jetzt auf die Linux Hauptmaschine.

Statistik: Verfasst von LA_FORGE — So Apr 14, 2013 9:05 pm


Solr Support • Re: Unknown Field nachträglich einfügen

Date: 2013-04-15 00:01:27

LA\_FORGE hat geschrieben:\ Muss ich die Solr Instanz vorher plattmachen und ganz von vorne anfangen? Eigentlich müsste das doch auch nachträglich funktionieren.\


natürlich kannst du die Daten behalten, es ist ja nur ein Feld das neu dazukommt. Auch der umgekehrte Vorgang ist möglich: ein entferntes Feld führt dann einfach nur dazu dass aus deinem bisherigen Index ein Feld \‘unsichtbar\’ wird. Hinzunahme und Wegfall findet zur Zeit im YaCy index beides recht of statt, das ist also nichts fatales.

Statistik: Verfasst von Orbiter — So Apr 14, 2013 11:01 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-15 07:46:05

So, ich habe mich heute mal an die Hotelsuche gemacht und bin dann doch wieder bei unserem Hotel von letztem Jahr (Aldea Novum) hängen geblieben. Kostenloses Wlan und viele vorhandene Parkplätze an der Straße sind einfach nicht zu schlagen. Von da kommt man ja auch mit der U-Bahn gut weg, falls wir uns woanders abends treffen wollen.

Statistik: Verfasst von PCA42 — Mo Apr 15, 2013 6:46 am


Fragen und Antworten • Anzahl der YaCy-Updates

Date: 2013-04-15 11:06:01

es scheint zur Zeit ca. 1-3 mal pro Woche YaCy Feature-Updates zu geben.

Wir bemühen uns, diese Updates stets möglichst zeitnah einzuspielen, was in der Regel auch schnell und problemlos funktioniert.

Trotzdem würde uns interessieren, ob diese Updates sich nich auch zu \‘größeren\’ Paketen zusammenfassen lassen würden, so dass wir nicht ganz so häufig Updates einspielen müssten. Z.B. einmal alle 2 bis 4 Wochen (wäre m.E. auch in Ordnung).

Wäre das umsetzbar?

Viele Grüße, M. Behrens

Statistik: Verfasst von mbehrens — Mo Apr 15, 2013 10:06 am


Fragen und Antworten • Re: Anzahl der YaCy-Updates

Date: 2013-04-15 12:36:00

die größeren Pakete sind prinzipiell die Main-Releases und eben die Releasenummeränderung. Das kommt aber nur alle paar Monate. Innerhalb so eines Zyklus behalte ich mir und auch anderen vor, auch experimentelles einzuspielen, da ist nicht unbedingt jedes Update ein Treffer... Ich empfehle bei Produktionsumgebungen dann vorher in einer Testumgebung die Funktionsfähigkeit zu testen.

Gegen Ende eines Main-Release Zyklus ist immer eine Bugfix-Phase, wo keine neuen Features kommen und sich alles stabilisieren sollte.

Die Debian-Pakate mache ich aber üblicherweise nur, wenn ich glaube dass es geht. Davon betroffen ist auch der kaskelix-updateserver, der ebenfalls nur Updates bekommt wenn ich glaube dass es geht. Ansonsten gibts nur die Regel: jeden Code raus.

Statistik: Verfasst von Orbiter — Mo Apr 15, 2013 11:36 am


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-15 13:27:02

the wiki document about the new ranking rules is here (at this time unfinished):
http://www.yacy-websearch.net/wiki/index.php/En:Ranking

Statistik: Verfasst von Orbiter — Mo Apr 15, 2013 12:27 pm


Suchmaschinen • Re: Was ist mit Romso los?

Date: 2013-04-15 14:17:11

Hmmm, http://romso.de/ ist wieder weg, aber http://romso.de/counter kann ich noch aufrufen. :?

Statistik: Verfasst von Low012 — Mo Apr 15, 2013 1:17 pm


Hilfe für Einsteiger und Anwender • Beeinflussung des Crawl-Verhaltens

Date: 2013-04-15 18:35:16

Hallo YaCy-Gemeinde,

wie kann man es hinkriegen / einstellen, dass nur genau solche Webseiten in den Index aufgenommen werden, die bestimmte Suchbegriffe enthalten ?

Oder allgemeiner:
.…., die als Datei bestimmte allgemeine Eigenschaften besitzen (z.B. auf festgelegte Dateitypen / Links verweisen) ?

Für Infos hierzu vielen Dank !
Felix

Statistik: Verfasst von fliebke — Mo Apr 15, 2013 5:35 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-17 10:55:44

im Anschluss an den letzten Post hat sich jetzt eine andere Situation eingestellt. Und zwar bricht YaCy nun nach ein paar Stunden ab und lässt sich über den Browser nicht mehr aufrufen.

Was könnte der Grund für das Problem sein?

Statistik: Verfasst von hotel24 — Mi Apr 17, 2013 9:55 am


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-17 15:55:38

das kann man nicht einstellen, dazu gibts noch keine Funktion. Wofür braucht man das?

Statistik: Verfasst von Orbiter — Mi Apr 17, 2013 2:55 pm


Suchmaschinen • Re: Was ist mit Romso los?

Date: 2013-04-17 16:18:06

jetzt geht romso wieder!

Statistik: Verfasst von Orbiter — Mi Apr 17, 2013 3:18 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-17 16:50:04

Thank you very much helpful documents.
I am learning solr sort and yacy ranking, although some difficulty, thank you very much enthusiastic reply.
:)

Statistik: Verfasst von yugongtian — Mi Apr 17, 2013 3:50 pm


Solr Support • Limit Anzahl Suchergebnisse

Date: 2013-04-17 16:50:46

Weiß jemand, wo das Limit für die Anzahl der Suchergebnisse verändert werden kann? Derzeit scheint dieses mit 10.000 begrenzt zu sein. Also auch wenn man rows=100000 einstellt, werden maximal 10.000 rows ausgegeben.

Statistik: Verfasst von hotel24 — Mi Apr 17, 2013 3:50 pm


Hilfe für Einsteiger und Anwender • Mehrere Indizes auf einem Rechner möglich?

Date: 2013-04-17 17:54:03

Ich möchte unterschiedliche Indizes auf einem Rechner erstellen. Ist es dazu notwendig, einen zweiten Peer einzurichten (also eine zweite YaCy-Installation) oder lässt sich dies im Rahmen einer YaCy-Installation einrichten. Also dass man zb dem Crawler sagt, befülle collection1, collection2, etc. und bei der solr-Abfrage ebenfalls, verwende core=collection1, oder core=collection2, etc.

LG, hotel24

Statistik: Verfasst von hotel24 — Mi Apr 17, 2013 4:54 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-17 18:27:46

hab eben eine überaschende Nachricht bekommen:

\ Es freut mich ihnen mitteilen zu können, dass Yacy zusammen mit 4 anderen Projekten in der Endauswahl für die Kategorie Externes Projekt des Jahres für den Zedler-Preis () steht.\



Die Preisverleihung ist am 25. Mai 2013 ab 19 Uhr im Palais der Kulturbrauerei in Berlin. So ein Glück, das ist am letzten Tag vom Linuxtag und somit gibts hier keine Überschneidung. Das heisst aber auch dass ich ggf. am letzten Tag eine Stunde früher abdampfen muss...

Wer dann noch da ist: würde mich freuen wenn wir da alle zusammen hin gehen könnten!

Statistik: Verfasst von Orbiter — Mi Apr 17, 2013 5:27 pm


Suchmaschinen • Re: Was ist mit Romso los?

Date: 2013-04-17 18:55:35

Ja, bei mir auch. Hurra!

Statistik: Verfasst von Low012 — Mi Apr 17, 2013 5:55 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-17 22:34:00

\@Low012 - die Bilder können auch gern größer sein, ich skaliere das dann entsprechend. Größer ist auch deshalb gut, da ich noch mit ein paar CSS3 Funktionen spielen will :-)

[Thomas]{style=“font-style: italic”}

Statistik: Verfasst von Vega — Mi Apr 17, 2013 9:34 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-18 08:40:04

Ich mag http://low.audioattack.de/pix/yacy/IMG_ ... 103431.jpg{.postlink} ganz gern wegen der Farben. Leider ist der Horizont ein bisschen schief und es ist auch nur mit dem Telefon aufgenommen, so dass die Qualität nicht soooo super ist., aber vielleicht kannst du ja was draus machen.

Wenn ich dran denke, schaue ich mal auf die Speicherkarte meiner \“richtigen\” Kamera nach, ob sich da was findet.

Statistik: Verfasst von Low012 — Do Apr 18, 2013 7:40 am


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-18 09:42:50

Da muss ich mal mit der Regierung verhandeln. ;)

Statistik: Verfasst von Low012 — Do Apr 18, 2013 8:42 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-18 13:01:52

Hier hast du noch eines meiner Lieblingsbilder - aufgenommen an einem Sonntagmorgen im Sommer zu früher Stunde. In voller Auflösung zu finden bei Bitcasa{.postlink}.

Statistik: Verfasst von PCA42 — Do Apr 18, 2013 12:01 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-18 19:48:53

Ich habe noch 2:

http://low.audioattack.de/pix/yacy/IMG_0051.JPG
http://low.audioattack.de/pix/yacy/IMG_0083.JPG

Statistik: Verfasst von Low012 — Do Apr 18, 2013 6:48 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-18 21:46:04

wenn wir gewinnen musst du auf jeden Fall mit auf die Bühne! Und was sagen!
Hier ist das Video von letztem Jahr: http://vimeo.com/45642310

Statistik: Verfasst von Orbiter — Do Apr 18, 2013 8:46 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-19 00:21:03

ach herrje die Konkurrenz ist aber brutal, schaut mal auf die Nominierten:
http://de.wikipedia.org/w/index.php?tit ... egorie_III{.postlink}

Statistik: Verfasst von Orbiter — Do Apr 18, 2013 11:21 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-19 13:36:57

folgendes habe ich in den \‘Highlight-Report\‘, welches vom Linuxtag gesondert publiziert wird zu uns geschrieben:

\ 2012 haben Universitäten und öffentliche Dienste damit begonnen, ihre bestehenden kommerziellen Suchappliances durch YaCy zu ersetzen. Wir wurden in diesen Prozess involviert und haben durch eine genaue Delta-Analyse die gleiche Leistungsfähigkeit, wie bislang von kommerziellen Suchappliances geleistet, herstellen können. Wir möchten daher darauf hin weisen, dass YaCy nicht nur als alternative, peer-to-peer basierte private Suchmaschine im Einsatz ist, sondern nun auch als günstigere, leistungsfähigere und freie Appliance für Suchmaschinenaufgaben (im Internet und das Intranet) eingesetzt werden kann. Zur Unterstützung einer Umstellungen von anderen Suchappliances und den Betrieb von YaCy bieten wir nun Beratungsleistungen an.\


mit \‘Universitäten und öffentliche Dienste\’ meine ich Uni-Mainz, Uni-Karlsruhe und die Verwaltungssuchmaschine NRW, sowie die Generalstaatsanwaltschaft Berlin. NRW hat eine GSA im Vollausbau durch YaCy ersetzt und hat z.B. festgestellt dass sie nun viel mehr Dokumente im Index haben, vor allem weil der pdf Parser mehr Dokumente versteht.

Ist der Text ok? Heute ist Abgabeende!

Statistik: Verfasst von Orbiter — Fr Apr 19, 2013 12:36 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-19 14:04:34

ich finde der Text klingt super!

Nicht schlecht, wo schon GSA durch YaCy schon ersetzt wurde.

Statistik: Verfasst von sixcooler — Fr Apr 19, 2013 1:04 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-19 14:10:33

Gute Kurzfassung.

Rechtschreibung:
\“darauf hin weisen, dass \” -> \“darauf hinweisen, dass\”

Formulierungen:
zwei Sätze, die mit \“wir\” beginnen -> Vielleicht für den zweiten - \“Auch möchten wir darauf hinweisen,\”
Ich würde die Steigerungen bei \“als günstigere, leistungsfähigere\” rausnehmen und einfach nur \“als günstige, leistungsfähige\” schreiben. Das Wort \“Suchappliance\” ist denglisch at its best. Also entwender search appliance oder - öhm wie sagt man da auf deutsch - Suchanwendung. Blödes deutsches Wort :-(

Grüße
René

Statistik: Verfasst von PCA42 — Fr Apr 19, 2013 1:10 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-19 15:01:25

ok prima, danke, hab alles so geändert wie du vorgeschlagen hast.

Von Wikimedia Deutschland habe ich auch nochmal einen Hinweis bekommen dass man sich bitte online anmelden möchte, wenn man kommen will. Das hier ist die Adresse: http://wmde.org/Anmeldung2013 (Vorsicht, geht zu Google Docs...)

Statistik: Verfasst von Orbiter — Fr Apr 19, 2013 2:01 pm


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-20 11:55:00

Ich hatte auch schon so eine Anfrage vorbereitet.
Ich denke mal so eine Anzahl bestimmter Keywords und an Hand dieser Wörter oder Wortes, Webseiten einlesen.
Nehmen wir mal meine Thüringer-Suche.de soll Mitteldeutschland absuchen und ich gebe eine Stadt vor und gebe diesen Stadtnamen ein und Yacy soll alle fast nur Webseiten die den Stadtnamen enthalten einlesen.

Also eine Liste mit Keywords vorgeben.

Gruß Roland

Statistik: Verfasst von RoGott — Sa Apr 20, 2013 10:55 am


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-20 12:18:53

Hallo, ich will versuchen auch nach Berlin zu kommen um mit zuhelfen, eventuell Standaufbau oder Abbau dabei zusein. Auch um einige von uns hier persönlicher kennenzulernen. Gibt es günstige Hotel oder Herberge Empfehlungen
Gruß Roland

Statistik: Verfasst von RoGott — Sa Apr 20, 2013 11:18 am


Mitmachen • Re: Portale mit YaCy-Suche - Sammelthread

Date: 2013-04-20 14:02:44

Hallo,
ich finde das sollte nicht in Vergessenheit geraden, wenn wir Yacy bekannter machen wollen.
Ich habe zwei Yacy Online und setze meine Yacys auf folgenden Webseiten ein.
Als Barbarossa Thüringer Websuche für Mitteldeutschland
http://www.thueringer-suche.de/

dann hier
Espch Naturheil Info + Suchmaschine
Die mit dem Grünen Daumen
http://espch.de/

dann hier
RoGotts List & Suchdienst
http://rogott.de/

Bald werde ich sie auf weitere Portale einsetzen.
Meine Yacy sind auf einen Mitteldeutschen Suchindex spezialisiert der etwas erweitert wurde in die Bereiche Heilkunde auf Natürlicher Basis und chinesische Kampfkunst Wushu - Kungfu, entsprechend meiner
http://www.kung-fu-style.info/
und
http://www.wushu-search.com/

Die zweite Yacy ist auf einen Server, der allerdings zu wenig Arbeitsspeicher hat und mehr zu testen für mich ist.
http://81.7.10.240:8090/
Ich würde mir wünchen, das sich noch [mehrere ]{style=“font-weight: bold”}hier vorstellen, so das Neulinge doch sich mehr Mut machen Yacy testen zu wollen, sondern auch dabei bleiben.
Gruß
Roland

PS: Was meint Ihr?

Statistik: Verfasst von RoGott — Sa Apr 20, 2013 1:02 pm


Fragen und Antworten • Re: 1.4 ranking problem

Date: 2013-04-20 14:20:05

Thanks your are right. Can make most homepage show on top result.
But some small problem , the sub domian will top of homepage some case.

Like this :

ad.xxx.com
http://www.xxx.com
shop.xxx.com

Any helps?

Statistik: Verfasst von yugongtian — Sa Apr 20, 2013 1:20 pm


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-22 11:29:45

\‘bestimmte Suchbegriffe\’ ist machbar, etwas schwieriger \‘bestimmte allgemeine Eigenschaften\’ weil hierzu eine formale Beschreibung notwendig ist oder mehr im Detail festgelegt werden sollte was man filter soll und wie. \@fliebke: hast du ein Beispiel?

Statistik: Verfasst von Orbiter — Mo Apr 22, 2013 10:29 am


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-22 14:17:11

Sagen wir mal ich möchte alle, fast alle Webseiten von Dresden einlesen lassen oder von Yacy finden lassen und gebe den Suchbegriff Dresden vor.
Starte z.B. bei Dmoz oder einem anderen Webkatalog der Url von Dresden gesammelt hat wie, z.B. auch Meine Stadt oder Sachsen.de
Yacy dursucht die Überschrift, Url, Description, und den Contens nach dem Wort Dresden, findet er es, liest er sie ein, findet er nichts, wandert er weiter.
Die URLs gehen in den Datenbestand ja über
So könnte ich mit meiner Idee sprich Vorhaben z.B. alle Städte Mitteldeutschlands also Thüringen Sachsen und Sachsen-Anhalt und Randgebiete, sowie noch andere Begriffe, die ich haben will, wie alle Kräuternamen, Krankheitsnamen, Kungfubezeichnungen, vorgeben, und Yacy könnte rückgreifend auf diese Schlagwörter, ständig im Web abgrasen an Webseiten die da vorhanden sind oder entstehen.
Ich hatte mal ein Plugin für Wordpress, welches über die API Schnittstelle von Yahoo lief, und gab dann Keywords vor, dann crawelte das allen Index was es ueber Yahoo fand und welches das Keyword enthielt durch und über gefunde Sachspezifische Links der gefunden Seiten weiter, baute so auch ein Linkliste auf, die das Fachgebiet des Suchbegriffs enthielt, Leider stellt Yahoo die Schnittstelle seit der Verbindung mit Bing nicht mehr Free zur Verfügung
Wenn ich noch spezieller erklären soll sage bitte Bescheid

Statistik: Verfasst von RoGott — Mo Apr 22, 2013 1:17 pm


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-22 22:23:16

ok wäre dann so ein radio-button \‘matche in\’ (und die Felder) und ein regex-Feld ausreichend?

Statistik: Verfasst von Orbiter — Mo Apr 22, 2013 9:23 pm


Solr Support • Re: E-Mail Regex

Date: 2013-04-22 23:10:13

es wäre ziemlich leicht, die email-Adressen aus jedem Dokument rauszuparsen. Ich habe das extra nie eingebaut weil ich die email spammer hasse. Ich kann mir nicht vorstellen dass man so eine Funktion für irgendwas sinnvolles sonst nutzen kann. Ausser fürs spamming. Und das will ich nicht unterstützen.

Statistik: Verfasst von Orbiter — Mo Apr 22, 2013 10:10 pm


Solr Support • Re: E-Mail Regex

Date: 2013-04-22 23:56:59

Haben ein XML Dokument, in dem ist ein Tag mit Text und eventuell einer E-Mail Adresse drin. DIe Adresse wollen wir gerne für die weiter Verarbeitung in einem extra Feld haben. Daher das rausfiltern, ich will kein Spam Mail verschicken. Bekomme davon selber genug ;)

Statistik: Verfasst von Benny — Mo Apr 22, 2013 10:56 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-04-23 08:41:05

Und es nimmt kein Ende (auch wenn es hier hauptsächlich um Geräusche geht): http://www.crackajack.de/2013/04/22/bee ... -supercut/{.postlink}

Statistik: Verfasst von Low012 — Di Apr 23, 2013 7:41 am


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-04-23 10:14:31

Treffer im Titel zählen mehr als im Text) hard-coded genutzt werden, das Post-Ranking (Regeln auf Metadaten) aber nach wie vor funktionieren. Dazu zählt nun das neue Citation Rank (Verlinkungsstrukur, hat Solr nicht) aber nicht mehr das Block Rank,






_________________
Hello!I am lucycandy.I like play games.Like these Wow Gold Kaufen{.postlink},Aion Kinah{.postlink}, Guild Wars 2 Gold{.postlink} and Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von lucycandy — Di Apr 23, 2013 9:14 am


Wunschliste • Re: Hostbrowser: Ergänzende Möglichkeiten

Date: 2013-04-23 10:14:54

Recently all gone well.





_________________
Hello!I am lucycandy.I like play games.Like these Wow Gold Kaufen{.postlink},Aion Kinah{.postlink}, Guild Wars 2 Gold{.postlink} and Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von lucycandy — Di Apr 23, 2013 9:14 am


Mitmachen • Re: QPH -> metager? 10/sec

Date: 2013-04-23 10:15:18

Hello!I am lucycandy.I like play games.Like these Wow Gold Kaufen{.postlink},Aion Kinah{.postlink}, Guild Wars 2 Gold{.postlink} and Diablo 3 Gold{.postlink}.Anyone interesting?I hope someone can paly with me.

Statistik: Verfasst von lucycandy — Di Apr 23, 2013 9:15 am


Solr Support • Re: Limit Anzahl Suchergebnisse

Date: 2013-04-23 11:16:49

Kann mir niemand weiterhelfen? :cry:

Der Punkt ist sehr wichtig für mich. Ich möchte auf diesem Wege nämlich alle Seiten mit Statuscode 200 exportieren:
curl -o export.csv \‘http://localhost:8090/solr/select?q=httpstatus_i:200&defType=edismax&start=0&core=collection1&rows=1000000000&fl=sku&wt=csv'
Über den Export unter /IndexControlURLs_p.html ist diese Einschränkung nicht möglich.

Danke!

Statistik: Verfasst von hotel24 — Di Apr 23, 2013 10:16 am


Solr Support • Re: Limit Anzahl Suchergebnisse

Date: 2013-04-23 12:17:30

ok hab die limitierung auf 100 mio hochgesetzt. Das gilt aber nur für autorisierte Zugriffe, für öffentliche Zugriffe bleibt das Limit auf 100.
In /IndexControlURLs_p.html habe ich die Limitierung der host-Exports gestern auch auf 100 mio gesetzt.

Statistik: Verfasst von Orbiter — Di Apr 23, 2013 11:17 am


Solr Support • Re: E-Mail Regex

Date: 2013-04-23 12:22:05

es gibt eine recht neue Solr Erweiterung zum Nutzen von regulären Ausdrücken in Queries. Das könntest du über die solr Schnittstelle in YaCy mal ausprobieren und email-geformte Textstellen zu finden.
Die Dokumentation zu den solr-regexen ist aber sehr versteckt und noch nicht irgendwie in einem Wiki drin, bitte hier entlang gucken:
http://stackoverflow.com/questions/9332 ... lr-edismax{.postlink}
https://issues.apache.org/jira/browse/LUCENE-2604

Statistik: Verfasst von Orbiter — Di Apr 23, 2013 11:22 am


Mitmachen • \“Scary Sharing Shit\” und PirateBox

Date: 2013-04-23 13:08:00

in einem Vorbereitungsgespräch für einen Vortrag bei der Netzwerkrecherche Jahreskonferenz{.postlink} hatte ich den YaCy Fileshare-Portscanner{.postlink} angesprochen und als \‘lustiges wir gucken mal in Hotel- und Konferenz-WLAN Netzen wer vergessen hat seine Shares dicht zu machen\’ - Tool während eines Vortrag vor nur-Journalisten vorzustellen [und laufen zu lassen.]{style=“font-style: italic”} :lol: :lol: :lol:

Diesem lustigen Gag gaben wir den Titel \“Scary Sharing Shit\“.

Nun hab ich die Freifunk Frankfurt Leute getroffen und dabei ging es auch um die PirateBox{.postlink}. Die besteht im Wesentlichen aus openwrt und einigen Sharing Webseiten-Scripten{.postlink}. Nun kam mir die Idee, die PirateBox und \“Scary Sharing Shit\” mit YaCy zu verbinden. Das wäre auch mal eine angemessene Aufgabe für meinen RaspberryPi zusammen mti der RPi YaCy-Installation{.postlink} im \“Scary Sharing Shit\“-Automodus und Verlinkung ins PirateBox Webinterface{.postlink}.

Statistik: Verfasst von Orbiter — Di Apr 23, 2013 12:08 pm


Solr Support • Re: Limit Anzahl Suchergebnisse

Date: 2013-04-23 13:09:18

Super, vielen Dank, perfekt! :D

Statistik: Verfasst von hotel24 — Di Apr 23, 2013 12:09 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-23 13:16:37

Das Problem hat sich geklärt. Und zwar war der Server so eingestellt, dass der JAVA-Prozess nach 10 Stunden Laufzeit von der Prozessüberwachung beendet wird. Rückblickend betrachtet daher ein trivialer Grund. ;)

Statistik: Verfasst von hotel24 — Di Apr 23, 2013 12:16 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-23 13:45:50

ach herrje sowas gibts? Bitte beschreiben wie diese Limitierung umgesetzt ist. Das ist nicht hoffentlich etwas, was irgendwo per default so ist?

Statistik: Verfasst von Orbiter — Di Apr 23, 2013 12:45 pm


Fragen und Antworten • Fehlender Inhalt bei URL Betrachter

Date: 2013-04-23 15:49:38

Bin mit yacy spezielle Seiten am einlesen. U.a. die Webseite Bild.de. Nach dem Einlesen schaue ich mir stichpunktartig den Inhalt über den yacy-URL-Betrachter an. Bei bild.de habe ich es aber das Problem, dass als geparster Text nur folgendes erscheint, während bei allen anderen Seiten der Webseiteninhalt korrekt angezeigt wird:

Beispiel:

Code:
http://www.bild.de/reise/deutschland/naturfotografie/wandern-deutschland-andreas-kieling-national-geographic-30054774.bild.html http www bild de reise deutschland naturfotografie wandern andreas kieling national geographic 30054774 html


Quell-URL: http://www.bild.de/reise/deutschland/na ... .bild.html{.postlink}

Die Liste der eingelesenen URLs lasse ich mir von yacy exportieren.

Ich frag mich, ob ich jetzt ausversehn eine Einstellung gewählt habe, die nur bei der Webseite Bild.de dieses Verhalten verursacht oder ob dies einen Bug darstellt. Da sonst ja alles läuft, geh ich mal davon aus, dass der Fehler bei mir liegt.
Kann mir da jemand helfen oder hat eine Idee?

VIelen Dank schonmal für die Hilfe!

Statistik: Verfasst von yayu — Di Apr 23, 2013 2:49 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-23 23:22:58

prima Roland, bitte für Hotel miteinander absprechen, das Aldea Novum ist ja nicht unbedingt ein Palast aber auch nicht so schlimm. Ich bin ja bei meiner Schwester, also will ich das auch nicht koordinieren.

Jetzt noch was organisatorisches zum Messestand: das Budget für das Mobiliar für einen gesponserten Stand wie unseren wurde auf 150€ heruntergestrichen und wir müssen bis morgen Abend unsere Mobiliarwünsche abgeben. Ich habe folgendes ins Wiki geschrieben:

1 Prospektständer 3xDIN A4 (klein) (40,00€)
1x Stehtisch (24,13€)
2x Barhocker (40,00€)
2x Stuhl (29,46€)
1x Tisch 800x800 (24,13€)
was dann schon die 150€ leicht überschreitet. Doof daran ist:
- wir bekommen keine Beamerhalterung die schon alleine 73,58€ kostet und
- auch keinen Infopoint (166,67€)

Das Wiki mit der Möbelbestellung findet ihr hier: https://wiki.linuxtag.org/mediawiki/ind ... niture2013{.postlink}
Da ist auch ein Link zum Messeplan drin!
und die Materialpreisliste hier: https://wiki.linuxtag.org/mediawiki/ima ... leiner.pdf{.postlink}

Vielleicht habt ihr noch Ideen wie man das besser nutzen kann.

Statistik: Verfasst von Orbiter — Di Apr 23, 2013 10:22 pm


Hilfe für Einsteiger und Anwender • Re: YaCy bricht nach ca. 10 Sekunden ab

Date: 2013-04-24 13:45:02

es handelt sich um einen Debian-Server. Die Limitierung war aus Sicherheitsgründen vom Provider so gesetzt. Per default dürfte die Prozessüberwachung keine derartigen Einschränkungen aufweisen.

Statistik: Verfasst von hotel24 — Mi Apr 24, 2013 12:45 pm


Hilfe für Einsteiger und Anwender • Re: Mehrere Indizes auf einem Rechner möglich?

Date: 2013-04-24 13:59:29

ich habe die Situation nun mit einer anderen Vorgehensweise gelöst.

Kurz zur Info: Ich möchte die Seiten im Index bestmöglich aktuell halten. Aus Ressourcen-/Zeitgründen möchte ich daher die 200er-Seiten öfter abgleichen als jene mit Fehlercode. Da der Crawler aber nicht auf 200er Seiten beschränkbar ist, wollte ich nun alle 200er exportieren und anschließend in einem separaten Index ablegen und regelmäßig crawlen. Der primäre Gesamtindex hingegen sollte nur mehr in größeren Zeitabständen gecrawlt werden.

Jetzt bin ich auf die Idee gekommen, anstelle des separaten Index einfach einen weiteren Crawlingprozess mit den exportierten 200er Seiten im Rahmen des Gesamtindex zu starten. Dadurch kann ich den Crawler nun doch auf 200er Seiten einschränken und mein Vorhaben lässt sich umsetzen.

Statistik: Verfasst von hotel24 — Mi Apr 24, 2013 12:59 pm


Hilfe für Einsteiger und Anwender • Re: Mehrere Indizes auf einem Rechner möglich?

Date: 2013-04-24 15:18:41

oh, nicht schlecht, aber auch zu schnell, denn ich hab auch was gebaut! Man kann jetzt die collections aus dem crawl Start als Option bei der Suche angeben, und damit einen Teilidex ansprechen. Ist fertig aber noch nicht im git... Der Punkt ist: so wie das Interface ist, ists noch nicht praktikabel. Man muss quasi was am Suchinterface machen oder ein anderes draufsetzen, und dafür ist das yaml4-Webinterface der richtige Kandidat.

Ich will das in den nächsten Tagen auch umsetzen, indem ich auf einem YaCy zwei getrennte Suchportale betreibe, und zwar die geocaching-Seiten und einen Freifunk-Index, den ich noch machen will. Bitte ein wenig Geduld, bin noch am basteln...

Statistik: Verfasst von Orbiter — Mi Apr 24, 2013 2:18 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-04-24 21:07:03

hab nun noch den Prospektständer gestrichen und statt dessen noch einen Stehtisch drauf gemacht. das ist ziemlich dünn so, aber was solls.
Habt ihr schon in den Messeplan{.postlink} geguckt, da haben wir die Wand zu einem Vortragssaal gegenüber. Da könnte man auch den Beamer drauf richten, das wäre doch lustig. Ich hab besser erst gar nicht nachgefragt ob man das darf, machen wir einfach. Da brauchen wir auch keine normale Beamerhalterung, aber müssen das trotzdem irgendwie oben auf das Gerüst schrauben.

Statistik: Verfasst von Orbiter — Mi Apr 24, 2013 8:07 pm


Mitmachen • YaCy Werbefilm - Video Mashup

Date: 2013-04-25 16:29:12

hiermit möchte ich (wieder einmal) um Mithilfe bei der Gestaltung eines Videos machen, das soll dann auf die Homepage als Video und auch beim Linuxtag gezeigt werden. Ich hab es ja schon mal mit einem Aufruf probiert{.postlink}, da hat aber niemand mitgemacht :( :(

Deswegen bin ich diesmal etwas konkreter, das folgende hab ich schon:
- Ich hab schon ein Soundtrack{.postlink} geschnitten, 3:33 lang. Stammt von einem Tron-Tribute von Shiryu, der im übrigen total genial ist{.postlink}. Leider etwas ungeklärte Lizenzfrage, ich werde ihn mal fragen ob ich das verwenden darf.
object http://soundcloud.com/orbiter/shiryu-tron-rezzolutions-7-cut
- Ich hab schon einige Schnipsel von letzten Jahr, die ich wiederverwende.

Bei den folgenden Sachen hätte ich gerne eure Hilfe, denn ich will am liebsten viele Bilder/Filmsequenzen in schneller Folge hintereinander schneiden und auch zeigen wieviele Leute hier mitmachen:
- Bilder, Zettel, Screencaptures, bei denen folgendes zu sehen ist:
* YaCy-Objekte (irgendwas vom Monitor aufgenommen, Sticker /Rechner mit Sticker (ich recycle die die ich schon hab))
* die Wörter aus dem Soundtrack (hochhalten, hinhalten, hinschreiben, wie auch immer):
CHALLENGE, A USER?, A USER!, WHAT KIND OF PROGRAM IST THAT?, ITS A USER!, WHATS THE MATTER YOU LOOK NERVOUS
* eure Ideen!

Filmschnipsel sollten möglichst 720p Format haben, also 1280×720. Bilder sollten mindestens so groß sein.
bitte mithelfen!

Statistik: Verfasst von Orbiter — Do Apr 25, 2013 3:29 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-25 19:30:52

Yay! Tron! Habe eben mal nachgeschaut und mein Telefon kann 720p. :)

Statistik: Verfasst von Low012 — Do Apr 25, 2013 6:30 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-25 20:32:26

Der Soundcloud-Link funktioniert für mich nicht. Vielleicht kann man die Datei noch auf Mediafire.com hochladen?

Statistik: Verfasst von David — Do Apr 25, 2013 7:32 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-25 22:17:17

ui ja ich hatte vergessen in Soundcloud das auf \‘public\’ zu setzen. Hab jetzt auch eine BBCode Erweiterung im Forum für Soundcloud drin, das sollte jetzt oben drin zu sehen sein.

Der geplante Ablauf ist so: erst gibts einen geekiges Titel \“YaCy - Web Search by the people, for the people\” (in einer grünen Röhrenshell) und bei den Worten \“I\’ve got a little challenge for you\” wird die Netzgrafik, animiert (hab dazu über Stunden ein Netzbild gegrabt und dann über einen Webcam-Verfremder in einen Matrix-Like look transformiert), das sieht dann in etwa so aus:
Bild
Das ist aber natürlich nur der \‘Aufmacher\‘.

Hab den Track genomen weil er zum einen geil klingt, thematisch aus der richtigen \‘Ecke\’ kommt und die Textzitate sich total gut auf unser Projekt und die \‘Konkurrenzsituation\’ anwenden lassen.

Bei den Wortfetzen aus dem Film (Zitate stehen oben) sollen dann zusammen mit anderem Schnickschnack den ich hier noch habe die Wörter auch eingeblendet werden. Damit das authentischer ist, will ich das als so vielffältig (the USER!) wie möglich machen. IHR seid die USER und die sollen sichtbar sein. Naja ich hoffe euch gefällt die Idee.

Statistik: Verfasst von Orbiter — Do Apr 25, 2013 9:17 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-26 08:30:25

Yay! Schnickschnack! :)
Habe mir extra einen Termin für heute Abend gemacht, um ein paar Videos aufzunehmen. Ich hoffe, dass der Nachwuchs dann ruhig schläft... ;)

Statistik: Verfasst von Low012 — Fr Apr 26, 2013 7:30 am


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-26 10:15:09

wunderbar!

ich experimentiere momentan noch ein wenig mit reingesprochenen Sachen, die werden über die Mac Sprachausgabe generiert. Wenn ihr einen Mac habt, haut das ist die Console:

Code:
say --channels 2 -v Alex "YaCi" -o YaCy_AlexVoice.aiffsay --channels 2 -v Vicki "YaCi" -o YaCy_VickiVoice.aiffsay --channels 2 -v Vicki "community\!" -o Community_VickiVoice.aiffsay --channels 2 -v Alex "community\!" -o Community_AlexVoice.aiffsay --channels 2 -v Vicki "easy installation\!" -o EasyInstallation_VickiVoice.aiffsay --channels 2 -v Vicki "by the people, ffor the people\!" -o ByThePeopleForThePeople_VickiVoice.aiffsay --channels 2 -v Alex "by the people, ffor the people\!" -o ByThePeopleForThePeople_AlexVoice.aiffsay --channels 2 -v Fred "knowledge\!" -o Knowledge_FredVoice.aiffsay --channels 2 -v Fred "information\!" -o Information_FredVoice.aiffsay --channels 2 -v Vicki "the people\!" -o ThePeople_VoiceVicki.aiffsay --channels 2 -v Alex "we, the people" -o WeThePeople_VoiceAlex.aiffsay --channels 2 -v Vicki "fun\!" -o Fun_VoiceVicki.aiffsay --channels 2 -v Vicki "freedom\!" -o Freedom_VoiceVicki.aiffsay --channels 2 -v Alex "free search engine\!" -o FreeSearchEngine_VoiceAlex.aiff


Da seht ihr dann auch noch zusätzliche Buzzwords die als Anregung für Film/Bildschnipsel dienen können. Die \‘falsch\’ geschriebenen Wörter sind extra so, weil es sich besser anhört. Am Ende ist meistens ein Ausrufezeichen weil sich das dann nicht so zum Einschlafen anhört.

Statistik: Verfasst von Orbiter — Fr Apr 26, 2013 9:15 am


Hilfe für Einsteiger und Anwender • failed to send to solr

Date: 2013-04-26 10:44:24

Der lokale Crawler stellt sich während des Crawlingvorganges immer wieder mal automatisch auf Pause. Als Meldung kommt:
[pause reason: failed to send http://www.domain.de/ to solr]{style=“font-style: italic”}

Lässt sich da evtl. auch irgendwo ein Wert erhöhen, damit der Crawler nicht dauernd stoppt?

Vielen Dank und Grüße
hotel24

Statistik: Verfasst von hotel24 — Fr Apr 26, 2013 9:44 am


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-04-26 11:15:15

Hi,
ich hab jetzt den Crawl Start um ein weiteres Feld erweitert, welches das Einfügen von Dokumenten nach pattern matching im Volltext regelt. Das müsste eigentlich das sein, was du brauchst.

Bitte gucke mal in den Expert Crawl Start, den habe ich vollständig überarbeitet und neu gestaltet in Anlehnung an alle anderen Servlets. Das neue Feld findest du im Abschnitt \“Document Filter\“, item \“Filter on Content of Document\“. Ok so?

Statistik: Verfasst von Orbiter — Fr Apr 26, 2013 10:15 am


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-27 12:13:38

Ich habe gestern mal ein paar Wackelvideos mit dem Telefon gemacht:

ftp://allesehersonerdshier.net:2121/videos1/

Wenn ich es schaffe, mache ich noch ein paar. Wann ist denn Deadline?

Statistik: Verfasst von Low012 — Sa Apr 27, 2013 11:13 am


Hilfe für Einsteiger und Anwender • Re: 1. YaCy beendet sich 2. Crawl paused

Date: 2013-04-28 14:42:46

Ich habe YaCy jetzt neu installiert, auf einer größeren Platte. Leider beendet sich das Crawlen immer noch von selbst.

Code:
Dateisystem    Größe Benutzt Verf. Verw% Eingehängt auf/dev/sda1       149G    9,6G  132G    7% /udev            478M    8,0K  478M    1% /devtmpfs           194M    744K  194M    1% /runnone            5,0M       0  5,0M    0% /run/locknone            485M       0  485M    0% /run/shm

Statistik: Verfasst von uzfH7 — So Apr 28, 2013 1:42 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-28 17:39:13

Werden denn auch Screenshots bzw. Video-Captures benötigt, oder nur Aufnahmen die mit einer \“echten\” Kamera gemacht wurden?

Statistik: Verfasst von David — So Apr 28, 2013 4:39 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-28 18:56:17

Low012 hat geschrieben:\ Ich habe gestern mal ein paar Wackelvideos mit dem Telefon gemacht:\ \


wow, von einem lebendigen C64!

Low012 hat geschrieben:\ Wenn ich es schaffe, mache ich noch ein paar. Wann ist denn Deadline?\


Deadline würde ich sagen kurz vor Linuxtag. Letztes Jahr hab ich das im Hotel vorm ersten Messetag zusammengemacht.

David hat geschrieben:\ Werden denn auch Screenshots bzw. Video-Captures benötigt, oder nur Aufnahmen die mit einer \"echten\" Kamera gemacht wurden\


ja keine Ahnung, hab nicht wirklich ein Konzept sondern werde versuchen alles was ihr produzieren wollt dramaturgisch geschickt zusammenzustecken. Alles ist prima, Marcs Handycam (wow, von einem lebendigen C64!), Screenshots und natürlich Video-Captures. Ich hab hier schon was zusammengebraut mit Hilfe von Cathode{.postlink}. Stellt euch einfach vor, was ein Eyecatcher sein könnte. Das wird ja kein richtiger Lehrfilm. Andererseite sollten auch \‘richtige\’ YaCy-GUI Sachen zu sehen sein.

Statistik: Verfasst von Orbiter — So Apr 28, 2013 5:56 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-28 19:45:40

Orbiter hat geschrieben:\ wow, von einem lebendigen C64!\



Naja, war nur ein Emulator, aber vielleicht grabe ich meinen C64{.postlink} noch aus und filme. wie ich drauf rumtippe. :ugeek:

Statistik: Verfasst von Low012 — So Apr 28, 2013 6:45 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-29 10:37:11

nerd teaser ascii art
YaCy_Cathode.png

Statistik: Verfasst von Orbiter — Mo Apr 29, 2013 9:37 am


Fragen und Antworten • Websuche aus dem Internet nicht erreichbar

Date: 2013-04-29 16:59:54

Hallo!
Ich habe folgendes Problem:
Die Websuche ist aus dem Internet nicht erreichber.
Der Router wurde für den Port 8090 freigeschaltet und das Routig auf die interne IP eingerichtet:
Externer Port: 8090 -> 192.168.x.x:2:8090
Die Statusseite von Yacy zeigt an:
Sie lassen Yacy im Senior Modus laufen.........
System Status:
Sicherheit: Passwort-geschützt
Adresse: Host: 169.254.103.139:8090
Öffentliche Adresse: http://yacy.meine-domain.de:8090
Yacy Adresse: http://_atlantis.yacy
Remote Proxy: nicht benutzt
.…
.…
Eingehende Verbindungen: Aktiv, Max: 200

Wo um alles in der Welt habe ich etwas falsch eingestellt oder vergessen?
Grüße an alle

Statistik: Verfasst von Merlin — Mo Apr 29, 2013 3:59 pm


Fragen und Antworten • Re: Websuche aus dem Internet nicht erreichbar

Date: 2013-04-29 17:03:09

Hi Merlin, hast du es schon von einem Internetzugang probiert, der nicht über deinen Router läuft? Bei mir geht das auch nicht beim eigenen Server weil mein Router den Zugang über eine öffentliche Adresse nicht ins eigene Netz routet, auch wenn man den Port richtig freigegeben hat.

Statistik: Verfasst von Orbiter — Mo Apr 29, 2013 4:03 pm


Fragen und Antworten • Re: Websuche aus dem Internet nicht erreichbar

Date: 2013-04-29 17:13:05

Merlin hat geschrieben:\ \...\ Externer Port: 8090 -\> 192.168.x.x:2:8090\ \...\ Adresse: Host: 169.254.103.139:8090\


Haut alles mit den Adressen hin? So sieht das irgendwie nicht richtig aus.

Statistik: Verfasst von PCA42 — Mo Apr 29, 2013 4:13 pm


Fragen und Antworten • Re: Websuche aus dem Internet nicht erreichbar (Problem gelö

Date: 2013-04-29 17:19:58

Es war wirklich so, dass ich von einem Rechner der an der gleichen Firewall (Router) hängt die Seite nicht aufrufen kann.
Ich hab\’s gerade von jemanden testen lassen, klappt einwandfrei!
Vielen Dank für die schnelle Hilfe!

Statistik: Verfasst von Merlin — Mo Apr 29, 2013 4:19 pm


Hilfe für Einsteiger und Anwender • Ausgehende Verbindungen

Date: 2013-04-30 08:24:49

Hi there

im \“Server Access Grid\” sehe ich immer wieder ausgehende Verbindungen,

aber in der Admin Konsole wird angezeigt \“Ihr Peer kann nicht von außen erreicht werden\”

Was ist denn nun wahr?

Gruß

Johannes

Statistik: Verfasst von JohannesMarat — Di Apr 30, 2013 7:24 am


Hilfe für Einsteiger und Anwender • Re: Ausgehende Verbindungen

Date: 2013-04-30 10:35:16

Hallo Johannes,

die Antwort ist einfach: beides. Ausgehende Verbindung bedeutet, dass dein YaCy sich nach außen verbindet. Dies ist möglich, da dein Peer die anderen Teilnehmer direkt ansprechen kann.
Dies bedeutet aber nicht, dass andere Peers sich mit deinem YaCy direkt verbinden können. Dies ist nur möglich, wenn in deinem Router der entsprechende Port an deinen Rechner weitergeleitet wird.

Grüße
René

Statistik: Verfasst von PCA42 — Di Apr 30, 2013 9:35 am


Hilfe für Einsteiger und Anwender • Re: Ausgehende Verbindungen

Date: 2013-04-30 11:50:41

ja, denn \“von außen erreichen\” == eingehende Verbindungen. Davon sollte es aber immer mindestens eine geben, denn das ist dein Browser, sonst könntest du die Grafik gar nicht sehen!

Statistik: Verfasst von Orbiter — Di Apr 30, 2013 10:50 am


Hilfe für Einsteiger und Anwender • Re: failed to send to solr

Date: 2013-04-30 16:59:36

Im System sind nun rd. 6 Mio. Urls. Der virtuelle Speicher ist permanent mit rd. 21GB belegt.

Ich habe einen Restart probiert, nach 15 Minuten war der Peer noch immer nicht wieder online, daher habe ich den Prozess gekillt. Nun YaCy händisch wieder gestartet, aber der virtuelle Speicher ist nachwievor mit über 21 GB belegt.

Ist das normal bzw. wird das von solr verursacht bzw. könnte das evtl. mit dem o.a. Fehler zu tun haben?

Statistik: Verfasst von hotel24 — Di Apr 30, 2013 3:59 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-04-30 19:52:54

Brauchst du auch Soundschnipsel? Ich habe mal eine Sprachausgabe für den C64{.postlink} heruntergeladen. Das hört sich dann so an: ftp://allesehersonerdshier.net:2121/sound/community_c64.wav

Statistik: Verfasst von Low012 — Di Apr 30, 2013 6:52 pm


Fragen und Antworten • \“If the crawling was paused automatically...\”

Date: 2013-04-30 21:24:31

\“If the crawling was paused automatically, please check your disk space.\” sagt http://yacy.suma-ev.de:8080/Status.html
Dann checke ich den Diskspace, und es ist auf jeder Partition reichlich davon vorhanden.
Was nun??

... fragt sich WSB

Statistik: Verfasst von wsb — Di Apr 30, 2013 8:24 pm


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-04-30 22:02:38

Damit das für alle Transparent ist - mit Michael habe ich das schon telefonisch besprochen - ja, ich \“bewache\“/zähle die gespendeten Bitcoins und führe über die Einnahmen/Ausgaben eine Tabelle.

Gruß
Thomas

Orbiter hat geschrieben:\ Über die anderen Spendenknöpfe sind nun nach einem Jahr rund 100€ zusammen gekommen. aber dein Bitcoins sind ja der Hammer!. Ich würde sagen wir lassen das Geld bei dir und schauen mal welche Ausgaben davon gedeckt werden können. Natürlich stehen wieder Ausgaben für den Linuxtag an, ggf. neue Flyer aber Kulis sind noch genügend da. Hotel- und Reisekosten gibts noch bei allen Beteiligten. Darf ich dich damit zum Bitcoin-Kassenwart nominieren?\

Statistik: Verfasst von Vega — Di Apr 30, 2013 9:02 pm


Hilfe für Einsteiger und Anwender • Re: YaCy Spenden Button gesucht

Date: 2013-04-30 22:07:23

Wir danken Dir, jeder der sich mit YaCy auseinandersetzt, ab und an einen Peer betreibt, Ideen entwickelt usw. ist für das Projekt ein Gewinn.… Falls jemand mit seiner Energie nichts anzufangen weis: http://yacy.net/de/Mitmachen.html.…

Gruß
Thomas

kaisef hat geschrieben:\ Ich war von Anfang an als ich dieses Projekt entdeckt hatte völlig begeistert. Für ein Projekt dieser Art sind allerdings mehrere Verständnis-Dimensionen oder Talente nötig, um das in Gang zu bringen. Ich hatte relativ schnell das Gefühl, dass so etwas fehlt wie ein Manager, der Erfahrungen aus der Wirtschaft mitbringt. Ich kam eben auf die Seite und habe erfreut festgestellt, dass man nun endlich auch über verbreitete Zahlungssysteme Geld spenden kann, z.B. Paypal, sogleich wollte ich 10,- EUR spenden, um dann festzustellen, dass ich mit einem Klick entweder nur 5, 25 oder 50,- EUR spenden kann!!! Ich habe dann 5 gespendet. Ich glaube dass richtig viele Leute die Macht der zentralen Suchmaschinen gerne \"angreifen\" würden, auch Leute die Geld haben. Diesen Geldstrom müsst ihr glaube ich mitnutzen, ein einfaches Eingabefeld für Beträge trägt dazu bei. Ansonsten vielen Dank für Eure Arbeit, ich selbst trag ja außer klugen Tips nichts bei bisher ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\

Statistik: Verfasst von Vega — Di Apr 30, 2013 9:07 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-04-30 22:19:08

Vielen Dank - ich werde wohl in den nächste Tagen immer mal die Fotos wechseln :-). Könntet Ihr noch sagen wo die Bilder entstanden sind ? Michael hat auch noch einiges beigesteuert - und gerade gibt es auch in Dresden schöne Motive - wenn es mal nicht regnet :-(.

Gruß
Thomas

Statistik: Verfasst von Vega — Di Apr 30, 2013 9:19 pm


Off-Topic • Re: Minecraft...

Date: 2013-04-30 22:43:15

Da kannst Du mal sehen wozu Minecraft alles gut ist ;-) - komischerweise hat mein Firefox das nicht gemacht...
Für den Fall das es in Version 5.0 frei programmierbare CPU\’s gibt, kann man ja YaCy nachbauen ;-)

Thomas

Statistik: Verfasst von Vega — Di Apr 30, 2013 9:43 pm


Off-Topic • yacy says it is not accessible

Date: 2013-05-01 07:45:43

I started a new peer

i have fixed ip 186.216.195.170

yacy intead of listening on ip 0.0.0.0 listen on ip 127.0.0.1

so, noone can access my server

when I type http://186.216.195.170:8090/ my browsers says that site is offline

hwevever works when I type http://127.0.0.1:8090 on my browser

sure, this is my error, but simple yacy insist on listening only on my localhost

after several trys ... I get ycy DB destroied .

re-installed .… and the same thigs occured again

I have no clue how to chang the ip that yacy bind / listen on

help please

thanks
Carlos_Pfitzner

Statistik: Verfasst von Carlos_Pfitzner — Mi Mai 01, 2013 6:45 am


Fragen und Antworten • RWI-Index wird nicht erstellt

Date: 2013-05-01 08:09:59

Ich möchte ein Peer betreiben, wo der Index nur von mir erstellt wird und nichts von außen rein soll bzw. nach außen soll. Dieser Peer soll aber vom Freeworld-Netz durchsucht werden können.
Die Suchanfragen kommen auch rein, doch sie werden nicht beantwortet. Wie es aussieht, wird auf dem Peer kein RWI-Index erstellt, die entsprechenden Dateien sind nicht vorhanden.

Zum Nachstellen: Peer als \“Gemeinschafts-basierte Web Suche\” und in der Netzwerkkonfiguration \“Robinson-Modus\” -> \“Öffentlicher Peer\“.

Statistik: Verfasst von PCA42 — Mi Mai 01, 2013 7:09 am


Hilfe für Einsteiger und Anwender • Re: Ausgehende Verbindungen

Date: 2013-05-01 09:40:12

Danke soweit zum Verständnis,

aber mein Problem besteht darin, die ausgehenden Verbindungen über Port 8090 zu erlauben.

Ich arbeite mit MAC OS 10.7.5,
die Firewalleinstellungen kennen offenbar nur eingehende.

Habe mir dann ein Programm zur Pflege der Ports installiert,
das zeigt dann auch nach entsprechender Einstellung 8090 als ausgehend.

Das ändert aber nichts an der AnNzeige in der AdminConsole in YaCy.

Hat jeman eine Idee dazu?

Statistik: Verfasst von JohannesMarat — Mi Mai 01, 2013 8:40 am


Fragen und Antworten • Re: Java 1.6 is only available for Intel Macs :-(

Date: 2013-05-01 11:28:29

Hi,

ja, funzt 1a auf meinem G5. Vielen Dank!!

Statistik: Verfasst von LA_FORGE — Mi Mai 01, 2013 10:28 am


Solr Support • Re: Parameter-Tuning

Date: 2013-05-01 11:44:10

Danke. Ja da hast du Recht,

Code:
endeavour:# iostat -mLinux 2.6.32-custom (endeavour)         05/01/2013      _x86_64_        (16 CPU)avg-cpu:  %user   %nice %system %iowait  %steal   %idle           7.99    0.93   17.93    3.38    0.00   69.77Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtnsda              37.85         0.10         0.67      87963     586656sdb               0.00         0.00         0.00          0          0sde             174.82         0.64        42.58     562283   37240574sdf               3.73         0.04         0.06      32541      53655



sde ist das RAID0 mit der Solr-Instanz für YaCy, da gehts schon ziemlich rund :D Bin mal gespannt wie groß der Index max. werden kann wenn ich Solr bis zu 96 GB RAM zuweisen kann. Danach brauche ich dann ein neues Board{.postlink} und einen Sponsor für 1 TB RAM :D

Statistik: Verfasst von LA_FORGE — Mi Mai 01, 2013 10:44 am


Hilfe für Einsteiger und Anwender • Re: Ausgehende Verbindungen

Date: 2013-05-01 13:25:28

In deinem Modem/Router musst du den Port ebenfalls öffnen. Hast du das schon gemacht?

Statistik: Verfasst von David — Mi Mai 01, 2013 12:25 pm


Mitmachen • Suggestion: English as default language in the forum

Date: 2013-05-01 13:51:16

Maybe it would be more social, if we try to write in english as often as possible, so people who don\’t speak german can understand us as well. (Automatic translation services don\’t provide accurate results in the most cases. Especially in complex technical explanations, etc.)

Statistik: Verfasst von David — Mi Mai 01, 2013 12:51 pm


Hilfe für Einsteiger und Anwender • Re: Ausgehende Verbindungen

Date: 2013-05-01 15:00:10

Danke David, darauf bin ich nicht gekommen.
Ich denke ich werde das Verfahren dann, wenn es mir gelungen ist, im Wiki beschreiben
Johannes

Statistik: Verfasst von JohannesMarat — Mi Mai 01, 2013 2:00 pm


Fragen und Antworten • Upload der seedlist klappt nicht per ftp

Date: 2013-05-01 22:39:29

Hallo, schönen guten Abend (oder auch Morgen, oder wie auch immer)!
Ich habe ein Problem mit dem Upload der seedlist.
Immer wenn ich versuche die Liste per FTP hozuladen bekomme ich folgende Fehlermeldung:
SaveSeedList: Seed upload failed (IO error): Server returned Status: HTTP/1.1 404 Not Found

Einstellung in Yacy:
Upload-Methode: ftp
URL: http://serach.mnd.de/yacy/seed.txt

Daten zum FTP-Server sind auch eingetragen und OK

Wenn ich dann per FTP auf den Server zugreife finde ich im angegenen Pfad dann folgende Datei: z.B.: seedFile8016789059780796661.txt
Nach dem nhächsten Versuch eine Liste hochzuladen kommt eine neue Datei dazu, dedoch mit einem anderen Namen
seedFilexxxxxxxxxxxxxx.txt
usw.

Was mache ich falsch oder gibt es noch irgendwo eine Einstellung die ich machen muss?
Viele Grüße
Fred

Statistik: Verfasst von Merlin — Mi Mai 01, 2013 9:39 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-02 00:04:16

Kann man einen eigenen Stuhl mit bringen Klappstuhl?

Statistik: Verfasst von RoGott — Mi Mai 01, 2013 11:04 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-05-02 09:12:32

IMG_20120723_103431.jpg: bei Tossens (in der Nähe von Wilhelmshaven)
IMG_0051.JPG: das müsste Mosta (Malta){.postlink} sein, rechts die Rotunda
IMG_0083.JPG: das müsste Spinola Bay in San Ġiljan (Malta){.postlink} sein

Statistik: Verfasst von Low012 — Do Mai 02, 2013 8:12 am


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-02 18:58:22

aber sicher kannst du einen Klappstuhl mitbringen!
Also die Bestellung ist nun komplett durch, hatte den Prospektständer rausgenommen. Wir haben nun 2 Stehtische, einen kleinen quadratischen Tisch, zwei Barhocker und zwei Stühle. Macht also vier Stühle, das müsste reichen. Wir müssen dann noch irgendwie eine Beamerhaltung basteln und uns was für die Prospekte ausdenken.

Noch mehr neues:

- ich habe 3000 (!) Aufkleber bestellt :lol: :lol: :lol: für 27 Euro. Bin mal gespannt wie die werden, sind nur ganz kleine 3.5x5.0 cm Sticker, schwarz, matt, mit YaCy Logo und Schriftzug \“Search Engine\“. Also ein Notebooksticker. Das wird dann \“Wurfware\“. Bin mal gespannt ob wir die zu dem Preis noch selber auseinanderschneiden dürfen...

- am 23.5. gibts um 14:00 in der Open-IT Summit (angegliederte Konferenz während dem Linuxtag) einen YaCy-Vortrag mit dem Titel \“Suchportale und Unternehmensinterne Intranet-Suche mit YaCy\” (von mir)

Statistik: Verfasst von Orbiter — Do Mai 02, 2013 5:58 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-02 19:44:45

Orbiter hat geschrieben:\ \... irgendwie eine Beamerhaltung basteln \...\


Ich bin morgen mal wieder im Baumarkt, mal sehen ob mir da was preiswertes über den Weg läuft.

Statistik: Verfasst von PCA42 — Do Mai 02, 2013 6:44 pm


Fragen und Antworten • Re: \“If the crawling was paused automatically...\”

Date: 2013-05-02 23:18:50

Funktioniert wieder.…hatte mit Diskspace nichts zu tun, crawling war deaktiviert - fragt mich bitte nicht warum...

Thomas

wsb hat geschrieben:\ \"If the crawling was paused automatically, please check your disk space.\" sagt \ Dann checke ich den Diskspace, und es ist auf jeder Partition reichlich davon vorhanden.\ Was nun??\ \ \... fragt sich WSB\

Statistik: Verfasst von Vega — Do Mai 02, 2013 10:18 pm


Fragen und Antworten • Re: \“If the crawling was paused automatically...\”

Date: 2013-05-03 00:28:15

Hallo Wolfgang,
bitte gucke mal ob \“SOLR failed to send\” im Log steht.
das hier könnte auch mit Bug http://bugs.yacy.net/view.php?id=233 zu tun haben, welchen ich eben gefixt habe.

Statistik: Verfasst von Orbiter — Do Mai 02, 2013 11:28 pm


Hilfe für Einsteiger und Anwender • Re: 1. YaCy beendet sich 2. Crawl paused

Date: 2013-05-03 00:32:31

eine Pausierung des Crawlers wurde im Bug http://bugs.yacy.net/view.php?id=233 berichtet und hab ich eben gefixt. Bitte damit wieder probieren. Fix ist up für auto-updater.

Statistik: Verfasst von Orbiter — Do Mai 02, 2013 11:32 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-03 00:35:15

Friedhelm hat dazu auch schon was vorbereitet, ich schicke euch beiden eine Mail

Statistik: Verfasst von Orbiter — Do Mai 02, 2013 11:35 pm


Off-Topic • Nie wieder leere Akkus: Infinity Cell lädt das iPhone mit Be

Date: 2013-05-03 08:16:05

Bei den letzten Vorstellungen neuer iPhones warfen verschiedene Kommentatoren Apple vor, das Smartphone zwar verbessert, aber auf revolutionäre Veränderungen verzichtet zu haben. In vielen Punkten seien Android-Smartphones besser geworden. Doch mit diesem Bewegungsladegerät könnte Apple den Telefonmarkt wieder umkrempeln.
Noch bis zum 6 Juni sammelt Bryan Keiser mit seiner Firma Ideation Designs auf der Crowdfounding-Plattform Kickstarter Geld für den „Infinity Cell Kinetic Charger”. Dahinter verbirgt sich ein Ladegerät für das iPhone, dass Bewegungen in elektrische Energie umwandelt. Zum Aufladen reicht es aus, das Telefon zu schütteln oder einfach beim Gehen in die Hosentasche zu stecken.
Die Idee, den Akku seines iPhones nebenbei durch Bewegungen aufzuladen, ist genial, nur leider handelt es sich bei dem Kickstarter-Projekt um eine Hülle, die das iPhone dicker macht. Sollte jetzt aber Apple ein wenig von seinem Barvermögen – auch nach der Ausschüttung von 100 Milliarden an die Aktionäre youtube konverter http://www.youtubekonverter.com/, befinden sich noch über 40 Milliarden im Geldspeicher – in die Hand nehmen, um Firma und Patent zu übernehmen und anschließend die ganze Technik so zu schrumpfen. Sodass sie in das iPhone passt und weniger als die 125 Dollar kostet, die momentan für den Infinity Cell Kinetic Charger fällig werden. Für den Versand nach Deutschland muss man das Projekt mit 160 Dollar, also rund 125 Euro, unterstützen.
Mit einem Smartphone, dass sich beim Gehen auflädt, hätte Apple gegenüber der Konkurrenz wieder ein Alleinstellungsmerkmal. Drahtloses Aufladen, wie es zum Beispiel das Nokia Lumia 920 (Amazon-Link) beherrscht, könnte das iPhone so ohne schlechtes Gewissen überspringen. Um Platz für das Schüttel-Ladegerät zu schaffen, wäre es vertretbar, den Akku zu verkleinern, da er aufgrund der dauerhaften Aufladung weniger Kapazität haben muss.
In diese Richtung muss es gehen
Leider ist das noch Zukunftsmusik. Und selbst wenn Apple sich zu einem Kauf der Technologie entschließen sollte, wäre der Einsatz des Schüttel-Ladegeräts selbst beim iPhone 6, das voraussichtlich 2014 erscheint, unwahrscheinlich. Immer schnellere Prozessoren, schöne Displays und bessere Kameras führen nur noch zu einem müden Gähnen. Das Projekt von Ideation Designs zeigt jedoch, mit welcher Art von Verbesserungen das iPhone wieder den Smartphone-Thron besteigen könnte.

Statistik: Verfasst von Natasha4481 — Fr Mai 03, 2013 7:16 am


Fragen und Antworten • Re: \“If the crawling was paused automatically...\”

Date: 2013-05-03 10:50:57

Orbiter hat geschrieben:\ Hallo Wolfgang,\ bitte gucke mal ob \"SOLR failed to send\" im Log steht.\



Ja, das steht da reichlich drin.

Orbiter hat geschrieben:\ das hier könnte auch mit Bug zu tun haben, welchen ich eben gefixt habe.\


Wir hoffen das Allerbeste!

Wolfgang und der ganze SUMA-EV ;-)

Statistik: Verfasst von wsb — Fr Mai 03, 2013 9:50 am


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-05-03 17:54:53

der C64 Sample hört sich genial an!

hab Shiryu geschrieben und er hat gleich sein ok gegeben! Wunderbar! Kleines Problem ist nur mit den gesprochenen Teilen aus dem Film, daran hat niemand von uns Rechte. Gilt das nicht als Kurzzitat?

Statistik: Verfasst von Orbiter — Fr Mai 03, 2013 4:54 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-05-03 20:04:57

http://low.audioattack.de/pix/yacy/SIMG0879.jpg: Langeoog, ist schon etwas älter und ich weiß nicht, ob die Qualität ausreichend ist

Statistik: Verfasst von Low012 — Fr Mai 03, 2013 7:04 pm


Hilfe für Einsteiger und Anwender • Re: failed to send to solr

Date: 2013-05-04 00:07:54

das problem ist seit gestern behoben! Siehe http://bugs.yacy.net/view.php?id=233

Statistik: Verfasst von Orbiter — Fr Mai 03, 2013 11:07 pm


Fragen und Antworten • Re: \“If the crawling was paused automatically...\”

Date: 2013-05-05 08:20:13

wsb hat geschrieben:\ >
> > Orbiter hat geschrieben:Hallo Wolfgang,\ > bitte gucke mal ob \"SOLR failed to send\" im Log steht.\ > >


Ja, das steht da reichlich drin.

Orbiter hat geschrieben:\ das hier könnte auch mit Bug zu tun haben, welchen ich eben gefixt habe.\


Wir hoffen das Allerbeste!
Wolfgang und der ganze SUMA-EV ;-)


Die Hoffnung hat leider nicht geholfen :-( Jetzt ist die Lage so: es kommen keine Fehlermeldungen mehr, auch kein \“crawling was paused\“, aber der Crawler hat seit 3 Tagen das Crawlen eingestellt, OBWOHL lt. http://yacy.suma-ev.de:8080/Crawler_p.html 5 Crawls am Laufen sein sollten.

Statistik: Verfasst von wsb — So Mai 05, 2013 7:20 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-05-05 15:02:43

Mahlzeit! Willkommen beim Spocht!

Lapaloma-Welle beim Bundeslieder-Duett zwischen Hardrock BSC Berlin und Eintracht Triangel im Fritz-Walzer-Stadion in Heiserslautern: Unter den Noten von Bundestrompeter Tromberti Vogts trommelwirbelten die Akkordnationalspieler Mario Basler auf Olaf Tonleiter und Mehmet Schall, zunächst mit Pauken und Trompeten mundharmonika über das Platzkonzert, vergeigten aber alle Tor-Chansons. Wie der Hintertorkarajan zeigte, tirilierte nach der Halbzeitpauke nur noch Triangels Flankenfagott Tschingderassabum und Cha cha cha. Nach Freischütz von Matthias Drummer in der 75. Minuette umsang er per Schallrückzieher die Abseitsfallerie-Fallera von Liberetto Anthony Oboa und Tenorwart Oliver Chan-Chan ließ den Cembalo über die Tonlinie Rock\‘n\‘Roll\‘en.

Statistik: Verfasst von LA_FORGE — So Mai 05, 2013 2:02 pm


Hilfe für Einsteiger und Anwender • Re: failed to send to solr

Date: 2013-05-06 09:38:07

Danke für die Behebung und die Info. Funktioniert jetzt wunderbar! :-)

Statistik: Verfasst von hotel24 — Mo Mai 06, 2013 8:38 am


Fragen und Antworten • Re: \“If the crawling was paused automatically...\”

Date: 2013-05-06 15:28:14

wsb hat geschrieben:\ Wir hoffen das Allerbeste!\ Wolfgang und der ganze SUMA-EV ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ Die Hoffnung hat leider nicht geholfen ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") Jetzt ist die Lage so: es kommen keine Fehlermeldungen mehr, auch kein \"crawling was paused\", aber der Crawler hat seit 3 Tagen das Crawlen eingestellt, OBWOHL lt. 5 Crawls am Laufen sein sollten.\


Habe jetzt das gemacht, was der Standard-Ratschlag ist: auf die neuste Version upgedated (1.49138) - was automatisch nicht funktioniert hat, nur mit händischem Nachhelfen. Aber der Crawler hängt schon wieder: \“PPM (Seiten pro Minute) 0\” und Crawler_p.html zeigt, dass 5 Crawls laufen (sollten).

Statistik: Verfasst von wsb — Mo Mai 06, 2013 2:28 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-06 15:52:07

Hallo Wolfgang,

was ist denn \‘händisches Nachhelfen\‘? So ein Auto-Update geht seit schon fast immer, immer! Bist du sicher dass du tatsächlich die aktuelle Version benutzt?

Zur Fehleranalyse:
gucke bitte mal ins Log (/ViewLog_p.html), ohne einen Hinweis kann man ja nicht herausfinden wo es bei dir hängt. Crawl ist ja nun offensichtlich bei dir nicht pausiert, macht aber trotzdem nichts? wie groß ist denn die Queue (/IndexCreateQueues_p.html?stack=LOCAL)? was sagt der Crawler wenn er eine URL daraus läd und versucht zu indexieren? Was steht im Error Log (/IndexCreateParserErrors_p.html)?

Statistik: Verfasst von Orbiter — Mo Mai 06, 2013 2:52 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-06 16:32:09

Orbiter hat geschrieben:\ Hallo Wolfgang,\ was ist denn \'händisches Nachhelfen\'? So ein Auto-Update geht seit schon fast immer, immer! Bist du sicher dass du tatsächlich die aktuelle Version benutzt?\


http://yacy.suma-ev.de:8080/Status.html sagt: 1.49138

Orbiter hat geschrieben:\ Zur Fehleranalyse:\ gucke bitte mal ins Log (/ViewLog\_p.html),\


Unter http://yacy.suma-ev.de:8080/ViewLog_p.html erscheint eine lange HTML-Seite, in der in Spalte 2 (fast) überall steht \“not accessed\“.

Orbiter hat geschrieben:\ ohne einen Hinweis kann man ja nicht herausfinden wo es bei dir hängt. Crawl ist ja nun offensichtlich bei dir nicht pausiert, macht aber trotzdem nichts?\


So sieht es aus.

Orbiter hat geschrieben:\ wie groß ist denn die Queue (/IndexCreateQueues\_p.html?stack=LOCAL)?\


Wiederum eine lange HTML-Seite, in der in Spalte 2 (fast) überall steht \“not accessed\“. Eine ZAHL über die Queue sehe ich nirgends.

Orbiter hat geschrieben:\ was sagt der Crawler wenn er eine URL daraus läd und versucht zu indexieren?\


Wo/wie könnte er mir dieses sagen??

Orbiter hat geschrieben:\ Was steht im Error Log (/IndexCreateParserErrors\_p.html)?\


Da steht: \“Es befinden sich 394 Einträge in Liste der zurückgewiesenen URLs.\” Und bei diesen Seiten steht dann jeweils 404.

Statistik: Verfasst von wsb — Mo Mai 06, 2013 3:32 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-06 16:49:07

404 heisst die Seite existiert nicht. Kannst du gucken ob die Seiten tatsächlich nicht existieren oder von dem Host, der YaCy betreibt, nur nicht erreichbar sind?

Statistik: Verfasst von Orbiter — Mo Mai 06, 2013 3:49 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-06 18:00:23

Orbiter hat geschrieben:\ 404 heisst die Seite existiert nicht. Kannst du gucken ob die Seiten tatsächlich nicht existieren oder von dem Host, der YaCy betreibt, nur nicht erreichbar sind?\


Das sind alles Favicon Seiten (favicon.ico) und die existieren wirklich nicht.

Statistik: Verfasst von wsb — Mo Mai 06, 2013 5:00 pm


Wunschliste • Re: Erweiterung von Statistics about top-domains in URL Data

Date: 2013-05-06 18:56:15

Wäre das sehr schwer zu implementieren? Ich würde solch eine Funktion sehr schätzen.

Statistik: Verfasst von LA_FORGE — Mo Mai 06, 2013 5:56 pm


Wunschliste • Re: Erweiterung von Statistics about top-domains in URL Data

Date: 2013-05-06 21:08:21

im Prinzip ist diese Funktion mit Solr nun überflüssig weil man das per facet query bekommen kann, z.B.

Code:
http://localhost:8090/solr/select?q=*:*&defType=edismax&start=0&rows=0&core=collection1&facet=true&facet.field=host_s&facet.sort=count&facet.limit=100000



zeigt dir 100000 hosts in einer XML an, sortiert nach häufigstem host zu wenigstem. Leider habe ich noch nicht herausgefunden wie man die Sortierungsreihenfolge ändern kann, das ist nicht gerade der Standardfall. Bei meinem 11Mio-Index habe ich da mit 100000 hosts in der Liste immer noch nicht diejenigen mit nur einem Treffer drin...

Die Doku zu den Facetten ist hier:
http://wiki.apache.org/solr/SimpleFacet ... facet.sort{.postlink}

Statistik: Verfasst von Orbiter — Mo Mai 06, 2013 8:08 pm


Hilfe für Einsteiger und Anwender • Re: Beeinflussung des Crawl-Verhaltens

Date: 2013-05-06 23:58:41

Hallo Orbiter,
vielen Dank für die Erweiterung, so habe ich mir das vorgestellt.
Die Anforderung \’... bestimmte allgemeine Eigenschaften ...\’ macht so natürlich keinen Sinn, ist halt zu allgemein.
Die mögliche Verwendung derartiger Filter wurde in den anderen Kommentaren ja schön skizziert.

Statistik: Verfasst von fliebke — Mo Mai 06, 2013 10:58 pm


Wunschliste • Re: Erweiterung von Statistics about top-domains in URL Data

Date: 2013-05-07 12:16:01

Vielen Dank

Statistik: Verfasst von LA_FORGE — Di Mai 07, 2013 11:16 am


Wunschliste • Re: Erweiterung von Statistics about top-domains in URL Data

Date: 2013-05-07 15:31:38

Ich hab spaßeshalber nochmal eine 0 drangehängt bei den Ausgaben und die Ergebnisse mit wget in eine lokale Datei XML-Datei geschrieben. Die hat jetzt über 40 MB :D und es werden auch Domains angezeigt wo nur \“1\” Result vorhanden ist. Es gibt nur wenige Editoren die so große Dateien blitzschnell öffnen können, VEdit (64-Bit-Version) konnte mir das XML nicht richtig darstellen, der Firstobject XML Editor{.postlink} kann es (auch blitzschnell), über die Align-Funktion (Shift-F8 wenn die Datei geöffnet ist). Genial wäre es doch, wenn sich 10 (20/30/40) von diesen Domains wo nur 1 Ergebnis/Seite im Index vorhanden ist, mit YaCy automatisch ermitteln ließen und wenn man sie als Crawl Start Point weiterverwursten könnte.

Statistik: Verfasst von LA_FORGE — Di Mai 07, 2013 2:31 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-05-08 15:43:51

http://www.netzwelt.de/news/95777-googl ... blick.html{.postlink}

Statistik: Verfasst von Orbiter — Mi Mai 08, 2013 2:43 pm


Fragen und Antworten • Re: RWI-Index wird nicht erstellt

Date: 2013-05-08 16:52:44

ja, ich denke das Verhalten ist so wie es war tatsächlich nicht ganz konsequent. An dieser Stelle müsste auch der unterschied zwischen einem public robinson und einem portalpeer sein, in diesem Fall: der Portalpeer macht keine DHT-Indexdaten, der public Robinson aber schon, auch wenn er keine verschickt oder empfängt. Ich habe das so nun umgestellt.
Kleiner Hinweis, man kann aber nun auch den DHT-Out anstellen ohne den eigenen Index zu verlieren, weil der ja aus dem Solr bezogen wird. Der Solr index bleibt, auch wenn alle DHT-RWIs versendet wurden.

Statistik: Verfasst von Orbiter — Mi Mai 08, 2013 3:52 pm


Fragen und Antworten • Re: RWI-Index wird nicht erstellt

Date: 2013-05-08 19:50:02

Danke, funktioniert jetzt so wie es aus meiner Sicht erwartet wurde. Werde den Peer jetzt mal mit Daten befüllen.

Statistik: Verfasst von PCA42 — Mi Mai 08, 2013 6:50 pm


Fragen und Antworten • Verständnisfrage \‘CrawlResults.html\’

Date: 2013-05-09 16:44:34

Hi,

ich habe eine Frage zu dem \‘delete all\’ Button auf der Seite CrawlResults.html. Ich habe nur eine Solr-Instanz laufen und 4 YaCy-Instanzen nutzen sie als Remote Solr Search Index, wenn ich jetzt bei einem Peer auf der Seite CrawlResults.html bei einer bestimmten Domain auf \‘delete all\’ drücke, wird dann die ganze Domain aus dem Solr-Index gelöscht oder nur das Delta was von dem Peer aktuell gecrawlt wurde?

Statistik: Verfasst von LA_FORGE — Do Mai 09, 2013 3:44 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-09 18:20:21

Hallo,

ich hatte bei mir ähnliche Phänomene (Crawling stagniert) und bin dann auf die Version 1.2 Build 9000 runter, um wieder mit voller Geschwindigkeit crawlen zu können. Die Version 1.3 Build 9038 tuts aber auch ohne dass der Crawler irgendwann stehen bleibt.

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Do Mai 09, 2013 5:20 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-09 19:44:08

ein Rückmigrieren ist nicht sinnvoll weil ältere Versionen ganz viele Solr Felder füllen, die in neueren Versionen nicht mehr benutzt werden.

Statistik: Verfasst von Orbiter — Do Mai 09, 2013 6:44 pm


Fragen und Antworten • Re: Verständnisfrage \‘CrawlResults.html\’

Date: 2013-05-09 19:46:10

die ganze Domain wird gelöscht!

Statistik: Verfasst von Orbiter — Do Mai 09, 2013 6:46 pm


Fragen und Antworten • Re: Verständnisfrage \‘CrawlResults.html\’

Date: 2013-05-09 22:46:58

thx

Statistik: Verfasst von LA_FORGE — Do Mai 09, 2013 9:46 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-10 15:41:17

Orbiter hat geschrieben:\ ein Rückmigrieren ist nicht sinnvoll weil ältere Versionen ganz viele Solr Felder füllen, die in neueren Versionen nicht mehr benutzt werden.\



Achso. Dann gehe ich wieder auf die v1.4 Build 9106 hoch.

\@Devs könnt ihr bitte mal nach dem Code an der Stelle schauen, damit das Crawling wieder mit Highspeed läuft, wie man das von YaCy gewohnt ist.

Code:
endeavour:# iostat -mLinux 2.6.32-custom (endeavour)         05/10/2013      _x86_64_        (16 CPU)avg-cpu:  %user   %nice %system %iowait  %steal   %idle          10.84    2.93   16.20    3.87    0.00   66.16Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtnsda              48.33         0.08         0.65      54516     443636sdb               0.00         0.00         0.00          0          0sde             168.50         1.10        38.95     745472   26446952



sde ist die Platte mit der Solr-Instanz für YaCy. Ich wollte die 40 TB I/O-Traffic dieses Jahr noch erreichen :D momentan bin ich \“erst\” bei 26 TB :D (7 Tage Laufzeit der Maschine).

Statistik: Verfasst von LA_FORGE — Fr Mai 10, 2013 2:41 pm


YaCy Coding & Architektur • \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Server

Date: 2013-05-11 11:56:55

ich überlege nun wie man den Junior-Peers einen offenen Port über andere Senior Peers durchreichen kann, damit auch Junior Peers durchsuchbar werden können.
Dabei habe ich folgendes Konzept:

- (a) Ein Senior Peer muss einem Junior Peer einen Server Port \‘durchreichen\‘. Ist dies erfolgreich, erlangt der Senior Peer einen neuen Peer-Status, er darf sich dann \‘Mentor\’ nennen. Der Junior Peer bekommt auch einen Upgrade und heisst dannn \‘Mentee\‘.
- (b) Ich habe zwei Optionen in Betracht gezogen, wie der Mentor zum Mentee routen könnte:
(1) entweder per http und dem Host-Namen, der in http/1.1 obligatorisch ist damit ein Server multi-Hosting machen kann. Als Hostnamen würde dann die yacyh-domäne in Betracht kommen, also <peer-hash>.yacyh. Das wäre eine ziemlich transparente Sache. Nachteil: der Mentor kann theoretisch \‘mitlauschen\‘. Daher Option (2):
(2) der Mentor operiert als https-Proxy, routet also über das http:CONNECT Kommando transparent zum Mentee. Das erfordert aber, dass der Mentee seinen Server mit einem ssl Key ausgestattet hat und den https Server Port an den Mentor übergibt. Das erfordert aber, dass der Mentee einen default ssl Schlüssel hat, das habe ich gestern eingecheckt.
- © Wenn der Mentor nun also nun ein transparenter https Proxy ist, dann muss man sicherstellen, dass das nicht jeder missbrauchen kann. Es muss also eine Anmeldephase geben, bei der ein Client des Mentors zeigt, dass er ein YaCy Peer ist und auch einen Suchindex hat, den der Mentor testen kann bevor er dem Junior den Mentee-Status gibt.
- (d) damit der Mentee keine Belastung für RAM und IO des Mentors ist, darf der Mentor beim \‘Durchreichen\’ weder zwischenspeichern noch IO machen. Das geht leicht, ein transparenter Proxy braucht fast nichts.
- (e) damit der Mentor einen guten upstream hat, muss dafür ein Root Server o.ä. vorhanden sein. Das können wir ja inzwischen identifizieren, das sind die \‘Node Candidates\‘. Ein Junior sollte also nur Node Candidates anfragen, um einen Mentor zu bekommen und somit Mentee zu werden. Alternativ kann ein Peer direkt benannt werden können, damit man das selbst managen und testen kann.
- (f) Damit ein Routing zu einem Mentee möglich wird, muss der Mentee seinen Mentor im eigenen Seed benennen. Damit diese Info nicht zu schnell veraltet, sollte ein Mentee bei jedem Start den gleichen Mentor um Routing bitten.
- (g) Analog zu (f) muss ein Mentor einen wiederkehrenden Mentee bevorzugt aufnehmen, wenn er diesen schon vorher mal akzeptiert hat. Ansonsten kann ein Mentor natürlich einen Mentee ablehnen, wenn er über eine Kapazitätsgrenze ist. Wo diese Grenze ist, müssen wir herausfinden.
- (h) Default-Einstellungen: ein Senior Peer sollte per default Mentees akzeptieren, jedoch sollte es eine Funktion geben, dies auszuschalten. Aber per default eben an, sonst machts keiner. Wem die Sicherheitsmechanismen zu gering sind, damit getestet werden kann dass ein Mentee auch ein YaCy Peer ist, der kann das ja ausschalten. Wir müssen also sehr stark an © arbeiten, damit das mehr oder weniger sicher ist.
- (i) Für Mentor und Mentee sollten Visualisierungen in die Netzgrafik und Tabelle, das habe ich schon mit neuen Icons vorbereitet. Entsprechend sollte die Statistik dann von mehr aktiven Peers berichten.
- (j) Folgeeffekt von (i): wir wissen ja gar nicht wieviele Junior Peers momentan vorhanden sind, wir wissen nur welche Junior Peers überhaupt mal beim eigenen Peer \‘geklingelt\’ haben. Das sind wahrscheinlich viel weniger als tatsächlich vorhanden sind aber gleichzeitig ist die Zahl viel höher als aktive Peers vorhanden sind. Wenn dieser Effekt bei den Mentees behoben werden sollte, muss ein Mentor davon berichten welche Mentees bei ihm gemeldet sind. Dies könnten wir schonmal vorab \‘simulieren\‘, indem Node Peers in ihrem hello respone auch bekannte junior peers mit angeben.

Bitte mithelfen das durchzudenken, was kann man verbessern, was habe ich übersehen?

Statistik: Verfasst von Orbiter — Sa Mai 11, 2013 10:56 am


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen (Subjekt geänder

Date: 2013-05-11 12:18:50

also beim suma-ev Peer gabs ein Deadlock in der YaCy-seitigen Solr API. Der wurde durch einen gleichzeitigen Crawl Start während einem laufenden Crawl ausgelöst. Der Crawl start führt bei bestimmten Optionen (site-crawl) zu einem Löschen der vorherigen (nun neu zu crawlenden) Webseiten, und genau so ein Löschvorgang hat mit insert-Requests zusammen in einem Deadlock gehangen. Ich habe nun die Synchronisationen in der API entfernt, ich glaube die waren nicht unbedingt notwendig, d.h. es sollten durch gleichzeitige Zugriffe auf Solr keine Inkonsistenzen auftreten. Was Solr da nun mit macht ist mir unbekannt, ich weiss nicht ob die durch gleichzeitige Zugriffe per solrj ein problem haben können.

Statistik: Verfasst von Orbiter — Sa Mai 11, 2013 11:18 am


Presse • YaCy bei Google plus

Date: 2013-05-11 14:32:22

Bitte nicht schlagen ;-)
Dort fragt ein französischer Anwender nach Press-Releases etc. für die französisch-sprachige WikiPedia-Seite über YaCy:
https://plus.google.com/b/110283375734521017806/110283375734521017806/posts

\ Herve Robin 06.05.2013\ Thanks all the editors of the French Wikipedia page about YaCy who allow every one French-reading to know a little more about this remarkable search engine ;-P\ \ By the way, any press release, any paper to support the article?\

Statistik: Verfasst von Huppi — Sa Mai 11, 2013 1:32 pm


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2013-05-11 14:35:17

Das klingt spannend! Der Wert der Junior-Peers könnte so deutlich erhöht werden.

Statistik: Verfasst von Huppi — Sa Mai 11, 2013 1:35 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-11 14:48:26

Ich habe am 23.05. leider einen beruflichen Termin, den ich nicht verschieben kann.
Ich versuche, am 24.05. zu koommen, kann\’s aber noch nicht versprechen.

Statistik: Verfasst von Huppi — Sa Mai 11, 2013 1:48 pm


Fragen und Antworten • Solr Boosts?

Date: 2013-05-12 10:46:11

Ich habe mal an den \“Solr Boosts\“-Parametern gedreht (http://yacy.suma-ev.de:8080/RankingSolr_p.html), aber ich kann nicht sehen, dass es irgend einen Einfluß auf das Ranking in der Ergebnisliste hat. Mache ich was falsch? Habe hinterher den Schalter unten \“Set Field Boost\” geklickt. Muss yacy neu gestartet werden?

P.S.: bei der RWI Ranking Configuration (http://yacy.suma-ev.de:8080/RankingRWI_p.html) ist das anders: wenn ich dort Parameter ändere, ändert sich auch die Ergebnisliste.

Statistik: Verfasst von wsb — So Mai 12, 2013 9:46 am


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen => gefixt :-)

Date: 2013-05-12 16:41:27

Vielen Dank. Ist der Fix schon in der 1.4 Build 9172 drin? Es bleibt bei mir immer noch hängen :-( bei der v1.3 Build 9038 habe ich konstant über 800 PPM (Gleicher Crawl Start Point, Cache vorher gelöscht und ganz von vorne angefangen).

Statistik: Verfasst von LA_FORGE — So Mai 12, 2013 3:41 pm


Fragen und Antworten • Re: Ranking in YaCy?

Date: 2013-05-12 17:13:27

Vega hat geschrieben:\ \..., auch die Stringsuche funktioniert jetzt endlich richtig\...\


Falls damit die Suche nach einem genauen Wortlaut bzw. Wortgruppe (exact phrase) mithilfe von Anführungszeichen gemeint ist, muss ich widersprechen. Es werden immer noch Resultate angezeigt die zwar alle Wörter, nicht aber den gleichen Wortlaut enthalten.

Wenn man in der Suchmaske auf \“mehr Optionen...\” klickt, wird zwar auch erklärt:

/near Mehrere Wörter sollen nah zusammenstehen
\”\” Mehrere Wörter sollen nah zusammenstehen

Was ich mich dabei irritiert ist, wieso solche \“near-Operatoren\” überhaupt existieren. Es sollte doch eigentlich vornherein klar sein, dass Resultate bei denen die Wörter nahe beisammenstehen erwünschter sind, als solche wo sie weit auseinander liegen. (Wieso sollte ein Benutzer auch auf der Suche nach einer Seite sein, wo die Wörter möglichst weit auseinander liegen?)

Auf jeden Fall würde ich es gut finden, wenn bei Yacy (genau gleich wie es auch bei 99% aller anderen Suchmaschinen im Internet ist) eine Suche mit Anführungszeichen dazu führt, dass nur Resultate angezeigt werden, wo der genaue Wortlaut vorkommt (alle Wörter, in der gleichen Reihenfolge, und ohne Zwischenwörter).

Statistik: Verfasst von David — So Mai 12, 2013 4:13 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-12 21:26:36

hi Huppi, wäre super!

wie jedes Jahr, habe ich
[[4-Tage-Freikarten]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-weight: bold”}
wer eine will, schickt mir bitte eine PM oder mail mit der Email-Adresse des Freikarten-Nutzers!

Statistik: Verfasst von Orbiter — So Mai 12, 2013 8:26 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-13 00:12:27

Hinweis zu den Freikarten: ich bekomme als Aussteller 25 Stück und meistens werde ich die nie alle los. Die Ausstellertickets werden NICHT davon genommen, die gibts nochmal extra und sehen auch anders aus. Also keine Scheu, bitte nach den Freitickets fragen!

So kommen die Standhelfer an die [Ausstellertickets]{style=“font-style: italic”}: ich bekomme alle Tickets beim Standaufbau ausgehändigt. Wer rein will, ruft mich kurz vor Eintreffen bei der Messe an, ich komme dann zu Eingang. Telefonnummer steht im Impressum.

Die [Freitickets]{style=“font-style: italic”} hingegen werden vom Nutzer selber ausgedruckt, dazu muss das Ticketsystem aber die email-Adresse von mir bekommen!

Statistik: Verfasst von Orbiter — So Mai 12, 2013 11:12 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-13 02:14:27

[YaCy-Vortrag bei der open-it summit{.postlink} @ Linuxtag]{style=“font-weight: bold”}

die ersten zwei Tage zeitgleich zum Linuxtag ist ja auch immer eine Business/Industry Messe mit angeschlossener Konferenz. In diesem Kontext habe ich einen Vortrag über YaCy als Intranet/Appliance-Anwendung im \“Big Data and Business Analytics\“-Track mit dem Titel:

[\“Suchportale und Unternehmensinterne Intranet-Suche mit YaCy\“]{style=“font-weight: bold”}

Der (dort noch nicht publizierte) Langabstract dazu ist:

\ Search Appliances sind weit verbreitete Werkzeuge, um Suchportale für Intranets oder Unternehmens/Institutsdaten zu realisieren. In diesem Vortrag wird gezeigt, dass kommerzielle Appliances durch die freie Suchmaschinensoftware YaCy ersetzt werden kann.\ \ Wir zeigen als live-Demonstration:\ - wie einfach es ist, ein Suchmaschinenportal selbst zu erstellen\ - wie man einen Suchindex für das Web oder Intranet erstellt\ - wie leicht es ist, ein Produktions- set-up zu machen um wiederkehrende Aufgaben zu kontrollieren.\ - wie die Suchmaschine dann als Nachrichtendienst genutzt werden kann und mit automatischen Suchanfrage und RSS feeds Nachrichten aus den indexierten Daten erzeugt werden\ - wie die Suchmaschine als SEO-Tool genutzt werden kann.\ \ YaCy wurde als Peer-to-Peer Suchmaschine für das Web konzipiert, aber im stand-alone Modus kann sie auch wie eine Appliance genutzt werden. Durch zahlreiche Projekte in diesem Umfeld hat die Software nun eine Funktionsmenge erreicht, die sie zum Kandidaten für den Ersatz von kommerziellen Appliances macht.\


Das ist am Donnerstag um 14:00, leider sind wir genau an dem Tag am Stand nur schwach besetzt. Aber das können wir ja noch am Mittwoch ggf. absprechen.

Statistik: Verfasst von Orbiter — Mo Mai 13, 2013 1:14 am


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-13 16:24:02

Die neuen Aufkleber sind da!
3000_YaCy_Sticker.jpg
.. in ausreichender Stückzahl, 3000 Stück!

Statistik: Verfasst von Orbiter — Mo Mai 13, 2013 3:24 pm


Mitmachen • Re: YaCy Werbefilm - Video Mashup

Date: 2013-05-13 20:12:57

Ich habe noch ein paar C64-Samples nach ftp://allesehersonerdshier.net:2121/sound/ hochgeladen. Hört sich teilweise etwas rau an, musst mal schauen, was davon überhaupt brauchbar ist.

Zu den gesprochene Teilen aus Filmen: Ich spiele ja in einer Band und da haben wir mal eine CD aufgenommen und in einem Lied ein Sample aus einem Film benutzt. Unser Gitarrist hatte damals nachgeforscht und meinte das wäre kein Problem. Seine Begründung war (glaube ich) damals auch \“Kurzzitat\“. Da wir die CD aber selbst finanziert haben und nur selbst verkaufen, hat das auch nie ein Anwalt oder so überprüft.

Statistik: Verfasst von Low012 — Mo Mai 13, 2013 7:12 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-13 20:13:58

Hurra! Ich hätte gerne einen! :)

Statistik: Verfasst von Low012 — Mo Mai 13, 2013 7:13 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-05-14 11:56:40

http://www.google.com/search?q=atari+breakout&tbm=isch

Statistik: Verfasst von Orbiter — Di Mai 14, 2013 10:56 am


Solr Support • Remote Solr Instanz mit spez. IP-Direktive absichern

Date: 2013-05-14 13:24:10

Hallo,

ich habe den embedded Solr deaktiviert und habe eine Remote Solr Instanz für YaCy aufgesetzt wie auf der IndexFederated_p.html Seite beschrieben. Jetzt habe ich herausgefunden, dass man mit der Direktive

<Valve className=\“org.apache.catalina.valves.RemoteAddrValve\” allow=\“192.168.100.4″/>

In der server.xml IP-Adressen whitelisten kann, die auf die Solr-Instanz zugreifen dürfen. Kann ich das dort auch im CIDR-Format hinterlegen? Also in meinem Fall dann 192.168.100.0/24 oder nimmt die Direktive nur einzelne IPs an?

YaCy selbst bleibt auf jeden Fall weiterhin von außen erreichbar, da es auf einem anderen Port als Solr läuft.

Statistik: Verfasst von LA_FORGE — Di Mai 14, 2013 12:24 pm


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2013-05-14 16:13:38

Absolut genial, Michael! Hut ab!

Das das Netz weitaus größer ist als yacystats.de anzeigt habe ich ja schon vor einiger Zeit herausgefunden. Man muss nur mal Wireshark ein paar Stunden mitlaufen lassen und auf dem Port wo yacy \“von außen\” erreichbar ist mitlauschen und sich die IPv4 Endpoints anzeigen lassen (Menü Statistics => Endpoints). Es ist unfassbar, aus welchen Teilen der Welt dort Verbindungen zusammenkommen :-)

Statistik: Verfasst von LA_FORGE — Di Mai 14, 2013 3:13 pm


Solr Support • Re: Remote Solr Instanz mit spez. IP-Direktive absichern

Date: 2013-05-14 16:15:53

gute Idee, aber nicht wirklich eine YaCy Frage. \‘catalina\’ weist darauf hin dass es eine Steuermöglichkeit für einen Tomcat ist, da bin ich auch fündig geworden:
http://tomcat.apache.org/tomcat-7.0-doc ... s%20Filter{.postlink}
und da steht unter \‘allow\’: \“A regular expression (using java.util.regex)\“.

also vermute ich mal dass in deinem Fall für ein /24er Subnetz folgender String richtig sein sollte:
192.168.100\..*
hab ich aber nicht probiert.

jedenfalls ist das aber ein total guter Hinweis wie man eine YaCy/Solr Paarung ohne Passwort bzgl. Zugriffe absichert.

Statistik: Verfasst von Orbiter — Di Mai 14, 2013 3:15 pm


YaCy Coding & Architektur • Frage Speicherallokation

Date: 2013-05-14 16:19:22

Hallo,

ich habe eine Frage zur Speicherallokation wenn man das embedded Solr von YaCy deaktiviert. Wird Solr beim Start von YaCy dann immer noch mitgeladen? Umso größer der Index wird, umso mehr RAM muss ich doch der separaten Solr-Instanz zuweisen oder?

Statistik: Verfasst von LA_FORGE — Di Mai 14, 2013 3:19 pm


YaCy Coding & Architektur • Re: Frage Speicherallokation

Date: 2013-05-14 16:41:26

Hallo LA_FORGE,

ich habe zwar bisher noch kein seperates Solr probiert, aber Solr ist definitiv kein RAM-Spar-Wunder.
Für die Suche und vor allem das Sortieren braucht es ganz sicher mehr RAM mit steigender Index-Menge.
YaCy an sich sollte dann nicht mehr soo sehr einen Mehrverbrauch verzeichnen - aber das hab ich wie gesagt nicht probiert.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Mai 14, 2013 3:41 pm


Panorama • Re: Digitale Bildungslandschaften (Software, Projekte)

Date: 2013-05-14 22:33:18

Hi, tut mir leid, dass ich jetzt erst antworte.
Ich erarbeite ja in meiner Diplomarbeit ein Konzept für eine Lernplattform in einem informellen Bildungskontext.
In dem Zusammenhang habe ich natürlich nach ähnlichen Projekten gesucht, um mich daran zu orientieren.
Da gibt es noch nicht viel. Vor allem sind Publikationen darüber schwer zugänglich und wenig aussagekräftig.

Grundsätzlich ist es ein guter Gedanke, bei informeller Bildung an ein soziales Netzwerk zu denken. Dieses muss allerdings einige Bedingungen erfüllen:
Es sollte Möglichkeiten bieten, Untergruppen einzurichten. Diesen Untergruppen müssen soganannte Räume zur Verfügung stehen, in denen gemeinsame Dokumente zugänglich sind. Der Gruppeneigner muus die Möglichkeit haben, geeignete Tools für die Gruppe zur Verfügung zu stellen. Welche Tools sinnvoll und notwendig sind, hängt vom konkreten Zweck der Community ab und den konkreten Aufgaben ab. In Frage kommen: Foren, kollaborative Werkzeuge zum Bearbeiten von Dateien, inbesondere Text, Mindmaps. Moderierte Kommunikation in Foren kann für Projekte wichtig sein, insbesondere, wenn Experten zu Gast sind. Moderation muss technisch unterstützt werden.

Wichtig für Communities ist es, dass man Rollen flexibel definieren kann und diesen Rollen Rechte zuweisen kann. Für eine Lern-Community können Moderatoren, Experten (Gäste), Mediatoren, AG-Leiter, Administratoren mit abgestuften Berechtigungen,etc) relevant sein.
Außerdem benötigen Communities diverse Policies (Nutzungsbedingungen, ergänzende Informationen zum Ziel der Community, erwünschtes Verhalten in der Gemeinschaft, Datenschutz, Moderationsrichtlinie, Richtlinien zur Nutzerfreundlichkeit,... ), die an geeignetem Ort zugägnlich gemacht werden müssen. Ggf. werden solche Policies in Gruppenprozessen erstellt. Wesenliche Frage ist, ob die Communty sich selbst steuert oder von einem Betreiber gesteuert wird. In beiden Fällen sind administrattive Tools von Bedeutung, um die Arbeit zu erleichtern. Bei selbst gesteuerten Communities sind zusätzlich Abstimmungstools (Voting) wichtig.

Ich realisiere mein Konzept mit Ning, einer amerikanischen Plattform und bewerte Usability-Kriterien.
Ning ist ein Soziales Netz, dass viele Tools (Forum, Weblogs, Mindmap und vieles mehr) mit einheitlichem Look & Feel integrierrt hat. Neben der Vermeidung von MEdienbrüchen ist dabei vor allem der Single Login von grosser BEdeutung. Vorteil eines solchen NEtzwerk Hosts sind die Entlastung bei Skalierbarkeit, technische Unterstützung, vor allem auch die Schnittstellen zu Handys etc. Nachteil ist die Abhängigkeit vom Betreiber und dessen zukünftiger Politik (Kosten, Werbung, Datenschutz).
Bei Ning hat die Google-Suchmaschine auch umfanreich Zugriff, was ich weniger toll finde.

Ein deutscher Hostinganbieter für soziale Netzwerke ist mixxt. Das Design hat sich schon etwas verbessert im Vergleich zu den Anfängen.

Meine Erinnerung an Diaspora sind zu sehr verblasst, als dass ich mir ein Urteil erlauben könnte, ob der Ansatz taugt. Integrierte Tools sind wohl nicht vorhanden. Auch wäre es wichtig, dass die Community Webseiten in die Plattform integrieren kann, auf denen organisatorische Informationen für Mitglieder und Fremdlinge zugänglich sind. (z.B. About us, Termine, Ansprechpartner, Projekte, Internes, ...)

Grundsätzlich muss die Softwareauswahl für jede Community nach sorgfältiger Analyse einzeln vorgenommen werden. Dabei spielen Community-Zweck und Zielgruppe eine grosse Rolle. Andererseits kann man evtl. eine sinnvolle Grundmenge an Tools bestimmen, die für Lernnetzwerke relevant sind. Ich fände die Idee einer freien Software toll, die ähnliche Funktionen wie Ning oder mixxt erfüllt. Ist das Deine Idee?

Statistik: Verfasst von Uhura — Di Mai 14, 2013 9:33 pm


YaCy Coding & Architektur • Re: Frage Speicherallokation

Date: 2013-05-15 09:05:21

Danke. Ich werde dann gleich mal den Startparameter von -Xms2048M -Xmx16384M auf -Xms4096M -Xmx32768M ändern :-)

Bis 96G kann ich hoch gehen, bin mal gespannt wie groß der Index dann max. werden kann. Ich träume ja immer noch hiervon{.postlink} mit 288 GB RAM bestückt. Voll bestückt, mit 1 TB RAM, läge es in der Preisklasse eines Mittelklassewagens :D

Statistik: Verfasst von LA_FORGE — Mi Mai 15, 2013 8:05 am


Mitmachen • Re: Aufkleber und Peer-Bilderaktion

Date: 2013-05-16 10:11:20

Aufgrund aktueller Vorkommnisse (3000 neue Aufkleber) möchte ich gerne die Aktion wiederholen und schicke euch nicht einen, sondern X Aufkleber zu, mit 1<=X<=100 (!). Kostet nix, ich bitte nur um ein Bild des aufgeklebten Stickers!

Bild

[Wer also welche will, schickt mir eine zusende-Adresse per PM oder email (siehe Impressum) und eine Angabe zur Anzahl X]{style=“font-weight: bold”}, bei X>10 mit einem Hinweis darauf, wie die X Aufkleber weiterverteilt werden.. Eure postalische Adresse wird von mir nicht gespeichert, nur einmalig vom Bildschirm auf einen Umschlag abgeschrieben und dann gelöscht.

Die Dinger waren übrigens nicht so teuer, der Stückpreis liegt bei 1 Cent!

[Bitte nach Erhalt hier wieder ein Bild vom aufgeklebten Sticker posten]{style=“font-weight: bold”} oder per tweet \@yacy_search oder einen beliebigen anderen anonymen Weg. Bitte auch als Weiterverteiler der Aufkleber von der Aktion erzählen und um das Posten eines Bildes bitten!

Statistik: Verfasst von Orbiter — Do Mai 16, 2013 9:11 am


Mitmachen • Re: Aufkleber und Peer-Bilderaktion

Date: 2013-05-16 10:42:44

wer in Berlin wohnt, kann die aber auch an unserem Stand beim Linuxtag abholen, Freikarten gibts bei mir, bitte dazu mir nur eine email-Adresse senden!

Statistik: Verfasst von Orbiter — Do Mai 16, 2013 9:42 am


Wunschliste • Re: OCR für Bilder

Date: 2013-05-17 21:32:44

Ich habe mich nun einmal genauer mit dem Java OCR beschäftigt, und finde die Resultate unbefriedigend. Wenn nicht exakt die genutzte Schrift trainiert ist, dann gibt es viele Fehlerkennungen. Das habe ich mit Screenshots aus der Textverarbeitung getestet. Für den Anwendungsfall für den es entwickelt wurde ist das sicher ausreichend (Bücher mit bekannter Schrift digitalisieren).

Statistik: Verfasst von Lotus — Fr Mai 17, 2013 8:32 pm


Mitmachen • prompt

Date: 2013-05-18 17:08:40

how to understand it?
HTTPDFileHandler access blocked, clientIP=127.0.0.1
and apply the brakes

Statistik: Verfasst von mass — Sa Mai 18, 2013 4:08 pm


Hilfe für Einsteiger und Anwender • Re: Index exportieren und importieren

Date: 2013-05-18 19:33:24

Wird dabei evtl. bestehende Daten komplett überschrieben, oder ergänzt? Oh und was genau wird dabei eigentlich alles exportiert?

Statistik: Verfasst von Seitenreiter — Sa Mai 18, 2013 6:33 pm


Hilfe für Einsteiger und Anwender • Migration 1.3 -> 1.4

Date: 2013-05-18 19:36:44

Hi,
ich habe seid längerem mal wieder Yacy angeschaut und auf einem seperaten Rechner die neueste 1.4 installiert. Lief ganz gut und ein bißchen wurde ja auch schon die Oberfläche aufgeräumt :)
Nun würde ich gerne meinen Node auf dem Desktop reaktivieren, der noch 1.39000 hat. Leider fährt er nicht mehr hoch, da er zu wenig RAM bekommt. Durch viele Importe ist die Größe von /DATA auch auf 40GB angewachsen.
Daher meine Frage, wie kriege ich möglichst viel von meiner Arbeit gerettet, ohne die neue Version gleich wieder mit zu viel Schrott zu belasten?

Danke schon mal :)

Statistik: Verfasst von Seitenreiter — Sa Mai 18, 2013 6:36 pm


Off-Topic • Linux Hardware-Problem?

Date: 2013-05-19 15:53:22

Hi,

ich habe im Kernel Buffer (dmesg) folgende Meldung entdeckt:

Code:
[1457165.823191] Machine check events logged



Leider steht da nicht mehr. Weiß jemand wie ich diese Events einsehen kann? Liegt evtl. ein Hardware-Problem vor?

Statistik: Verfasst von LA_FORGE — So Mai 19, 2013 2:53 pm


Fragen und Antworten • Administration-Page

Date: 2013-05-20 19:13:23

Hallo,

ich habe eine Einsteigerfrage, deren Antwort ich nirgendwo fand.

Sytem: Ubuntu 12.04 / VServer

Ich habe mir Yacy entsprechend http://www.ubuntugeek.com/yacy-peer-to-peer-free-software-search-engine.html installiert und möchte nun auf die Administrationsseite entsprechend http://localhost:8090/.

Dazu dachte ich zuerst an Portforwarding via Putty anlog zu http://www.cs.uu.nl/technical/services/ssh/putty/puttyfw.html. Doch das scheint nicht die korrekte Lösung zu sein, die Admin-Seite wird nicht gefunden. Was habe ich zu tun?

Besten Dank :-)

Statistik: Verfasst von erik — Mo Mai 20, 2013 6:13 pm


Fragen und Antworten • Re: Administration-Page

Date: 2013-05-20 20:34:02

Es dauert manchmal eine ganze Weile (~30sec) ehe das Webinterface läuft.
Probier doch mal per netstat auf dem Server zu schauen, ob sich Yacy darauf bindet.

Statistik: Verfasst von Seitenreiter — Mo Mai 20, 2013 7:34 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-21 19:46:21

Ich habe mal was im Blog geschrieben:

http://blog.yacy-websuche.de/2013/05/21/yacy-nominiert-fur-den-zedler-preis/
http://blog.yacy-websuche.de/2013/05/21/linuxtag-2013/

Statistik: Verfasst von Low012 — Di Mai 21, 2013 6:46 pm


Panorama • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-21 19:46:21

Ich habe mal was im Blog geschrieben:

http://blog.yacy-websuche.de/2013/05/21/yacy-nominiert-fur-den-zedler-preis/
http://blog.yacy-websuche.de/2013/05/21/linuxtag-2013/

Statistik: Verfasst von Low012 — Di Mai 21, 2013 6:46 pm


Hilfe für Einsteiger und Anwender • \‘table copy\’ deaktivieren

Date: 2013-05-22 14:03:02

Gibt es dafür ein Schalter, und wenn nicht, könnt ihr das bitte ändern. Danke.

Code:
I 2013/05/22 12:56:39 TABLE initialization of text.urlmd.20120124102410124.table. table copy: yes, available RAM: 1104MB, needed: 2900MB, allocating space for 4330026 entries

Statistik: Verfasst von gaston — Mi Mai 22, 2013 1:03 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-23 01:14:18

Ich kann leider doch nicht kommen, habe mich zu früh gefreut. Als Alleinerziehender Vater, kann ich meinen Sohn doch nicht mehrere Tage hier allein lassen.
Gruß Roland

Statistik: Verfasst von RoGott — Do Mai 23, 2013 12:14 am


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-23 22:03:00

Gibt es da wirklich gar keine Erfahrungen?
So wie ich das oberflächlich gelesen habe, hat sich etwas mit der SOLR-Einbindung verändert und ist nicht mehr wirklich abwärts-kompatibel?

Statistik: Verfasst von Seitenreiter — Do Mai 23, 2013 9:03 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-24 00:00:54

Hi,

stimmt, da hat sich einiges geändert. Aber die 1.4 kannst Du problemlos drüberinstallieren ohne Datenverlust (voll abwärtskompatibel und Daten werden automatisch migriert).

Wenn Du erstmal mit kleinem Index anfangen möchtest, könntest Du das Verzeichnis
DATA/INDEX/freeworld/SEGMENTS/default verschieben (backup und löschen) um datenmäßig bei Null anzufangen
und bei Bedarf später wieder restoren.

cu

Statistik: Verfasst von reger — Do Mai 23, 2013 11:00 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-24 01:06:12

Vielleicht kannst du ihn wieder starten, nachdem du den Inhalt des HTCACHE-Ordners gelöscht hast. Dieser Cache frisst ja auch RAM, enthält aber keine Indexdaten.

Statistik: Verfasst von David — Fr Mai 24, 2013 12:06 am


Hilfe für Einsteiger und Anwender • StackTrace Error executing query

Date: 2013-05-25 20:15:27

Hello Today YaCy stopped and saw the following in the logs:

W 2013/05/25 21:49:39 StackTrace Error executing query
java.io.IOException: Error executing query
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:304)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentById(MirrorSolrConnector.java:157)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.getDocumentById(ConcurrentUpdateSolrConnector.java:367)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:384)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:353)
at net.yacy.search.query.SearchEvent.pullOneRWI(SearchEvent.java:948)
at net.yacy.search.query.SearchEvent.pullOneFilteredFromRWI(SearchEvent.java:971)
at net.yacy.search.query.SearchEvent\$3.run(SearchEvent.java:1151)
Caused by: java.io.IOException: Error executing query
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getResponseByParams(EmbeddedSolrConnector.java:201)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:299)
... 7 more
Caused by: java.lang.OutOfMemoryError: Java heap space
W 2013/05/25 21:58:21 StackTrace Error executing query
java.io.IOException: Error executing query
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:304)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentById(MirrorSolrConnector.java:157)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.getDocumentById(ConcurrentUpdateSolrConnector.java:367)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:384)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:353)
at net.yacy.search.query.SearchEvent.pullOneRWI(SearchEvent.java:948)
at net.yacy.search.query.SearchEvent.pullOneFilteredFromRWI(SearchEvent.java:971)
at net.yacy.search.query.SearchEvent\$3.run(SearchEvent.java:1151)
Caused by: java.io.IOException: Error executing query
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getResponseByParams(EmbeddedSolrConnector.java:201)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:299)
... 7 more
Caused by: java.lang.OutOfMemoryError: Java heap space

we need to do something to prevent this from happening?

Statistik: Verfasst von mass — Sa Mai 25, 2013 7:15 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-25 21:15:09

Ok, ich habe mal geupdated und einmal ist der Server auch durchgestartet. Allerdings gab es dabei zahlreiche Fehler, wie etwa, dass der Status Monitor nicht angezeigt wurde.

Nun kommt Yacy aber gar nicht mehr hoch und steht ewig bei diesen Zeilen:

\ S 2013/05/25 21:01:24 SWITCHBOARD Initializing Crawl Profiles\ I 2013/05/25 21:01:28 HeapReader saturation of crawlProfilesActive.heap.ExKEJFZvQkIQ.idx: keylength = 4, vallength = 4, size = 51224, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2013/05/25 21:01:32 HeapReader using a dump of the index of /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/QUEUES/crawlProfilesActive.heap.\ I 2013/05/25 21:01:32 HeapReader BLOB /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/QUEUES/crawlProfilesActive.heap: merged 0 free records\ I 2013/05/25 21:01:32 Heap initializing heap /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/QUEUES/crawlProfilesActive.heap\



Manchmal bleibt er auch hier stehen:

\ I 2013/05/25 21:42:22 RICELL-shrink4/rewrite unmountOldest()\ I 2013/05/25 21:42:22 IODispatcher appended rewrite job of file text.index.20120811153622774.blob to text.index.20130525194222843.blob\ I 2013/05/25 21:42:26 kelondroSplitTable opening partial eco table /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120327094920437.table\ I 2013/05/25 21:42:30 TABLE initialization of text.urlmd.20120327094920437.table. table copy: yes, available RAM: 373MB, needed: 403MB, allocating space for 325970 entries\ I 2013/05/25 21:42:30 TABLE /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120327094920437.table: TABLE /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120327094920437.table has table copy ENABLED\ I 2013/05/25 21:42:30 TABLE initializing RAM index for TABLE text.urlmd.20120327094920437.table, please wait.\ I 2013/05/25 21:52:39 kelondroSplitTable opening partial eco table /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120427171658970.table\ I 2013/05/25 21:52:44 TABLE initialization of text.urlmd.20120427171658970.table. table copy: yes, available RAM: 282MB, needed: 297MB, allocating space for 156400 entries\ I 2013/05/25 21:52:44 TABLE /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120427171658970.table: TABLE /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20120427171658970.table has table copy ENABLED\ I 2013/05/25 21:52:44 TABLE initializing RAM index for TABLE text.urlmd.20120427171658970.table, please wait.\



Der Peer ist zwar auch ganz schön voll (16Mio Links), aber sollte doch zumindest startfähig sein?

Statistik: Verfasst von Seitenreiter — Sa Mai 25, 2013 8:15 pm


Hilfe für Einsteiger und Anwender • Gedankengleichschaltung durch google search

Date: 2013-05-26 06:23:58

hi,
ich bin jetzt seit 3 wochen bei yacy dabei und habe 2 online server laufen.
zur gleichen zeit habe ich aufgehört google als suchmachine zu verwenden und verwende jetzt hauptsächlich ixquick.com.
ich kann es noch nicht genau ausdrücken, aber irgendwie hat sich meine gemütsstimmung zum positiven geändert.
haben die suchergebnisse einfluss auf unser denken?
hat jemand weiterfuehrende literatur darüber?

Statistik: Verfasst von veto — So Mai 26, 2013 5:23 am


Hilfe für Einsteiger und Anwender • Re: Gedankengleichschaltung durch google search

Date: 2013-05-26 16:20:22

Hi, magst du das mal konkretisieren? Inwiefern haben sich denn deiner Meinung nach die Suchergebnisse verändert und wie denkst du hat das Einfluss auf deine Gemütslage?

Statistik: Verfasst von Seitenreiter — So Mai 26, 2013 3:20 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-26 19:38:50

Nur kurz für alle, die nicht dabei waren: Den Zedler-Preis haben wir nicht gewonnen, der Preis ging in unserer Kategorie an das Projekt http://wheelmap.org/. Ich fand die Veranstaltung trotzdem nett, musste mich aber leider direkt danach auf den Weg nach hause machen, so dass ich das Buffet verpasst habe. ;)
Demnächst soll es Fotos und auch ein von der Preisverleihung Video geben. Spätestens dann schreibe ich auch was im Blog.

Statistik: Verfasst von Low012 — So Mai 26, 2013 6:38 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-05-26 19:38:50

Nur kurz für alle, die nicht dabei waren: Den Zedler-Preis haben wir nicht gewonnen, der Preis ging in unserer Kategorie an das Projekt http://wheelmap.org/. Ich fand die Veranstaltung trotzdem nett, musste mich aber leider direkt danach auf den Weg nach hause machen, so dass ich das Buffet verpasst habe. ;)
Demnächst soll es Fotos und auch ein von der Preisverleihung Video geben. Spätestens dann schreibe ich auch was im Blog.

Statistik: Verfasst von Low012 — So Mai 26, 2013 6:38 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-26 22:11:07

die Preisverleihung war eine schöne Veranstaltung, der Laudator hat vorher mit uns gesprochen und mich darauf vorbereitet dass ich eine Minute Zeit habe um YaCy und das Projekt vorzustellen und auch die Gelegenheit nutzen darf um ein bisschen Werbung zu machen ... hab das dann auch probiert.

Bild
Alle Anwesenden haben eine Original-Urkunde bekommen. Ich hatte mir fest vorgenommen beim (möglichen) Empfang des Preises diesen im Namen aller über dreissig Entwickler und den vielen Helfern entgegenzunehmen. Leider kam es dazu nicht.

Ich möchte daher hier die Gelegenheit nutzen, allen Entwicklern hier herzlich zu danken und die Urkunde hier weiterzureichen!
Wir vier auf der Bühne hatten die vier Originale, aber jeder Entwickler und Helfer darf sich gleichermassen geehrt fühlen und daher hier der Scan zum runterladen und ausdrucken:
http://yacy.net/material/YaCy_Zedler-Pr ... issens.pdf{.postlink}

..Bilder folgen...

Statistik: Verfasst von Orbiter — So Mai 26, 2013 9:11 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-05-26 22:11:07

die Preisverleihung war eine schöne Veranstaltung, der Laudator hat vorher mit uns gesprochen und mich darauf vorbereitet dass ich eine Minute Zeit habe um YaCy und das Projekt vorzustellen und auch die Gelegenheit nutzen darf um ein bisschen Werbung zu machen ... hab das dann auch probiert.

Bild
Alle Anwesenden haben eine Original-Urkunde bekommen. Ich hatte mir fest vorgenommen beim (möglichen) Empfang des Preises diesen im Namen aller über dreissig Entwickler und den vielen Helfern entgegenzunehmen. Leider kam es dazu nicht.

Ich möchte daher hier die Gelegenheit nutzen, allen Entwicklern hier herzlich zu danken und die Urkunde hier weiterzureichen!
Wir vier auf der Bühne hatten die vier Originale, aber jeder Entwickler und Helfer darf sich gleichermassen geehrt fühlen und daher hier der Scan zum runterladen und ausdrucken:
http://yacy.net/material/YaCy_Zedler-Pr ... issens.pdf{.postlink}

..Bilder folgen...

Statistik: Verfasst von Orbiter — So Mai 26, 2013 9:11 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen => gefixt :-)

Date: 2013-05-26 23:46:44

LA\_FORGE hat geschrieben:\ Vielen Dank. Ist der Fix schon in der 1.4 Build 9172 drin? Es bleibt bei mir immer noch hängen ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") bei der v1.3 Build 9038 habe ich konstant über 800 PPM (Gleicher Crawl Start Point, Cache vorher gelöscht und ganz von vorne angefangen).\



Ich habe es nochmals analysiert und festgestellt, dass es nur dann auftritt, wenn man den YaCy-internen Solr deaktiviert hat und einen externen Solr (auf der gleichen Maschine) als \“Hauptindex\” konfiguriert hat. Ich habe alles so gemacht wie auf der Seite IndexFederated_p.html beschrieben. Komplett hängenbleiben tut es nicht, das Crawling ist nur sehr, sehr langsam.

Statistik: Verfasst von LA_FORGE — So Mai 26, 2013 10:46 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-05-27 00:00:34

Gruppenbild der Zedler-Preis nominierten!
Bild

Statistik: Verfasst von Orbiter — So Mai 26, 2013 11:00 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-05-27 00:25:05

Zur Veranstaltung gab es auch einen live-Ticker, der ist hier: https://blog.wikimedia.de/2013/05/25/li ... im-ticker/{.postlink}

Statistik: Verfasst von Orbiter — So Mai 26, 2013 11:25 pm


Hilfe für Einsteiger und Anwender • Re: Gedankengleichschaltung durch google search

Date: 2013-05-27 14:12:25

hi,
mmm... schwer...
seit einem jahrzent google ich und ich glaube, dass die schnellen und einfachen suchresultate mich dabei hindern,
mich tiefer in die materie einzuarbeiten, aber dazu kommt noch der zeitmangel faktor.….

besser ein beispiel:
ich arbeite an einem shell script zur bearbeitung von bildern.
jetzt such ich erstmal ob es schon eine komplette loesung dafuer gibt, und wenn nicht, dann suche ich die einzelnen schritte ab - aus faulheit zum selbstdenken zum teil.
oft unbewusst reihe ich woerter zusammen mit der hoffung, das koennte die suchmachnine verstehen und mit der zeit verfeinert sich dieser fuer menschen wirre syntax,
aber google scheint es immer besser zu verstehen.
um jetzt noch schneller an die ergebnisse zu kommen, versuche ich jetzt so zu denken wie google und google einerseits macht wohl aehnliches indem es mein suchverhalten in seinen algorithmus einbaut.
wenn jetzt goolge mir resultate bringt, die ich nicht suchte, dann zweifle ich an meinen anfragen, oder ich bin sauer auf google, weil google versucht mich zu bevormunden.
ich glaube nun, wenn man sowas lange macht, dann fuert diese rueckkopplung zu stoerungen.
ich sehe mittlerweile google schon so wie eine art freundin, die einem alles recht machen will und sogar recht macht, aber dabei baut sie ihren einfluss und ihre macht aus.
und google wird ja auch offensichtlich immer maechtiger mit ihrer schattenarmee aus \“grauen\” phd\’s. im hinterhalt - oder sind es die bunten genie nerds aus dem sonnigen kalifornien?.
so oder so, mit der zeit wird diese freundin zur ueberfrau, zur absoluten machtperson, die einestages alles von mir weiss und noch mehr. das macht mir angst.

jedoch die existenz neuer suchmaschienen ist jetzt die befreiung.
und als ich auf einem video-vortrag von yacy hoerte, dass das ranking der suchresultate die human-cultures beinflusse kann, da wusste ich, ich bin nicht allein.

hey, danke fuer die psycho minute,
ich sollte jetzt vielleicht doch noch einen richtigen psychiater
aufsuchen.

gruesse
ein google traumatisierter

Statistik: Verfasst von veto — Mo Mai 27, 2013 1:12 pm


Hilfe für Einsteiger und Anwender • Re: Gedankengleichschaltung durch google search

Date: 2013-05-27 14:38:58

veto hat geschrieben:\ und als ich auf einem video-vortrag von yacy hoerte, dass das ranking der suchresultate die human-cultures beinflusse kann, da wusste ich, ich bin nicht allein.\


huch, dieses Gedankenspiel wird tatsächlich so wahrgenommen? Ich hatte die These \‘Ranking beeinflusst Normen und Werte\’ mit der Folgerung \‘Gemeinschaften brauchen eigene Suche für die eigenen Normen und Werte\‘. Du schilderst hier eine interessante Emotion zu diesem Thema. Dass eine spezielle Suchmaschine aus dieser \‘dominierenden\’ Rolle herauskommt ist aber nicht in meinem Konzept drin, d.h. wir mache es auch nicht besser. Siehst du irgendwie eine Form der Suchergebnisdarstelltung (oder was anderes), die den Benutzer nicht wie einen dominierten sondern beratenden empfinden lässt?

Statistik: Verfasst von Orbiter — Mo Mai 27, 2013 1:38 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-27 15:36:18

es gibt keinen Schalter dafür, aber es ist ein guter Hinweis dass wir diese Funktion noch drin haben. Ich habe es nun etwas \‘erschwert\’ dass eine Table Copy angelegt wird, und zwar muss der Speicher dafür mindestens 600MB frei haben, sonst macht er es nicht.

Statistik: Verfasst von Orbiter — Mo Mai 27, 2013 2:36 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-05-27 22:44:24

Bei mir hat es leider auch nicht geklappt. Ich hatte auch am Freitag noch einen wichtigen beruflichen Termin, der aber am Freitag dann kurzfristig ausgefallen ist.
*grummel*

Statistik: Verfasst von Huppi — Mo Mai 27, 2013 9:44 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-27 22:51:39

Ist es den schwierig/aufwendig einen Schalter einzubauen, zumindest für \‘text.urlmd...\’ ? Ich habe hier mehrere Dateien davon und es wird wenn sowieso nur eine Datei geladen, die dann um die 1,6GB belegt. Den Speicher kann YaCy bestimmt für was anderes besser gebrauchen, zumal ich so manchmal ein OutOfMemory bekomme.

Statistik: Verfasst von gaston — Mo Mai 27, 2013 9:51 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-28 08:23:38

Vielleicht eine dumme Frage, aber könnte jemand bitte kurz erklären, was dabei passiert?

Statistik: Verfasst von Seitenreiter — Di Mai 28, 2013 7:23 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-05-28 11:28:43

Mamont\’s open FTP Index
http://www.mmnt.net/
Die kann man auch crawlen...

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 10:28 am


Fragen und Antworten • Re: Upload der seedlist klappt nicht per ftp

Date: 2013-05-28 15:06:51

ich hab das nochmal ausprobiert und hat geklappt. Kannst du mal bitte ins Log schauen und gucken ob es zum FTP Upload-Prozess eine Fehlermeldung gibt?

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 2:06 pm


Presse • Re: YaCy bei Google plus

Date: 2013-05-28 15:30:49

Hallo Volker,
ich weiss nicht ob das die richtige Antwort ist und auch nicht wo ich das bei dem g+ dingens hinschreiben soll, aber diese Seite soll sowas wie eine Referenzliste sein:
http://pro.yacy.net/de/Referenzen.html
leider nur auf deutsch zur Zeit

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 2:30 pm


Hilfe für Einsteiger und Anwender • Re: Index exportieren und importieren

Date: 2013-05-28 15:43:44

dabei geht es nur um die Solr Indexdaten, keine RWIs oder anderes. Beim restore werden bestehnde Daten überschrieben.

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 2:43 pm


Fragen und Antworten • Re: Administration-Page

Date: 2013-05-28 15:47:45

das dauert nur bei ganz vollem Index (10 mio oder so) so lange, bei einem frischen Peer können das nur drei Sekunden sein.
Mach doch mal auf dem vserver ein wget http://localhost:8090/index.html wenn das nicht geht, läuft YaCy nicht. Wenn es geht, hast du ein falsches forwarding oder falsche externe IP.

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 2:47 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-28 15:53:17

Dabei wird nicht nur der Index im Speicher geladen sondern alle anderen Daten wie z.B. die URL auch.

Statistik: Verfasst von gaston — Di Mai 28, 2013 2:53 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-28 16:11:18

ja, alle Metadaten und alles was in der Table steht. Das gibts auch für andere tabellen, bsp. die Seeds. Dieser Vorgang wird aber nur gestartet wenn nach dem Laden noch genügend Speicher übrig bleibt. Das sollte eine auto-Anpassung an mehr Speicher sein, damit eine Mehrzuweisung von RAM auch mehr Performance bringt. Das sollte auch weiterhin so sein; aber:

die metadaten sind sowieso outdated und sollten langsam in Solr hinein migriert werden. D.h. die Tabelle um die es geht habe ich hier nicht mehr, nur die ganz alten Peers, und diese sollten sich allmählich auf das neue System umstellen. Daher sollte das \‘Problem\’ (sollte ja ein Feature sein) sich im laufe der Zeit von selbst auflösen.

Statistik: Verfasst von Orbiter — Di Mai 28, 2013 3:11 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-05-28 16:16:56

http://z0r.de/2240

Statistik: Verfasst von Low012 — Di Mai 28, 2013 3:16 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-05-28 16:34:13

Ich habe die Bilder eines \“offiziellen\” Fotografen gefunden: http://commons.wikimedia.org/wiki/User:Steffen_Proessdorf_(WMDE)/gallery

Gefunden über: http://de.wikipedia.org/wiki/Wikipedia:Kurier#Zedler-Preise_f.C3.BCr_Freies_Wissen

Statistik: Verfasst von Low012 — Di Mai 28, 2013 3:34 pm


Fragen und Antworten • Solr Suchanfragen

Date: 2013-05-28 19:32:04

Kann es sein das diese nicht mehr unter \‘AccessTracker_p.html?page=4\’ angezeigt werden?

Statistik: Verfasst von gaston — Di Mai 28, 2013 6:32 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-28 19:39:02

Ich habe hier noch 11 Dateien mit 14,5 GB, das migrieren läuft schon von Anfang an mit, seit es Solr in YaCy gibt. Alte Daten habe ich über \‘IndexDeletion_p.html\’ auch schon gelöscht. Wie bekomme ich jetzt schnell die übrigen 14,5 GB nach Solr?

Statistik: Verfasst von gaston — Di Mai 28, 2013 6:39 pm


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-29 19:24:20

Bitte einen Schalter einbauen oder einfach deaktivieren, das dürfte für die meisten wegen Solr kein Nachteil sein.

Die bei mir belegen 1,6 GB Speicher fehlen mir...

Code:
E 2013/05/29 19:19:57 org.apache.solr.update.CommitTracker auto commit error...:java.lang.IllegalStateException: this writer hit an OutOfMemoryError; cannot commit        at org.apache.lucene.index.IndexWriter.prepareCommitInternal(IndexWriter.java:2673)        at org.apache.lucene.index.IndexWriter.commitInternal(IndexWriter.java:2839)        at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:2819)        at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:536)        at org.apache.solr.update.CommitTracker.run(CommitTracker.java:216)        at java.util.concurrent.Executors$RunnableAdapter.call(Unknown Source)        at java.util.concurrent.FutureTask$Sync.innerRun(Unknown Source)        at java.util.concurrent.FutureTask.run(Unknown Source)        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(Unknown Source)        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(Unknown Source)        at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)        at java.lang.Thread.run(Unknown Source)

Statistik: Verfasst von gaston — Mi Mai 29, 2013 6:24 pm


Fragen und Antworten • 1.40009221 BLOCKED

Date: 2013-05-30 13:57:51

Konnte nur ein 9999 Zeilen Dump erzeugen.

YaCy macht noch irgendwas, reagiert aber nicht mehr.

Statistik: Verfasst von gaston — Do Mai 30, 2013 12:57 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-30 20:23:12

Sorry wenn ich nerve, aber wie denkt ihr kriege ich den Peer wieder am einfachsten ans laufen? Kann ich ihm irgendwie per Config Datei noch mehr RAM zuweisen, damit er wenigstens erst mal wieder startet?

Statistik: Verfasst von Seitenreiter — Do Mai 30, 2013 7:23 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-30 22:25:58

Wenn der Peer unter Linux läuft, ist ein passendes Skript im Ordner vorhanden: \“reconfigureYACY.sh\“.
Dort Option 1 und mehr Speicher zuweisen.

Sonst ist das etwas umständlicher:
in der Datei \“DATA/SETTINGS/yacy.conf\” den Wert \“javastart_Xmx\” anpassen.

Statistik: Verfasst von PCA42 — Do Mai 30, 2013 9:25 pm


Fragen und Antworten • \“Bored to your spare times (11550)

Date: 2013-05-30 23:05:54

\“Bored to your spare times (11550)
come to us we make you busy & you get income in dollars..
For more details visit: http://eazy2earn.com\”

Statistik: Verfasst von leo345 — Do Mai 30, 2013 10:05 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-05-31 12:59:36

Google sagt: \“frankreich ist schön wenn man in einem deutschen panzer sitzt\”
Google_Suggestion_Frankreich_ist.png

Googles Wissen zu England ist eher profan:
Google_Suggestion_England_ist.png

Google weiss: \“italien ist pleite\”
Google_Suggestion_Italien_ist.png

Goolges interessante Aussagen zu Deutschland: \“schön, das coolste land der welt, ein besetztes land und wird es auch bleiben\”
Google_Suggestion_Deutschland_ist.png

Statistik: Verfasst von Orbiter — Fr Mai 31, 2013 11:59 am


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-05-31 13:17:07

hab den code durchgeguckt wie man das am besten patchen kann und habe dabei ein Attribut für die Konfig gefunden welche man ganz einfach benutzen kann: tableCachingLimit
Setze den Wert höher als den Speicher den du hast, und die Table Copy sollte nicht mehr erstellt werden!
Du musst den Wert in DATA/SETTINGS/yacy.conf vor einem Start setzen, hänge einfach ein paar nullen dran.

Statistik: Verfasst von Orbiter — Fr Mai 31, 2013 12:17 pm


Panorama • Google Suggest Script

Date: 2013-05-31 17:38:42

das hier könnte auch in die dev-Ecke hingehören, aber da machen wir mal lieber nur YaCy-Sachen rein.

Für einen Vortrag war ich dabei ein paar [Google-Suggest Screenshots]{style=“font-weight: bold”} zu machen, die dann ganz lustig waren{.postlink} und dann hab ich versucht die Google-Suggest-Funktion zu hacken. Dabei ist folgendes [Script]{style=“font-weight: bold”} rausgekommen:

Code:
#!/bin/sh# call google suggestAPPNAME="suggest"cat <<EOF 1>/tmp/"$APPNAME".java 2>&1import java.io.*; import java.net.*; import java.util.*;public class suggest {    private final static String googlestub = "http://suggestqueries.google.com/complete/search?output=toolbar&hl=de&q=";    public static String[] getGoogleSuggestions(String query) {        BufferedReader in = null;        try {            TreeMap<Integer, String> st = new TreeMap<Integer, String>();            in = new BufferedReader(new InputStreamReader((new URL(googlestub + query.replace(' ', '+'))).openStream(), "iso-8859-15"));            String[] ls0 = in.readLine().split("suggestion data=\"");            for (String l: ls0) {                String[] ls1 = l.split("\"/><num_queries int=\"");                if (ls1.length < 2) continue;                st.put(-Integer.parseInt(ls1[1].split("\"/></")[0]), ls1[0].replaceAll("&amp;", "&"));            }            String[] suggestions = new String[st.size()];            int i = 0;            for (String s: st.values()) suggestions[i++] = s;            return suggestions;        } catch (Throwable e) {} finally {try {in.close();} catch (IOException e) {}}        return new String[0];    }    public static void main(String[] args) {        String[] suggestions = getGoogleSuggestions(args[0].replace(' ', '+'));        for (String s: suggestions) System.out.println(s);    }}EOFcd /tmpjavac "$APPNAME".javajava "$APPNAME" $1rm "$APPNAME".*



(Vorsicht: perverses java-in-shell-selfcompile-script)
Basiert auf der undokumentierten Google-Suggest API mit Calls ähnlich wie

Code:
http://suggestqueries.google.com/complete/search?output=toolbar&hl=de&q=schokolade


Das ganze so benutzen: in eine Datei namens \‘suggest.sh\’ kopieren, dann \‘chmod 755 suggest.sh\’ ausführen.

Beispielbenutzung:

Code:
admin$ ./suggest.sh deutschland+istdeutschland ist eine gmbhdeutschland ist eine firmadeutschland ist sch?ndeutschland ist pleitedeutschland ist vegandeutschland ist das coolste land der weltdeutschland ist kein staatdeutschland ist ein besetztes land und wird es auch bleibendeutschland ist ein einwanderungslanddeutschland ist kein einwanderungsland


man muss mehrere Wörter beim Aufruf des Scripts noch mit \‘+\’ trennen, sonst gehts nicht. Wer dafür einen Verbesserungsvorschlag hat, nur her damit.
Das Ganze hab ich auch schon in meinem debilen \’TVTroll{.postlink}\‘-Projekt benutzt um \‘Search Trails\’ zu Fernsehsendungen anzuzeigen.
Natürlich überlege ich schon wie ich ähnliches aus YaCy rauskitzeln kann, aber ohne die Sucheingaben zu benutzen (das geht ja nicht, die sind ja privat und zu wenig). Statt dessen könnte man Sätze im Index nehmen die mit den Suchworten anfangen. Die zu finden sollte nicht so schwer sein...

Statistik: Verfasst von Orbiter — Fr Mai 31, 2013 4:38 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-05-31 22:38:34

Ach mist, da hatte ich wohl Tomaten auf den Augen, entschuldigt :(
Der Server startet nun, aber sämtliche Status-Anzeigen bleiben leer.

Das Log hat auch so einige komische Einträge, lässt sich da aus der Ferne sagen, was bei der Migration schief gelaufen ist?

\ \...\ I 2013/05/31 22:24:18 TABLE initializing RAM index for TABLE text.urlmd.20120811153401801.table, please wait.\ I 2013/05/31 22:24:27 org.apache.solr.core.CoreContainer Loading CoreContainer using Solr Home: \'/home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40\'\ I 2013/05/31 22:24:28 org.apache.solr.core.SolrResourceLoader new SolrResourceLoader for directory: \'/home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40/\'\ I 2013/05/31 22:24:32 org.apache.solr.core.CoreContainer Creating SolrCore \'\' using instanceDir: /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40/collection1\ I 2013/05/31 22:24:32 org.apache.solr.core.SolrResourceLoader new SolrResourceLoader for directory: \'/home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40/collection1/\'\ I 2013/05/31 22:24:32 org.apache.solr.core.SolrConfig Adding specified lib dirs to ClassLoader\ E 2013/05/31 22:24:32 org.apache.solr.core.CoreContainer org.apache.solr.common.SolrException: Invalid luceneMatchVersion \'LUCENE\_40\', valid values are: \[LUCENE\_20, LUCENE\_21, LUCENE\_22, LUCENE\_23, LUCENE\_24, LUCENE\_29, LUCENE\_30, LUCENE\_31, LUCENE\_32, LUCENE\_33, LUCENE\_34, LUCENE\_35, LUCENE\_36, LUCENE\_CURRENT\] or a string in format \'V.V\'\ at org.apache.solr.core.Config.parseLuceneVersionString(Config.java:353)\ at org.apache.solr.core.Config.getLuceneVersion(Config.java:337)\ at org.apache.solr.core.SolrConfig.\(SolrConfig.java:140)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:455)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:335)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:219)\ at org.apache.solr.core.CoreContainer.\(CoreContainer.java:109)\ at net.yacy.cora.federate.solr.instance.EmbeddedInstance.\(EmbeddedInstance.java:82)\ at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:176)\ at net.yacy.search.Switchboard.\(Switchboard.java:488)\ at net.yacy.yacy.startup(yacy.java:225)\ at net.yacy.yacy.main(yacy.java:655)\ Caused by: java.lang.IllegalArgumentException: No enum const class org.apache.lucene.util.Version.LUCENE\_40\ at java.lang.Enum.valueOf(Enum.java:214)\ at org.apache.lucene.util.Version.valueOf(Version.java:33)\ at org.apache.solr.core.Config.parseLuceneVersionString(Config.java:351)\ \... 11 more\ \ I 2013/05/31 22:24:32 org.apache.solr.core.CoreContainer Creating SolrCore \'webgraph\' using instanceDir: /home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40/webgraph\ I 2013/05/31 22:24:32 org.apache.solr.core.SolrResourceLoader new SolrResourceLoader for directory: \'/home/matthias/Arbeitsfläche/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_40/webgraph/\'\ I 2013/05/31 22:24:33 org.apache.solr.core.SolrConfig Adding specified lib dirs to ClassLoader\ E 2013/05/31 22:24:33 org.apache.solr.core.CoreContainer org.apache.solr.common.SolrException: Invalid luceneMatchVersion \'LUCENE\_40\', valid values are: \[LUCENE\_20, LUCENE\_21, LUCENE\_22, LUCENE\_23, LUCENE\_24, LUCENE\_29, LUCENE\_30, LUCENE\_31, LUCENE\_32, LUCENE\_33, LUCENE\_34, LUCENE\_35, LUCENE\_36, LUCENE\_CURRENT\] or a string in format \'V.V\'\ at org.apache.solr.core.Config.parseLuceneVersionString(Config.java:353)\ at org.apache.solr.core.Config.getLuceneVersion(Config.java:337)\ at org.apache.solr.core.SolrConfig.\(SolrConfig.java:140)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:455)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:335)\ at org.apache.solr.core.CoreContainer.load(CoreContainer.java:219)\ at org.apache.solr.core.CoreContainer.\(CoreContainer.java:109)\ at net.yacy.cora.federate.solr.instance.EmbeddedInstance.\(EmbeddedInstance.java:82)\ at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:176)\ at net.yacy.search.Switchboard.\(Switchboard.java:488)\ at net.yacy.yacy.startup(yacy.java:225)\ at net.yacy.yacy.main(yacy.java:655)\ Caused by: java.lang.IllegalArgumentException: No enum const class org.apache.lucene.util.Version.LUCENE\_40\ at java.lang.Enum.valueOf(Enum.java:214)\ at org.apache.lucene.util.Version.valueOf(Version.java:33)\ at org.apache.solr.core.Config.parseLuceneVersionString(Config.java:351)\ \... 11 more\ \ I 2013/05/31 22:24:33 SolrEmbeddedInstance detected default solr core: collection1\ W 2013/05/31 22:24:33 StackTrace cannot get the default core; available = 596460016, free = 596460016\ java.io.IOException: cannot get the default core; available = 596460016, free = 596460016\ at net.yacy.cora.federate.solr.instance.EmbeddedInstance.\(EmbeddedInstance.java:92)\ at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:176)\ at net.yacy.search.Switchboard.\(Switchboard.java:488)\ at net.yacy.yacy.startup(yacy.java:225)\ at net.yacy.yacy.main(yacy.java:655)\ \...\ Tabellen und Switchboard fahren hoch\ \...\ W 2013/05/31 22:25:12 StackTrace null\ java.lang.reflect.InvocationTargetException\ at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)\ at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)\ at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)\ at java.lang.reflect.Method.invoke(Method.java:616)\ at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:107)\ at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:165)\ Caused by: java.lang.NullPointerException\ at net.yacy.search.index.Fulltext.collectionSize(Fulltext.java:270)\ at net.yacy.search.index.Segment.URLCount(Segment.java:267)\ at net.yacy.search.Switchboard.updateMySeed(Switchboard.java:3519)\ at net.yacy.peers.Network.peerPing(Network.java:196)\ \... 6 more\ (der ganze Block 4x)\ \...\ I 2013/05/31 22:25:21 HTCACHE storing content of url , 179691 bytes\ W 2013/05/31 22:25:22 StackTrace null\ java.lang.NullPointerException\ at net.yacy.search.index.Fulltext.exists(Fulltext.java:736)\ at net.yacy.search.index.Segment.exists(Segment.java:302)\ at net.yacy.search.Switchboard.urlExists(Switchboard.java:1589)\ at net.yacy.crawler.retrieval.RSSLoader.indexAllRssFeed(RSSLoader.java:94)\ at Load\_RSS\_p.respond(Load\_RSS\_p.java:290)\ at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)\ at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)\ at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)\ at java.lang.reflect.Method.invoke(Method.java:616)\ at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)\ at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)\ at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)\ at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)\ at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)\ at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)\ at java.lang.reflect.Method.invoke(Method.java:616)\ at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)\ at net.yacy.server.serverCore\$Session.run(serverCore.java:658)\ (der Block auch wieder ein paar Mal)\

Statistik: Verfasst von Seitenreiter — Fr Mai 31, 2013 9:38 pm


Hilfe für Einsteiger und Anwender • Re: Migration 1.3 -> 1.4

Date: 2013-06-01 00:17:15

hallo,
also da ist was faul. Es gab von 1.3 nach 1.4 eine Solr-Versionsmigration, die multi-core-Fähigkeit einschliesst. In diesem Kontext wurde das Solr-Verzeichnis auf solr_40 umbenannt. Nun sagt dein Log aber: \“Invalid luceneMatchVersion \‘LUCENE_40\’\” was mir irgendwie sagt, dass du da gerade versuchst ein bereits migriertes Vezeichnis mit einer alten Version zu laden. Bist du ganz sicher dass da tatsächlich die neueste Version von YaCy läuft?
Weiterhin gibts bei mir ein Problem, in der aktuellen dev-Version die Zeilen des Fehlers nachzuvollziehen, das ist nun alles anders. Ich empfehle folgende Vorgehensweise:
- die neueste Version von http://kaskelix.de/update/ auspacken, und das DATA-Verzeichnis dort reinlegen, dann starten. Wenn es dann Fehler gibt, kann ich das fixen. In diesem Fall bitte wieder das Log hier posten.

Statistik: Verfasst von Orbiter — Fr Mai 31, 2013 11:17 pm


Mitmachen • Re: YaCy\@Linuxtag 2013; 22.-25. Mai in Berlin

Date: 2013-06-01 11:32:34

Für alle diejenigen, die nicht dabeisein konnten hier noch ein Foto vom Linuxtag 2013 in Berlin. Der YaCy-Stand lag in diesem Jahr strategisch günstig direkt gegenüber einem Vortragssaal. Zudem mussten alle Messebesucher auf dem Weg zu den großen Ausstellungsräumen immer am YaCy-Stand vorbei. Leider war am Morgen des ersten Tags der Beamer gestohlen worden - Sebastian konnte aber auf die Schnelle noch einen Ersatzbeamer herbeizaubern :D .linuxtag2013.JPG

Statistik: Verfasst von lux — Sa Jun 01, 2013 10:32 am


Hilfe für Einsteiger und Anwender • Re: \‘table copy\’ deaktivieren

Date: 2013-06-01 15:09:46

Danke, so funktioniert es auch.

Statistik: Verfasst von gaston — Sa Jun 01, 2013 2:09 pm


Fragen und Antworten • Grundlegendes

Date: 2013-06-01 16:07:31

Hab gerade zum ersten Mal YaCy ausprobiert und finde die \“Veranstaltung\” recht interessant.

Beim Crawlen meiner eigenen Seite wurden aber quasi sämtliche Einstellungen ignoriert, die sonst funktionieren wie gewünscht.

Beispiele:
- Domain OHNE www (Tante \“G\” nennt das bevorzugte URL)
- zusätzlich (siehe oben) gibt\’s bei mir die \“cannonial-URL\“, ebenso ignoriert
- noindex, nofollow etc. ignoriert
- robots.txt ignoriert (Medien, wenn ich richtig geschaut habe)

Hmmmm, soweit so schlecht, wäre ja cool, wenn man quasi Tante \“G\” spielen könnte insofern, dass deren Verhalten simuliert wird, denn so könnte ich mir das sogar als Check-Tool für fertige Projekte vorstellen, quasi mal nachzuschauen, ob alles läuft wie gewünscht oder etwas übersehen wurde abzudichten.

Hab ich hierbei einen \“Denkfehler im Ansatz\” oder schlicht irgendwelche Einstellungen nicht zu Kenntnis genommen, denn für obigen Zweck fände ich es quasi schon fast bombig.

Grüsse, in der Hoffnung auf Erleuchtung der Finsternis ;-)

Statistik: Verfasst von P1750 — Sa Jun 01, 2013 3:07 pm


Suchmaschinen • Gericht zwingt Google zur Datenweitergabe ans FBI

Date: 2013-06-02 10:22:33

Weil bei Messen und Konferenzen in Gesprächen immer wieder die Frage nach Stammdatenauskunft seitens Google aufkommt wiederhole ich hier einen Satz aus einer heise-Meldung:

http://www.heise.de/newsticker/meldung/Gericht-zwingt-Google-zur-Datenweitergabe-ans-FBI-1874703.html hat geschrieben:\ Google muss dem FBI Kundendaten preisgeben, ohne dass ein richterlicher Beschluss vorliegt, ohne Nennung von Gründen und ohne dass der Kunde oder irgend jemand anders darüber informiert werden darf.\


aus: http://www.heise.de/newsticker/meldung/ ... 74703.html{.postlink}

Die Verpflichtung zur Weitergabe von Personenstammdaten haben wir hier übrigens auch, ich kenne das von einer Functional Specification die ich als Berater bei eplus schon in 2000 gelesen habe. Dabei ging es um eine automatisierte Stammdatenauskunft mit Reaktionszeit von 30 Minuten per Fax. Ich glaube heute liegt die Reaktionszeit bei 30 Sekunden (und nicht per fax).

Statistik: Verfasst von Orbiter — So Jun 02, 2013 9:22 am


Fragen und Antworten • Re: Grundlegendes

Date: 2013-06-02 14:22:06

hallo!
welche URL hast du denn zum Starten genommen? \“die sonst funktionieren wie gewünscht\” interpretiere ich so: geht sonst, nur diese URL nicht.
robots.txt sollten selbstverständlich beachtet werden, wenn nicht muss es gefixt werden. Bitte daher ein Beispiel, gerne auch per PN wenns nicht öffentlich sein soll.

Statistik: Verfasst von Orbiter — So Jun 02, 2013 1:22 pm


Wunschliste • Anzeige der Domain auf Platz 1

Date: 2013-06-02 15:24:34

Ich beobachte häufig, dass anstatt der Adressleiste das Suchfeld genutzt wird, und dann das erste Suchergebnis angeklickt wird. Das ist natürlich auch ein Benchmark für YaCy. Der Solr host_s Boost kommt erst bei Werten 1E5/1E6 in die gewünschte Region, ist aber eher unbefriedigend.

Meine Idee dazu:
Falls nur ein Suchwort eingegeben wurde, wird bei der Ergebnisdarstellung ein Snippet des Suchwortes + lokale TLD und ein Snippet der Seite des Suchwortes + globale TLD (com/net/org) dargestellt.

Beispiel:
Suche nach \“Apfel\” (lokale Sprache: de)
Es werden sofort die Snippets von apfel.de/com/net/org geladen. Zunächst werden com/net/org untereinander gerankt und der Sieger ausgewählt. Dann wird der Sieger mit apfel.de gerankt, und die Darstellungsreihenfolge ermittelt.
Die beiden ermittelten Ergebnisse könnten dann horizontal nebeneinander dargestellt werden.
Wenn eine Seite zu wenig Inhalt enthält, muss diese nicht dargestellt werden (apfel.de ist beispielsweise blank).

Das könnte auch auf Mehrwortsuchen ausgeweitet werden. Beispielsweise \“Apfel Kuchen Rezept\“. Jetzt kommen 3*4 Domains in den Ranking-Pool und werden nur dargestellt, wenn sie wirklich alle Wörter enthalten.

Statistik: Verfasst von Lotus — So Jun 02, 2013 2:24 pm


Wunschliste • Re: Anzeige der Domain auf Platz 1

Date: 2013-06-02 16:40:09

Gedankenübertragung? Die Idee habe ich Michael auch schon diese Woche erzählt, würde aber bei der Suche nach einem Wort auch den Titel der Seite mit einbeziehen.

Statistik: Verfasst von PCA42 — So Jun 02, 2013 3:40 pm


Wunschliste • Re: Anzeige der Domain auf Platz 1

Date: 2013-06-02 20:31:07

Ja, wahrscheinlich Gedankenübertragung. Titel ist ein gutes Stichwort. Ich spinne mal weiter.

Während der Eingabe werden schon die in Frage kommenden Seiten als Auto-Vervollständigen mit URL und Seitentitel dargestellt. Pfeiltaste runter, und Enter führen direkt zur Webseite. Wie in der Adresszeile bei aktuellen Browsern (Firefox, Chromium).

Statistik: Verfasst von Lotus — So Jun 02, 2013 7:31 pm


Wunschliste • Re: Anzeige der Domain auf Platz 1

Date: 2013-06-02 20:55:49

also hier kommen zwei Sachen zusammen:
- PCA42: post-crawling von verlinkten Seiten nach Suchresultatanzeige
- Lotus: pre-crawling von geratenen Seiten vor Suchanforderung

Das sind zwei verschiedene Sachen aber von der Implementierung sehr ähnlich, denn ein \‘richtiges\’ pre-crawling kann man sich aufgrund der Suchzeit nicht leisten und würde genau wie das post-crawling über eine Heuristik implementiert werden. Die Heuristiken haben die Eigenschaften, dass die zum Crawler hinzugefügten Seiten einen Link zum Such-Event haben, und geladene Seiten dort sofort mit eingegliedert werden können. So können Heuristik-Ergebnisse noch während der Ergebnisanzeige in die Ergebnisliste hinzugefügt werden.

Überaschenderweise zeigte ein Blick in den Code schon eine Lösung für das post-Crawling:
https://gitorious.org/yacy/rc1/commit/0 ... fragment=1{.postlink} von reger eingecheckt. Das läd aber interessanterweise nur Links, die sich nicht in der gleichen Domäne wie das gesuchte Ergebnis befinden, ausserdem nur was angezeigt wird und nicht was von remote geliefert wird. Man könnte das modifizieren. Darüber hinaus könnte man die Default-Aktivierung in die Netzkonfiguration verschieben, so dass es bei einem Switch zum Intranet-Modus deaktiv ist.

Für Lotus\’ pre-crawling könnte man analog vorgehen, wobei die Frage offen ist welche root-Dokumente tatsächlich zu laden sind, es gibt ja so viele Sprachen. Man könnte zu den com/edu/org/net-TLDs noch die Länderdomäne entsprechend Browser Spracheinstellung nehmen.

Insgesamt gibts aber zu beachten, dass ein Post-Crawling über Suchergebnisse heftig sein kann: bei der remote Suche gibts bis zu 300 Ergebnisse, und jedes kann 50 weitere Links haben, also 15000 Links nach einer Suche. Das zwingt uns, Regeln zu finden wie man das einschränken kann. Wie könnten solche Regeln aussehen?

Statistik: Verfasst von Orbiter — So Jun 02, 2013 7:55 pm


Wunschliste • Re: Anzeige der Domain auf Platz 1

Date: 2013-06-03 17:58:28

Ich glaube wir haben aneinander vorbeigeredet in unserem Gespräch. Mir geht es konkret um Folgendes:

Ich werfe als Suchanfrage den Begriff \“Apfel\” in rein. Es werden jetzt von den Peers nur Ergebnisse zurückgegeben, bei denen \“Apfel\” entweder in der Domain oder im Dokumententitel vorkommt. Dieser Ergebnisse werden vor der Anzeige für den Benutzer gewichtet und es wird parallel ein Crawl über dieser Ergebnisse angestoßen. Dieser läuft für eine festgelegte Zeit (ca. 30 Sekunden) oder bis die nächste Suche erfolgt. Mir geht es also nur um die Ein-Wort-Suche.

Damit sollte die Qualität der Suche sich entsprechend den Suchanfragen schnell verbessern, weil der lokale Index angereichert wird. Und bei prägnanten Suchbegriffen werden schnell gute Ergebnisse geliefert

BTW: Was zum Schmunzeln: Sucht mal bei g** nach \“ubuntu\“. Ich denke mal, dadurch das viele ohne zu schauen auf das erste Ergebnisse klicken, kommt dieses Ranking zustande.

Statistik: Verfasst von PCA42 — Mo Jun 03, 2013 4:58 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-06-04 23:15:54

etwas OT, aber varwandt; zu nebensächlich für einen eigenen Thread: hab nun einen TP-Link TL-MR3020, welcher als Hardware für eine PirateBox dienen soll{.postlink}. Nachdem ich nicht gleichzeitig ein RPi mit YaCy und einer PirateBox zusammen realisieren konnte, versuche ich das als Hardware-Bundle. Der MR3020 kostet nur 30 Euro und somit einen Versuch wert. Die verlinkte Anleitung funktioniert wunderbar und hab nun eine PirateBox laufen, die zumindest nächste Woche bei der Netzwerkrecherche Jahreskonferenz{.postlink} zum Einsatz kommen soll, und auch eine Kombination mit YaCy zeigen soll.

Der MR3020 ist jedenfalls auch spannend. Nach Einspielung des OpenWRT nach Anleitung (link oben) ist das Kästchen ein frei zugänglicher Linux-Rechner und das ist schon recht spannend. Vielleicht ergibt sich was im Duo RPi/MR3020.

Statistik: Verfasst von Orbiter — Di Jun 04, 2013 10:15 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-06-05 10:50:11

http://www.aolstalker.com/
eine Suchmaschine für den AOL search data leak{.postlink} von 2006

Statistik: Verfasst von Orbiter — Mi Jun 05, 2013 9:50 am


Fragen und Antworten • Blacklist aufräumen

Date: 2013-06-06 08:58:56

Sers zusammen

vielleicht hab ich ja auch nur Tomaten auf den Augen, aber kann es sein das im Bereich \“Blacklist\” die Option \“aufräumen\” weggefallen ist? Habe einige neue Blacklist-Words eingetragen und sollte natürlich dementsprechend den Index nunmehr um diese bereinigen, finde aber die Option dafür nicht mehr...


Kann mir jemand bitte weiterhelfen?

lG
Thomas

Statistik: Verfasst von Maxi-Fussel — Do Jun 06, 2013 7:58 am


Fragen und Antworten • Re: Blacklist aufräumen

Date: 2013-06-06 16:35:21

das muss ich wohl im Kontext mit der Solr-Umstellung gelöscht haben, weils so nicht funtioniert hätte. Statt dessen gibts nun ein neues Lösch-Interface für Solr, siehe /IndexDeletion_p.html
Da müsste man noch eine Verbindung zur Blacklist machen...

Statistik: Verfasst von Orbiter — Do Jun 06, 2013 3:35 pm


Suchmaschinen • Re: Gericht zwingt Google zur Datenweitergabe ans FBI

Date: 2013-06-07 08:16:47

naja hier wirds nun noch deutlicher:

US-Regierung zapft Facebook, Google und Apple an
http://www.sueddeutsche.de/digital/spio ... -1.1690675{.postlink}

Statistik: Verfasst von Orbiter — Fr Jun 07, 2013 7:16 am


Fragen und Antworten • Re: Blacklist aufräumen

Date: 2013-06-07 11:42:37

Sers

mhmm, die \“IndexDeletion_p.html\” befindet sich NICHT bei mir auf dem System, das aber theoretisch aktuell sein sollte weil ich soeben ein Update gefahren habe über apt-get und nichts nachinstalliert wurde.

Haken ist eben dass ich schon etwa 800 Einträge in der Blacklist habe und die mir bei einem Suchvorgang immer noch angezeigt werden weil sie eben nicht gelöscht werden. Die entsprechenden Domains sollten also aus dem Index gelöscht und der Platz wieder freigegeben werden.

lG
Thomas

Statistik: Verfasst von Maxi-Fussel — Fr Jun 07, 2013 10:42 am


Fragen und Antworten • Re: Grundlegendes

Date: 2013-06-07 13:15:54

P1750 hat geschrieben:\ - noindex, nofollow etc. ignoriert\


Das ist auch korrekt. Ob indexiert wird, wird von der Seite entschieden, die verlinkt ist. Maßgebend sind robots.txt und Metatags. Eine sehr alte Diskussion: viewtopic.php?f=6&t=1183{.postlink-local}
Diese Parameter hat Google für sich eingeführt, um Pagerank nicht zu vererben. Das ist nicht relevant für YaCy.

Statistik: Verfasst von Lotus — Fr Jun 07, 2013 12:15 pm


Hilfe für Einsteiger und Anwender • Alle Crawls lediglich auf eine bestimmte Domäne beschränken

Date: 2013-06-07 15:12:36

Was ist eigenglich die beste/empfohlene Methode, um sicherzustellen, dass bei allen Crawls, die gestartet werden, nur Dokumente aus einer bestimmten Domäne erschlossen werden?

Ich weiß, das man jeweils \‘Lade nur Dateien in einem Unterpfad der angegebenen URL\’ oder \‘Lade alle Dateien in der Domäne\’ ankreuzen kann (und muss), aber wir administrieren unsere YaCy mit mehreren Leuten, und es kommt leider immer mal wieder vor, dass jemand diese Einstellung vergisst und dann ein Haufen Dokumente aus ungewollten Domains indiziert werden.

Kann man irgendwie sicherstellen, dass der gesamte Index nur Dokumente aus einer oder mehreren, aber wenigen Domänen enthält?

Vielen Dank im Voraus für Hinweise und Tipps!

MFG; M. Behrens

Statistik: Verfasst von mbehrens — Fr Jun 07, 2013 2:12 pm


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-07 16:20:12

also sowas wie eine globale whitelist?

Statistik: Verfasst von Orbiter — Fr Jun 07, 2013 3:20 pm


Presse • Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-08 00:07:48

Diesmal nicht in der Presse, sondern [für]{style=“font-style: italic”} die Presse!

http://programm.netzwerkrecherche.org/2 ... 36.de.html{.postlink}
Ein YaCy Vortrag für investigative Journalisten im NDR. Das wird spannend. YaCy als zensurresistentes Hacker-Tool, wo Journalisten ohne Angst vor Beobachtungen recherchieren und Daten sammeln können. Apropos Daten sammeln: ich werde eine PirateBox{.postlink} dabei haben und die mit YaCy und dem Thema Journalistische Recherche verbinden...

Aufruf an alle: was könnte einen Journalisten noch so interessieren zum Thema Websuche (auch allgemeiner?), was sollte ich nicht vergessen zu erwähnen, wer hat eine interessante Anwendung für YaCy in diesem Umfeld die wir noch nicht kennen?
Bitte hier posten!!!

Statistik: Verfasst von Orbiter — Fr Jun 07, 2013 11:07 pm


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-08 00:31:46

Statistik: Verfasst von Hadmut — Fr Jun 07, 2013 11:31 pm


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-08 12:16:41

Hi Hadmut, super Liste, vielen Dank!
Was an diesen Sachen auffällt, ist die direkte Anwendersicht ohne Rücksicht auf technische Machbarkeit :) aber genau so muss das sein. Jetzt werde ich die Punkte einzeln analysieren und schauen was man wie machen kann.

Statistik: Verfasst von Orbiter — Sa Jun 08, 2013 11:16 am


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-08 13:27:19

> Was an diesen Sachen auffällt, ist die direkte Anwendersicht ohne Rücksicht auf technische Machbarkeit

Ich bin Informatiker und befasse mich mit Webtechnologie und deren Realisierung, seit es sie gibt. Ich schlage nichts vor, dessen „Machbarkeit” ich nicht sehen würde.

Statistik: Verfasst von Hadmut — Sa Jun 08, 2013 12:27 pm


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-09 01:44:02

Hi Hadmut, war nicht so gemeint, ich muss aber herausfinden was ich konkret vorführen werde um diese Sachen zu zeigen. Ich ordne mal:

Hadmut hat geschrieben:\ \


Das sind Anwendungen von Textteil-Doubletten Suche mit exact-string-matching plus Automatismen (die wir noch nicht haben...):
- Plagiate: man müsste von einem \‘Referenzdokument\’ aus automatisch gewisse Textfragmente (z.B. Satzteile) identifizieren, und daraus automatisiert Suchanfragen in den Index stellen, mit einer Ergebnisliste die nach Anzahl der Treffer sortiert ausgibt wo man Textteile antrifft. Das könnte interessant werden.
- Verschiedene Autoren mit gleichen Formulierungen: wie bei Plagiate, nur ist das Referenzdokument auch irgendwie unbekannt bzw. Man muss eine größere Menge von möglichen Kandidaten durchgehen und dann eine Statistik machen, wo man viele Plagiate gefunden hat.
- Bots identifizieren: hochinteressant! Aber wie identifiziere ich deren Formulierungen, gibts dazu Beispiele?

Hadmut hat geschrieben:\ \


Das ist die Abteilung \‘Zensurresistenz\‘. Man bräuchte mal ein griffiges Beispiel dazu.

Hadmut hat geschrieben:\ \


Das gehört zum Thema Alerts, aber wie ich die Änderungen in Dokumenten feststellen soll weiss ich nicht. Man kann zwar beim Crawlen feststellen dass eine Datei neuer ist, dann wird aber kein Delta zur vorherigen Version erstellt. Alarmieren können wir je nach Suche aber, u.a. mit Hilfe des RSS Search Output Formats in YaCy.

Hadmut hat geschrieben:\ \


Anonymität: dazu fällt mir ein, dass wir im P2P-Modul in der Suche auch die Option haben, temporär nicht per P2P zu suchen. Dann gehen auch keine Suchanfragen an die anderen Peers. Das könnte man einfach \‘stealth-modus\’ nennen und stärker hervorheben.

Hadmut hat geschrieben:\ \


was ist eine \‘stabile\’ Suchindexierung? Beleg-Archivierung ist gute Idee; Offline-Suchergebnisse fällt technisch gesehen mit dem oben erwähnten \‘stealth-Modus\’ zusammen, ist aber eine andere Betrachtungsweise.

Hadmut hat geschrieben:\ \


Hier habe ich keine Entsprechung zu etwas, was wir machen können, gefunden. Wie deckt man ein Personennetzwerk auf, woran erkennt man das?
Was ist eine Änderungsstaffel?

Statistik: Verfasst von Orbiter — So Jun 09, 2013 12:44 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-06-10 00:09:12

Personensuchen, die ich vorher noch nicht kannte:
http://www.vebidoo.de/
http://radaris.de/

Statistik: Verfasst von Huppi — So Jun 09, 2013 11:09 pm


Presse • Re: YaCy bei Google plus

Date: 2013-06-10 00:13:35

Ich habe den Link zur Referenz-Seite dort gepostet.

Statistik: Verfasst von Huppi — So Jun 09, 2013 11:13 pm


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-10 09:10:45

Hallo,

ja genau: sowas wie eine globale Whitelist. Das wär\’s.

Bei uns taucht leider immer wieder das Problem auf, dass der Crawler aus irgendwelchen Gründen anfängt, quasi \‘das gesamte Web\’ abzugrasen (was wir definitiv nicht wollen).

Wir haben zur Zeit eine ganze Reihe verschiedener Crawls eingetrgen (auf CrawlProfileEditor_p.html), die aber alle - eigentlich - jeweils nur eine bestimmte Subdomain \‘einsammeln\’ sollen.
Das funktioniert leider nur leidlich. Ich habe schon überlegt, ob ich sie mal alle lösche und stattdessen mit einem einzigen HTML-Dokument als Crawl-Start arbeite, aber eine \‘globale Whitelist\’ würde das Problem sicher auch lösen.

Statistik: Verfasst von mbehrens — Mo Jun 10, 2013 8:10 am


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-10 12:40:07

mbehrens hat geschrieben:\ Bei uns taucht leider immer wieder das Problem auf, dass der Crawler aus irgendwelchen Gründen anfängt, quasi \'das gesamte Web\' abzugrasen (was wir definitiv nicht wollen).\


die Crawl-regex habe ich jetzt schon öfters kontrolliert und glaube dass sie nichts unerwünschtes durchlassen. Ich müsste mir da mal ein konkretes Beispiel angucken.

mbehrens hat geschrieben:\ Ich habe schon überlegt, ob ich sie mal alle lösche und stattdessen mit einem einzigen HTML-Dokument als Crawl-Start arbeite, aber eine \'globale Whitelist\' würde das Problem sicher auch lösen.\


ich weiss, die GSA arbeitet so. Da gibts eine Liste mit Startpunkt-URLs und eine große Regex-Liste. Man kann das in YaCy so ähnlich machen, es ist möglich mehrere URLs als Startpunkt anzugeben und die \‘große regex-Liste\’ kann man durch eine geeignete Disjunktion der Einzel-regexe realisieren.

In diesem Sinne ist YaCy aber wesentlich flexibler als die GSA, weil man eben diese eine große Liste in einzelne Crawls unterteilen kann und denen auch noch automatische Durchführungszyklem im Process Steering zuordnen kann. Die GSA macht das ja nur \‘wenn sie denkt das es an der Zeit ist\‘, so weit ich weiss, kann man das nicht beeinflussen.

Statistik: Verfasst von Orbiter — Mo Jun 10, 2013 11:40 am


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-10 13:23:59

>> In diesem Sinne ist YaCy aber wesentlich flexibler als die GSA, weil man eben diese eine große Liste in einzelne Crawls unterteilen kann und denen auch noch automatische Durchführungszyklem im Process Steering zuordnen kann. Die GSA macht das ja nur \‘wenn sie denkt das es an der Zeit ist\‘, so weit ich weiss, kann man das nicht beeinflussen.

Stimmt schon, und damit sind wir auch sehr zufrieden.

Allerdings bringt dies auch eigene Schwierigkeiten mit sich - weil man, soweit ich es bisher prüfen konnte, die auf CrawlProfileEditor_p.html gelisteten Crawls nicht mehr im Detail prüfen oder verändern kann, wenn sich herausstellt, dass etwas schiefgeht. Ich melde mich diesbezüglich aber nochmal.

Die Möglichkeit einer globalen Whitelist gibt es also nicht, auch nicht als eine Konfigurationsdatei irgendwo im Hintergrund?

Statistik: Verfasst von mbehrens — Mo Jun 10, 2013 12:23 pm


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-10 17:56:51

mbehrens hat geschrieben:\ die auf CrawlProfileEditor\_p.html gelisteten Crawls nicht mehr im Detail prüfen oder verändern kann, wenn sich herausstellt, dass etwas schiefgeht.\


Die dort gelisteten Crawls sind dort nur in der \‘Kurzansicht\‘. Die gleiche Liste befindet sich in /Table_API_p.html und dort auch mit dem kompletten POST-Argument hinten dran. Einen Editor gibts dort aber auch nicht. Man kann zwar diese Einträge schon bearbeiten, aber dann in /Tables_p.html?table=api unter \‘edit selected row\‘. Das ist aber nicht sehr komfortabel. Ich könnte immerhin das \‘URL\‘-Feld größer machen damit man mehr sieht. Aber das wäre auch nur ein workaround.

Statistik: Verfasst von Orbiter — Mo Jun 10, 2013 4:56 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-10 18:08:35

Die PRISM-Diskussion scheint uns Aufmerksamkeit zu bringen...

hier kommt gerade eine menge rein von
http://computerworld.nl/beveiliging/780 ... m/pagina-4{.postlink}

auch gut dabei:
http://falkvinge.net/2013/06/08/4-ux-pr ... echnology/{.postlink}

ausserdem auch von http://alternativeto.net/software/yacy/ -wo ihr gerne noch ein paar likes drauf setzen dürft :)

Statistik: Verfasst von Orbiter — Mo Jun 10, 2013 5:08 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-06-10 20:05:37

http://low.audioattack.de/pix/yacy/IMG_1066.JPG
http://low.audioattack.de/pix/yacy/IMG_1067.JPG
http://low.audioattack.de/pix/yacy/IMG_1069.JPG

Ist eigentlich immer das gleiche Foto, letzte Woche bei Boltenhagen (Ostsee).

Statistik: Verfasst von Low012 — Mo Jun 10, 2013 7:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-11 09:00:39

Hier wird YaCy in den Kommentaren auch angesprochen: http://www.golem.de/news/prism-skandal-kim-dotcom-fuer-nsa-freie-google-alternative-von-der-eu-1306-99724.html

Statistik: Verfasst von Low012 — Di Jun 11, 2013 8:00 am


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-11 09:12:25

Danke für den Hinweis.
Werde als Nächstes mal versuchen, unsere Bedürfnisse über einen einzigen Crawl zu lösen, der von einem HTML-Dokument mit allen relevanten Links für eine Domäne aus startet...

Statistik: Verfasst von mbehrens — Di Jun 11, 2013 8:12 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-11 11:14:50

..von dort kommen auch ganz schön viele Requests rein!

Seit gestern knattert es auf yacy.net ganz gut, hatte gestern Abend über 100 neue Besucher/Stunde. Das fing in etwa mit dem Tweet hier an:
\”\“We need a Google alternative,\” says \@KimDotcom #NSA\”
https://twitter.com/coldtoon/statuses/3 ... 8816053250{.postlink}

YaCy_Requests_20130610.png

Statistik: Verfasst von Orbiter — Di Jun 11, 2013 10:14 am


Hilfe für Einsteiger und Anwender • Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Date: 2013-06-11 11:22:20

bei der Verwaltungssuchmaschine NRW (auch YaCy) wird das tatsächlich auch so gemacht, allerdings machen die intensiven Gebrauch von den collections, um Kommunen je in eine Collection zu legen. Das sind tausende von Crawl Starts mit jeweils mehreren Startpunkten (teilweise duzende) und je großen Filterlisten. Für die hatte ich extra gecheckt, dass sehr große Filter-regexe möglich sind.

Statistik: Verfasst von Orbiter — Di Jun 11, 2013 10:22 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-11 11:27:28

http://prism-break.org/
listed alle Alternativen, da stehen wir auch drauf!

Statistik: Verfasst von Orbiter — Di Jun 11, 2013 10:27 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-06-11 20:34:26

Bild

Statistik: Verfasst von Orbiter — Di Jun 11, 2013 7:34 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-12 03:14:22

https://netzpolitik.org/2013/prism-uber ... rsteckens/{.postlink} erwähnt es ebenfalls als Alternative

Statistik: Verfasst von sixcooler — Mi Jun 12, 2013 2:14 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-12 10:29:04

sixcooler hat geschrieben:\ https://netzpolitik.org/2013/prism-uberwachung-freiheit-und-die-grenzen-des-versteckens/ erwähnt es ebenfalls als Alternative\


oh! Hat Karsten von der FSFE geschrieben :D
das geht dann auch gleich in Verteiler wie den hier: http://planet.hamburg.ccc.de/

Statistik: Verfasst von Orbiter — Mi Jun 12, 2013 9:29 am


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-12 15:13:09

hab es tatsächlich noch geschafft eine automatische Plagiat-Suche einzubauen!
Wenn alles klappt kommts morgen in Release 1.5

Statistik: Verfasst von Orbiter — Mi Jun 12, 2013 2:13 pm


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2013-06-12 21:09:24

<klugscheisser>

Verschlüsselte Verbindungen zwischen den Peers wäre super, dann würde auch sowas{.postlink} nicht mehr passieren :D
</klugscheisser>

Statistik: Verfasst von LA_FORGE — Mi Jun 12, 2013 8:09 pm


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2013-06-13 10:19:55

LA\_FORGE hat geschrieben:\ Verschlüsselte Verbindungen zwischen den Peers wäre super\


genau so soll das auch laufen, als Vorbereitung dazu gibts ja nun die SSL-Option, die du unter /ConfigBasic.html am Flag \“with SSL (https enabled)\” einschalten kannst. Bei einem Mentee würde das automatisch aktiviert werden.

Statistik: Verfasst von Orbiter — Do Jun 13, 2013 9:19 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-06-13 13:54:41

\@Danke für die vielen Fotos .… nach dem Urlaub werde ich da mal noch einiges tun :-)

Statistik: Verfasst von Vega — Do Jun 13, 2013 12:54 pm


Mitmachen • öffentliches YaCy Suchportal - Sponsoring/Mitmachen

Date: 2013-06-13 14:22:18

Hallo alle zusammen,

heute mal einiges zum Thema YaCy Suchportal, ich bitte um eure Meinungen, Kritik, unterstützung...
Ich bin der Meinung das ein öffentlich erreichbarer Demo-Server/Portal für das Projekt wichtig ist - aus zwei Gründen:

- man kann Interessenten sofort eine URL nennen zum ausprobieren
- für das Projekt wichtig als Refernenz und zum Erfahrung sammeln im Praxisbetrieb/großen Datenmengen
- kann als Referenz-Server Server für andere Projekte verwendet werden aus YaCy Daten abgreifen.

Aktuell ist es so das die YaCy - Instanz auf einem Root Server bei Hetzner läuft, dieser hat 12GB Ram, 2 x 750GB Raid 1, Intel i920, die JVM hat knapp über 6GB zugewiesenen Speicher - wenn man von 12 GB 30% übrig lassen will für das OS und FiIecaching wird es also irgendwann eng...Dazu kommt das ich der JVM heute mehr Speicher zuweisen muss, die KISTE mach oommg...out of heap Speicher...

Daher folgende Fragen:

Hat noch jemand einen Root Server, auf dem YaCy läuft, den wir als Server in einer \“Hochverfügbarkeitslösung\” mit einbauen dürfen? Voraussetzung ist das der Server noch min. 1 Jahr läuft, und ähnlich leistungsfähig ist wie der aktuelle. Bzw. sponsert uns jemand einen weiteren Server für 1 Jahr?

Sponsert/hat jemand eine VM übrig auf dem wir ein nginx installieren und konfigurieren können - kostet so ca. 8 Euro Monat - ebenso hier mindestens 1 Jahr Sponsoring/Bereitstellung

Update des bestehenden Servers, dieser kostet aktuell 41 Euro Monat - die ich aus eigener Tasche zahle, das ist ok und soll auch so bleiben.
Ich könnte nun einen Server mit 48GB Ram, 2x 750GB HD und i920 für 57€/Monat bekommen - also 16 Euro mehr als jetzt. Ist jemand bereit diese 16 Euro für 1 Jahr zu übernehmen (192 €) ?

Für alle Szenarien gilt das ich gern bei Installation/Konfiguration/Wartung helfe/bzw. das übernehmen kann.

Gruß,
Thomas

Statistik: Verfasst von Vega — Do Jun 13, 2013 1:22 pm


Hilfe für Einsteiger und Anwender • Einstellungen Firewall für Symantec Endpoint Protection

Date: 2013-06-13 18:50:44

Hallo,
ich möchte gern YaCy in den Senior-Modus bringen, welche Einstellungen muss ich dazu setzen? - habe die Firewall Symantec Endpoint Protection.

Vielen Dank sagt
solala

Statistik: Verfasst von solala — Do Jun 13, 2013 5:50 pm


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-06-13 20:05:25

Ich habe einen kurzen Blog-Artikel geschrieben: http://blog.yacy-websuche.de/2013/06/13/linuxtag-2013-zedler-preis/

Statistik: Verfasst von Low012 — Do Jun 13, 2013 7:05 pm


Hilfe für Einsteiger und Anwender • How to disable accept remote crawling

Date: 2013-06-15 04:34:54

I just installed Yacy in a senior mode and I found out that it indexes pages (from domains .fr, .cn ), but I yet didn\’t put on indexing. I wouldn\’t like to index and store in base all sites in a row. I would like to choose sites and to put them on indexing independently.

How i can disable accept remote crawling?

Statistik: Verfasst von Fasqu — Sa Jun 15, 2013 3:34 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-15 08:14:56

http://www1.wdr.de/fernsehen/aks/themen ... tz100.html{.postlink}
hat uns unten in der Liste der Alternativen. Ich glaube, die kopieren jetzt alle von prism-break.

hier müsste das Video sein:
http://www1.wdr.de/mediathek/video/send ... ize-L.html{.postlink}
kann mal jemand gucken wie man das runterläd bevor es depubliziert wird?

Statistik: Verfasst von Orbiter — Sa Jun 15, 2013 7:14 am


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2013-06-15 12:25:23

Keine Musik, sondern Hörbücher für Kinder: http://www.ohrka.de/

Ist zwar nicht frei, aber immerhin kostenlos für der privaten Gebrauch.

Statistik: Verfasst von Low012 — Sa Jun 15, 2013 11:25 am


YaCy Coding & Architektur • YaCy Icon

Date: 2013-06-16 18:22:02

Dieses Forum hat ein neues Icon, welches mir gefällt.
Gibt es das auch in groß, um es in YaCy, den Windows Installer und ins Tray einzubinden?

Statistik: Verfasst von Lotus — So Jun 16, 2013 5:22 pm


Hilfe für Einsteiger und Anwender • YaCy \“ohne\” Solr

Date: 2013-06-16 21:29:12

Wer weiß noch ab wann Solr in YaCy nicht mehr optional war?

Statistik: Verfasst von gaston — So Jun 16, 2013 8:29 pm


YaCy Coding & Architektur • Re: YaCy Icon

Date: 2013-06-16 22:26:11

das icon ist im Release mit drin und ersetzt das alte bereits. Das wird aber auf Windows Rechnern, wo YaCy schon mal installiert war nicht angezeigt, das hat mich auch gewundert. Statt dessen sieht man das alte. Das muss irgendwie eine Windows-Iconcaching Sache sein.

Statistik: Verfasst von Orbiter — So Jun 16, 2013 9:26 pm


YaCy Coding & Architektur • Re: YaCy Icon

Date: 2013-06-17 16:05:31

Das liegt daran, dass im Ordner /addon/ im GIT die Dateien YaCy.ico (Installer) und YaCy_TracIcon.png (Tray) noch ausgetauscht werden müssen.

Statistik: Verfasst von Lotus — Mo Jun 17, 2013 3:05 pm


YaCy Coding & Architektur • Re: YaCy Icon

Date: 2013-06-17 18:26:28

aber genau das habe ich gemacht...

Statistik: Verfasst von Orbiter — Mo Jun 17, 2013 5:26 pm


YaCy Coding & Architektur • Re: YaCy Icon

Date: 2013-06-17 21:00:14

Ah, entschuldige, das war mein Fehler! Ich war zwar auf der aktuellen Git Version, aber habe keinen Pull gemacht und deshalb hatte ich die aktuellen Dateien nicht in meinem Repository! Schaut gut aus!

Statistik: Verfasst von Lotus — Mo Jun 17, 2013 8:00 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-06-18 10:09:44

he is the javatar!
iframe

Statistik: Verfasst von Orbiter — Di Jun 18, 2013 9:09 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-06-19 14:10:31

ach übrigens: Antivirensoftware verträgt sich sowieso nicht gut mit YaCy!
iframe

Statistik: Verfasst von Orbiter — Mi Jun 19, 2013 1:10 pm


Presse • t3n.de 5 Google-Alternativen

Date: 2013-06-19 19:15:18

http://t3n.de/news/google-alternative-474551/

jaja, die Bildersuche... bin dran!

Statistik: Verfasst von Orbiter — Mi Jun 19, 2013 6:15 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-19 19:17:35

http://dhornbein.github.io/campaigns/security.html
http://www.webowed.net/biblioteka/45/625/

Statistik: Verfasst von Orbiter — Mi Jun 19, 2013 6:17 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-20 07:44:36

http://michael-mayer.org/archive/4638
http://www.salon.com/2013/06/19/popular ... _dragnets/{.postlink}
http://forum.ubuntu-fr.org/viewtopic.php?pid=13908671

Statistik: Verfasst von Orbiter — Do Jun 20, 2013 6:44 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-20 19:47:00

Ich lade die Sendung eben mit MediathekView{.postlink} herunter. Wenn es bei dir nicht geht, kann ich dir die Sendung auch irgendwie zukommen lassen. Ist allerdings auch die komplette Sendung, nicht nur der eine Beitrag.

Statistik: Verfasst von Low012 — Do Jun 20, 2013 6:47 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-20 20:09:56

Orbiter hat geschrieben:\ kann mal jemand gucken wie man das runterläd bevor es depubliziert wird?\



Ich lade die Sendung eben mit MediathekView{.postlink} herunter. Wenn es bei dir nicht geht, kann ich dir die Sendung auch irgendwie zukommen lassen. Ist allerdings auch die komplette Sendung, nicht nur der eine Beitrag.

Statistik: Verfasst von Low012 — Do Jun 20, 2013 7:09 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-06-21 16:23:05

http://www.golem.de/news/leistungsschut ... 99955.html{.postlink}

Statistik: Verfasst von Low012 — Fr Jun 21, 2013 3:23 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-06-21 17:25:13

Low012 hat geschrieben:\ http://www.golem.de/news/leistungsschutzrecht-google-beugt-sich-der-deutschen-buerokratie-1306-99955.html\


prust, ach herrje jetzt bin ich mal auf das Geheule \‘danach\’ gespannt...

\ Google-Sprecher Kay Oberbeck nennt sie ein \"Geschenk an die deutschen Bürokratie\". Er meint das nur halb als Scherz.\


Ich durfte ja letztes Wochenende bei der Journalisten-Konferenz nr13 teilnehmen und war da in einer Podiumsdiskussion wo es um Ad-Blocker und Paywalls ging. Das war eine absurde Veranstaltung bei der irgendwie niemand verstanden hat worum es geht, und die Leute auf dem Podium waren alles Chefredakteure von großen Zeitschriften und Zeitungen. \‘die bösen adblocker\’ hiess es immer. Dabei funktionieren die doch gar nicht wenn eine Webseite seine Werbung selber hostet. Wenn das alle machen würden, müssten man sich mehr Gedanken machen mit was man da wirbt. Will nur keiner sondern lieber auf die Blocker schimpfen. Und den grösst-möglichen Blocker den man sich vorstellen kann, Google, haben sie nun selbst erst möglich gemacht!

Statistik: Verfasst von Orbiter — Fr Jun 21, 2013 4:25 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-06-21 17:26:40

Low012 hat geschrieben:\ [MediathekView](http://zdfmediathk.sourceforge.net/){.postlink}\


Ui, stimmt, das Tool war hier schon mal irgendwo... und das Ding ist super!
Leider wurden wir im Video nicht genannt, nur das YaCy-Logo war kurz zu sehen auf einem Bildschirm (aus prism-break.org)

Statistik: Verfasst von Orbiter — Fr Jun 21, 2013 4:26 pm


Hilfe für Einsteiger und Anwender • 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Server

Date: 2013-06-22 00:42:38

Ich bin gerade erst durch t3n auf Yacy aufmerksam geworden und würde das Projekt gerne unterstützen, habe aber ein Problem:

Da ich viel unterwegs bin, surfe ich meistens über einen UMTS-Anschluss mit monatlich begrenztem Datenkontingent (danach schaltet sich die Schikanebremse der Telekom ein). Ich würde dieses Kontingent nicht gerne belasten, könnte aber zu Hause meinen Rechner laufen lassen, wenn ich mich schlafen lege. (Der dortige WLAN-Anschluss ist natürlich unbergenzt beim Datenvolumen). Würde das dem Projekt nützen, und kann ich Yacy manuell ein- und ausschalten, je nachdem, über welchen Anschluss ich online bin?

Ich verfüge außerdem über einen gemanagten (Linux-)Server, auf dem ich ein paar Wordpress-Blogs laufen habe. Auf diesen Server kann ich per FTP hochladen, was ich will. Würde das etwas nützen, und wenn ja: wie geht das konkret mit der Installation dort?

Bitte um Entschuldigung für die laienhaften Fragen, aber es kann ja nicht jeder Experte sein.

Statistik: Verfasst von aidadmadsu — Fr Jun 21, 2013 11:42 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-06-22 19:44:42

Na dann, willkommen bei YaCy!

Ja, du kannst YaCy nach belieben starten und beenden. Schaden wird es dem Projekt nicht. Jeder Teilnehmer mehr ist gut.

Sofern dein Hoster mitspielt, kannst du YaCy auch auf deinem Managed Server laufen lassen, so wie bei jedem Server mit Shell-Zugriff. Dazu benötigst du eine Java-Installation und das Start-Script muss ausgeführt werden.

Statistik: Verfasst von Lotus — Sa Jun 22, 2013 6:44 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-06-22 19:58:07

Vielen Dank. Davon, dass mein Hoster mitspielt, gehe ich aus. Gibt es irgendwo ein Anleitung, evtl. bei Youtube, wie man Yacy auf einem Server installiert un startet?

Statistik: Verfasst von aidadmadsu — Sa Jun 22, 2013 6:58 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-06-23 16:45:50

Ja, ich würde mich an die Anleitung auf der Startseite beim Download halten. ;)

\ Generisches Package fü alle Systeme. Nur auspacken und das Startscript starten, dann die Seite öffnen. Benötigt OpenJDK6.\


http://yacy.net/de/index.html
Auspacken würde ich es in ein User-Vereichnis.
Viel Spaß!

Statistik: Verfasst von Lotus — So Jun 23, 2013 3:45 pm


Fragen und Antworten • Re: großere queues legen alle peers lahm

Date: 2013-06-24 08:23:38

Was kann/muss ich tun um die Sperre zu umgehen?

Statistik: Verfasst von ZPC2THLgate — Mo Jun 24, 2013 7:23 am


Fragen und Antworten • Re: großere queues legen alle peers lahm

Date: 2013-06-24 11:25:54

welche Sperre?

Statistik: Verfasst von Orbiter — Mo Jun 24, 2013 10:25 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-06-24 13:55:00

Bild

Statistik: Verfasst von Orbiter — Mo Jun 24, 2013 12:55 pm


Wunschliste • Re: Vorschlag zur Ranking-Verbesserung?

Date: 2013-06-25 08:40:20

Ah, okay. Dann ist das ja hinfällig. :)

Statistik: Verfasst von ZPC2THLgate — Di Jun 25, 2013 7:40 am


Hilfe für Einsteiger und Anwender • Re: YaCy \“ohne\” Solr

Date: 2013-06-25 14:15:09

Siehe http://forum.yacy-websuche.de/viewtopic.php?f=20&t=3233

\ hab ein letztes build gemacht vor der Umschaltung für alle: yacy\_1.04.9097\ Das danach folgende build mit Versionsnummer 1.041 hat nun für alle den Solr Index angeschaltet. Sollte keine Katastrophe auslösen. Wenn bis zum Wochenende alles gut ist mache ich ein 1.1 \...\



Gruß
Thomas

Statistik: Verfasst von Vega — Di Jun 25, 2013 1:15 pm


Fragen und Antworten • Gemeinsamer Index von Raspberry Pi + Tower

Date: 2013-06-25 23:32:20

Ich bin erst seit kurzem dabei und habe eine Frage zu Solr.
Ich möchte meinen Peer 247 auf einem RaspberryPi betreiben, dort aber nur zur Suche oder höchstens einem \“kleinen\” Crawl nutzen, weil der Pi für das Crawlen ein wenig zu schwach ist. Diese Arbeit soll mein Tower leisten, der hat genug Power dafür, das im Hintergrund zu machen. Allerdings will ich den nicht laufen lassen, wenn ich ihn nicht brauche.
Ideal wäre für mich ein gemeinsamer Index, der auf dem Pi liegt, der aber auch von meinem großen PC ergänzt und genutzt werden kann. Orbiter hat in einem anderen Thread geschrieben, dass das mit Solr möglich ist.
Wie aufwändig ist das und wo kann ich mich, falls es kompliziert ist am besten zu Solr etc. informieren?

Statistik: Verfasst von SILVA — Di Jun 25, 2013 10:32 pm


Fragen und Antworten • Re: Gemeinsamer Index von Raspberry Pi + Tower

Date: 2013-06-26 00:15:52

Hallo,

am Einfachsten sollte das gehen indem man das /DATA Verzeichnis repliziert - also auf den entsprechenden Rechner der gerade läuft kopiert.
Richtig sauber ist das aber nicht - man kann auch noch unter \“IndexControlURLs_p.htm\” einen Dump des Solr-Indexes erzeugen und ein/ausspielen.
Allerdings glaube ich nicht das dies auf einem Raspberry Pi allzuviel Spaß/Sinn macht - der Pi ist ein nettes Teil, hat aber für diesen Anwendungszweck einfach viel zu wenig Ram.

[Thomas]{style=“font-style: italic”}

SILVA hat geschrieben:\ Ich bin erst seit kurzem dabei und habe eine Frage zu Solr.\ Ich möchte meinen Peer 24/7 auf einem Raspberry Pi betreiben, dort aber nur zur Suche oder höchstens einem \"kleinen\" Crawl nutzen, weil der Pi für das Crawlen ein wenig zu schwach ist. Diese Arbeit soll mein Tower leisten, der hat genug Power dafür, das im Hintergrund zu machen. Allerdings will ich den nicht laufen lassen, wenn ich ihn nicht brauche.\ Ideal wäre für mich ein gemeinsamer Index, der auf dem Pi liegt, der aber auch von meinem großen PC ergänzt und genutzt werden kann. Orbiter hat in einem anderen Thread geschrieben, dass das mit Solr möglich ist.\ Wie aufwändig ist das und wo kann ich mich, falls es kompliziert ist am besten zu Solr etc. informieren?\

Statistik: Verfasst von Vega — Di Jun 25, 2013 11:15 pm


Mitmachen • Re: Chemnitzer-Linuxtage 2011

Date: 2013-06-26 08:28:25

Ich werd mal versuchen mit meinem Screenreader die Spalten zu erreichen.

Statistik: Verfasst von ZPC2THLgate — Mi Jun 26, 2013 7:28 am


Fragen und Antworten • Re: Gemeinsamer Index von Raspberry Pi + Tower

Date: 2013-06-26 10:10:15

Ok, danke für den Hinweis.
Wäre 1GB RAM genug um YaCy \“sinnvoll\” zu betreiben? Dann würde ich mir einfach ein Cubieboard zulegen. Das Teil hat 1GHz und 1GB RAM, schluckt aber auch nicht viel Strom.

Statistik: Verfasst von SILVA — Mi Jun 26, 2013 9:10 am


Fragen und Antworten • Re: Gemeinsamer Index von Raspberry Pi + Tower

Date: 2013-06-26 12:11:02

Zur Zeit ist YaCy auf RPi nur \‘Spielkram\’ weils ein bisschen, aber nicht wirklich gut funktioniert.

SILVA hat geschrieben:\ Ideal wäre für mich ein gemeinsamer Index, der auf dem Pi liegt, der aber auch von meinem großen PC ergänzt und genutzt werden kann. Orbiter hat in einem anderen Thread geschrieben, dass das mit Solr möglich ist.\


Deine Idee, nur Solr dort zu installieren hat mich aber inspiriert und daraufhin habe ich erst mal die Doku für den externen Solr geupdated:
http://www.yacy-websuche.de/wiki/index.php/Dev:Solr
Für den RPi würde ich es vorziehen, das unter einem Jetty zu deployen. Die example-Installation von Solr benutzt das, und die Beschreibung sollte damit erst mal gehen. Schöner wäre aber ein sauberes deployen in einem \‘frischen\’ Jetty, das muss ich mal selbst erst ausprobieren, oder wenn du willst probier mal mit Hilfe von http://wiki.apache.org/solr/SolrInstall und helfe das YaCy Wiki zu ergänzen...

Statistik: Verfasst von Orbiter — Mi Jun 26, 2013 11:11 am


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-06-26 15:55:36

http://www.golem.de/news/zeitungsverleger-deutsche-verleger-wollen-google-suche-einschraenken-1306-100014.html

Ich habe das verlinkte PDF nur überflogen, aber ein Teil davon betrifft die Verlage gar nicht (alles zu Google Shopping ) und der Rest wäre zum Lachen, wenn es nicht so traurig wäre. Ein Highlight finde ich den Teil, wo es um Google News und robots.txt geht.

<mode=\“Stammtisch\”>Würde Google einen Vertrag mit der DPA abschließen und sämtliche Artikel auf Google News veröffentlichen, könnte man einen Großteil der deutschen Tageszeitungen sowieso gleich einstampfen. Qualitätsjournalismus... *LOL*</mode>

Statistik: Verfasst von Low012 — Mi Jun 26, 2013 2:55 pm


Presse • Re: Netzwerkrecherche Jahreskonferenz, #nr13

Date: 2013-06-26 23:03:12

Die Folien sind übrigens hier:
http://yacy.net/material/YaCy_Netzwerkr ... 130614.pdf{.postlink}

Statistik: Verfasst von Orbiter — Mi Jun 26, 2013 10:03 pm


Hilfe für Einsteiger und Anwender • \“Anti-piracy\” law

Date: 2013-06-28 01:53:40

Hello
In view of recent developments in the field of activity of the Russian Federation State Duma member http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%D0%BE%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82_292521-6, I had a few questions.
How can you protect yourself (your web site)
1. Go to the foreign host (that is not required)
2. some other way
I would be grateful for any information.
Sincerely moon

Statistik: Verfasst von mass — Fr Jun 28, 2013 12:53 am


Fragen und Antworten • Benutzbarkeit/Indexing

Date: 2013-06-28 09:27:32

Nachdem ein lokales Crawling außer Kontrolle geraten war (out of memory, Webinterface reagiert nicht mehr, stopYACY.sh funktioiert nicht) habe ich die gesamt Queue gelöscht und Yacy neu gestartet. Im Log tauchen aber weiterhin \“Fulltext indexing:\“-Meldungen auf obwohl nichts im Webinterface darauf hindeutet daß weiter gecrawlt oder geindext wird. Was bedeutet dies?

Statistik: Verfasst von muixirt — Fr Jun 28, 2013 8:27 am


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-28 14:59:17

I don\’t get the question. Can you try to ask in another way?

Statistik: Verfasst von Lotus — Fr Jun 28, 2013 1:59 pm


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-28 19:37:13

the situation is.
Russia adopted the anti-piracy law , under which includes all sites with links to illegal content. Search engines when issuing the search give references,including illegal content,that\’s the only trace and know that it is not legal owner of the search engine is not possible.
I don\’t know how to define a site with legitimate content or not,because of their sheer number.
Question.
what can be done to the owner of the search engine in this case,
Go to the foreign hosting,that is not welcome
or are there other methods,to leave the site (search)on the server and apply something of anonymity. Only I do not know how to do it.
Sorry,English,and German languages I do not know,translate on-line translator.

Statistik: Verfasst von mass — Fr Jun 28, 2013 6:37 pm


Fragen und Antworten • Selective removal of the index

Date: 2013-06-29 07:07:29

Hello!
The first question.
I want to keep only the indexes for the domain *. Com.
For all other domains in the indexes to be deleted.Is this possible?

The second question.
Is it possible to remove the indexes for a given domain?
For example: I want to delete the index for *. Com, and for all other domains deleted.

Thanks in advance.

Statistik: Verfasst von first-leon — Sa Jun 29, 2013 6:07 am


Fragen und Antworten • Re: Benutzbarkeit/Indexing

Date: 2013-06-29 12:48:02

muixirt hat geschrieben:\ Nachdem ein lokales Crawling außer Kontrolle geraten war (out of memory, Webinterface reagiert nicht mehr, stopYACY.sh funktioniert nicht) habe ich die gesamt Queue gelöscht und Yacy neu gestartet. Im Log tauchen aber weiterhin [\"Fulltext indexing:\"]{style="font-style: italic"}-Meldungen auf obwohl nichts im Webinterface darauf hindeutet dass weiter gecrawlt oder geindext wird. Was bedeutet dies?\


Das sind Seiten, die andere Netzwerkteilnehmer gecrawlt haben, und die enstandenen Indexdaten wurden dann automatisch via DHT-Transfer an dich und ein paar andere Teilnehmer, versendet.

Statistik: Verfasst von David — Sa Jun 29, 2013 11:48 am


Fragen und Antworten • Re: Selective removal of the index

Date: 2013-06-29 13:09:09

Hello first-leon,

deleting is possible at Index Administration -> Index Deletion (/IndexDeletion_p.html).

At the bottom there is a field to delete by Query.
A Query to delete everything but com-domains could be -host_s:*.com
(be carefull - I havn\’t testet this!)

To delete foobar.com - the Query could be host_s:foobar.com

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Jun 29, 2013 12:09 pm


Hilfe für Einsteiger und Anwender • Re: How to disable accept remote crawling

Date: 2013-06-29 15:34:42

Fasqu hat geschrieben:\ How i can disable accept remote crawling?\


It should be disabled by default. You can check it here:
http://localhost:8090/RemoteCrawl_p.html

Fasqu hat geschrieben:\ I would like to choose sites and to put them on indexing independently.\


Even if remote crawling is disabled, you will receive index data from other peers via dht-transfer. If you don\’t want that to happen, you need to choose \“robinson mode\” in the network configuration:
http://localhost:8090/ConfigNetwork_p.html

Statistik: Verfasst von David — Sa Jun 29, 2013 2:34 pm


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-29 15:43:49

One solution might be to reject index data from other peers, and only crawl site you are sure they don\’t contain illegal stuff.

To reject index data from other peers, you need to enable \“robinson mode\” in the network configuration:
http://localhost:8090/ConfigNetwork_p.html

Another solution might be to use the blacklist to only accept legal sites in your index. But I don\’t know how to do that. Maybe in a future version of yacy, there will be a whitelist function.

The blacklist configuration can be found here:
http://localhost:8090/Blacklist_p.html

Statistik: Verfasst von David — Sa Jun 29, 2013 2:43 pm


Hilfe für Einsteiger und Anwender • Re: Einstellungen Firewall für Symantec Endpoint Protection

Date: 2013-06-29 15:50:13

Hallo

Theoretisch sollte es ausreichen den TCP-Port 8090 in deiner Firewall und deinem Modem/Router zu öffnen.

Statistik: Verfasst von David — Sa Jun 29, 2013 2:50 pm


Hilfe für Einsteiger und Anwender • Re: StackTrace Error executing query

Date: 2013-06-29 15:56:46

mass hat geschrieben:\ Caused by: java.lang.OutOfMemoryError: Java heap space\


I\’m no developer, but it\’s probably because of insufficent RAM. Unfortunately, yacy has an insatiable hunger for this resource.

Statistik: Verfasst von David — Sa Jun 29, 2013 2:56 pm


Mitmachen • Re: prompt

Date: 2013-06-29 16:01:23

Where in yacy did you see this message? In the server log?

Statistik: Verfasst von David — Sa Jun 29, 2013 3:01 pm


Off-Topic • Re: yacy says it is not accessible

Date: 2013-06-29 16:16:56

You need to open the TCP-port 8090 in your modem/router, and in your firewall (if you are using one). Do you have done that? If you need future help, let us know.

Statistik: Verfasst von David — Sa Jun 29, 2013 3:16 pm


Fragen und Antworten • Re: Selective removal of the index

Date: 2013-06-29 17:43:59

Thanks!

Code:
Delete by Solr QueryThis is the most generic option: select a set of documents using a solr query.q=host_s:*.com



what i need.

Statistik: Verfasst von first-leon — Sa Jun 29, 2013 4:43 pm


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-29 19:04:30

with Robinson is not desirable.
block the sites? it\’s about 70% of the Internet in Russia, as in varying degrees, there are links to download. SEO-specialists have worked with it.
many famous companies, such as Google and Yandex, spoke very strongly about this.

\“This version of the bill up against the logic of the Internet and hits everyone - not just to site owners and Internet users, but also for owners, too. After all, the selected method of controlling the fight is not piracy, but with the Internet - it\’s the same thing as close highway on which there was only one accident \“- in favor of\” Yandex \“.

Statistik: Verfasst von mass — Sa Jun 29, 2013 6:04 pm


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-29 21:49:20

As the hosting of a general search engine has not the intention to do something illegal this should be ok. Moreover the content crawling is fully automatic and can not be controlled for each document to be illegal or not. When someone asks you for removal of a specific site out of your index due to some laws, you can use the blacklist feature of YaCy. This should be a suitable method to comply with the law, at least in Germany. But first, someone would have to ask for it.

Statistik: Verfasst von Lotus — Sa Jun 29, 2013 8:49 pm


Hilfe für Einsteiger und Anwender • Re: \“Anti-piracy\” law

Date: 2013-06-29 22:40:43

I thought about it. Hence, only by request of the owner to make a reference to the black list. As I understand it, to automate such is not possible.
Thank you

Statistik: Verfasst von mass — Sa Jun 29, 2013 9:40 pm


Off-Topic • Re: Minecraft...

Date: 2013-06-29 23:29:08

Hallo, im Urlaub ist mein DyDNS Account abgelaufen - daher war erstmal Ruhe...
Jetzt ist der Server und die Weltkarte wieder erreichbar:

Weltkarte - http://tokeek.dyndns.org:8123/
Server - http://tokeek.dyndns.org

Also wenn Ihr Lust habt - let\’s Play ;-)

Thomas

Statistik: Verfasst von Vega — Sa Jun 29, 2013 10:29 pm


Fragen und Antworten • How many words in the cache?

Date: 2013-06-30 16:07:47

I start indexing and view this image (in attachment).
How words in my cache?
This value increases and decreases again.

PS. In \“Crawl Job\” i disable \“Speichern im Web-Cache\“.

Statistik: Verfasst von first-leon — So Jun 30, 2013 3:07 pm


Fragen und Antworten • Re: Selective removal of the index

Date: 2013-06-30 19:25:57

the \‘-\’ is important here!
q=host_s:*.com will delete all com-domains
q=-host_s:*.com will delete all but not the com domains

Statistik: Verfasst von sixcooler — So Jun 30, 2013 6:25 pm


Panorama • Re: Google zensiert 5 millionen Webseiten wegen DMCA

Date: 2013-06-30 22:22:31

Google geht das ziemlich transparent an. In den Ergebnissen wird angezeigt, dass aufgrund dieser Anfrage x Seiten entfernt wurden, die eigentlich an dieser Position gerankt sein sollten. Die Anfrage ist dann verlinkt und man kann sehen welche URLs entfernt wurden. ;) Beispiel: https://www.google.de/?q=orjan+nilsen+violetta
Interessant ist auch, zu blättern. Da gibt es dann mehr dieser Hinweise als Suchergebnisse.

Statistik: Verfasst von Lotus — So Jun 30, 2013 9:22 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-01 02:28:09

äh, wir brauchen eine neue Kategorie, wenn das hier öfters vorkommt: http://www.freelancer.com/projects/Syst ... t-the.html{.postlink}

Statistik: Verfasst von Orbiter — Mo Jul 01, 2013 1:28 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-07-01 03:34:42

Hallo Thomas,

ich habe einen Rootserver mit 32 Gig RAM, auf denen laufen 3 YaCy und die sollen solange wie moeglich also Jahre laufen.
Und Hilfe kann ich auch immer mit gebrauchen

Gruß Roland

Statistik: Verfasst von RoGott — Mo Jul 01, 2013 2:34 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-07-01 10:50:54

Hallo Roland,

das klingt gut.….welche Peers sind das ? Was machen die - also Crawlen oder nur DHT / Spezialisierter oder allgemeiner Index?
Wenn Du das nicht öffentlich schreiben willst - Mail an mich...

Thomas

RoGott hat geschrieben:\ Hallo Thomas,\ \ ich habe einen Rootserver mit 32 Gig RAM, auf denen laufen 3 YaCy und die sollen solange wie moeglich also Jahre laufen.\ Und Hilfe kann ich auch immer mit gebrauchen\ \ Gruß Roland\

Statistik: Verfasst von Vega — Mo Jul 01, 2013 9:50 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-07-01 22:35:24

Zwei setze ich auf Webseiten ein die sind in Freeworld
Einen benutze ich vorerst Privat und befülle den, so er mir nicht ausreist mit speziellen Webthemen, die zu einer anderen Webseite von mir passen, die ich derzeitig umbaue.
Eine ist allgemein gehalten und zwei spezial Themen.

Statistik: Verfasst von RoGott — Mo Jul 01, 2013 9:35 pm


Fragen und Antworten • Re: How many words in the cache?

Date: 2013-07-01 22:45:14

This is an indexing cache referring to the text written on the left. The drop to zero is like is is supposed to work. Everything is ok.
\“Speichern im Web-Cache\” means another cache, that contains the downloaded raw data. This can speed up search in certain conditions (I don\’t know what it exactly does at the moment, as we migrated to Solr.)

Statistik: Verfasst von Lotus — Mo Jul 01, 2013 9:45 pm


Off-Topic • Schon mal Kreditrechner benutzt?

Date: 2013-07-02 16:02:12

Hallo, kennt jemand solche Kreditrechner{.postlink} aus dem Internet? Ich überlege ernsthaft, mir online einen Kredit zu besorgen. Hat jemand Erfahrungen damit und kann mir berichten? Welche Kreditrechner gibt es sonst noch so und wie verhält es sich mit der Schufa bein online Kredit-Vergleiche? Danke schonmal für die Antworten ;)

Statistik: Verfasst von Mennte — Di Jul 02, 2013 3:02 pm


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2013-07-02 16:04:31

Mann kann auch einen kostenlosen Youtube-Downloader verwenden, und die Videos von dort in MP3s umwandeln.

Statistik: Verfasst von Mennte — Di Jul 02, 2013 3:04 pm


Off-Topic • Re: Schon mal Kreditrechner benutzt?

Date: 2013-07-02 16:46:12

Würde ich nicht benutzten, da schon eine Vielzahl von Kredit- und damit Schufa-Anfragen zu einem schlechteren Ranking und damit verbunden zu einer schlechteren Bonität führen können.

Statistik: Verfasst von PCA42 — Di Jul 02, 2013 3:46 pm


Fragen und Antworten • Re: How many words in the cache?

Date: 2013-07-02 17:15:03

It is now clear. Thanks.

Statistik: Verfasst von first-leon — Di Jul 02, 2013 4:15 pm


Fragen und Antworten • Reload failure URL

Date: 2013-07-02 17:24:26

In the log a lot of these errors: \“cannot load: load error - java.io.IOException: Client can\’t execute: Connection reset\”
It was a communication problem on the local or remote server.
Is it possible to download only those pages?
Or to download all the pages?

Statistik: Verfasst von first-leon — Di Jul 02, 2013 4:24 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-04 17:28:33

jaaaaa... ein Google-Skynet-Vergleich :twisted: in einem image-board mit YaCy-Empfehlung :mrgreen: (achtung: fsk18)
http://boards.420chan.org/tinfoil/res/57476.php

Statistik: Verfasst von Orbiter — Do Jul 04, 2013 4:28 pm


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen => gefixt :-)

Date: 2013-07-04 18:20:21

Seit den neueren 1.51er Builds keine Fehler mehr dieser Art feststellbar. Großartig!
\@devs: Hervorragende Arbeit! Hut ab

Statistik: Verfasst von LA_FORGE — Do Jul 04, 2013 5:20 pm


YaCy Coding & Architektur • Plugin-Architektur für Suche

Date: 2013-07-04 19:01:26

Ich habe mir mal Gedanken gemacht, wie man Suchplugins sinnvoll integrieren könnte.

Die Plugins, die ich im Sinn habe, sind ausschließlich solche, die bei DuckDuckGo als \“FatHead\” bezeichnet werden (Beispiel{.postlink}). Unter anderem könnte auch die Autokorrektur so umgewandelt/ausgelagert werden.

Ich habe mir das folgendermaßen vorgestellt:

Bei jedem Suchaufruf wird in die erste Seite ein Script eingebettet, was eine Liste der Plugins auf dem Server übergeben bekommt.

Die Plugins werden alle aufgerufen (z.B. /plugin/*name*.html), und wenn die Antwort nicht leer ist, wird das unter der Suchleiste eingefügt.

Zusätzlich könnte vorher noch für jedes Plugin überprüft werden, ob die Query bestimmte Keywords enthält, und nur dann das Plugin geladen werden.

Der Ansatz hat den Vorteil, dass Plugins sowohl in Java als auch in Javascript (oder beides) sein können.

Statistik: Verfasst von Nutomic — Do Jul 04, 2013 6:01 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-04 21:43:16

http://deimhart.net/index.php?/archives ... ionen.html{.postlink}

Statistik: Verfasst von Orbiter — Do Jul 04, 2013 8:43 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-07-05 08:09:17

Stasi vs. NSA{.postlink}

Statistik: Verfasst von Low012 — Fr Jul 05, 2013 7:09 am


Fragen und Antworten • High load CPU in idle mode

Date: 2013-07-05 16:20:07

Indexing is turned off.
Log In /var/log/yacy/yacy00.llog such records are being added:

I 2013/07/05 21:15:30 CollectionConfiguration.CRHost >> count=117193, cr=1.2799399281527057E-6, crn=8
I 2013/07/05 21:15:30 CollectionConfiguration.CRHost CR for http://sites.com

In this heavily loaded cpu.

It is normaly?

Statistik: Verfasst von first-leon — Fr Jul 05, 2013 3:20 pm


Fragen und Antworten • Re: High load CPU in idle mode

Date: 2013-07-05 16:28:16

High cpu load can happen, if yacy is responding to search queries. But if it\’s constantly using much cpu time, I would recommend a restart. Do you use the latest version of yacy?

Maybe, it will also help to choose 10% under \“Use Default Profile\” here:
http://localhost:8090/Performance_p.html

Statistik: Verfasst von David — Fr Jul 05, 2013 3:28 pm


Fragen und Antworten • Re: High load CPU in idle mode

Date: 2013-07-05 17:16:58

I use latest version YaCy (yacy_1.51.9046)
Very very high speed log(/var/log/yacy/yacy00.log)! Several hundred requests per minute.
I use intranet indexing and \“Robinson Mode\” and \“Private Peer\“.
It is no search queries (/var/log/yacy/queries.log very small)

Code:
yacy:/var/log/yacy# ls -latotal 20436drwxr-xr-x  2 yacy yacy    4096 июля   5 22:13 .drwxr-xr-x 15 yacy yacy    4096 июля   5 21:44 ..-rw-r--r--  1 yacy yacy       0 июня  30 20:23 proxyAccess00.log-rw-r--r--  1 yacy yacy       0 июля   5 21:46 proxyAccess00.log.lck-rw-r--r--  1 yacy yacy   19427 июля   5 21:39 queries.log-rw-r--r--  1 yacy yacy  882681 июля   5 22:13 yacy00.log-rw-r--r--  1 yacy yacy       0 июля   5 21:44 yacy00.log.lck-rw-r--r--  1 yacy yacy 1048616 июля   5 22:06 yacy010.log-rw-r--r--  1 yacy yacy 1048646 июля   5 22:05 yacy011.log-rw-r--r--  1 yacy yacy 1048611 июля   5 22:05 yacy012.log-rw-r--r--  1 yacy yacy 1048600 июля   5 22:04 yacy013.log-rw-r--r--  1 yacy yacy 1048664 июля   5 22:04 yacy014.log-rw-r--r--  1 yacy yacy 1048682 июля   5 22:04 yacy015.log-rw-r--r--  1 yacy yacy 1048581 июля   5 22:03 yacy016.log-rw-r--r--  1 yacy yacy 1048582 июля   5 22:03 yacy017.log-rw-r--r--  1 yacy yacy 1048577 июля   5 22:01 yacy018.log-rw-r--r--  1 yacy yacy 1048586 июля   5 22:00 yacy019.log-rw-r--r--  1 yacy yacy 1048585 июля   5 22:13 yacy01.log-rw-r--r--  1 yacy yacy 1048631 июля   5 22:12 yacy02.log-rw-r--r--  1 yacy yacy 1048578 июля   5 22:12 yacy03.log-rw-r--r--  1 yacy yacy 1048581 июля   5 22:11 yacy04.log-rw-r--r--  1 yacy yacy 1048699 июля   5 22:11 yacy05.log-rw-r--r--  1 yacy yacy 1048662 июля   5 22:10 yacy06.log-rw-r--r--  1 yacy yacy 1048588 июля   5 22:09 yacy07.log-rw-r--r--  1 yacy yacy 1048601 июля   5 22:08 yacy08.log-rw-r--r--  1 yacy yacy 1048665 июля   5 22:08 yacy09.log-rw-r--r--  1 yacy yacy    4098 июля   5 21:40 yacy.logging

Statistik: Verfasst von first-leon — Fr Jul 05, 2013 4:16 pm


Fragen und Antworten • Re: Reload failure URL

Date: 2013-07-06 08:20:12

This is not possible?
Require full indexing for hosts?

More inenteresuet - whether the job description api work with the database?
For example: 
* query the system as the number of indexed hosts
* query the system as the number of indexed pages for a given host
and other...

Statistik: Verfasst von first-leon — Sa Jul 06, 2013 7:20 am


Presse • Re: t3n.de 5 Google-Alternativen

Date: 2013-07-07 23:39:09

Hi,
ist es nicht möglich die aktuelle Diskussion zu Überwachungsaffäre auch Yacy wieder stärker in das Bewusstsein der Bevölkerung zu bringen.
Gibt es hierzu schon Aktivitäten oder Pressekontakte?

Statistik: Verfasst von rb-search — So Jul 07, 2013 10:39 pm


Suchmaschinen • Altavista wird abgeschaltet

Date: 2013-07-08 08:05:36

Ich habe Altavista seit über 10 Jahren nicht mehr benutzt und sonst scheinbar auch niemand so richtig:

http://www.heise.de/newsticker/meldung/Altavista-verschwindet-aus-dem-Netz-1912600.html

Statistik: Verfasst von Low012 — Mo Jul 08, 2013 7:05 am


Suchmaschinen • Re: Altavista wird abgeschaltet

Date: 2013-07-08 11:08:14

Dazu fällt mir ein, dass ich bei Fireball immer toll fand, einen Link unter dem Suchergebnis zu haben, mit dem ich die komplette Domain vom Ergebnis ausschließen konnte. Bei Fireball kann man sogar noch suchen! ;)
Um den Bogen zu kriegen: Fireball hat auch Altavista Ergebnisse genutzt: http://www.fireball.de/GeschichteNeu.asp

Statistik: Verfasst von Lotus — Mo Jul 08, 2013 10:08 am


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-08 17:33:54

Kann einer von den Devs vielleicht was dazu sagen?

Ich will das nur ungern alles implementieren, um dann beim Merge Request zu hören, dass es eigentlich grundsätzlich keine gute Idee ist.

Statistik: Verfasst von Nutomic — Mo Jul 08, 2013 4:33 pm


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-08 23:52:15

Hi Nutomic, entschuldige die späte Reaktion, das lag ganz und gar nicht an Desinteresse sondern im Gegenteil daran, dass ich mir für die Beantwortung Zeit nehmen wollte und genau die nicht richtig da war.

Die Idee ist ziemlich super! Ich hab vor zwei Wochen auch ein Tweet bekommen, der mich auf die Verwendung von 0-click Daten wie in Blekko hinweist:

Carlos Solís \@csolisr hat geschrieben:\ \@yacy\_search I was thinking to get the data in real time, like you already do with Blekko. Get the 0-click site and parse it on the top.\


Das wäre so ein Anwendungsfall. Ich hatte darauf geantwortet:

\ \@csolisr zero-click is a good idea, but where did \@duckduckgo get data? [http://downloads.dbpedia.org/3.8/en/sho \... \_en.nq.bz2](http://downloads.dbpedia.org/3.8/en/short_abstracts_en.nq.bz2){.postlink} 343MB download, so no centralization, good?\


weil ich in YaCy ungerne so etwas wie Meta-Suche machen will, das würde verhindern dass wir mit YaCy als eigenständige Suchmaschine gesehen werden können.

genau in diese Richtung würde auch meine einzige Kritik gehen: eine schlechte Anwenung der FatHead wären solche, die Ergebnisse von anderen Servern einblenden würden. Das macht dann das Konzept der dezentralen und ansonsten selbstständigen Suchmaschine kaput.

Abgesehen von dieser \‘Vorsichtsmaßnahme\’ ist dein Vorschlag der dazu notwendigen Architektur genau richtig. Eine Auslagern der Suchwortvorschläge in diese Technik macht ebenfalls Sinn. An dieser Stelle müssten wir uns fragen: wie sieht eine API für die Plugins aus? Hast du da schon eine konkrete Vorstellung?

Statistik: Verfasst von Orbiter — Mo Jul 08, 2013 10:52 pm


Hilfe für Einsteiger und Anwender • Re: Einstellungen Firewall für Symantec Endpoint Protection

Date: 2013-07-08 23:57:53

kann mal jemand ein Demo-Video hierzu machen; sozusagen exemplarisch, ich verlinke das dann gerne im Interface und auf YaCy.net. Das ist offensichtlich ein wunder Punkt bei YaCy, wäre gut wenn das mehr Leute können.

Statistik: Verfasst von Orbiter — Mo Jul 08, 2013 10:57 pm


Presse • Re: t3n.de 5 Google-Alternativen

Date: 2013-07-09 00:28:50

ich hatte ein Interview mit Spiegel TV Magazin (!!), mit YaCy Demo -- vor zehn Tagen. Sie habens nicht gesendet :(
Ja natürlich sollte das Thema stärker in der Presse sein. Wenn hier jemand Ideen hat wie wir das anstellen, nur her damit.

Statistik: Verfasst von Orbiter — Mo Jul 08, 2013 11:28 pm


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-09 01:19:30

Woher die Daten kommen hab ich mir ehrlich gesagt fast gar keine Gedanken gemacht. Einiges könnte man lokal machen (zB Taschenrechner), ansonsten könte man auf freie Seiten wie Wikipedia zurückgreifen?

DIe Plugins habe ich mir so vorgestellt, dass das jeweils ein Ordner ist, mit einer .html-Datei und einer .java-Datei (bzw .class im Release), also genau wie die bestehenden Seiten, evtl zusätzlich .css, .js und weitere .java/.class.

Die Hauptklasse implementiert respond() und sowas wie doesLoad() (was anhand von Keywords prüft, ob das Plugin geladen werden soll). Wenn das Plugin geladen werden soll, wird das über Javascript gemacht (genau gleich wie alle anderen Seiten).

Statistik: Verfasst von Nutomic — Di Jul 09, 2013 12:19 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-07-09 13:06:21

Und nochmal was zum Thema \“GUIs in Filmen\”: http://www.golem.de/news/kit-fui-kleine-datenbank-sammelt-fake-user-interfaces-1307-100277.html

Statistik: Verfasst von Low012 — Di Jul 09, 2013 12:06 pm


Jobs • configure the multi-core configuration of YaCy

Date: 2013-07-10 10:08:58

http://www.donanza.com/jobs/p12348707-e ... =wltrk1184{.postlink}

Statistik: Verfasst von Orbiter — Mi Jul 10, 2013 9:08 am


Jobs • get YaCy to connect to the outside world

Date: 2013-07-10 10:09:34

http://www.freelancer.com/projects/Syst ... t-the.html{.postlink}

Statistik: Verfasst von Orbiter — Mi Jul 10, 2013 9:09 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-10 17:05:57

http://lennaron.wordpress.com/2013/07/0 ... h-und-nun/{.postlink}

Statistik: Verfasst von Orbiter — Mi Jul 10, 2013 4:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-11 10:35:39

wer wissen will, wie man \‘YaCy\’ im spanischen ausspricht, guckt mal das hier (ab 2:40)
iframe

Statistik: Verfasst von Orbiter — Do Jul 11, 2013 9:35 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-07-11 17:58:22

Bild

Statistik: Verfasst von Orbiter — Do Jul 11, 2013 4:58 pm


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-11 18:08:49

ok das ist gut; das respond() bekommt als Parameter den Suchstring übergeben?

Wie hast du dir das vom Design her vogestellt, soll das Plugin ein fertiges html liefern? Wenn ja: mit einem festgelegtem css-vokabular? Wenn nein: dann braucht man ein Objekt, das gewisse Metadaten beinhaltet, wie Headline, Comment line, Link etc.

Auch wenn es unsauber ist wäre ich eher für das html, weil man dann völlig frei ist in der Gestaltung; man könnte auch Bilder oder Karten im Plugin anzeigen; oder Graphen oder eben vieles; sogar neue Navigtionsmittel.

Statistik: Verfasst von Orbiter — Do Jul 11, 2013 5:08 pm


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-11 18:39:58

Richtig respond() bekommt die Query (vllt. besser direkt als Array?!)

Das HTML soll ja einerseits einheitlich aussehen (Hintergrund, Rand, Titel), aber andererseits beliebigen Hintergrund darstellen. Ich denke am besten wäre eine div (die für jedes Plugin identisch ist und evtl. auch Titel etc. übergeben bekommt) und mit CSS den gleichen Style bekommt, und in die div kommt dann das HTML vom Plugin.

Also äußerer Container (div), der für jedes Plugin gleich ist, mit Titel etc. als Parameter, und beliebiges HTML vom Plugin darin.

Statistik: Verfasst von Nutomic — Do Jul 11, 2013 5:39 pm


Fragen und Antworten • Secret adult stuff, switch with one click!!

Date: 2013-07-12 09:11:06

Please allow me to make a brief description of http://softsite.swjnk.com/ application.It is a professional access tool of adult sites.Its kernel is independent of IE/FIREFOX,which makes you enjoy a faster speed of accessing sites. Bookmarks on the right side integrates more than 100 adult websites, all of which we recommend to you..TAB with panel allows you to simultaneously open more than 80 webpages, and integrates privacy mode and A key switch.You can make it hidden in the bottom right corner of WINDOWS so you can conveniently visit sites at any time and any place.Good luck to you.

Statistik: Verfasst von babyliar — Fr Jul 12, 2013 8:11 am


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-12 10:19:45

Man könnte doch wahrscheinlich auch die Plugins wie die Templates in htroot/env/templates einbinden. Dieses Template bindet dann die Plugins ein (also eine Verkettung Suchseite-Template-Plugin). Dann wäre das Interface so wie bisher, und es gibt alle Daten, die verfügbar sind.

Statistik: Verfasst von Lotus — Fr Jul 12, 2013 9:19 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-12 11:44:22

Haha! Sehr cool!

Statistik: Verfasst von Low012 — Fr Jul 12, 2013 10:44 am


YaCy Coding & Architektur • Re: Plugin-Architektur für Suche

Date: 2013-07-12 14:18:28

Ich hab mir noch nicht genau angeschaut, wie die HTML-Generierung jetzt gemacht wird, aber wenn sich das mit bestehender Funktionalität machen lässt, ist das natürlich umso besser.

Statistik: Verfasst von Nutomic — Fr Jul 12, 2013 1:18 pm


Mitmachen • Rechenkraft.net

Date: 2013-07-12 14:46:22

Ich bin auf diesen Verein gestoßen, der Distributed Computing unterstützen will.

Bisher geht es da (fast?) nur um BOINC (also Forschung), aber Yacy würde auch dazu passen.

Hier{.postlink} ist ein Forumthread zu Yacy.

Ich denke eine Zusammenarbeit wäre ziemlich sinnvoll, um mehr Entwickler und Nutzer zu bekommen.

Statistik: Verfasst von Nutomic — Fr Jul 12, 2013 1:46 pm


Mitmachen • Re: Rechenkraft.net

Date: 2013-07-12 17:12:53

Hallo Nutomic,

der Verein will das nicht nur unterstützen sondern tut das auch sehr intensiv - mit den gelichen Problemen wie alle kleinen Vereine/Projekt - zu viel Arbeit und zu wenig aktive Mitstreiter.
Trotzdem hat RKN schon sehr beachtete eigene Projekte auf die Beine gestellt. YaCy ist den RKN-Leuten bekannt, wir stnden ja auf dem Chenitzer Linuxtag direkt nebeneinander - und
ich oute mich jetzt hier als Vereinsmitglied bei RKN. Klar wäre eine weitere zusammenarbeit denkbar, auch auf allen möglichen Ebenen.

Gruß,
Thomas

Nutomic hat geschrieben:\ Ich bin auf diesen Verein gestoßen, der Distributed Computing unterstützen will.\ \ Bisher geht es da (fast?) nur um BOINC (also Forschung), aber Yacy würde auch dazu passen.\ \ [Hier](http://www.rechenkraft.net/phpBB/viewtopic.php?f=11&t=6364){.postlink} ist ein Forumthread zu Yacy.\ \ Ich denke eine Zusammenarbeit wäre ziemlich sinnvoll, um mehr Entwickler und Nutzer zu bekommen.\

Statistik: Verfasst von Vega — Fr Jul 12, 2013 4:12 pm


Mitmachen • Re: Rechenkraft.net

Date: 2013-07-12 20:12:10

Höhöh! Der Bassist bin ich und Lasse (der Thread-Starter im RKN-Forum) war auch dieses Jahr auf dem Linuxtag in Berlin. Bei RKN schaue ich alle paar Monate auf der Website vorbei und finde sehr cool, was die machen.

Statistik: Verfasst von Low012 — Fr Jul 12, 2013 7:12 pm


Mitmachen • Re: Rechenkraft.net

Date: 2013-07-12 23:17:14

Dass ihr die kennt wusste ich nicht. In dem Fall hätte ich zumindest eine Erwähnung auf deren Website erwartet ;)

Statistik: Verfasst von Nutomic — Fr Jul 12, 2013 10:17 pm


Panorama • Ranga Yogeshwar, Frank Schirrmacher: Volksaufstand!

Date: 2013-07-13 11:41:37

Ein sehr bemerkenswertes Gespräch über die Situation der Gesellschaft, welches sich durch PRISM und andere Marktforschungsmittel durchschauen und deren Handlungen vorhersagen läßt:

http://www.wdr5.de/sendungen/wdr5-spezi ... 20.05.html{.postlink} (download){.postlink}

Das Schlusswort von Ranga Yogeshwar fasst Entsetzten, Zorn und Wehrabsicht zusammen: \“wir werden alle zusammen den großen [Volksaufstand]{style=“font-weight: bold”} setzen gegen PRISM und gegen all die, die uns nicht sagen was sie mit unseren Daten tun\“. (Zitat, ganz am Ende des Gesprächs)

Statistik: Verfasst von Orbiter — Sa Jul 13, 2013 10:41 am


Solr Support • Too many open files

Date: 2013-07-13 15:17:54

Hi,

Code:
Caused by: java.io.FileNotFoundException: solr/collection1/data/tlog/tlog.0000000000003444062 (Too many open files)



Krass, dachte vorher macht mir der RAM oder der HDD-Platz einen Strich durch die Rechnung. Es gibt aber anscheinend noch andere Hürden :D

Statistik: Verfasst von LA_FORGE — Sa Jul 13, 2013 2:17 pm


Solr Support • Re: Too many open files

Date: 2013-07-13 15:33:05

Ich hab es gefixt aber da ist noch ein anderer Fehler der mir Kopfzerbrechen bereitet:

Code:
org.apache.solr.common.SolrException: org.apache.solr.search.SyntaxError: Expected identifier at pos 11 str='{!raw f=id = id}3g4RWqCOSLWA'



Das neueste YaCy-Schema habe ich schon installiert.

Statistik: Verfasst von LA_FORGE — Sa Jul 13, 2013 2:33 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-13 18:34:44

http://www.kubuntu-es.org/foro/201304/c ... les?page=1{.postlink}

Statistik: Verfasst von Orbiter — Sa Jul 13, 2013 5:34 pm


Fragen und Antworten • Einsteigerfragen zu YaCy

Date: 2013-07-14 08:38:36

Moin,
schon vor Jahren habe ich mir YaCy mal angesehen. Das ging aber nie über tageweises Interesse hinaus. Gestern bin ich eher zufällig mal wieder hier geladet, also nicht durch Prism, Tempora & Co indiziert. :L)

Nunja, ich habe also YaCy mal wieder auf meinem kleinen Heimserver installiert und ein paar Seiten komplett abcrawlern lassen. Im Nachhinein stellen sich mir da jetzt zwei Fragen, die ich durch Querlesen der Hinweisseiten nicht klären konnte (sorry, falls ich da was überlesen haben sollte, es ist halt für einen (Wieder-)Einsteiger \‘ne Menge Tobak zu lesen:

a) Wenn ich Seiten crawlern lasse, überprüft YaCy diese dann auch nachträglich von Zeit zu Zeit, um etwaige Änderungen im Index aufzunehmen?
b) Wenn ich YaCy im Senior-Mode laufen lasse, müssten die von mir gecrawlten Seiten auf http://search.yacy.net/ zu sehen sein?! Falls sie das nicht sind, ist die Synchronisation noch nicht (vollständig) abgeschlossen? Oder ordnet der Algorithmus die von mir gelieferten Ergebnisse so tief ein, dass ich sie nicht finde? Kann ich lokal irgendwie kontrollieren, wieviel von meinem eigenen Index verteilt worden ist?

Sorry, falls das offensichtlich sein sollte, aber momentan bin ich von Zahlen und Fachbegriffen noch ein wenig erschlagen. :) Aber interessieren tut\’s mich jetzt schon ...

Statistik: Verfasst von cryptosteve — So Jul 14, 2013 7:38 am


Panorama • Re: Ranga Yogeshwar, Frank Schirrmacher: Volksaufstand!

Date: 2013-07-14 10:26:20

Hi Orbiter,
vielen Dank für den Link. Die Sendung werde ich mir gleich noch einmal anhören. Das Beispiel mit dem Fußpilz war sehr anschaulich und verdeutlicht die Gefahren.
Wann fangen die Naturwissenschaftler und Techniker endlich an nachzudenken? Es ist 5 vor 12.

Gruß Lux

Statistik: Verfasst von lux — So Jul 14, 2013 9:26 am


Solr Support • Re: Too many open files

Date: 2013-07-14 12:46:52

Ich weiß zwar nicht, was das ist, aber

Code:
f=id = id

sieht ziemlich komisch aus.

Ich denke entweder fehlen Klammern oder es ist ein \“=id\” zu viel.

Statistik: Verfasst von Nutomic — So Jul 14, 2013 11:46 am


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-14 16:36:59

Hallo,

A) Sobald du einen Crawl gestartet hast, wird er im Reiter \“Scheduler und Profil Editor\” aufgelistet, und dort kannst du dann unter \“Geplante Ausführung\” bestimmen in welchem Intervall der Crawl wiederholt werden soll. Der Reiter befindet sich im Menü \“Indexerzeugung\” unter \“Crawler Überwachung\“.

B) Soweit ich weiss, werden die Seiten die sich in deinem Index befinden nur dann auf search.yacy.net angezeigt, wenn dein Peer entweder mit dem Peer \“yacysearch01\” verbunden bist, oder dieser deine Indexdaten via DHT empfangen hat. Beides ist eine Frage des Zufalls. Es muss nebenbei auch erwähnt werden, dass search.yacy.net nur als Demo gedacht ist, und nicht als \“vollwertiges\” Suchportal.

Statistik: Verfasst von David — So Jul 14, 2013 3:36 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-14 17:19:03

Hi David,
zu a) Danke, ich habe schon viele Reiter gesehen - dieser war mir bislang entgangen.

zu b) Ok, danke. Prinzip verstanden. Und ja, ich weiss, dass das nur \‘ne Demo ist, ich bin noch dabei, die Grundzüge von YaCy zu begreifen. Unterm Strich ist\’s natürlich schön, wenn am Ende alle Peers alle Infos haben und finden können.

Statistik: Verfasst von cryptosteve — So Jul 14, 2013 4:19 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-14 19:00:02

Wenn du regelmässig online bist, ist es eigentlich nur eine Frage der Zeit bis deine Indexdaten im Netzwerk verteilt sind, und dann auch höchstwahrscheinlich auf search.yacy.net miteinbezogen werden.

cryptosteve hat geschrieben:\ Kann ich lokal irgendwie kontrollieren, wieviel von meinem eigenen Index verteilt worden ist?\


Meinst du eine Art Anzeige, die dir anzeigt wieviel Prozent von deinem Index bereits im Netzwerk verteilt worden ist?

Statistik: Verfasst von David — So Jul 14, 2013 6:00 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-07-14 20:07:34

Die Installation auf meinem lokalen Rechner hat problemlos geklappt. Leider frisst Yacy dort derart viel Rechenzeit, dass ich es nur laufen lassen kann, wenn ich schlafe, also zum Besten der Community, aber ohne selbst viel davon zu haben. Ich würde es aber gerne permanent zur Verfügung stellen und dann auch selber nutzen, heißt auf dem Server:

Also bitte langsam und für Doofe: Ich lade (wie bei WP) die gezippte Datei auf meinen lokalen Rechner herunter, packe sie dort aus, lade das Ganze via FTP in ein Unterverzeichnis, z.B. \“yacysuche\” hoch, und starte das Startscript. Anschließend rufe ich die Suchmaschine mit meineseite.com/yacysuche/localhost:8090 auf.

Ist das korrekt, oder habe ich alles falsch verstanden?

Statistik: Verfasst von aidadmadsu — So Jul 14, 2013 7:07 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-07-15 09:31:31

Ja, da hast du dir die Anleitung schon selbst geschrieben. So funktioniert es. Es wäre dann <IP-Adresse des Servers>:8090, unter der YaCy läuft.
Alternativ für SSH-Zugang:

Code:
wget http://......yacy_v....tar.gztar zxf yacy_v....tar.gzcd yacy./startYACY.sh

Statistik: Verfasst von Lotus — Mo Jul 15, 2013 8:31 am


Mitmachen • YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-07-15 13:18:17

die Kieler Linxtage haben mich um einen YaCy-Vortrag gebeten und mir dann auch noch die 2. Keynote angeboten :o :shock:
Ich weiss noch gar nicht ob es da auch sowas wie Projektstände gibt, aber ich reserviere mir da sicherlich irgendwie einen Tisch und werde dort die YaCy-Flagge hissen!

Wer ist denn da in der Nähe?

Statistik: Verfasst von Orbiter — Mo Jul 15, 2013 12:18 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-15 13:19:07

Hallo,

zu search.yacy.net kann ich sagen das die Kiste aktuell nur in Ihrem lokalem Index sucht - der Grund ist schlichtweg Speichermangel. mache ich DHT wieder an schmiert wie die Kiste recht zügig ab. Die alternative wäre den Index auf dem Peer zu löschen - oder einen \“dickeren\” Server zu nehmen. - Wobei da noch die Finanzierung noch geklärt werden muss, siehe: http://forum.yacy-websuche.de/viewtopic.php?f=15&t=3359&start=50#p28064

Richtig ist aber auch, das es (aktuell) nur eine Demo ist, keine Portalsuche - wir brauchen ja eure Peers daheim um den Index zu halten.
Trotzdem ist aber search.yacy.net wichtig - wie im anderem Thread beschrieben.

Thomas

Statistik: Verfasst von Vega — Mo Jul 15, 2013 12:19 pm


Mitmachen • Re: Rechenkraft.net

Date: 2013-07-15 13:20:02

Arbeiten wir drann...muss diese Woche noch bisschen mailen, mal sehen was rauskommt dabei.

Thomas

Nutomic hat geschrieben:\ Dass ihr die kennt wusste ich nicht. In dem Fall hätte ich zumindest eine Erwähnung auf deren Website erwartet ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\

Statistik: Verfasst von Vega — Mo Jul 15, 2013 12:20 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-15 17:47:47

Naja, ich werde mir irgendwo nochmal ein HOWTO durchlesen, wie YaCy im Hintergrund arbeitet.
Derzeit stelle ich aber auch fest, das mein kleiner Heimserver mit gerade mal 4GB RAM doch schon arg knapp bemessen ist. Zudem ist die Festplatte deutlich zu laut. :lol:

Vielleicht sollte ich mal einen Test auf meiner Workstation machen, die hat 32GB - aber das geht mein schmalen Internet (DSL16k) in die Knie. :)

Statistik: Verfasst von cryptosteve — Mo Jul 15, 2013 4:47 pm


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-07-15 19:28:35

Ich bin da in der nähe, aber leider ist an diesem Wochenende Bundestagswahl und ich mache ein langes Wochenende zu Hause in Niedersachsen.

Statistik: Verfasst von Lotus — Mo Jul 15, 2013 6:28 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-07-15 20:30:18

Danke. Noch etwas: Der Server hat 2 GB RAM. Yacy benötigt mindestens 1GB. Kann man Yacy so konfigurieren, dass es sich mit diesem 1 GB zufriedengibt? Ich möchte nämlich nicht, dass der Server, der ja auch noch ein paar andere Dinge zu tun hat, nur noch für die Suchmaschine arbeitet.

Statistik: Verfasst von aidadmadsu — Mo Jul 15, 2013 7:30 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-07-15 22:06:18

Code:
W 2013/07/15 23:51:38 StackTrace Timeout occured while waiting response from server at: http://127.0.0.1:8983/solr/collection1org.apache.solr.client.solrj.SolrServerException: Timeout occured while waiting response from server at: http://127.0.0.1:8983/solr/collection1



Baut doch bitte eine Konfigurationsmöglichkeit ein für dieses Zeitfenster ein. Oder gibts da schon eine Variable die ich verändern kann?

Statistik: Verfasst von LA_FORGE — Mo Jul 15, 2013 9:06 pm


Hilfe für Einsteiger und Anwender • Re: 1. begrenztes Datenvolumen bei UMTS, 2. Install. auf Ser

Date: 2013-07-15 23:12:46

Ja, das was du bei YaCy einstellst, ist die Obergrenze die sich YaCy genehmigt. Es kommen höchstens noch wenige MB für die Java-Umgebung dazu.
Den Speicher kannst du unter \“Admin Konsole - Leistung\” (/Performance_p.html) einstellen.

Statistik: Verfasst von Lotus — Mo Jul 15, 2013 10:12 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-15 23:15:39

Dieses HOWTO gibt es noch nicht :D , aber Du kannst gern Deine Erfahrungen in einem verarbeiten.… Auch wenn es unter Umständen abschreckend sein wird - 4GB Ram sind nicht viel wenn der Index größer wird. Solr ist leider recht großzügig im benutzen von Ram.

Thomas

cryptosteve hat geschrieben:\ Naja, ich werde mir irgendwo nochmal ein HOWTO durchlesen, wie YaCy im Hintergrund arbeitet.\ Derzeit stelle ich aber auch fest, das mein kleiner Heimserver mit gerade mal 4GB RAM doch schon arg knapp bemessen ist. Zudem ist die Festplatte deutlich zu laut. ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing")\ \ Vielleicht sollte ich mal einen Test auf meiner Workstation machen, die hat 32GB - aber das geht mein schmalen Internet (DSL16k) in die Knie. ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\

Statistik: Verfasst von Vega — Mo Jul 15, 2013 10:15 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-16 06:24:55

Danke für die Rückmeldung zum HOWTO ... Du hast mir vermutlich gerade eine ganze Menge Sucharbeit erspart.

Das mit dem 4GB habe ich schon gemerkt und finde ich besonders schade, da mein Homeserver mit 4GB bereits maximal ausgestattet ist (Atom D525). Da wird sich meine Hilfe zum Projekt wohl zunächst in übersichtlichen Grenzen halten. Schade eigentlich.

Statistik: Verfasst von cryptosteve — Di Jul 16, 2013 5:24 am


Solr Support • Re: Too many open files

Date: 2013-07-16 08:05:04

Herzlichen Dank! Dein Lösungsansatz war mir eine große Hilfe! In der 1.51 Build 9026 oder ein paar Builds drunter war ein Bug, der im Schema automatisch unter \‘Custom Solr Field Name\’ z. B. sowas wie id = id und fuzzy_signature_text_t = fuzzy_signature_text_t eingetragen hat. Weiß jemand wie ich diese \“kaputten\” Felder jetzt nachträglich aus meinem Index rauswerfen kann?

Statistik: Verfasst von LA_FORGE — Di Jul 16, 2013 7:05 am


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-16 08:46:34

Hier ist ein wenig beschrieben, wie YaCy im Hintergrund arbeitet: http://yacy.net/de/Technik.html
Vielleicht reicht dir das schon?

Statistik: Verfasst von Lotus — Di Jul 16, 2013 7:46 am


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-16 09:04:09

Danke, das schaue ich mir mal an.

Momentan steht mein kleiner Heimserver aber leider ganz schön unter Dampf, so kann das nicht bleiben. Ich werde später mal versuchen, den Index kräftig auszudünnen. Ansonsten muss die YaCy-Instanz komplett umziehen.

Daher ist dieser Link möglicherweise nicht lange gültig: http://reed.crashmail.de:8090/Status.html

Statistik: Verfasst von cryptosteve — Di Jul 16, 2013 8:04 am


Fragen und Antworten • Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-16 10:59:14

Ich benutze Yacy 1.5 mit Oracle JDK unter Linux. Nach rund 20min. Betrieb ist das Webinterface nicht mehr ansprechbar und kann auch mit stopYACY.sh nicht mehr herunter gefahren werden. Mehr Speicher zuzuweisen bringt auch keine Abhilfe (mittlerweile 1300MB). Welche Schritte kann ich unternehmen um dies zu korrigieren. Es ist wirklich sehr nervig das YACY weiter wurstelt ohne dass man es sauber herunterfahren kann.
Kann man das Logging (yacy00.log) abschalten oder weniger geschwätzig machen? Für Normaluser ist dieser Wust an Informationen nicht so nützlich und oft werden Megabytes an Text pro Minute auf die Festplatte gespült.

Statistik: Verfasst von muixirt — Di Jul 16, 2013 9:59 am


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-16 15:52:39

in den letzten Wochen habe ich einiges gefunden, was das verursachen könnte, u.a. auch notwendige Solr Optimize Aufrufe nach 6 Stunden. Bitte gucke mal ob ein aktuelles Dev-Release immer noch so krass schnell weg ist.

Statistik: Verfasst von Orbiter — Di Jul 16, 2013 2:52 pm


Fragen und Antworten • Re: Einsteigerfragen zu YaCy

Date: 2013-07-16 16:19:13

Hallo,

Du kannst die Last etwas runternehmen, also schau mal auf die Seite http://reed.crashmail.de:8090/RemoteCrawl_p.html - Akzeptiere Remote Crawl Anfragen sollte aus sein.
Dann geh mal auf http://reed.crashmail.de:8090/Performance_p.html - dort etwas nach unten, und bei Standard Profil benutzen: \“prefer DHT und 10% der vorgegebenen Geschwindigkkeit\“.
Damit sollte es etwas ruhiger werden, allerdings wird Dein Peer früher oder später vollaufen, dann hilft nur Index löschen, ausdünnen. Ach ja, unter\“Ressourcen Beobachter\” auf http://reed.crashmail.de:8090/Performance_p.html kannst Du öbergrenfen einstellen für Speicher/Festplattennutzung.

Gruß,
Thomas

und nutze

cryptosteve hat geschrieben:\ Danke, das schaue ich mir mal an.\ \ Momentan steht mein kleiner Heimserver aber leider ganz schön unter Dampf, so kann das nicht bleiben. Ich werde später mal versuchen, den Index kräftig auszudünnen. Ansonsten muss die YaCy-Instanz komplett umziehen.\ \ Daher ist dieser Link möglicherweise nicht lange gültig: \

Statistik: Verfasst von Vega — Di Jul 16, 2013 3:19 pm


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-16 17:26:38

Sofern sich seit gestern nichts an den \‘dev\’ Versionen geändert hat brauche ich das nicht aus zu probieren, da ich erst gestern auf 1.59000 \“downgegradet\” hatte :-) (vorher dev 1.51 9132)

Vielleicht ist ist in /DATA/* irgendetwas kaputt gegangen.

Habe jetzt Yacy noch einmal mit mehr RAM-Zuweisung gestartet (1800MB).

Statistik: Verfasst von muixirt — Di Jul 16, 2013 4:26 pm


Presse • Re: t3n.de 5 Google-Alternativen

Date: 2013-07-16 21:13:00

Ich habe auf Diaspora mal auf die Spenden-Möglichkeit aufmerksam gemacht. Vieleicht kommt ja ein bißchen Geld rein, um die Weiterentwicklung zu beschleunigen. Gerade in Zeiten von PRISM und der immer weiter zunehmenden Regulierung durch die Major Plattformen, scheinen die Weichen in Richtung Dezentralisierung deutlich gestellt zu sein.

An der Stelle einfach mal ein großes Dankeschön für alles was ihr bisher geleistet habt :)

Statistik: Verfasst von Seitenreiter — Di Jul 16, 2013 8:13 pm


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-16 23:00:55

Mehr Speicher hat nicht geholfen :-(

Statistik: Verfasst von muixirt — Di Jul 16, 2013 10:00 pm


Hilfe für Einsteiger und Anwender • Wildcard-Suche

Date: 2013-07-17 09:16:05

Habe hier eine yacy-Instanz im Intranet zu laufen und festgestellt, dass eine Suche mit *,?,~ nicht wie erwartet funktioniert? Ist das richtig oder liegt das an falschen Einstellungen?

Statistik: Verfasst von pingupod — Mi Jul 17, 2013 8:16 am


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-17 09:43:03

Wie groß ist der Index, wieviel Speicher hat Dein Rechner ?

Thomas

muixirt hat geschrieben:\ Mehr Speicher hat nicht geholfen ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad")\

Statistik: Verfasst von Vega — Mi Jul 17, 2013 8:43 am


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-17 11:21:09

Der PC hat 4GB RAM, der Index hat 8,3 Mio. Dokumente.

Noch mehr Speicher zu zuweisen macht für mich weniger Sinn, da ich den PC auch für andere Dinge verwende, häufige GC Läufe mit Heaps >=2GB werden da schnell lästig ;-)

Statistik: Verfasst von muixirt — Mi Jul 17, 2013 10:21 am


Fragen und Antworten • Re: Crawler bleibt wieder und wieder stehen => gefixt :-)

Date: 2013-07-17 13:02:46

Hi,

leider hängt der Crawler bei mir wieder :-( es geht nur sehr, sehr schleppend voran und im Log sind zahlreiche NPEs. Kann eine exorbitant große Blacklist dafür verantwortlich sein? Wenn ja, gibt es einen Parameter den ich optimieren kann? v1.51 Build 9132

[code]
W 2013/07/17 14:16:06 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:16:06 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:16:06 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
... 12 moreE 2013/07/17 14:16:06 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /mnt/test2/sokrates/htroot/solr/select.class: ; java.awt.graphicsenv=\‘sun.awt.X11GraphicsEnvironment\’
W 2013/07/17 14:15:56 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:56 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:56 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
... 12 moreE 2013/07/17 14:15:56 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /mnt/test2/sokrates/htroot/solr/select.class: ; java.awt.graphicsenv=\‘sun.awt.X11GraphicsEnvironment\’
W 2013/07/17 14:15:43 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:43 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:43 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
... 12 moreE 2013/07/17 14:15:43 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /mnt/test2/sokrates/htroot/solr/select.class: ; java.awt.graphicsenv=\‘sun.awt.X11GraphicsEnvironment\’
W 2013/07/17 14:15:31 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:31 StackTrace null
java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:31 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1421)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:905)
at net.yacy.server.http.HTTPDFileHandler.doGet(HTTPDFileHandler.java:250)
at net.yacy.server.http.HTTPDemon.GET(HTTPDemon.java:403)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.lang.NullPointerException
at java.util.concurrent.ConcurrentHashMap.put(ConcurrentHashMap.java:881)
at net.yacy.cora.federate.solr.instance.InstanceMirror.getDefaultEmbeddedConnector(InstanceMirror.java:130)
at net.yacy.search.index.Fulltext.getDefaultEmbeddedConnector(Fulltext.java:191)
at select.respond(select.java:213)
... 12 more
E 2013/07/17 14:15:31 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /mnt/test2/sokrates/htroot/solr/select.class: ; java.awt.graphicsenv=\‘sun.awt.X11GraphicsEnvironment\’
W 2013/07/17 14:15:11 StackTrace null
java.lang.InterruptedException
at net.yacy.server.serverCore.checkInterruption(serverCore.java:957)
at hello.respond(hello.java:211)
at sun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:11 StackTrace null
java.lang.InterruptedException
at net.yacy.server.serverCore.checkInterruption(serverCore.java:957)
at hello.respond(hello.java:211)
at sun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)W 2013/07/17 14:15:11 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
Caused by: java.lang.InterruptedException
at net.yacy.server.serverCore.checkInterruption(serverCore.java:957)
at hello.respond(hello.java:211)
... 12 moreE 2013/07/17 14:15:11 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /mnt/test2/sokrates/htroot/yacy/hello.class: ; java.awt.graphicsenv=\‘sun.awt.X11GraphicsEnvironment\’

W 2013/07/17 14:15:10 StackTrace Server at http://127.0.0.1:8983/solr/collection1 returned non ok status:413, message:FULL head
java.io.IOException: Server at http://127.0.0.1:8983/solr/collection1 returned non ok status:413, message:FULL head
at net.yacy.cora.federate.solr.connector.RemoteSolrConnector.getResponseByParams(RemoteSolrConnector.java:90)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getResponseByParams(MirrorSolrConnector.java:240)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.existsByIds(AbstractSolrConnector.java:258)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.existsByIds(ConcurrentUpdateSolrConnector.java:334)
at net.yacy.search.index.Fulltext.exists(Fulltext.java:615)
at net.yacy.search.index.Segment.exists(Segment.java:429)
at transferURL.respond(transferURL.java:148)
at sun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)
W 2013/07/17 14:15:04 StackTrace Server at http://127.0.0.1:8983/solr/collection1 returned non ok status:413, message:FULL head
java.io.IOException: Server at http://127.0.0.1:8983/solr/collection1 returned non ok status:413, message:FULL head
at net.yacy.cora.federate.solr.connector.RemoteSolrConnector.getResponseByParams(RemoteSolrConnector.java:90)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getResponseByParams(MirrorSolrConnector.java:240)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.existsByIds(AbstractSolrConnector.java:258)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.existsByIds(ConcurrentUpdateSolrConnector.java:334)
at net.yacy.search.index.Fulltext.exists(Fulltext.java:615)
at transferRWI.respond(transferRWI.java:209)
at sun.reflect.GeneratedMethodAccessor13.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.http.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1419)
at net.yacy.server.http.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:953)
at net.yacy.server.http.HTTPDFileHandler.doPost(HTTPDFileHandler.java:258)
at net.yacy.server.http.HTTPDemon.POST(HTTPDemon.java:537)
at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at net.yacy.server.serverCore\$Session.listen(serverCore.java:767)
at net.yacy.server.serverCore\$Session.run(serverCore.java:658)

Statistik: Verfasst von LA_FORGE — Mi Jul 17, 2013 12:02 pm


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-17 15:43:39

Ups - ich denke Dein Index hat jetzt einfach eine Größe wo es \“knallt\” - also einfach der Speicher nicht mehr reicht.
Mehr als 3 GB würde ich auch nicht zuweisen, damit für das OS noch was übrigbleibt.
Ich würde also einmalig mehr Speicher zuweisen, soviel wie möglich - das kannst Du händisch in der yacy.conf (irgendwo im DATA Verzeichnis) Datei machen oder unter Unix/Linux mit der Datei ./reconfigureYACY.sh. Dann mit ./startYACY.sh -d hochfahren und das Log beobachten. Dann (Teil) des Indexes Löschen, Ram wieder einstellen in YaCy und neu starten.
Damit die Kiste nicht so schnell \“volläuft das hier gesagte machenhttp://forum.yacy-websuche.de/viewtopic.php?f=5&t=4708

Thomas

muixirt hat geschrieben:\ Der PC hat 4GB RAM, der Index hat 8,3 Mio. Dokumente.\ \ Noch mehr Speicher zu zuweisen macht für mich weniger Sinn, da ich den PC auch für andere Dinge verwende, häufige GC Läufe mit Heaps \>=2GB werden da schnell lästig ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\

Statistik: Verfasst von Vega — Mi Jul 17, 2013 2:43 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-07-17 16:00:43

Der Post ist zwar schon etwas älter, aber ich antworte trotzdem mal. ;-)

Wenn der Peer ist auf Intranet-Indizierung gestellt ist, sollte er keine Daten mit anderen Peers tauschen. IMHO ist es also kein Bug sondern ein Feature, dass er vom Rest der Welt abgeschnitten ist.

Statistik: Verfasst von pingupod — Mi Jul 17, 2013 3:00 pm


YaCy Coding & Architektur • P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-17 17:16:33

man kann ja nun in Java die load des Rechners abfragen und meine Tests zeigen dass man da die gleiche Zahl bekommt, wie die, die bei top zu sehen ist. Jetzt frage ich mich, ob man diese Zahl benutzen kann, um bei hoher load RWI Versand/Empfang temporär abzuschalten.

Die Frage ist dann also erst mal (auch): bei welcher load-Grenze? 1 (100%)?

und daran geknöft die Frage: was bedeutet das bei multicore? Muss man den Load durch die Anzahl der Cores teilen um ein normiertes Maß für die Auslastung einer Maschine zu bekommen?

Ich hab dazu folgenden Test gemacht: unter Linux cpuburn installiert, top laufen lassen (zeigt load von 0) und dann burnP6 gestartet. Ein einzelner Prozess ging daraufhin auf 100% und nach einer Minute war der Load auf genau 1. Das war aber auf einer 8-core Maschine! Also muss ich doch den Load durch die Anzahl der Cores teilen, oder?

Statistik: Verfasst von Orbiter — Mi Jul 17, 2013 4:16 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-17 17:52:55

Hallo Orbiter,

das was Du da in YaCy hinzugefügt hast, ist der Sytem-Load. Hat meines Wissens nach nicht zwingend mit der CPU-Last zu tun.
Das ist eher ein Wert des Verhältnisses von einkommenden Prozessen zu abgearbeiteten Prozessen.
Neben der CPU spielt dabei auch IO eine Rolle - ist der Kasten nur mit IO beschäftigt kann es einen hohen Load geben während die CPU(s) idlen.

Cu, Sebastian.

Statistik: Verfasst von sixcooler — Mi Jul 17, 2013 4:52 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-17 18:51:48

ja ok, lass \‘CPU\’ weg, dann isses aber immer noch der gleiche Wert wie in \‘top\’ (einfach mal ausprobieren!) und ggf. auch genau deswegen, weil IO hinzugezogen wird ein gutes Maß.

Statistik: Verfasst von Orbiter — Mi Jul 17, 2013 5:51 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-07-17 22:46:30

.. wenn das so ist: Wie kann ich dann YaCy gleichzeitig als private Intranet-Suchmaschine, und auch für normale Peer-Websuche, verwenden - oder ist das gar nicht möglich?

Statistik: Verfasst von HansS713 — Mi Jul 17, 2013 9:46 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-07-18 11:58:54

Das ist nicht möglich, dazu müsstest Du 2 YaCy Instanzen auf verschiedenen Ports betreiben - 1 x Intranet, 1x Freeworld.
Oder Du benutzt (Werbung) für denn Zugriff auf das Freeworld Netz http://search.yacy.net - was nicht so gut ist wenn das alle machen würden, da wir eure PC\’s/Server brauchen um den Index zu halten.

Thomas

HansS713 hat geschrieben:\ .. wenn das so ist: Wie kann ich dann YaCy gleichzeitig als private Intranet-Suchmaschine, und auch für normale Peer-Websuche, verwenden - oder ist das gar nicht möglich?\

Statistik: Verfasst von Vega — Do Jul 18, 2013 10:58 am


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-18 12:06:46

Teile des Index löschen und dafür sorgen dass möglichst wenig in den Index aufgenommen wird? Wirklich? Da gibt es wohl einige Zielkonflikte...

Zugegebenermaßen habe ich nicht die geringste Ahnung ob sich dieses Problem technisch lösen lässt.

Statistik: Verfasst von muixirt — Do Jul 18, 2013 11:06 am


Presse • BBC: \“Google: Alternatives to the search giant\”

Date: 2013-07-18 13:56:22

http://www.bbc.co.uk/news/technology-23318889

\ Yacy bases its search engine on the principle of a peer-to-peer network.\ \ Instead of using its own servers to index the web, it relies on its users\' computers to do the work via software it provides. The information gathered is then shared to a common database, fragments of which are distributed across the network.\ \ Because the answer to any query is obtained from other volunteers\' computers rather than a central portal, Yacy says it is impossible for anyone to censor its results.\

Statistik: Verfasst von Orbiter — Do Jul 18, 2013 12:56 pm


Hilfe für Einsteiger und Anwender • Re: Wildcard-Suche

Date: 2013-07-19 17:00:08

Soweit ich weiss werden Wildcards (noch) nicht unterstützt.

Statistik: Verfasst von David — Fr Jul 19, 2013 4:00 pm


Hilfe für Einsteiger und Anwender • Festplatten-Nutzung anstelle von RAM?

Date: 2013-07-19 18:32:01

Abgesehen von einem Geschwindigkeitsverlust, was spricht eigentlich dagegen, dass man dem Benutzer die Möglichkeit gibt, ein RAM-Limit zu definieren, und sobald das Limit erreicht wird, der Peer genau gleich weiterarbeitet, aber halt die dazukommenden Daten direkt auf die Festplatte schreibt und von dort auch wieder liest?

Ich bin zwar kein Softwareentwickler, mich würde aber trotzdem interessieren, ob es tatsächlich unausweichlich und unvermeidbar ist, dass ein wachsender Peer früher oder später immer mehr RAM benötigt. Ich bin mir sicher, es gäbe bestimmt eine ganze Menge Benutzer, die einen Performance-Verlust in Kauf nehmen würden, damit sie ihren Index weiterbenutzen können und ihn nicht teilweise löschen, oder sogar von vorn anfangen müssen.

Es wäre ja bestimmt auch kein Ding der Unmöglichkeit, Yacy dazu zu bringen, dass der RAM \“intelligenter\” benutzt wird, und sich dort immer nur die am häufigsten benutzten Indexdaten befinden. Also das Yacy sozusagen lernt, für welche Themen sich der Benutzer bzw. die Community am meisten interessiert, und damit den RAM füllt. Indexdaten, die nur selten oder nie benutzt werden, würden erst gar nicht in den RAM geladen (was aber nicht bedeuten müsste, dass sie unauffindbar wären, sondern nur eine längere Ladezeit benötigen).

Statistik: Verfasst von David — Fr Jul 19, 2013 5:32 pm


Pro-Users • Re: A Peer To Peer Web Directory To Go With YACY

Date: 2013-07-19 19:09:31

Hi! Your project seems to be pretty interesting, although I have to say, that I\’m not really a fan of \“freemium services\“, where paying users have an advantage over the other users. Especially in web directories and search engines, the ranking should only be influenced by factors like quality, popularity etc. However, that\’s just my opinion. Nonetheless, I wish you good luck for your project, and if you need help or assistance using yacy, feel free to ask.

Statistik: Verfasst von David — Fr Jul 19, 2013 6:09 pm


Fragen und Antworten • Re: Remotecrawler

Date: 2013-07-19 20:50:46

das heist das die gecrawlten daten zunächst nur auf meinem Node liegen bis sie über DHT verteilt werden?

Statistik: Verfasst von Velociraptor — Fr Jul 19, 2013 7:50 pm


Fragen und Antworten • Re: Remotecrawler

Date: 2013-07-19 22:25:38

Genau.

Statistik: Verfasst von David — Fr Jul 19, 2013 9:25 pm


Hilfe für Einsteiger und Anwender • Re: Fehler: \“Ihr Peer kann nicht von außen erreicht werden\”

Date: 2013-07-20 00:19:32

OK, also man kann (bzw. muss in dem Fall) prinzipiell zwei Instanzen gleichzeitig betreiben. Werde bei Gelegenheit mal probieren, ob ich das hin bekomme. Danke jedenfalls für die Antworten.

Statistik: Verfasst von HansS713 — Fr Jul 19, 2013 11:19 pm


Pro-Users • Re: A Peer To Peer Web Directory To Go With YACY

Date: 2013-07-20 08:57:54

Hi Bungeebones,

I endorse David\’s opinion. YaCy\’s concept is a noncommercial peer-to-peer network. Your proposal to combine Yacy with a central server sounds nice, but is in contradiction to YaCy being a distributed, uncensored search-engine. Also, a central node in a network always is a weak point regarding its vulnerability.

Finally, those people who want to be served by a big central search-engine should stay with Google.

Just my opinion
lux

Statistik: Verfasst von lux — Sa Jul 20, 2013 7:57 am


Fragen und Antworten • version

Date: 2013-07-21 00:39:25

habe ich das noch in erinnerung \“2012\” von ver. 2.0 und auf einmal mitte 2013 auf 1,5 version wie geht das den

Statistik: Verfasst von ww1com — Sa Jul 20, 2013 11:39 pm


Fragen und Antworten • Re: version

Date: 2013-07-21 07:16:54

Da musst du was anderes gesehen haben. Eine 2.0 gab es bisher nicht.

Statistik: Verfasst von PCA42 — So Jul 21, 2013 6:16 am


Hilfe für Einsteiger und Anwender • Stati der Peers

Date: 2013-07-21 11:56:28

Hallo,

ich betreibe seit gestern einen YaCy Peer, bin also Neueinsteiger.

Warum haben eigentliche nahezu alle Peers unter [YaCy Network]{style=“font-style: italic”} -> [Active Peers]{style=“font-style: italic”} \“DHT Receive: no\” (rotes [I]{style=“color: #FF0000”})?

Statistik: Verfasst von Ruhe — So Jul 21, 2013 10:56 am


Hilfe für Einsteiger und Anwender • Proxy

Date: 2013-07-21 18:11:39

Ich verwende im Firefox (v22.0) den YaCy-Proxy (HTTP, 127.0.0.1:8090)

Seitdem...

- werden manche Webseiten extrem langsam geladen
- viele werden gar nicht (mehr) geladen - Tabtitel \“YaCy: Error Message\” (z.B. \“Client can\’t execute: Connection refused\“). Nach einem Seitenrefresh geht es dann plötzlich, wenn meist sehr, sehr langsam

Surfen bei aktiviertem Proxy ist derzeit leider wirklich eine Qual :?
Kann/Sollte man irgendwo was ändern?

Statistik: Verfasst von Ruhe — So Jul 21, 2013 5:11 pm


Fragen und Antworten • Version 1.5 UPnP

Date: 2013-07-21 19:39:22

Hi,

habe eben mal die aktuelle Stabile Version 1.5 getestet und mir ist aufgefallen das mein Peer keinen Senior Status mehr bekommt, es scheint als würde die Portfreigabe nicht funktionieren?

Ein Updaten auf die Aktuellste Dev, funktioniert auch nicht, da startet Yacy garnicht mehr?

grüße

Statistik: Verfasst von bbtuxi — So Jul 21, 2013 6:39 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-21 21:29:48

ist deine YACY Installation überlastet?
Ich habe das Proxy lädt Seiten unglaublich-langsam Problem immer dann, wenn der JVM der RAM zu knapp wird oder der Prozessor überforder ist.

Statistik: Verfasst von Caliberry — So Jul 21, 2013 8:29 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-07-21 21:33:14

hallo zusammen,
ich betreibe gerade einen YACY Peer gemäß der Anleitung aus dem Wiki mit einem B Modell (512MB RAM)
und einer 32GB Speicherkarte.

Hat jemand mittlerweile mehr Erfahrung mit dem YACY Betrieb auf dem Raspberry Pi gemacht und kann mir gute Werte für JVM, Cache usw. empfehlen?

Danke im Voraus

Statistik: Verfasst von Caliberry — So Jul 21, 2013 8:33 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-21 21:33:20

Kann ich dir nicht beantworten, ehrlich nicht ;-) Kann mangels Unwissenheit bzgl. YaCy derzeit nicht sagen ob das System/YaCy überlastet ist.

Intel Core i7 (4x 2,6GHz), 16 GB RAM

YaCy 1.59000 auf OS X 10.8.4

Type: Principal | Accept Crawl: yes | DHT Receive: yes | SSL: enabled

Statistik: Verfasst von Ruhe — So Jul 21, 2013 8:33 pm


Hilfe für Einsteiger und Anwender • Re: Stati der Peers

Date: 2013-07-21 22:22:49

Hallo,

unter \‘Netzwerk Konfiguration\’ kann man ja den Index-Empfang aktivieren oder auch deaktivieren.
Zusätzlich wird bei Peers die knapp an Arbeitsspeicher werden der Index-Empfang deaktiviert.

Die Peers mit dem roten \‘I\’ haben es also selber deaktiviert oder laufen mit zu wenig Arbeitsspeicher.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Jul 21, 2013 9:22 pm


Hilfe für Einsteiger und Anwender • Re: Stati der Peers

Date: 2013-07-21 22:41:28

Interessant, also entweder hat es der Großteil manuell deaktiviert (da frag ich mich warum) oder es gibt tatsächlich noch Rechner da draußen, denen es an Speicher mangelt :-)
Weil fällt ja sofort auf, dass es bei den meisten Peers deaktiviert/abgeschaltet ist.

Statistik: Verfasst von Ruhe — So Jul 21, 2013 9:41 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-21 22:47:46

Hallo,

die Proxy-Funktionalität ist zwar schon ewig dabei ist aber in letzter Zeit in der Tat etwas zu kurz gekommen, was die Pflege angeht.
Es gibt einige URLs die nicht gut durch den Proxy gehen, weil darin Zeichen verwendet werden die nicht korrekt weitergereicht werden (z.B. \‘,\‘).

Je nach dem von wie vielen Hosts sich die Seite Bedient und wie viele einzelne Anfragen benötigt werden, kann das Laden schon mal länger dauern.
Auch die Last des YaCy spielt sicherlich eine Rolle - wird nebenher noch eine Menge gecrawlt, gesucht, oder wird der (zugewiesene) Arbeitsspeicher knapp wird es auch langsamer.

Dennoch kann ich sagen das die Proxy-Funktionalität gut arbeitet.
Man kann gut auf den Cache im Browser verzichten da YaCy ja cached.

Wie viel Speicher hast Du YaCy zugewiesen?
Wie viele Worte/URLs hat der Peer?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Jul 21, 2013 9:47 pm


Hilfe für Einsteiger und Anwender • Re: Stati der Peers

Date: 2013-07-21 22:49:06

Das mit dem Arbeitsspeicher geht leider schneller als einem lieb sein kann :-(

Statistik: Verfasst von sixcooler — So Jul 21, 2013 9:49 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-21 23:00:29

sixcooler hat geschrieben:\ Wie viel Speicher hast Du YaCy zugewiesen?\ Wie viele Worte/URLs hat der Peer?\



Selbst habe ich an den Speicherwerten gar nichts geändert, hier steht was von

Code:
free: 81.24 MBtotal: 592 MBmax: 592.5 MB



Zudem was von

Code:
Documents: 518,015DHT Words: 1,412,762

Statistik: Verfasst von Ruhe — So Jul 21, 2013 10:00 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-22 00:04:22

Da probier doch mal unter \‘Leistung\’ (/Performance_p.html) die Menge des Reservierten Speichers zu erhöhen.

Statistik: Verfasst von sixcooler — So Jul 21, 2013 11:04 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-22 08:06:47

Werd ich machen...
Was bringt dich auf diese Empfehlung, der Wert von \“free\” (81MB)?


Danke soweit für deine Rückmeldungen :-)

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 7:06 am


Suchmaschinen • Re: faroo.com

Date: 2013-07-22 08:43:29

das Support-Forum von Faroo so gut wie nie benutzt wird.




______________________________________________
WOW Gold{.postlink}|Diablo 3 Gold{.postlink}

Statistik: Verfasst von zailaiboke — Mo Jul 22, 2013 7:43 am


Mitmachen • Re: seeks und yacy

Date: 2013-07-22 08:44:03

how to setup a collaborative search ring with seeks. seeks in a nutshell. how to use and benefit from a collaborative search ring.
{cite}ArchiveSimilar




______________________________________________
WOW Gold{.postlink}|Diablo 3 Gold{.postlink}

Statistik: Verfasst von zailaiboke — Mo Jul 22, 2013 7:44 am


Fragen und Antworten • Re: Chrooted yacy

Date: 2013-07-22 08:44:42

memory errors. I guess that is not related to chroot.




______________________________________________
WOW Gold{.postlink}|Diablo 3 Gold{.postlink}

Statistik: Verfasst von zailaiboke — Mo Jul 22, 2013 7:44 am


Hilfe für Einsteiger und Anwender • Fehler bei MediaWiki Crawl

Date: 2013-07-22 10:32:24

Hallo zusammen,

wir versuchen gerade unser MediaWiki im Intranet mit YaCy zu crawlen. Das läuft auch die ersten paar Seiten recht gut, allerdings stirbt der PPM Wert irgendwann während des Crawl-Vorgangs auf 0 ab. Wenn ich dann die Seite aktualisiere, steht dort folgende Meldung:

\ Crawling von \"http://unser/wiki/index.php/Hauptseite\" schlug fehl. Grund: double in: LURL-DB, oldDate = Mon Jul 22 10:22:50 CEST 2013/\



Ich habe mal nach dieser Meldung gegoogelt und hier im Forum gesucht, konnte aber nichts finden. :(
Weiß jemand was ich dagegen tun kann, so dass unser ganzes Wiki gecrawlt wird?

Mit freundlichen Grüßen
Oculus

Statistik: Verfasst von oculus — Mo Jul 22, 2013 9:32 am


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-22 10:43:16

Und die allgemeine Frage zum Thema Proxy: ist es \“nett\” wenn man YaCy als Proxy im eigenen Browser einträgt, oder ist es sehr zu empfehlen / sehr wichtig um die globale Suchleistung zu verbessern?

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 9:43 am


Fragen und Antworten • Re: Shutdown/logging/java.lang.OutOfMemoryError

Date: 2013-07-22 11:22:34

Wieso Zielkonflikte ? Dem YaCy Netzwerk nutzen kleinere Peers, die schnell Antworten genauso wie große. Ziel ist es in YaCy in Ressourcenmanagement zu integrieren was dafür sorgt das der \“normale\” Desktop\” Benutzer keine Einschränkungen in seiner täglichen Arbeit/Nutzung des Computers erfährt.
Leider ist genau das nicht so ganz einfach und kann aktuell nur durch Händisches Eingreifen mehr oder weniger gewährleistet werden.

Thomas

muixirt hat geschrieben:\ Teile des Index löschen und dafür sorgen dass möglichst wenig in den Index aufgenommen wird? Wirklich? Da gibt es wohl einige Zielkonflikte\...\ \ Zugegebenermaßen habe ich nicht die geringste Ahnung ob sich dieses Problem technisch lösen lässt.\

Statistik: Verfasst von Vega — Mo Jul 22, 2013 10:22 am


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-22 13:06:08

Deine 81MB Free sind leider wenig aussagekräftig - wäre aber noch ok.
Wichtiger ist der Wert des Verfügbaren Speichers.
Aber bei Deiner Index-Größe kann man es ruhig mal mit mehr Speicher versuchen.

Zum Proxy: Ich finde es für mich Sinnvoll den Proxy zu nutzen, um die Seiten die ich angesehen habe zu indizieren.
Oft hat man ja so den Fall das man etwas schon mal gesehen hat, und es wieder sucht - dafür ist das eine feine Geschichte.

Statistik: Verfasst von sixcooler — Mo Jul 22, 2013 12:06 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-22 13:22:22

sixcooler hat geschrieben:\ Aber bei Deiner Index-Größe kann man es ruhig mal mit mehr Speicher versuchen.\



Dann schraub ich das mal hoch, der Rechner hat 16 GB wo sicherlich im Regelfall weit mehr als die Hälfte nicht genutzt wird.

Die 81MB kamen übrigens von der Admin Console des Webinterfaces.

sixcooler hat geschrieben:\ Zum Proxy: Ich finde es für mich Sinnvoll den Proxy zu nutzen, um die Seiten die ich angesehen habe zu indizieren.\ Oft hat man ja so den Fall das man etwas schon mal gesehen hat, und es wieder sucht - dafür ist das eine feine Geschichte.\



Meine Frage hatte den Hintergrund, wenn die Daten der Proxies ins Netz eingespeist werden und so zur Verbesserung beitragen, sollten alle Peerbetreiber ja eigentlich unbedingt den Proxy im Browser einrichten - nur geht das unter, nirgendwo ist ein deutlicher Hinweis (Empfehlung) im Webinterface zu sehen den Proxy zu aktivieren. Sollte wenigstens auf der Willkommenseite (Erstinbetriebname) als letzter Schritt aufgeführt sein.
Also, wenn die Proxynutzung erheblich zur Verbesserung beiträgt, sollte auch sehr deutlich darauf hingewiesen werden.

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 12:22 pm


Hilfe für Einsteiger und Anwender • Re: Fehler bei MediaWiki Crawl

Date: 2013-07-22 15:49:24

\ Crawling von \"http://unser/wiki/index.php/Hauptseite\" schlug fehl. Grund: double in: LURL-DB, oldDate = Mon Jul 22 10:22:50 CEST 2013/\


Ich glaube das bedeutet, dass diese Seite bzw. URL bereits in der Link-Datenbank vorhanden ist, und nicht erneut gecrawlt werden kann, weil das erst kürzlich gemacht wurde.

Möglicherweise nützt es was, wenn du im Reiter \“Crawl Start (Experte)\” unter \“Double-Check Rules\” \“Re-load\” und \“1 Stunde\” auswählst, und so den Crawl nochmal startest.

Statistik: Verfasst von David — Mo Jul 22, 2013 2:49 pm


Hilfe für Einsteiger und Anwender • Re: Fehler bei MediaWiki Crawl

Date: 2013-07-22 16:54:53

Hallo David,

vielen Dank für deine Antwort. Leider hat mir auch das nicht weitergeholfen. Der Crawler stirbt irgendwann ab und der PPM sind auf 0. Dieses mal bekomme ich aber keine Fehlermeldung. :/

Statistik: Verfasst von oculus — Mo Jul 22, 2013 3:54 pm


Mitmachen • Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-22 21:17:15

Hallo,

seit heute gibt es einen neuen bzw. weiteren dedizierten YaCy-Peer, \“Ike\“, derzeit erreichbar unter der Adresse http://89.238.66.103/ ([noch keine Domain geschaltet]{style=“font-style: italic”}).


- YaCy-Einstellungen: Type: Principal, Accept Crawl: yes, DHT Receive: yes, SSL: disabled
- Technische Daten: AMD Dual-Core (2 x 1,5 GHz ), 4 GB RAM, 2 x 500 GB HDD (RAID-1), Datentransfer 5 TB/Monat, 100 MBit/s-Anbindung, Debian 64bit
- Verfügbarkeit: 247

- von mir privat betrieben und finanziert

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 8:17 pm


YaCy Coding & Architektur • Silent Auto-Update?

Date: 2013-07-22 21:34:03

wie seht ihr das eigentlich mit einem silent auto-update? Ich habe das extra nie vorgesehen, weil es ja bedeutet dass ein Peer immer bei einem update-Server nachgucken würde, obs ein Update gibt, und das auch eine Aussage darüber ist, ob da nun eine Installation ist oder nicht. Im nicht-p2p-Umfeld nannte man das vor über zehn Jahren mal einen \‘Home-Ping\’ und galt als schlechtes Benehmen. Heute macht sich da niemand mehr Gedanken drum, aber ich hab es trotzdem nie vorgesehen, dass ein Peer sich selber updaten soll. Jeder Browser macht das.

Wie seht ihr das? Ist ein selbstständiges Nachgucken, ob eine neue Version da ist zu indiskret? Oder ist es ein Feature das kaum in Richtung Privatsphähre stört, dafür aber dafür sorgt dass die Peers länger \‘überleben\’ können, weil wir Performancefeatures z.B. automatisch nachschieben können?

Statistik: Verfasst von Orbiter — Mo Jul 22, 2013 8:34 pm


Hilfe für Einsteiger und Anwender • Re: Festplatten-Nutzung anstelle von RAM?

Date: 2013-07-22 21:39:34

im Prinzip ist es ja so wie du es gerne hättest! Trotzdem muss eine effiziente Datenablage immer ein Stück Daten im RAM haben, um möglichst schnell an die auf der Festplatte abgelegten Daten ranzukommen. Wir sind mit YaCy hier auch aussergewöhnlich RAM-sparsam, vergleichbare, kommerzielle Software im 6-stelligen Kostenbereich (dollar) für bis zu (nur) 10 Millionen Dokumente wollen Hardware mit 64 GB RAM haben. Da sind wir sehr wesentlich drunter. Der RAM-Verbrauch mag, dafür das er im 1-2 GB Bereich für mehrere millionen Dokumente liegt für den Privatanwender viel erscheinen (weil: was brauch halt sonst so viel) trotzdem ist es nur ein Bruchteil von dem, was ein 300€ PC heute schon drin hat (8GB RAM). Der RAM-Verbrauch von YaCy ist eigentlich schon ein kleines Wunder, die Aufgaben sind höllisch komplex und es liegt weder an Verschwendung noch an ineffezienz oder schlechten Algorithmen das wir im unteren GB-Bereich sind.

Statistik: Verfasst von Orbiter — Mo Jul 22, 2013 8:39 pm


Fragen und Antworten • Re: Version 1.5 UPnP

Date: 2013-07-22 21:41:48

hast du die Portfreigabe immer nur per UPnP gemacht? An dieser Komponente haben wir nichts gedreht und ich hoffe es ist nicht irgendwo was schief gelaufen. Hast du nach 2 Minuten immer noch keinen Senior-Status?

Statistik: Verfasst von Orbiter — Mo Jul 22, 2013 8:41 pm


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-22 21:43:24

Also eine reine Prüfung auf eine neue Version, hab ich erst mal nichts gegen.

a) sollte deaktivierbar sein
b) es sollten ausschließlich die zur Prüfung notwendigen Daten (installierte Version) übertragen werden

Eine automatische Aktualisierung würde ich jedoch nicht aktivieren.

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 8:43 pm


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-22 21:53:05

Ich dachte das gibt es bereits?
Was würdest Du anders machen als die automatische Aktualisierung in ConfigUpdate_p.html?

Statistik: Verfasst von sixcooler — Mo Jul 22, 2013 8:53 pm


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-22 22:11:55

Großartig! Herzlichen Dank!

Statistik: Verfasst von LA_FORGE — Mo Jul 22, 2013 9:11 pm


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-22 22:24:15

Danke :-)

Die Maschine kann natürlich nicht mit deinem Rechenmonster mithalten, aber es soll hier schließlich kein Wettkampf werden :)

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 9:24 pm


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-22 23:29:41

naja es gibt es, ist aber nicht an!
Ok, die Frage ist also: soll es per default an sein?
Und dann gibts noch eine mögliche weitere Verhaltensweise: automatisch prüfen ob eine Aktualisierung da ist, aber erst den User Fragen. (das ist wohl das, was \@Ruhe anspricht).

Also ich fasse mal zusammen was es gibt und geben könnte:
- (a) nichts machen (ist jetzt default)
- (b) auf Knopfdruck gucken obs ein Update gibt und das installieren, wenns ein Update da ist (Funktion ist vorhanden)
- © einstellen, dass automatisch geguckt wird und geupdated wird, wenn was da ist - das ist (b) aber automatisch. (Option ist vorhanden)
- (d) automatisch immer wieder gucken ob was da ist, aber nicht updaten sondern den User nur informieren (Funktion noch nicht vorhanden)

Die Frage ist also, ob etwas anderes als (a) per default nach der Installation da sein soll, nämlich (und das war die Frage) die Option © oder (d)

Statistik: Verfasst von Orbiter — Mo Jul 22, 2013 10:29 pm


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-22 23:50:54

Den User Informieren langt absolut denke ich.
Man könnte als Status-Meldung unterbringen mit einem Link zu ConfigUpdate_p.html - wo der User dann entscheiden kann ob er auch automatischh ein kommendes Update istalliert haben möchte.

Per default Updates zu installieren hielte ich für recht frech :-)

Statistik: Verfasst von sixcooler — Mo Jul 22, 2013 10:50 pm


Solr Support • corrupter Solr index fix

Date: 2013-07-22 23:55:47

Hallo,

da ich einen corrupten Solr index auf einem Peer hatte, will ich hier mal festhalten wie man das \‘reparieren\’ kann.

YaCy herunterfahren und mit dem User unter dem YaCy läuft in das YaCy-Verzeichniss gehen und

Code:
java -cp 'lib/*' org.apache.lucene.index.CheckIndex DATA/INDEX/freeworld/SEGMENTS/solr_40/collection1/data/index/ -fix


ausführen.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jul 22, 2013 10:55 pm


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-23 00:07:12

zu a): wie alt darf eine Version sein? Soll auch eine Version, die bereits x Monate alt ist weiterhin eingesetzt werden dürfen?

zu b) kein must-have

zu c) nice to have

zu d) sollte Standard werden

Statistik: Verfasst von Ruhe — Mo Jul 22, 2013 11:07 pm


Hilfe für Einsteiger und Anwender • Re: Proxy

Date: 2013-07-23 08:43:24

Da ich ja nun einen eigenen externen Server betreibe und diesen als YaCy-Proxy verwende, hatte ich bisher so gut wie keine Probleme mehr mit dem Seitenaufbau.

Statistik: Verfasst von Ruhe — Di Jul 23, 2013 7:43 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 08:56:36

Hi,
dazu zwei Fragen, die Du beantworten kannst, aber natürlich nicht musst:

a) warum SSL disabled? Gibt es dafür (grundsätzlich) einen trifftigen Grund?

b) die beste Frage wie immer zum Schluss ... was kostet der Spass?

Ansonsten danke für die Bereitstellung der Kiste.

Ruhe hat geschrieben:\ seit heute gibt es einen neuen bzw. weiteren dedizierten YaCy-Peer, \"Ike\", derzeit erreichbar unter der Adresse ([noch keine Domain geschaltet]{style="font-style: italic"}).\ \ - YaCy-Einstellungen: Type: Principal, Accept Crawl: yes, DHT Receive: yes, SSL: disabled\ - Technische Daten: AMD Dual-Core (2 x 1,5 GHz ), 4 GB RAM, 2 x 500 GB HDD (RAID-1), Datentransfer 5 TB/Monat, 100 MBit/s-Anbindung, Debian 64bit\ - Verfügbarkeit: 24/7\ \ - von mir privat betrieben und finanziert\

Statistik: Verfasst von cryptosteve — Di Jul 23, 2013 7:56 am


YaCy Coding & Architektur • Re: Silent Auto-Update?

Date: 2013-07-23 09:03:50

Ich finde es nicht gut, wenn sich eine Software selbst aktualisiert.

a) Ich möchte selbst entscheiden, welche Version ich betreibe
b) ich möchte vor allem auch den Zeitpunkt eines Upgrades entscheiden

Und ganz wichtig:

c) im Falle, dass der Ausgangsserver kompromittiert wird, laden sich alle Peers die schadhafte Version ein und upgraden sie auch gleich ins laufende System.

Statistik: Verfasst von cryptosteve — Di Jul 23, 2013 8:03 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 09:05:36

Hi

\ a) warum SSL disabled? Gibt es dafür (grundsätzlich) einen trifftigen Grund?\



Eigentlich eine gute Frage. Einen trifftigen Grund hat es nicht, irgendwie war ich im Glauben, man benötigt dafür ein SSL-Zertifikat.

Statistik: Verfasst von Ruhe — Di Jul 23, 2013 8:05 am


Hilfe für Einsteiger und Anwender • Verteilung des lokalen Index

Date: 2013-07-23 09:21:47

Wenn man einen Crawl anwirft befinden sich die Daten ja anschließend vorerst nur im eigenen lokalen Index.
Ist irgendwo in der Weboberfläche ersichtlich, ob und wie viele Daten sich noch lokal befinden aber (noch) nicht im Netz verteilt sind?

Statistik: Verfasst von Ruhe — Di Jul 23, 2013 8:21 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 09:37:26

Das SSL-Zertifikat wird von YaCy selbst erstellt und selbst signiert. Daher bekommt man beim Aufruf erst diese Meldung vom Browser - nach Bestätigen des Zertifikats erfolgt die Verbindung aber verschlüsselt.

Statistik: Verfasst von cryptosteve — Di Jul 23, 2013 8:37 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 10:17:05

So, SSL ist aktiviert

Statistik: Verfasst von Ruhe — Di Jul 23, 2013 9:17 am


Solr Support • Re: corrupter Solr index fix

Date: 2013-07-23 10:21:29

ah, das ist hochinteressant! Wie bist du darauf gekommen?

Das hat mich dann dazu gebracht alle Klassen in org.apache.lucene.index darauf zu untersuchen ob es da noch mehr main()-Methoden drin gibt die man gebrauchen könnte und siehe da, hab folgendes gefunden:

Code:
java -cp 'lib/*' org.apache.lucene.index.IndexUpgrader DATA/INDEX/freeworld/SEGMENTS/solr_40/collection1/data/index/ -verbose


macht ein Index Upgrade. Das sollte aber dann YaCy-intern aufgerufen werden, genau wie das index fix auch! Was passiert denn wenn man mit einem kaputten Solr Index startet? (d.h.: bei welcher Exception baue ich ein automatischen Fix ein) Hast du noch den kaputten Solr Index?

Statistik: Verfasst von Orbiter — Di Jul 23, 2013 9:21 am


Solr Support • Re: corrupter Solr index fix

Date: 2013-07-23 12:50:43

Das hatte ich in irgendeinem Forum gefunden.
Leider hab ich weder den corrupten Index noch Logoutput dazu.
Glaube mich aber zu erinnern das u.a. im EmbeddedSolrConnector:138 (getResponseByParams) der letzte Teil aus YaCy im Trace war.
Ganz sicher knallte es aber bei SolrServerConnector.commit und SolrServerConnector.optimize.

Statistik: Verfasst von sixcooler — Di Jul 23, 2013 11:50 am


Hilfe für Einsteiger und Anwender • Did you mean ...

Date: 2013-07-23 18:15:46

Kann man das suchen beim tippen und \“Did you mean\” irgendwie entfernen? Oder noch besser, gibt es noch eine Suchseite wo nur das aller nötigste vorhanden ist, heißt möglichst wenig Scripte ... und wenn nicht kann mir einer sagen wie genau eine Suchabfrage von YaCy abläuft und welche Scripte wirklich nötig sind?

Statistik: Verfasst von gaston — Di Jul 23, 2013 5:15 pm


Fragen und Antworten • Re: Version 1.5 UPnP

Date: 2013-07-23 19:11:16

Genau ich hab den Port immer Automatisch über UPnP freigeben lassen. Hat auch immer gut funktioniert nur jetzt auch nach einigen Minuten ist er immer noch kein Senior.

Nur muss ich dazu sagen , mich mit Yacy seit gut einem halben Jahr nicht mehr beschäftigt zu haben. Wer weiß was sich da alles geändert hat. Ich bin mir auch gerade nicht ganz sicher ob ich es bereits an einem Windows 8 Rechner (aktuell) ausprobiert habe, vielleicht liegt es am Betriebssystem?

Ich werde am Wochenende mal meinen anderen Windows 7 Rechner ausprobieren, am Router hat sich in der Zeit nichts geändert.
Ich gebe jetzt erstmal den Port per Hand frei , mal sehen ob es klappt.


grüße

Statistik: Verfasst von bbtuxi — Di Jul 23, 2013 6:11 pm


Hilfe für Einsteiger und Anwender • Re: Did you mean ...

Date: 2013-07-23 19:12:39

gaston hat geschrieben:\ Kann man das suchen beim tippen und \"Did you mean\" irgendwie entfernen?\


Möglicherweise unter \“Erweiterte Konfiguation\” die Einstellung \“interaction.suggestrejected.enabled\” auf \“true\” stellen. Ich bin mir aber nicht sicher, und getrau mich im Moment auch nicht es auszupropieren, weil mein Peer läuft gerade so gut, und ich stehe kurz vor einem Backup.

Statistik: Verfasst von David — Di Jul 23, 2013 6:12 pm


Hilfe für Einsteiger und Anwender • Re: Fehler bei MediaWiki Crawl

Date: 2013-07-23 19:21:25

Als ich letztes Jahr die Intranet-Suche ausprobiert habe, hatte ich ein ähnliches Problem, kann mich aber nicht mehr erinnern, wie ich es gelöst habe. Ausserdem, benutzte ich dazumal eine viel ältere Version von Yacy.

Statistik: Verfasst von David — Di Jul 23, 2013 6:21 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-07-23 19:53:47

Schon geile Sachen dabei :D dann liefer ich halt ein Vídeo{.postlink} von Youtube ;)

Statistik: Verfasst von Jacka — Di Jul 23, 2013 6:53 pm


Hilfe für Einsteiger und Anwender • Live Stream öffnet nicht

Date: 2013-07-23 20:23:16

Hallo,

Ich habe ein ganz großes Problem, was sich darauf bezieht, dass mein Sopcast nicht mehr öffnen kann. Ich habe schon alles probiert, aber ich komme einfach nicht mehr weiter.
Egal, was ich versucht habe, als Admin ausgeführt, neu installiert und alles mögliche.

Zuletzt war ich auf dieser Seite hier{.postlink}, aber die hat mir nicht so wirklich weiter geholfen. Ich finde es aber schon eigentartig, dass ich das Programm nicht mehr öffnen kann.
Gestern Abend habe ich es noch benutzt um einbisschen Baseball zu gucken. Nicht das ich jetzt einen Virus drauf habe, weil ich gestern das Spiel geguckt habe.

Aber das kann ich mir nicht vorstellen, weil dann hätte mein AntiViren Programm arlam geschlagen.

Hoffe, ihr könnt mir helfen. Danke schon mal im Vorraus :)
L.G Karl

Statistik: Verfasst von Jacka — Di Jul 23, 2013 7:23 pm


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 20:30:43

So kann es gehen, gestern bestellt und heute schon gekündigt (wurde mir aber nur anteilig bis monatsende in Rechnung gestellt).

Aber...der Ersatz ist schon bestellt ;-)
Die CPU (Quad) ist um ein vielfaches schneller, schnellere Netzanbindung, 2x 2 TB HDD (SATA 6 Gb/s 7200 rpm), 20 TB Traffic und 8x so viel RAM.


\@cryptosteve :D Alles über den Haufen geworfen

Statistik: Verfasst von Ruhe — Di Jul 23, 2013 7:30 pm


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-23 20:48:10

Ruhe hat geschrieben:\ \@cryptosteve ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy") Alles über den Haufen geworfen\


:mrgreen: :mrgreen: So muss das! :mrgreen: :mrgreen:

Statistik: Verfasst von cryptosteve — Di Jul 23, 2013 7:48 pm


Hilfe für Einsteiger und Anwender • Re: Festplatten-Nutzung anstelle von RAM?

Date: 2013-07-23 23:53:05

Orbiter hat geschrieben:\ im Prinzip ist es ja so wie du es gerne hättest! Trotzdem muss eine effiziente Datenablage immer ein Stück Daten im RAM haben, um möglichst schnell an die auf der Festplatte abgelegten Daten ranzukommen. Wir sind mit YaCy hier auch aussergewöhnlich RAM-sparsam, vergleichbare, kommerzielle Software im 6-stelligen Kostenbereich (dollar) für bis zu (nur) 10 Millionen Dokumente wollen Hardware mit 64 GB RAM haben. Da sind wir sehr wesentlich drunter. Der RAM-Verbrauch mag, dafür das er im 1-2 GB Bereich für mehrere millionen Dokumente liegt für den Privatanwender viel erscheinen (weil: was brauch halt sonst so viel) trotzdem ist es nur ein Bruchteil von dem, was ein 300€ PC heute schon drin hat (8GB RAM). Der RAM-Verbrauch von YaCy ist eigentlich schon ein kleines Wunder, die Aufgaben sind höllisch komplex und es liegt weder an Verschwendung noch an ineffezienz oder schlechten Algorithmen das wir im unteren GB-Bereich sind.\


That\’s interesting to know; I was unaware of how thoroughly optimized YaCy is.

That said, I feel like there may be some improvements that could be made to how YaCy handles low RAM. For example, would it be possible to include an option so that when RAM usage approaches the limit, YaCy would start deleting the oldest entries in its local index? I think deleting old index entries would be preferable (at least to some users) over the current situation where it simply hangs (eating huge amounts of CPU) when it runs out of RAM.

Thanks.

Statistik: Verfasst von biolizard89 — Di Jul 23, 2013 10:53 pm


Hilfe für Einsteiger und Anwender • Images 404 with graphics error

Date: 2013-07-24 02:39:12

I have installed YaCy on my linux server, but all the generated images load as 404\’s with this error in the log:

Code:
E 2013/07/23 06:05:36 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /opt/yacy/htroot/cytag.class: ; java.awt.graphicsenv='sun.awt.X11GraphicsEnvironment'



See this example: https://l.opie.at:8090/cytag.png?icon=invisible&nick=yacyh_KfLhVT3x8XHs&tag=search

What am I missing? It seems to me it shouldn\’t be using X11GraphicsEnvironment if my JAVA_ARGS has

Code:
-Djava.awt.headless=true

Statistik: Verfasst von akraut — Mi Jul 24, 2013 1:39 am


Fragen und Antworten • Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-24 10:11:19

Während bzw. nach der Installation von YaCy sind mir folgende Dinge aufgefallen:

1). bei der Installation wurde ich in der Shell nach dem Namen für den Peer gefragt, welchen ich auch eingegeben habe - dieser Name wurde jedoch nicht übernommen, im Webinterface war anschließend nur einer der Standardnamen vergeben, ich musste den Peernamen hier also nochmals eintragen

2). bei der Installation wurde ich in der Shell nach dem max. Speicher der JVM gefragt, hier hatte ich 16384 eingetragen (der Rechner hat 32 GB). Im Webinterface rechts steht anschließend jedoch was von 2 GB?

Code:
free: 2.82 GBtotal: 2.88 GBmax: 15.98 GB



Details:

Code:
Max    16,367 MByte    maximum memory that the JVM will attempt to useAvailable    16,366 MByte    16,338 MByte    16,351 MByte    16,267 MByte    total available memory including free for the JVM within maximumTotal    497,044 KByte    1,978,180 KByte    2,307,768 KByte    2,961 MByte    total memory taken from the OSFree    495,644 KByte    1,948,306 KByte    2,291,456 KByte    2,861 MByte    free memory in the JVM within total amountUsed    1,399 KByte    29,873 KByte    16,311 KByte    100 MByte    used memory in the JVM within total amount

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 9:11 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-24 10:21:48

Eigentlich ist Deine neue Kiste dann doch jetzt wie geschaffen für http://blog.yacy-kochbuch.de/?p=353

Statistik: Verfasst von cryptosteve — Mi Jul 24, 2013 9:21 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-24 10:25:15

Ruhe hat geschrieben:\ 1). bei der Installation wurde ich in der Shell nach dem Namen für den Peer gefragt, welchen ich auch eingegeben habe - dieser Name wurde jedoch nicht übernommen, im Webinterface war anschließend nur einer der Standardnamen vergeben, ich musste den Peernamen hier also nochmals eintragen\


Dazu möchte ich ergänzen, dass ich kürzlich darüber gestolpert bin, dass der Peernamen offensichtlich keinen Punkt enthalten darf und ein Peername mit Punkt einfach kommentarlos verworfen wird. Aber vielleicht habe ich den passenden Hinweis auch einfach übersehen. :mrgreen:

Statistik: Verfasst von cryptosteve — Mi Jul 24, 2013 9:25 am


Mitmachen • Re: Neuer dedizierter YaCy-Peer (\“Ike\“)

Date: 2013-07-24 10:25:25

Der neue Peer ist installiert, eingerichtet und läuft bereits - bleibt nur die Frage mit der RAM-Angabe (viewtopic.php?f=5&t=4732{.postlink-local})

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 9:25 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-24 10:28:37

Zu Punkt 1 kann ich noch anmerken, war meine 2. Neuinstallation eines Peers auf einem Debian 7 System. Beim ersten System wurde der Name aus der Shell übernommen, jetzt, beim neuen System eben nicht.
Beide Namen bestanden aus drei Buchstaben.

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 9:28 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-24 10:44:29

Und soeben hat sich YaCy verabschiedet, Webinterface nicht mehr erreichbar.
Irgendeine Aktivität meinerseits zum Zeitpunkt des Absturz? Nein, hatte das Webinterface (Admin console) geöffnet, mehr nicht.

Code:
$ /etc/init.d/yacy status


liefert \“is dead, but pid file exists.\”


Wurde seit Montag eine neue Version für Debian erstellt? Kann leider nicht sagen, welche ich am Montag auf dem anderen System installiert hatte (in beiden jedoch über [http://debian.yacy.net]{style="font-style: italic”} installiert)

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 9:44 am


Fragen und Antworten • Can\’t monitor crawls any more

Date: 2013-07-24 16:03:18

When I follow the link to monitor my crawls, I get an error message.

The link I follow: http://localhost:7011/Crawler_p.html

The message I get: UNRESOLVED PATTERN

This has been happening for some time now, it started when I had to force quit YaCy as it appeared frozen.

Screen shot: Bild

Is there anything I can do locally to handle this?

I already re-downloaded and re-installed the YaCy program (using Mac OSX 10.6)...

Statistik: Verfasst von Sepp — Mi Jul 24, 2013 3:03 pm


Hilfe für Einsteiger und Anwender • Reihenfolge der Suchergebnisse

Date: 2013-07-24 16:45:24

Hallo liebe Yacy-Community,

ich habe mir jetzt vor einigen Tagen auch mal Yacy installiert und bin jetzt erstmal ein wenig am Rumspielen. Dass bei der Anzahl an Peers nicht das ganze Internet indexiert sein kann, ist klar. Bei der Qualität der Suchergebnisse wundert mich eine Sache aber trotzdem, und ich frage mich, ob sich daran drehen lässt:
Ich habe beispielsweise die Seite eines Vereins crawlen lassen. Wenn ich nun nach dem Namen des Vereins suche, werden die meisten Treffer natürlich (noch) bei mir lokal gefunden. Mich wundert aber, dass bei der allgemeinen Suche nach dem Vereinsnamen nicht dessen Startseite der erste Treffer ist. Erstmal taucht irgendeine PDF auf, die in den Tiefen der Seite verlinkt ist, dann lauter Unter- und Unter-Unterseiten und erst am Ende der ersten Trefferseite folgt die eigentliche Startseite, die ich bei einer nicht weiter spezifizierten Suche ganz oben erwartet hätte. Warum ist das so?

Viele Grüße
Sebastian

Statistik: Verfasst von Gargamel — Mi Jul 24, 2013 3:45 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-24 17:40:00

Ist mir ebenfalls aufgefallen und gefällt mir nicht - die Hauptseite (Domain) sollte bei einer allgemeinen Suche ganz oben stehen. Und das nicht nur, weil es auch bei Google so ist...

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 4:40 pm


Fragen und Antworten • Grafik auf der \‘Admin Console\’

Date: 2013-07-24 18:16:13

Im Gegensatz zu YaCy 1.529122 sieht die Grafik auf der Admin Console mit YaCy version 1.529131 (Debian 7.0 64bit) doch ziemlich verhaun aus:

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 5:16 pm


Wunschliste • Links im Menü \“The YaCy Project\” in neuem Tab öffnen

Date: 2013-07-24 18:30:38

Können die Links unten links im Menü \“The YaCy Project\” bitte so geändert werden, dass sie die entspr. Seite in einem neuen Tab öffnen ([target=\”_blank\“]{style=“font-style: italic”})?

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 5:30 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-24 21:15:21

In den Reitern \“Solr Ranking Config\” und \“RWI Ranking Config\” im Menü \“Konfiguration der integrierten Suche\” kann jeder Benutzer selbst bestimmen, wie das Ranking berechnet wird.

Meiner Meinung nach sollten immer die \“besten\“, populärsten und schnellsten Seiten ganz oben stehen. Faktoren wie z. B. Rechtschreibung und wie viel Werbung enthalten ist, wären sicher auch noch zu berücksichtigen, nur kann das Yacy halt im Moment (noch) nicht. Die Idee, dass die offiziellen Seiten z. B. von einem Produkt oder einer Firma automatisch immer zuoberst aufgelistet werden sollen, finde ich persönlich nicht so gut.

Statistik: Verfasst von David — Mi Jul 24, 2013 8:15 pm


Hilfe für Einsteiger und Anwender • Re: Images 404 with graphics error

Date: 2013-07-24 21:25:31

akraut hat geschrieben:\ all the generated images load as 404\'s\


Hi. Do you mean the thumbnails within the image search?

Statistik: Verfasst von David — Mi Jul 24, 2013 8:25 pm


Hilfe für Einsteiger und Anwender • Re: Live Stream öffnet nicht

Date: 2013-07-24 21:32:07

Hallo! Verstehen ich das richtig, seit du yacy installiert hast, kannst du das Programm Sopcast nicht mehr öffnen? Oder willst du nur Werbung für den Youtube-Channel machen? :)

Statistik: Verfasst von David — Mi Jul 24, 2013 8:32 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-24 21:34:59

Hallo David,

danke für die Info, dieses Menü ist mir bisher total entgangen ... uff, was kann man denn dort noch alles einstellen :o
So sehe ich, in der Annahme ich verstehe es richtig, dass bspw. [description]{style=“font-style: italic”} und [keywords]{style=“font-style: italic”} im Header einer Seite gar nicht in die Suche einfließen. Als gutes Beispiel an dieser Stelle die Artikel bei Golem, dort werden beide Header sinnvoll genutzt.

Statistik: Verfasst von Ruhe — Mi Jul 24, 2013 8:34 pm


Hilfe für Einsteiger und Anwender • Re: Images 404 with graphics error

Date: 2013-07-24 22:18:54

It\’s not limited to the thumbnails within the image search. Any images that are dynamically generated by YaCy fail. For example, the big ring image of the YaCy network.

Statistik: Verfasst von akraut — Mi Jul 24, 2013 9:18 pm


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-25 10:29:54

Soeben festgestellt: YaCy lief zwar laut

Code:
/etc/init.d/yacy status


das Webinterface war jedoch nicht erreichbar - der Browser hat das Laden nach 1 oder 2 Minuten abgebrochen.

Wie es scheint war der für YaCy zugewiesene Speicher (15 GB) vollgelaufen.

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 9:29 am


Suchmaschinen • Re: Theseus wird enthüllt

Date: 2013-07-25 11:07:54

spricht man das so aus, wie sie? Ich war immer von The-se-us ausgegangen




______________________________________________
WOW Gold Kaufen{.postlink}|Diablo 3 Gold Kaufen{.postlink}

Statistik: Verfasst von jacktimo — Do Jul 25, 2013 10:07 am


Fragen und Antworten • Re: großere queues legen alle peers lahm

Date: 2013-07-25 11:08:11

Ich hab das hier beobachtet jedenfalls. Dazu ist ein Bugfix raus. Bitte damit probieren.




______________________________________________
WOW Gold Kaufen{.postlink}|Diablo 3 Gold Kaufen{.postlink}

Statistik: Verfasst von jacktimo — Do Jul 25, 2013 10:08 am


Panorama • Re: Zedler-Preis für freies Wissen 2013 - YaCy nominiert!

Date: 2013-07-25 11:08:39

Das heisst aber auch dass ich ggf. am letzten Tag eine Stunde früher abdampfen muss...




______________________________________________
WOW Gold Kaufen{.postlink}|Diablo 3 Gold Kaufen{.postlink}

Statistik: Verfasst von jacktimo — Do Jul 25, 2013 10:08 am


Hilfe für Einsteiger und Anwender • Suche / Suchergebnis

Date: 2013-07-25 11:24:12

Bereits gestern hatte ich bei aktiviertem YaCy-Proxy im Browser die Webseite http://www.golem.de/news/soziales-netzw ... 00600.html{.postlink} besucht.

Suche ich in Google nach

\ nutzer facebook mehr zeit\


so wird die o.g. Seite als erster Treffer angezeigt.

Suche ich über meinen Peer danach kommt alles mögliche, aber kein brauchbarer Treffer.

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 10:24 am


Wunschliste • Re: Links im Menü \“The YaCy Project\” in neuem Tab öffnen

Date: 2013-07-25 12:05:18

Meine ganz persönliche Meinung: Ich mag es nicht, wenn bei einem Klick auf einen Link eines neues Tab oder Fenster auf geht. Wenn ich das will, mache ich das selbst (in meinem Browser über das Kontextmenü oder Shift-Taste beim Klicken gedrückt halten). Das ist aber Geschmackssache und daher kann man darüber nicht oder ganz vorzüglich (je nach Einstellung) streiten. ;)
Vielleicht mal andersrum gefragt: Was stört dich denn daran, dass im Moment die Links nicht in einem neuen Tab aufgehen? Fühlt es sich für dich eventuell nicht richtig an, dass eine externe Seite im gleichen Tab aufgeht? In dem Fall würde vielleicht schon eine Markierung am Link (wie z.B. bei Wikipedia) ausreichen, damit man weiß, woran man ist.

Zwischenablage01.png

Statistik: Verfasst von Low012 — Do Jul 25, 2013 11:05 am


Wunschliste • Re: Links im Menü \“The YaCy Project\” in neuem Tab öffnen

Date: 2013-07-25 12:23:10

In einer administrativen Oberfläche einen Link im gleichen Tab öffnen, der mit der Administration gar nichts zu tun hat, geht gar nicht ;) Betonung liegt hier auf [administrativer Oberfläche]{style=“font-style: italic”}.

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 11:23 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-25 12:38:19

Hallo

Das kann ich bestätigen, der name aus der shell wird nicht übernommen, man muss ihn noch einmal im web panel eingeben


Mit Freundlichen Grüßen

Felix

Statistik: Verfasst von Felsie14S — Do Jul 25, 2013 11:38 am


Wunschliste • Re: Links im Menü \“The YaCy Project\” in neuem Tab öffnen

Date: 2013-07-25 13:36:20

Ah! OK! Jetzt verstehe ich, worauf du hinaus willst und unterstütze hiermit deinen Wunsch! Kann es leider gerade jetzt im Moment nicht einbauen.

Statistik: Verfasst von Low012 — Do Jul 25, 2013 12:36 pm


Fragen und Antworten • Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-25 14:49:28

Warum wird bei Verwendung des YaCy-Proxy im Browser das folgende Bild nicht angezeigt?

http://d.pr/i/tUkT

Korrekt wäre die Anzeige eines Screenshots von den YaCy-Cacheeinstellungen.

Deaktiviert man den Proxy, drückt im Browser F5 wird auch der Screenshot angezeigt.

[YaCy 1.529131, Debian 7 64bit]{style=“font-style: italic”}

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 1:49 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-25 14:51:10

meine Strategie ist es, nur das zu indexieren was man auf der Seite auch optisch sehen kann. Wenn der Inhalt von Description nicht im Text vorkommt stinkt das sowieso recht stark nach Betrug. Wenn es aber vorkommt muss man darin auch nicht suchen.

Statistik: Verfasst von Orbiter — Do Jul 25, 2013 1:51 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-25 14:57:24

\@Orbiter: fällt mir kein passendes Gegenargument zu ein, was du schreibst stimmt schon ;-)

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 1:57 pm


Mitmachen • Neuer dedizierter YaCy-Peer (\“Nyx\“)

Date: 2013-07-25 15:23:30

- Technische Daten: https://144.76.105.110/www/

- YaCy-Einstellungen: Type: Principal, Accept Crawl: yes, DHT Receive: yes, SSL: enabled
- Verfügbarkeit: 247

- von mir privat betrieben und finanziert

Statistik: Verfasst von Ruhe — Do Jul 25, 2013 2:23 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-25 16:23:10

ich hab jetzt einen load-check für DHT-out bei 2.5 drin. Und gleich wurde es kommentiert, das sei zu hoch oder zu niedrig, je nach Anzahl der CPUs:
http://gitorious.org/yacy/rc1/commit/f5 ... 066dbe69be{.postlink}

was soll ich nun machen? Ich hätte gerne ein gutes Maß dafür. Wie wäres es mit einer Attributsammlung, könnt ihr dafür folgende Fragen ergänzen:

- Mein Rechner hat ( ) Cores
- DHT-out soll nur erlaubt sein unter ( ) load
- DHT-in soll nur erlaubt sein unter ( ) load

am besten als Vector, so, als Beispiel
8,2,1.5

Statistik: Verfasst von Orbiter — Do Jul 25, 2013 3:23 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-25 16:37:34

Ich denke, du rechnest den Load einfach durch die Anzahl der CPUs und Werte oberhalb von 1.5 verzögern dann DHT und Crawl, wobei ich eher den Crawl bremsen würde.

Wie komme ich dahin:
Der Load beschreibt die Anzahl der wartendende Prozesse. Optimal wäre 1, ein CPU-Kern wäre voll ausgelastet. Also unter 1: kein Problem. Mit 1: optimal. Alles darüber: suboptimal. Ok, kleine Lastspitzen sollten nicht alles ins Wanken bringen. Deshalb ein Wert oberhalb von 1 aber unterhalb von 2.

Statistik: Verfasst von PCA42 — Do Jul 25, 2013 3:37 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-25 16:40:00

ich bin ja immer noch überzeugt das es wenig mit der Menge der Cores zu tun hat - ist wohl eher eine Frage des Geschmacks des Users

als Vector würde ich 2,1.0,1.0 bevorzugen

können wir das nicht einfach konfigurierbar machen?
planst Du auch das Crawlen vom System-Load abhängig zu machen?

Statistik: Verfasst von sixcooler — Do Jul 25, 2013 3:40 pm


Solr Support • Re: corrupter Solr index fix

Date: 2013-07-25 20:45:14

Vielleicht koennen die zwei Calls in startYACY.sh/bat/command eingebaut werden? Z.B.:

Code:
$ ./startYACY.sh -fix$ ./startYACY.sh -upgrade



Die zwei Calls muessten dann sicherstellen, dass YaCy beendet wurde (z.B. die PID abfragen: /proc/<pid>/ ist da, dann laeuft der Peer).

Statistik: Verfasst von Quix0r — Do Jul 25, 2013 7:45 pm


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-07-25 22:09:01

David hat geschrieben:\ Die Idee, dass die offiziellen Seiten z. B. von einem Produkt oder einer Firma automatisch immer zuoberst aufgelistet werden sollen, finde ich persönlich nicht so gut.\


Das meinte ich auch gar nicht. Beispiel: Wenn ich nach \“Adidas\” suche, kann von mir aus gerne der Wikipedia-Artikel dazu oder irgendeine andere Seite der erste Treffer sein. Aber die Startseite von Adidas sollte in den Suchtreffern auf jeden Fall vor der Seite über irgendeinen speziellen Turnschuh innerhalb derselben Domain kommen, da ich ja nach der Firma und nicht nach dem Schuh gesucht habe.

Grüße
Sebastian

Statistik: Verfasst von Gargamel — Do Jul 25, 2013 9:09 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-26 00:16:02

konfigurierbar sicherlich, ist es ja jetzt auch schon.
crawlen: selbst-gestartete nicht einschränken durch load, das wäre verwirrent weil man ja dann auch das maximale rausholen will, Beschränkungen sind da unangemessen und sollen nur bei automatischen Vorgängen angewendet werden.

Statistik: Verfasst von Orbiter — Do Jul 25, 2013 11:16 pm


YaCy Coding & Architektur • Re: P2P Aktivität abhängig von Load auf CPU, Load-Bedeutung?

Date: 2013-07-26 00:27:40

\ crawlen: selbst-gestartete nicht einschränken durch load, das wäre verwirrent weil man ja dann auch das maximale rausholen will,\


ich fänd das durchaus nett den Crawl bei Load zu beschränken:
Auch wenn man den Crawl selber angestoßen hat, kann man doch wünschen das es nur passiert wenn die Kiste sonst nix zu tun hat

Statistik: Verfasst von sixcooler — Do Jul 25, 2013 11:27 pm


Hilfe für Einsteiger und Anwender • Re: Suche / Suchergebnis

Date: 2013-07-26 10:45:31

...was bringt einem eine alternative, weitere, eigene Suchmaschine, wenn die Suchergebnisse sehr enttäuschen oder vielleicht sogar gar nicht zu gebrauchen
sind (YaCy gibt es auch schon länger und nicht erst seit ein paar Tagen) - und das hat nicht nur etwas mit der Anzahl der indexierten Websites zu tun.
Muss ich nach ein paar Tagen Nutzung feststellen, und scheint auch die Meinung vieler anderer zu sein, wenn man sich mal Kommentare zu YaCy im Netz
ansieht (Präsentation, Sortierung, Qualität der Suchergebnisse). Meine persönliche Meinung bisher: gute Serversoftware, aber ansonsten für den Endnutzer sehr
enttäuschend, kaum Nutzen bzw. Mehrwert.

Statistik: Verfasst von Ruhe — Fr Jul 26, 2013 9:45 am


Hilfe für Einsteiger und Anwender • Freigabe der Suchfunktion nach Benutzeranmeldung

Date: 2013-07-26 16:27:59

YaCy indexiert unseren Fileserver. Da bei der Suche die Nutzerrechte (noch... ;-) nicht berücksichtigt werden können, soll die Suchfunktion erst nach Anmeldung offen stehen.

Die Option \‘only the administrator is allowed to search\’ habe ich gefunden und aktiviert. Gibt es auch eine Möglichkeit, die Suche für Benutzerkonten aus der integrierten Benutzerverwaltung freizuschalten? Habe es mit dem Recht \‘Extended search right\’ versucht. Das hilft jedoch nicht.

YaCy Version: 1.59000 auf Windows 2008 R2

Danke + Gruss

ictzug

Statistik: Verfasst von ictzug — Fr Jul 26, 2013 3:27 pm


Fragen und Antworten • Option \‘Treffer pro Seite\’ ohne Funktion

Date: 2013-07-26 21:05:08

Auch bei der Einstellung \“15\” oder \“20\” werden nur 10 Treffer pro Seite dargestellt.

[1.529131]{style=“font-style: italic”}

Statistik: Verfasst von Ruhe — Fr Jul 26, 2013 8:05 pm


Presse • Focus online: \“Keine Chance für NSA-Schnüffler\”

Date: 2013-07-27 10:37:03

...\“Keine Chance für NSA-Schnüffler: So surfen Sie unerkannt durchs Netz\”

http://www.focus.de/digital/gastkolumne ... 54376.html{.postlink}

wieder mal die Optionen DDG, StartPage und YaCy, wobei YaCy eine richtig lange Erklärung dran hat.
Wann merken die endlich alle, dass DDG und Startpage nicht wirklich Alternativen sind und YaCy die einzige alternative Technik anbietet?

Statistik: Verfasst von Orbiter — Sa Jul 27, 2013 9:37 am


Fragen und Antworten • Kann YACY nicht starten

Date: 2013-07-27 12:09:23

Hallo,

ich habe YACY nach Anweisung auf meinem Webserver nach Wiki-Anleitung für Ubuntu installiert (Apache2, Ubuntu12.04). Die Installation lief einwandfrei.
Bei der Installation wurdn ein paar Punkte abgefragt, die mir unklar waren, habe aber die Vorgaben übernommen und als such eigene Webseiten angegeben.
Da ich nicht auf dem Webserver, sondern zu Hause bin, kann ich natürlich nicht mit localhost:8090 starten. Wenn ich nun \“meine Webseite\”:8090 oder \“meine Webserver IP\”:8090 eingebe, passiert nichts.
Kann mir bitte jemand helfen? Ich brauche die Suche so dringend auf meinem Wiki (kein Mediawiki).
Vielen Dank im Voraus

zen

Statistik: Verfasst von zen — Sa Jul 27, 2013 11:09 am


Presse • Re: Focus online: \“Keine Chance für NSA-Schnüffler\”

Date: 2013-07-27 12:53:38

http://goldbug.sourceforge.net/
Secure decentral Instant Messenger with Echo Protocol and Multi Encryption



Hat den schon jemand mal getestet? Hat jemand mal nen Key oder Server IP ?

Statistik: Verfasst von ribbon — Sa Jul 27, 2013 11:53 am


Fragen und Antworten • Re: Kann YACY nicht starten

Date: 2013-07-27 14:54:12

Hallo zen,

du meinst diese Anleitung? http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink}

Kommst du per SSH auf den Webserver?

Statistik: Verfasst von Ruhe — Sa Jul 27, 2013 1:54 pm


Fragen und Antworten • Re: Kann YACY nicht starten

Date: 2013-07-27 15:15:05

Ja, die hab ich erfolgreich durchgeführt. YACY läuft, ist ber auf dem Webserver nicht ansprechbar :(.
Klar hab ich SSH. WinSCP und Putty

Statistik: Verfasst von zen — Sa Jul 27, 2013 2:15 pm


Fragen und Antworten • Re: Kann YACY nicht starten

Date: 2013-07-27 15:21:13

Also

Code:
$ /etc/init.d/yacy status


meldet das YaCy läuft?

Code:
$ netstat -tulpen


meldet das etwas auf Port 8090 horcht?

Hast du auf dem Linux-System evtl. eine Firewall aktiv, die die (externe) Verbindung auf 8090 unterbindet?

Statistik: Verfasst von Ruhe — Sa Jul 27, 2013 2:21 pm


YaCy Coding & Architektur • bitte windows-Release 1.6 testen

Date: 2013-07-27 16:11:56

da ich womöglich bis Montag fern einer Windows-Testmöglichkeit bin, bitte ich um Mithilfe damit wir das 1.6 auf yacy.net freischalten können:
http://yacy.net/release/yacy_v1.6_20130727_9000.exe
bitte sowohl als Update als auch als Neuinstallation testen, wenns geht in einer VM und auf einem echten Hobel. Win7 und Win8 wenn vorhanden...

Statistik: Verfasst von Orbiter — Sa Jul 27, 2013 3:11 pm


Fragen und Antworten • Re: Kann YACY nicht starten

Date: 2013-07-27 18:19:15

Hi Ruhe,

vielen Dank. Ich hab die Firewall geändert und das System neu gebootet nun gehts.

Danke!

zen

Statistik: Verfasst von zen — Sa Jul 27, 2013 5:19 pm


Fragen und Antworten • Re: Kann YACY nicht starten

Date: 2013-07-27 20:42:57

Alles klar :)

Statistik: Verfasst von Ruhe — Sa Jul 27, 2013 7:42 pm


Fragen und Antworten • Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 13:42:05

Hallo,

jetzt habe ich Yacy zum Laufen gebracht, aber die Suche finktioniert nicht. Soweit ich verstanden habe, muss der Crawler erst laufen, um Suchergebnisse zu erhalten.

Dazu gebe ich bei \“Seiten crawl start\” ein : http://meineWebseite/data, da nur der Bereich data durchsucht werden soll.

Da es aber ein Wiki ist, ist der direkte Zugriff auf diesen Ordner über Apache mit \“deny from all\” gesperrt.

Wie kann ich jetzt Yacy die Suche erlauben?

Selbst wenn ich den Ordner freigebe funktioniert es nicht.

Fehlermeldung:

\“Crawling von \“http://meineWebseite/data" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY \‘HTTP/1.1 403 Forbidden\’ for URL http://meineWebseite/data/


Gruß

zen

Statistik: Verfasst von zen — So Jul 28, 2013 12:42 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 13:50:57

Kann man vielleicht über eine .htaccess im Ordner steuern.
Ich meine, dass man in der .htaccess bestimmten Bots den Zugriff erlauben oder verbieten kann.
Den genauen Namen, mit dem sich der YaCy-Bot meldet, mit dieser Info kann ich grad leider nicht dienen.

Statistik: Verfasst von Ruhe — So Jul 28, 2013 12:50 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:00:27

Leider bringt das nichts, da ich eine config für Apache habe und htaccess keinen Unterschied macht.

Wie ich noch geschrieben habe, kann der Crawler auch nicht zugreifen, wenn ich den Zugriff auf \“Allow from all\” setze. Siehe Fehlermeldung oben.

Gruß

zen

Statistik: Verfasst von zen — So Jul 28, 2013 1:00 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:08:00

Nur mal ein Versuch, kannst du das Verzeichnis mal crawlen lassen indem du ein / am Ende zufügst (http://meineWebseite/data[/]{style=“color: #FF0000”})

Statistik: Verfasst von Ruhe — So Jul 28, 2013 1:08 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:11:09

Leider die gleiche Fehlermeldung :(.

Statistik: Verfasst von zen — So Jul 28, 2013 1:11 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:17:20

Muss man den Apache nach einer Konfigänderung - Zugriffserlaubnis auf ein Verzeichnis - neu starten?

Fällt mir sonst auch nicht wirklich was zu ein :?

Statistik: Verfasst von Ruhe — So Jul 28, 2013 1:17 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:23:12

Ja habe ich mit \“service apache2 restart\” neu gestartet.

Gibt denn die Fehlermeldung oben keinen Hinweis?

Statistik: Verfasst von zen — So Jul 28, 2013 1:23 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 14:57:03

Mir sagt die Meldung nicht wirklich was, man findet sie aber mehrmals hier im Forum.

Statistik: Verfasst von Ruhe — So Jul 28, 2013 1:57 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 15:10:34

Nächster Versuch:

Da yacy ja auf meinem Linux-Webserver installliert ist, habe ich einfach Intranet ausgewählt und den Pfad zu meiner Webseite angegeben.
Nun funktioniert der Crawler.

Leider wird nun im Suchergebnis nur file:// und nicht http:// ausgegeben. :(

Statistik: Verfasst von zen — So Jul 28, 2013 2:10 pm


Fragen und Antworten • Greedy Learning Mode

Date: 2013-07-28 15:33:56

In 1.529136 ist nun der [Greedy Learning Mode]{style=“font-style: italic”} standardmäßig aktiv (siehe unter [Integrated Search Configuration]{style=“font-style: italic”}). Der Infotext zu dieser Option ist aber wohl nicht mehr korrekt, denn die Limitierung scheint nun nicht mehr [15000]{style=“font-style: italic”} sondern [1000]{style=“font-style: italic”} zu sein.

Statistik: Verfasst von Ruhe — So Jul 28, 2013 2:33 pm


Fragen und Antworten • Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Date: 2013-07-28 15:51:08

zen hat geschrieben:\ Leider wird nun im Suchergebnis nur file:// und nicht http:// ausgegeben. ![:(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad")\


Ja, klar, Du hast ja auch nur lokale Files crawlen lassen.

Entweder ich habe komplett nicht kapiert, was Du realisieren möchtest, oder es ist zum Scheitern verurteilt. Einen Webserver öffentlich zu durchsuchen, der öffentliches Durchsuchen per Config verbietet, ist irgendwie sinnfrei.

Statistik: Verfasst von cryptosteve — So Jul 28, 2013 2:51 pm


Fragen und Antworten • Seite \“Generic Search Portal\” von jedem änderbar?!

Date: 2013-07-28 16:11:50

Warum ist die Seite [Generic Search Portal]{style=“font-style: italic”} unter [Integrated Search Configuration]{style=“font-style: italic”} nicht geschützt und von jedem Besucher änderbar?!

Statistik: Verfasst von Ruhe — So Jul 28, 2013 3:11 pm


Fragen und Antworten • Re: Seite \“Generic Search Portal\” von jedem änderbar?!

Date: 2013-07-28 17:39:43

Diese Seite ist beim Aufrufen von Funktionen darin geschützt. Du kannst sie zar ansehen, aber nichts ändern!

Das Ansehen ist mit Absicht nicht geschützt, weil darin keine privaten oder geheimen Dinge stehen und dieses Prinzip sich an vielen Servlets in YaCy fortsetzt: wenn möglich, Servlets offen halten, damit quasi jeder Peer auch eine Peer-Demo ist.

Statistik: Verfasst von Orbiter — So Jul 28, 2013 4:39 pm


Fragen und Antworten • Re: Seite \“Generic Search Portal\” von jedem änderbar?!

Date: 2013-07-28 17:47:49

Ok, soeben ausprobiert. Das Speichern von Änderungen oder das Setzen der Standardwerte erfordert eine Anmeldung des Admin.
War mir nur aufgefallen, weil auf dem Tab kein Schloßsymbol zu sehen ist.

Statistik: Verfasst von Ruhe — So Jul 28, 2013 4:47 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-28 19:10:43

Hat bereits eine erste Analyse stattgefunden?

Statistik: Verfasst von Ruhe — So Jul 28, 2013 6:10 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-28 21:26:09

Ich kann dort kein Bild sehen. Gerne ich dir mal einen Screenshot von der verlinkten Seite zeigen.

Generell aber mal gesagt, kann das bei der Nutzung des Proxies (plus Load durch Crawls + DHT) schon mal vorkommen, dass dein Peer/Hardware nicht mehr hinterherkommt. Es kann somit zu Verbindungsabbruechen kommen. Einfach die Seite neu laden.

Statistik: Verfasst von Quix0r — So Jul 28, 2013 8:26 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-28 21:32:26

Wie oben geschrieben wird ohne Proxy ein Screenshot von den YaCy-Cacheeinstellungen angezeigt.
Bei Verwendung des Proxies reproduzierbar nicht - auch nicht nach mehrmaligem Reload der Seite.
Eine zu hohe Auslastung der Hardware/Bandbreite schließe ich aus.

Statistik: Verfasst von Ruhe — So Jul 28, 2013 8:32 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-28 21:39:51

Das Bild wird auf cloudfront.com gehostet:
http://d1zjcuqflbd5k.cloudfront.net/files/acc_124756/tUkT?response-content-disposition=inline;%20filename=Screenshot%20on%207.25.2013%20at%202.28.28%20PM.png;%20filename*=UTF-8%27%27Screenshot%20on%207.25.2013%20at%202.28.28%20PM.png&Expires=1375040314&Signature=aekOJcqn6XdyD1zNV7Gd9mPe8Kd5l2ym-CKljlo8DEtHX8PbkAN0ad8P3sPjFTyyR20-gqxdYU0hPDJdLrk6aN7IPJ5JZJLgJnZi3iJrDpCSOkV-UucGwJJVek9orBrffpoVf3fSULzOWFrowuBteRfKrATGQYP2ceMqmk8MYLU_&Key-Pair-Id=APKAJTEIOJM3LSMN33SA{.postlink}
Und wird erst durch Aktivieren von JavaScript fuer die besagte Domain im Browser sichtbar. Eventuell musst du mal deinen Peer nach cloudfront.net durchsuchen und im \“Host Browser\” suchen.

Edit: Ah, die haben was gegen Proxies:

\ \\AccessDenied\\Access denied\\\

Statistik: Verfasst von Quix0r — So Jul 28, 2013 8:39 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-28 22:30:45

Danke für deine Mühe und die Info :)

Statistik: Verfasst von Ruhe — So Jul 28, 2013 9:30 pm


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-29 10:01:21

Sorry, das Debian packet ist nicht sonderlich gut gepflegt, Ich weis also nicht ob der \“Installer\” 100% funktioniert.…Im Zweifelsfall das \“normale\” Linux/Unixpacket verwenden. Beziehungsweise an der Shell das in YaCy enthaltene Script \“reconfigureYACY.sh\” benutzen.

Peer-Name - je, es gibt leider noch keinen Hinweis auf unzulässige Zeichen im Namen - wieder was für die ToDo Liste/Wiki......

Speicher - Klingt nach 1632 Bit Problemen - welche JVM benutzt Du ?

Gruß
Thomas

Statistik: Verfasst von Vega — Mo Jul 29, 2013 9:01 am


Hilfe für Einsteiger und Anwender • Re: Suche / Suchergebnis

Date: 2013-07-29 10:15:43

Hallo,

YaCy ist nach wie vor in der Entwicklung, und gerade das Ranking ist ein Gebiet/Thema was alles andere als Trivial ist - Michael ist da dran, der Wunsch das die Domain des Anbieters zuerst gelistet wird ist bekannt - und ja auch sinvoll. Nur muss man das erstmal in Solr abbilden - wenn da also jemand Erfahrungen hat - bitte \“vortreten\”.….Das Ranking von Suchmaschinen ist nach dem CoCa-Cola Rezept wohl eines der am besten gehüteten Geheimnisse weltweit.

Der Mehrwert liegt aktuell darin das es eben eine \“freie\” Suche ist, ansonsten gibt es mit Metager und Metager2 sehr brauchbare Alternativen die in Deutschland betrieben und gehostet werden - die Du auch mit Deinem recht leistungsfähigem Peer unterstützen kannst.

Gruß
Thomas


Ruhe hat geschrieben:\ \...was bringt einem eine alternative, weitere, eigene Suchmaschine, wenn die Suchergebnisse sehr enttäuschen oder vielleicht sogar gar nicht zu gebrauchen\ sind (YaCy gibt es auch schon länger und nicht erst seit ein paar Tagen) - und das hat nicht nur etwas mit der Anzahl der indexierten Websites zu tun.\ Muss ich nach ein paar Tagen Nutzung feststellen, und scheint auch die Meinung vieler anderer zu sein, wenn man sich mal Kommentare zu YaCy im Netz\ ansieht (Präsentation, Sortierung, Qualität der Suchergebnisse). Meine persönliche Meinung bisher: gute Serversoftware, aber ansonsten für den Endnutzer sehr\ enttäuschend, kaum Nutzen bzw. Mehrwert.\

Statistik: Verfasst von Vega — Mo Jul 29, 2013 9:15 am


Hilfe für Einsteiger und Anwender • Session-Id aus URI löschen um doppelten Content zu vermeiden

Date: 2013-07-29 14:03:28

Hallo,

ich sammle gerade erste Erfahrungen mit YaCy. Ziel soll sein, ein Portal zu indizieren. Hierbei haben wir festgestellt, dass viele Seiten mehrfach im Index landen, da in der URI eine Session-ID enthalten ist. Der Wunsch, dass diese aus der URI entfernt wird, um doppelten Content zu vermeiden, scheint nicht neu zu sein, vgl. URLs verändern{.postlink} oder Session IDs erkennen und filtern{.postlink}. Leider habe ich keinen Weg gefunden, der dies auch realsiert.

Die indizierten URIs sehen wie folgt aus und werden durch ein CMS generiert:

Code:
http://example.org/Foo/bar/bar.html;jsessionid%3D04F27B8E7AF9E1ECFB9DA73FF2C365B2?lang=de



Aufgrund des Länderzusatzes (lang=de) ist [Akzeptiere URLs mit \‘?\’ / dynamische URLs]{style=“font-style: italic”} aktiviert. In einen der Beiträge wurde darauf hingewiesen, dass mit der Datei [defaults/session.names]{style=“font-style: italic”} zu arbeiten ist. In dieser Datei steht bei uns

Code:
PHPSESSIONIDPHPSESSIDjsessionidsid



Der Eintrag jsessionid ist also vorhanden, scheint aber nicht gefiltert zu werden. Kann mir einer kurz beschreiben, was ich einstellen muss, damit bestimmte Seiten nicht mehrfach indiziert werden?

Vielen Dank
Micha

Statistik: Verfasst von Micha — Mo Jul 29, 2013 1:03 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 14:36:34

Hallo,

du kannst dir meine Blacklist von Peer 28112011 herunterladen, damit werden viele SessionIDs und unnötige Seiten gefiltert.

Gruß,
gaston

Statistik: Verfasst von gaston — Mo Jul 29, 2013 1:36 pm


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-29 14:42:05

Was mir auch beim Debian-Installer aufgefallen ist, es wird keine Demoseite unter [/var/lib/yacy/HTDOCS/www/]{style=“font-style: italic”} abgelegt.

Statistik: Verfasst von Ruhe — Mo Jul 29, 2013 1:42 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 14:53:50

Hallo gaston,

gaston hat geschrieben:\ du kannst dir meine Blacklist von Peer 28112011 herunterladen, damit werden viele SessionIDs und unnötige Seiten gefiltert.\



Danke für Deine Antwort. Was heißt gefiltert? Ein

Code:
.*jsessionid.*

hilft mir nicht, wenn dadurch die Seite überhaupt nicht indiziert wird. Zum anderen, wie lade ich Deine Blacklist herunter?

Schöne Grüße
Micha

Statistik: Verfasst von Micha — Mo Jul 29, 2013 1:53 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 15:05:08

Hallo

also herunterladen/importieren kannst du die unter http://127.0.0.1:8090/BlacklistImpExp_p.html

Stimmt, indiziert wird so nichts, aber bis es da eine Lösung gibt schone ich lieber mein Peer.

Wie du schon festgestellt hast ist es ein altes und leider immer noch vorhandenes Problem.

Gruß
gaston

Statistik: Verfasst von gaston — Mo Jul 29, 2013 2:05 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 15:26:25

Hallo gaston,

gaston hat geschrieben:\ also herunterladen/importieren kannst du die unter \


Hmm, da war ich schon. Vermutlich sollte mir Dein Peer im PullDown-Menü unter \“anderen YaCy Peers\” angezeigt werden, wird er aber nicht. Hierzu sind ggf. noch Einstellungen an der Firewall notwendig, die unsere IT-Abteilung vornehmen müsste.

gaston hat geschrieben:\ Stimmt, indiziert wird so nichts, aber bis es da eine Lösung gibt schone ich lieber mein Peer.\


Ja, das kann ich verstehen. ;-) Das Problem ist aber, dass es sich um ein Portal handelt, welches wir hier inhaltlich pflegen. Wenn das also nicht vernünftig indiziert werden kann, sinkt der angedachte Nutzen gerade gegen Null. :roll:

gaston hat geschrieben:\ Wie du schon festgestellt hast ist es ein altes und leider immer noch vorhandenes Problem.\


Da die gefundenen Beiträge zum Teil schön älter als 5 Jahre waren, hatte ich gehofft, dass hier inzwischen eine Lösung gefunden wurde. Suchmaschinen wie google oder bing haben das Problem ja auch - irgendwie - gelöst.

Welche Funktion hat die Datei defaults/session.names eigentlich? Sessions werden doch i.d.R. an die URI als Parameter angefügt. Wenn die Option [dynamische URLs]{style=“font-style: italic”} deaktiviert ist, fallen diese Adressen automatisch weg. Wenn die Option aktiviert ist, wie bei mir, scheint es aber auch keine Wirkung zu haben?!

Schöne Grüße
Micha

Statistik: Verfasst von Micha — Mo Jul 29, 2013 2:26 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 15:58:44

Hallo Micha

also \“defaults/session.names\” sollte eigentlich die SessionIDs URLs filtern (also kein indizieren). Genaueres kann dir eigentlich nur der Hauptentwickler Orbiter sagen, mir kommt es so vor als ob es nach dem Wechsel zu \“Solr\” noch nicht alles so rund läuft. YaCy ist halt auch Spielwiese, wo vieles ausprobiert wird (vielleicht auch zu viel).

Es aber bestimmt machbar, nur ist der Sourcecode leider sehr komplex. Mal sehen wohin die reise geht ;)
Hier mal meine Liste (yacy\DATA\LISTS\) url.default.zip

Gruß
gaston

Statistik: Verfasst von gaston — Mo Jul 29, 2013 2:58 pm


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-07-29 18:05:36

Java:
[
java version \“1.6.0_27\”
OpenJDK Runtime Environment (IcedTea6 1.12.6) (6b27-1.12.6-1~deb7u1)
OpenJDK 64-Bit Server VM (build 20.0-b12, mixed mode)]{style=“font-style: italic”}


Hier eine weitere Feststellung:

Neuinstallation mit einer max. Speicherzuweisung von 12*10[24]{style=“color: #FF0000”} MB (12288) - der beschriebene Fehler (Anzeige von 2 GB) tritt auf. Über das Webinterface 16*10[00]{style=“color: #FF0000”} MB (16000) eingetragen, gefolgt von einem Neustart - es wird korrekt etwa 15,6 GB angezeigt.

Statistik: Verfasst von Ruhe — Mo Jul 29, 2013 5:05 pm


Hilfe für Einsteiger und Anwender • Was bedeuten rot hinterlegte Peers in der Liste?

Date: 2013-07-29 18:10:52

In der Liste der Peers (unter [YaCy Network]{style=“font-style: italic”}) gibt es manche, deren Zelle in der Spalte \“Name\” rot hinterlegt sind. Welche Bedeutung hat das?

Statistik: Verfasst von Ruhe — Mo Jul 29, 2013 5:10 pm


Fragen und Antworten • Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-29 19:56:08

Nach 2 durchgeführten Neuinstallationen der 1.529136 per Debian-Paket auf Debian 7.0 64bit taucht der Peer (\“Taurin\“) nun dutzendfach in der Liste der [Potential Peers]{style=“font-style: italic”} auf (und 1x in der Liste [Active Peers]{style=“font-style: italic”}, was korrekt ist)
In ein paar Stunden wird der Peer dort sogar einige hundert mal aufgeführt.

Auf der gleichen Maschine trat das Problem mit der vorigen Version des .deb-Pakets nicht auf.

Statistik: Verfasst von Ruhe — Mo Jul 29, 2013 6:56 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-29 20:01:43

Damit gibt es allerdings ein Problem:

Einigen Seiten koennten \“defekt\” sein und ausversehen einem Bot eine Session-Id in der URL anbieten. Auch wird das nicht-crawlen von URLs mit ? drinne (bietet YaCy standardmaessig an) problematisch sein, da noch nicht jede Seite \“fancy URLs\” haben (also mit mod_rewrite arbeiten). Deswegen lasse ich den Peer (momentan wieder nicht, OutOfMemoryError) einfach crawlen.

Statistik: Verfasst von Quix0r — Mo Jul 29, 2013 7:01 pm


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2013-07-29 20:05:32

Ach Springer... http://blog.fefe.de/?ts=af084248

Statistik: Verfasst von Low012 — Mo Jul 29, 2013 7:05 pm


Fragen und Antworten • Re: Can\’t monitor crawls any more

Date: 2013-07-29 20:30:06

Hello, can you try the latest development snapshot? Can you repeat it with it?

Statistik: Verfasst von Quix0r — Mo Jul 29, 2013 7:30 pm


Fragen und Antworten • How to prevent everyone to use the YaCy frontend?

Date: 2013-07-29 22:13:01

Hello,

I like to prevent everyone from outside my intranet to use the YaCy frontend.

When people know my IP and the YaCy port number they can use my YaCy installation. I can lock the admin settings, but people can still use my search engine. I really want to contibute to the Yacy P2P network, but I like to keep the frontend private. Is there an option I missed?

Jeroen

Statistik: Verfasst von jeroenpraat — Mo Jul 29, 2013 9:13 pm


Fragen und Antworten • Re: How to prevent everyone to use the YaCy frontend?

Date: 2013-07-29 22:42:58

Hi,

on the left side open [Integrated Search Configuration]{style=“font-style: italic”} -> Tab [General Search Portal]{style=“font-style: italic”} -> Enable the option [Only the administator is allowed to search]{style=“font-style: italic”}

Statistik: Verfasst von Ruhe — Mo Jul 29, 2013 9:42 pm


Fragen und Antworten • Re: How to prevent everyone to use the YaCy frontend?

Date: 2013-07-29 22:55:44

Thanks. Although I like to disable the frontend completely from unauthorized people, this is a good start.

Statistik: Verfasst von jeroenpraat — Mo Jul 29, 2013 9:55 pm


Fragen und Antworten • YaCy Startet nach der Installation auf Ubuntu nicht

Date: 2013-07-29 23:24:25

Hallo,
ich bin vor ein paar Stunden auf die Anwendung Gestosen und finde sie sehr interessant.

Ich habe YaCy glauch ausprobieren wollen und habe sie auf meinem Ubuntu 13.04 installiert.
Nach der Installation Startet der Server leider nicht und habe angefangen mit der Fehlersuche, als ich nicht mehr weiter wusste habe ich das Internet befragt und bin auf dieses Thema gelangt viewtopic.php?f=5&t=4541{.postlink-local} und konnte das Problem nun lösen.

Da das eigentliche Problem, warum YaCy auf Ubuntu nicht gleich startet, offensichtlich noch nicht gelöst werden konnte und es aber schon recht lange existiert, möchte ich hier vorschlagen die Lösung im Wiki bei der Installationsanleitung mit an zu geben.
Andere Ubuntu Nutzer müßen dann nicht im Internet suchen, wobei das Interesse an YaCy sinken könnte, ich war auch schon kurz vor der Aufgabe.

Lg

Statistik: Verfasst von Sakura — Mo Jul 29, 2013 10:24 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-30 08:26:52

Hallo gaston,

gaston hat geschrieben:\ nur ist der Sourcecode leider sehr komplex.\



Durch aus. Mein Problem hört sich zunächst nicht sonderlich schwierig an: Nimm die URI, entferne die Session-Id, Prüfe, ob sie schon im Index ist und speichere ggf. Wenn es jedoch so einfach wäre, würde es wohl bereits integriert sein. ;-)

Danke für Deine Black-List. Der RegEx

Code:
.*.*/.*(?i:(?:sess(?:ion)?id)|jsessionid|(?<!w)sid[^e\-]).*



wird mir wohl das Genick brechen, wenn ich das Portal indizieren möchte.

Quix0r hat geschrieben:\ Einigen Seiten koennten \"defekt\" sein und ausversehen einem Bot eine Session-Id in der URL anbieten.\


Das macht nichts. Einige Seiten könnten auch nicht verfügbar sein, wenn der Bot gerade drauf und dran war, sie zu indizieren. Mir geht es nicht um den Worst-Case-Fall sondern um den Standard und der sieht bei heutigen CMS, Foren, Blogs, ... doch eher so aus, dass diese Seiten nicht statisch sind. Im Portal wird übrigens mit mod_rewrite gearbeitet. Im Browser sieht man in der Adressleiste auch nichts von der Session-Id, weil Cookies idR. akzeptiert werden.

Ich bin für weitere Vorschläge offen.

Schöne Grüße
Micha

Statistik: Verfasst von Micha — Di Jul 30, 2013 7:26 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-30 13:18:40

Auch mit 1.60009003 der Fall.

Statistik: Verfasst von Ruhe — Di Jul 30, 2013 12:18 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-30 14:20:06

habs gesehen, merkwürdigerweise haben diese Peers aber verschiedene Hashes, was darauf hinweist das diese Peers unterschiedlich sind.
Gucks mir an, habe da aber schon eine Vermutung..

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 1:20 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-30 14:25:27

Mein Verdacht (Portprüfung über den Serveranbieter) hat sich nicht bestätigt. Auch nach Abschalten der Portprüfung tritt das Verhalten auf.

Statistik: Verfasst von Ruhe — Di Jul 30, 2013 1:25 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-30 15:23:06

Hallo,

ich habe nun ein wenig im Quellcode der Klasse MultiProtocolURI gelesen und bin auf die Methode

Code:
getFile(excludeAnchor, removeSessionID)

gestoßen, die wohl genau das machen soll, was ich suche. Teste ich die URI

Code:
http://www.scc.kit.edu/publikationen/80.php?PHPSESSID=5f3624d3e1c33d4c086ab600d4d5f5a1



und erzwinge in der Methode mit removeSessionID=true das Ersetzen, erhalte ich

Code:
http://www.scc.kit.edu/publikationen/80.php



Scheint also zu arbeiten. Bei meiner gezeigten URL gehts nicht. Vermutlich ist die Kombination/Reihenfolge aus ; und ? nicht entsprechend der Richtlinie. Ich denke, dass lässt sich irgendwie korrigieren. Was ich nun suche, ist die Einstellung, die ich setzen muss, damit getFile mit dem Parameter removeSessionID=true aufgerufen wird. Hat einer von Euch hier eine Idee?

Schöne Grüße
Micha

Statistik: Verfasst von Micha — Di Jul 30, 2013 2:23 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-30 16:22:51

hallo,
ja der Crawler sollte eigentlich die Session-ID aus den gefundenen Links entfernen, das wird auch so aufgerufen. Ob das Semikolon mit entfernt wird, kann ich nicht sagen; womöglich nicht.
Kannst du mir per PM die genaue URL senden die du zum Crawl Start verwendet hast, die aus deinem Beispiel erzeugt bei mir nämlich gar keine session ID. Mit einer Test-URL kann ich das durchtracen und gucken woran es hängt.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:22 pm


Fragen und Antworten • Re: Grafik auf der \‘Admin Console\’

Date: 2013-07-30 16:25:13

hm, ja und? Ich hatte überlegt die zwei neuen Infos zum Index, Segmentierung und Load da noch hinein zu machen und die Peer-Pings ein wenig schwächer, aber da komme ich jetzt nicht zu.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:25 pm


Fragen und Antworten • Re: Greedy Learning Mode

Date: 2013-07-30 16:28:24

ich habe der Funktion selbst nicht so richtig vertraut weil er doch ein wenig viel Load macht während er aktiv ist. Deswegen hab ich es von 15000 auf 1000 runter gestellt. Wir müssen da noch mehr Erfahrung mit sammeln.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:28 pm


Hilfe für Einsteiger und Anwender • Re: Was bedeuten rot hinterlegte Peers in der Liste?

Date: 2013-07-30 16:37:10

das war nur eine Visualisierungen von speziellen Peers, die aufgrund der Idee von PCA zum Kandidaten von Indexsammelstellen werden könnten: Node Peers mit DHT Receive ON. Dahinter liegt aber keine Funktion. Die Idee war, das solche Peers mehr als nur die Daten entsprechend der DHT Regel bekommen sollen weil sie sowohl performanter annehmen können als auch performanter dort gesucht werden kann. Dazu fiel mir bislang aber noch keine Verteilungsregel ein, die entsprechend auch skaliert; also so etwas wie ein super-DHT.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:37 pm


Fragen und Antworten • Re: YaCy Startet nach der Installation auf Ubuntu nicht

Date: 2013-07-30 16:38:30

Sakura hat geschrieben:\ konnte das Problem nun lösen.\


ok, wie denn?

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:38 pm


Hilfe für Einsteiger und Anwender • Re: Freigabe der Suchfunktion nach Benutzeranmeldung

Date: 2013-07-30 16:40:38

hm, an den Bentutzerkonten hat schon sehr lange niemand mehr was dran gemacht und der Urheber ist wohl auch nicht mehr hier dabei. Das wird schwierig. Mir wäre es lieber, man könnte so etwas wie ein von YaCy unabhängiges Authentifikationsmodul davor machen, welches einen Zugang zum Autorisierungs-LDAP in der Windows-Welt hat. Nur leider kennt sich da wohl hier niemand aus, oder?

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:40 pm


Fragen und Antworten • Re: How to prevent everyone to use the YaCy frontend?

Date: 2013-07-30 16:45:39

you can also prevent the links to the frontend to be seen with a flag: in /ConfigPortal.html the switch \“no link to YaCy Menu\”

finally, there is a very professional option: host the search pages on a different server than YaCy, connect the search front-end only with a private channel to the YaCy backend. This can be done with the module https://gitorious.org/yacy/searchpage_template_yaml4
Please read the readme there for full explanation.

The result will then look like this: http://fsfe2.yacy.net/yacysearch/index.html

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:45 pm


Hilfe für Einsteiger und Anwender • Re: Festplatten-Nutzung anstelle von RAM?

Date: 2013-07-30 16:50:12

you actually got the right idea, limitation of RAM must mean that the index + document size is limited as well and that means the oldest data must be deleted if fresh data is wanted.

Well this is actually comlex in many ways: first, people will be scared by the idea that YaCy deletes on itself. second: deletion does not mean that immediately memory is free because that needs an optimization step as well and that should be done not too frequently; its complex.
And of course, that should not be switched on by default.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 3:50 pm


Fragen und Antworten • Re: Grafik auf der \‘Admin Console\’

Date: 2013-07-30 17:48:12

Weiß auch nicht wie genau ich es beschreiben soll, aber diese verwaschene starke Überlagerung, sah für mich nach einem Darstellungsfehler aus ;-) Aber wenn das so sein soll.

Statistik: Verfasst von Ruhe — Di Jul 30, 2013 4:48 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-30 18:03:03

Soll ich den Peer bis zu einem Fix besser abschalten?

Statistik: Verfasst von Ruhe — Di Jul 30, 2013 5:03 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-07-30 18:32:36

http://whitehaven01.com/2013/07/27/make ... oses-ever/{.postlink}

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 5:32 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-30 18:37:42

ich habe von einer Uni, die YaCy\’s DHT Prozess ziemlich genau unter die Lupe genommen hat (dazu ein anderes Mal mehr) die Ankündigung bekommen, sie wollen ein paar Experimente machen. Sie wollen aber vorsichtig sein und nichts kaputt machen. Nun die richtige Art damit umzugehen, wäre das gleich zu fixen und ich gucke mir das auch noch an. Aber ich glaube es ist nicht notwenig dafür die Peers offline zu nehmen.

Statistik: Verfasst von Orbiter — Di Jul 30, 2013 5:37 pm


Wunschliste • Re: Links im Menü \“The YaCy Project\” in neuem Tab öffnen

Date: 2013-07-30 22:06:36

Ich hatte gehofft, dass man das komplett mit CSS lösen kann, was aber leider nicht geht. Ich habe jetzt eingebaut, dass externe Links als solche markiert werden (per CSS) und dass die Links im Menü \“The YaCy Project\” in einem neuen Tab oder Fenster geöffnet werden (hardcoded :().

Wenn das irgendwo Probleme bereitet oder jemand damit nicht einverstanden ist: Bitte hier meckern!

Statistik: Verfasst von Low012 — Di Jul 30, 2013 9:06 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-07-30 22:09:04

Guten Abend Orbiter,

Orbiter hat geschrieben:\ ja der Crawler sollte eigentlich die Session-ID aus den gefundenen Links entfernen, das wird auch so aufgerufen.\


Okay, dann liegt es wohl nur an meinen [schlechten]{style=“font-style: italic”} Links - siehe unten, was ich damit meine

Orbiter hat geschrieben:\ Ob das Semikolon mit entfernt wird, kann ich nicht sagen; womöglich nicht.\


Das Semikolon ist nicht das Problem, meine ich. Das Fragezeichen leitet wohl (immer) die zusätzlichen Parameter ein. Zusätzliche Parameter können durch ein & oder durch ein ; voneinander getrennt sein aber als erstes scheint das Fragezeichen Pflicht zu sein:

Code:
http://example.org/bar.html;jsessionid%3D04F27B8E7AF9E1ECFB9DA73FF2C365B2?lang=de---------------------------^--------------------------------------------------------------------------^



Die Reihenfolge stimmt nicht, es müsste wohl

Code:
http://example.org/bar.html?jsessionid%3D04F27B8E7AF9E1ECFB9DA73FF2C365B2;lang=de


lauten. Das meine ich in meinem letzten Posting mit [dass lässt sich irgendwie korrigieren]{style=“font-style: italic”} - das Problem liegt also an der Seite und nicht an YaCy.

Orbiter hat geschrieben:\ Die aus deinem Beispiel erzeugt bei mir nämlich gar keine session ID.\


example.org ist nur eine Beispieldomain. Ich wollte http://www.geoportal.de einlesen.

Vielen Dank für Deine Hilfe.
Micha

Statistik: Verfasst von Micha — Di Jul 30, 2013 9:09 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-31 08:37:29

Über 1200 Potential Peers, und die meisten davon ist meiner :roll:

Statistik: Verfasst von Ruhe — Mi Jul 31, 2013 7:37 am


YaCy Coding & Architektur • µY - microYaCy

Date: 2013-07-31 11:27:19

hier und dort schwirrt die Idee herum, man könne doch ein minimal-YaCy ohne Crawler und Front-End für ganz kleine Devices bauen. Ich hätte da so eine Idee wie das aussehen könnte:
- ein Solr, deployed in einem Jetty und dem YaCy Schema
- ein Peer-Discovery, der als Startup-Prozess herausfindet wo sich YaCy Node Peers befinden und diesen dann einen µY-Ping schickt

Ein µY wäre schon fertig, wenn die Jetty-Beschreibung in http://www.yacy-websearch.net/wiki/index.php/Dev:Solr fertig wäre, vielleich kann sich ja einer von euch mal versuchen damit auseinander zu setzen. Und dann ist das ganze schon fast fertig! Denn:
- YaCy kann sich schon mit dem µY verbinden: einfach als remote Solr in IndexFederated_p.html angeben.

Was noch fehlt ist der Peer-Discovery Prozess. Das sollte nicht allzu schwierig sein, es fehlt aber auf Server Seite ein Anspringpunkt der den µY-Ping akzeptiert; ausserdem muss noch eine Speicherung und Distributions-Variante für die µY-Peers her. Vielleicht machen wird das aber auch gar nicht und lassen das die Node Peers erledigen: die können einfach Schritt für Schritt aus den µY-Peers Daten replizieren, indem sie einfach dort Suchanfragen hin schicken und das Ergebnis einverleiben.

Statistik: Verfasst von Orbiter — Mi Jul 31, 2013 10:27 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-07-31 20:15:23

Sieht bei mir derzeit so aus:

Bild

Statistik: Verfasst von Ruhe — Mi Jul 31, 2013 7:15 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-07-31 20:23:41

Nur zur Info: es bringt auch nichts, wenn man in YaCy die Optionen [Send \“Via\” Header]{style=“font-style: italic”} und [Send \“X-Forwarded-For\” Header]{style=“font-style: italic”} deaktiviert.

Statistik: Verfasst von Ruhe — Mi Jul 31, 2013 7:23 pm


Presse • Re: Focus online: \“Keine Chance für NSA-Schnüffler\”

Date: 2013-07-31 21:56:12

wohl testbar mit: 178.83.35.133 : 4710

Statistik: Verfasst von ribbon — Mi Jul 31, 2013 8:56 pm


Panorama • FEFE schreibt über Blackhat im Feuilleton der FAZ

Date: 2013-08-01 08:17:01

http://www.faz.net/aktuell/feuilleton/d ... 14721.html{.postlink}

\ „Helfen Sie der NSA!" Keith Alexander, Direktor des Geheimdiensts, ist auf der Hacker-Konferenz „Blackhat" in Las Vegas aufgetreten.\


und sein Blog dazu:
http://blog.fefe.de/?ts=af074923

\ Die FAZ hat mich nämlich gestern abend kurzfristig zur Blackhat geflogen, damit ich mir heute morgen die Keynote von dem NSA-Chef angucken kann, und ihnen da einen kurzen Bericht zu schreiben kann.\


das ist ja total geil was da zusammen wächst. Die FAZ will einen Bericht von der Blackhead haben und schickt den deutschen Überhacker - \“Wer schöne Verschwörungslinks für mich hat\“-fefe dort hin :mrgreen: :mrgreen:

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 7:17 am


Off-Topic • Re: Urlaub

Date: 2013-08-01 08:51:22

bin ab morgen für zwei Wochen verreist, werde zwar hier und dort Internet haben aber nicht hacken können.

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 7:51 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 10:14:09

Das Deaktivieren von \“Index Distribution\” + \“Index Receive\“, was dazu führt, dass der Peer im \“Robinson Mode\” läuft, ändert nichts. Der Peer wird auch damit ständig neu unter den \“Potential Peers\” gelistet.

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 9:14 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-08-01 10:32:08

das Problem hier ist ganz einfach: wir haben keinen Maintainer für den debian-packager. Wer das mal gemacht hat ist nicht mehr aktiv.

Wenn es nach mir geht, würde ich es bevorzugen gar keine RAM-Zuordnung oder Peernamensdinge dort bei der Installation abzufragen und einfach die Default-Werte zu nehmen. Dann funktioniert YaCy genau wie bei der Windows- und Mac-Version und man kann dann im Interface einstellen was man will. Ich halte diese Abfragen eher für eine gefährliche Hürde bei der man was falsch machen kann.

\@Ruhe: kennst du dich da mit den debian-packagefiles aus? Kannst du das patchen? Wir könnten hier Hilfe gut gebrauchen
\@ALLE: kann das jemand?

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 9:32 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-08-01 10:40:18

Orbiter hat geschrieben:\ \@Ruhe: kennst du dich da mit den debian-packagefiles aus? Kannst du das patchen? Wir könnten hier Hilfe gut gebrauchen\


Rudimentär. Habs schon mal gemacht, ein eignes .deb gebaut.

Hab mir eures mal intern angesehen - sah ziemlich umfangreich und komplex aus, war ne Menge Skripting drinne.

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 9:40 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-08-01 10:46:25

in diesem Fall würde es ja auch nur darum gehen, die Komplexität raus zu nehmen und die Abfragen zu entfernen.

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 9:46 am


Hilfe für Einsteiger und Anwender • Option \‘Maximum number of words in cache\’

Date: 2013-08-01 10:53:16

Da die Hardware meines Peers wohl ausreichend ist, mal die Frage, ob es angebracht/sinnvoll ist, unter \“Performance Settings of Busy Queues\” die Option \“Maximum number of words in cache\” abweichend vom Standardwert (50000) einzustellen. Momentan hab ich dort 100000. Irgendwelche Vorteile oder Nachteile mit diesem Wert noch höher zu gehen?

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 9:53 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-08-01 10:56:45

Bitte drauf achten, in diesem Thread geht es um zwei Unterschiedliche Probleme. Das mit der Speicherzuweisung hat nichts mit dem geschilderten Problem vom Installer zu tun.

Als ich die Tage in das .deb geschaut hatte kam ich recht schnell zu der Ansicht das soll sich besser jemand ansehen, der wirklich Ahnung davon hat :mrgreen: Vielleicht schau ich noch mal rein...

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 9:56 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 10:57:30

Dieses Phänomen ist bei praktisch jedem Peer in der Potential-Liste zu finden. Praktisch gesehen ist es eine Kopie der Daten des jeweiligen Peers, nur mit anderen Hashes und der anderen IP-Adresse (Es ist immer dieselbe IP). Beachtenswert ist, dass auch der Port immer derjenige des des jeweiligen Peers, der kontaktiert wurde, ist.
Du brauchst also den Fehler nicht bei dir zu suchen. Das tritt bei allen auf.

Statistik: Verfasst von Hermes — Do Aug 01, 2013 9:57 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 11:06:59

Das Phänomen ist aber erst mit einer der letzten Versionen aufgetreten, oder anders, erst seit wenigen Tagen.
Auch wenn es zuvor bereits aufgetreten ist, dann hat man davon nichts bemerkt - da waren es immr nur ganz wenige hundert Pot.Peers. Aber jetzt...
Irgendeine Änderung muss demnach dazu geführt haben. Und ich sehe nur meinen Peer in der Liste der massenhaft dort auftaucht.

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 10:06 am


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-08-01 11:08:56

Quix0r hat geschrieben:\ Das Bild wird auf cloudfront.com gehostet:\ [http://d1zjcuqflbd5k.cloudfront.net/files/acc\_124756/tUkT?response-content-disposition=inline[[;]{style="color: #FF0000"}]{style="font-weight: bold"}%20filename=Screenshot%20on%207.25.2013%20at%202.28.28%20PM.png[[;]{style="color: #FF0000"}]{style="font-weight: bold"}%20filename\*=UTF-8%27%27Screenshot%20on%207.25.2013%20at%202.28.28%20PM.png&Expires=1375040314&Signature=aekOJcqn6XdyD1zNV7Gd9mPe8Kd5l2ym-CKljlo8DEtHX8PbkAN0ad8P3sPjFTyyR20-gqxdYU0hPDJdLrk6aN7IPJ5JZJLgJnZi3iJrDpCSOkV-UucGwJJVek9orBrffpoVf3fSULzOWFrowuBteRfKrATGQYP2ceMqmk8MYLU\_&Key-Pair-Id=APKAJTEIOJM3LSMN33SA](http://example.org){.postlink}\ Und wird erst durch Aktivieren von JavaScript fuer die besagte Domain im Browser sichtbar. Eventuell musst du mal deinen Peer nach cloudfront.net durchsuchen und im \"Host Browser\" suchen.\ \ Edit: Ah, die haben was gegen Proxies:\ >
> > \\AccessDenied\\Access > denied\\\ > >



Es liegt nicht unbedingt an einer Abneigung gegen Proxies. Mir ist augfgefallen, dass Yacy keine URLs mit Semikolon mag. Diese URLs werden nicht korrekt an den Server weitergeleitet, so dass der nicht mit dem Bild antworten kann (oder will).

Statistik: Verfasst von Hermes — Do Aug 01, 2013 10:08 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 11:20:57

Ruhe hat geschrieben:\ \[\...\] Und ich sehe nur meinen Peer in der Liste der massenhaft dort auftaucht.\


Ich sehe auf meinen Peer in der Liste auch nur meinen massenhaft dort auftauchen. Auf deinem Peer sehe ich auch nur \“Kopien\” von deinem Peer.
Diese \“Kopien\” tauchen nicht auf, wenn man die eine IP sperrt, von der diese \“Kopien\” kommen. Also liegt das Problem auf diesem entfernten Rechner.

Statistik: Verfasst von Hermes — Do Aug 01, 2013 10:20 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 12:15:35

ups, welche IP ist das denn?

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 11:15 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 12:39:21

ich hab eben einen Versuch eines bugfixes zu machen; symptomatisch an diesem Problem ist, das der remote Peer behauptet er hätte die gleiche Adresse wie der eigene Peer, der angepingt wurde. Vielleicht kommt es dazu erst später und beim Ping ist es noch nicht so, aber diesen einen Fall habe ich mal abgefangen und ist im letzten commit drin. Mal schauen obs hilft.

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 11:39 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 12:45:44

Sobald ihr eine neue Version released (hier ist 1.69012 installiert), werd ich sie einspielen.

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 11:45 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 13:16:02

naja wenn man sich das hier anschaut, sieht es doch ganz deutlich nach einem Angriff aus, das in einem eigenen Netz stattfinden soll, aber wohl entglitten ist:
breakitdown.png
zur Zeit hier: http://78.47.48.246:8090/Network.html

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 12:16 pm


Fragen und Antworten • Re: Bild wird bei Verwendung des YaCy-Proxy nicht angezeigt

Date: 2013-08-01 13:21:15

Ich habe dazu mal den Bug-Report #280{.postlink} erstellt.
Nach einem \“;\” in der URL wird aus \“=\” \“%3D\“, was die Server irgenwie irritiert. Auch Yacy mag in POST-Parametern keine %3d als Gleichheitszeichen.

Statistik: Verfasst von Hermes — Do Aug 01, 2013 12:21 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 13:23:36

Diese IP ist seit eben hier per iptables für eingehende Verbindungen blockiert.

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 12:23 pm


Hilfe für Einsteiger und Anwender • Re: Session-Id aus URI löschen um doppelten Content zu verme

Date: 2013-08-01 14:24:31

Hallo zusammen,

da ich die URLs im Moment nicht umbauen kann, bin ich den umgekehrten Weg gegangen und habe den Quellcode so angepasst, dass er die URLs korrekt zusammensetzt - siehe unten. Danach habe ich erneut einen Suchvorgang gestartet. Die sich nun im Index befindlichen Adressen liegen alle ohne Session-Id vor. ;-)

Schöne Grüße
Micha

Code:
    private void identSearchpart() {       if (this.path.indexOf('?') >= 0 && this.path.indexOf(';') >= 0 && this.path.indexOf('?') > this.path.indexOf(';')) {          this.path = this.path.replaceFirst("\\?", ";").replaceFirst(";", "?");       }       else if (this.path.indexOf('?') < 0 && this.path.indexOf(';') >= 0) {          this.path = this.path.replaceFirst(";", "?");       }        // identify quest in file        final int r = this.path.indexOf('?');                      if (r < 0) {            this.searchpart = null;        } else {            this.searchpart = this.path.substring(r + 1);            // strip &amp;            Matcher matcher = ampPattern.matcher(this.searchpart);            while (matcher.find()) {                this.searchpart = matcher.replaceAll("&");                matcher.reset(this.searchpart);            }            this.path = this.path.substring(0, r);        }    }

Statistik: Verfasst von Micha — Do Aug 01, 2013 1:24 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-08-01 14:25:16

http://dorothee-hahne.de/2013/07/31/yac ... hinennetz/{.postlink}

Statistik: Verfasst von Orbiter — Do Aug 01, 2013 1:25 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 14:25:20

Gestern Abend habe ich mich auch mal damit beschäftigt:
Die Einträge des jeweils eigenen Peers in die Liste kommen durch einen etwas verhakten self-Ping.
Das ist nicht Schön, aber kein Angriff von irgendwo und scheint die sonstige Funktion auch nicht zu stören.
Nur einen Fix hab ich auch noch nicht.

Statistik: Verfasst von sixcooler — Do Aug 01, 2013 1:25 pm


Hilfe für Einsteiger und Anwender • Re: Option \‘Maximum number of words in cache\’

Date: 2013-08-01 15:09:45

Hallo,

der Wordcache hat nicht mehr die Bedeutung wie früher - die optimierung hier ist also kleiner geworden.
Dieser Cache wird spätestens alle 10Min. geleert und auf Platte geschrieben.
Wenn Du so viel Crawlst, das die grüne Linie mehrfach auf der Grafik nach unten (0) geht, und Du genug speicher übrig hast, kannst Du einen größeren Wert probieren.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Aug 01, 2013 2:09 pm


Hilfe für Einsteiger und Anwender • Re: Option \‘Maximum number of words in cache\’

Date: 2013-08-01 15:22:32

\ Dieser Cache wird spätestens alle 10Min. geleert und auf Platte geschrieben.\


Aha! Nun wird mir auch klar, warum die grüne Linie in der Grafik nie den Wert erreicht, den ich eingestellt hab, also vor erreichen des max. Wertes wieder bei 0 beginnt.

\ Wenn Du so viel Crawlst, das die grüne Linie mehrfach auf der Grafik nach unten (0) geht, und Du genug speicher übrig hast, kannst Du einen größeren Wert probieren.\


Einfache Regel ;)

Statistik: Verfasst von Ruhe — Do Aug 01, 2013 2:22 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-08-01 15:43:55

Eigentlich wollte ich den Artikel von Dorothee Hahne hier abkippen, aber ich sehe, er wurde schon gepostet.

Poste ich halt was in eigener Sache :)
https://blog.crashmail.de/archives/362- ... chine.html{.postlink}

Statistik: Verfasst von cryptosteve — Do Aug 01, 2013 2:43 pm


Hilfe für Einsteiger und Anwender • What is the host with the name \“central_server\“?

Date: 2013-08-01 16:23:16

As in the topic, what is the host with the name \”central_server{.postlink}\“? It\’s such a strange one and in communication with it my YaCy starts acting strangely. There are strange entries in the potential peers list with the name of my peer, the ip address of that peer, and each with diferent hash. After some time, there are hundreds of these entries. Currently I filtered out its ip on firewall so such behavior does not occur. Someone knows something about it or maybe seen similar behavior?

Statistik: Verfasst von b0b3r — Do Aug 01, 2013 3:23 pm


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-01 16:51:02

ok - hätte Orbitters post wohl mal näher lesen sollen - sorry.
Meine Annahmen waren wohl nicht so richtig.

Diese pseudo-Self-Pings mit dem jeweils eigenen Namen kommen bei allen Peers wohl von der gleichen Adresse.
Das sieht zwar nach \‘Angriff\’ aus - aber es tut ja nix anderes als die Liste zu füllen-
Die Motivation dahinter ist mir schleierhaft.

Gerade hab ich etwas commitet (8a96140...) das die Geschichte erst mal beendet.

Auf dem Seed-Server ist die Adresse auch auffällig häufig vertreten und holt ca. jede Minute die Seed-Liste.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Aug 01, 2013 3:51 pm


Fragen und Antworten • Firewall port 8090 - opening

Date: 2013-08-06 15:22:06

I have for some time ago installed YaCy on my computer. And afterwards opened the firewall port 8090, which was also reported succesfull.
Never the less, on the startpage I steadily get the message, that other peers can not reach my peer.
I am running the Linux distribution openSUSE 12.1 and the browser Firefox.
I am attached via cable to an external internet distributor and runs a local wireless network at home.
What could be done? - Please, will someone help me!
Yours sincerely - Ole Rohde.

Statistik: Verfasst von Ole Rohde — Di Aug 06, 2013 2:22 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-06 15:36:23

Hello,

you opened the firewall port 8090 on your computer running YaCy?
Did you also open it on your Router and put a portforwarding to your machine for port 8090?

The port is needed on your machines firewall, the routers firewall and as portforwarding.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Aug 06, 2013 2:36 pm


Fragen und Antworten • Portfreischaltung Ubuntu 13.04 und Speedport W723V

Date: 2013-08-06 22:29:55

Hallo zusammen,

wahrscheinlich ist diese Frage schon tausend mal gestellt worden, aber:

Ich habe YaCy auf meinem Ubuntu 13.04 installiert. Das hat funktioniert und ich kann unter localhost:8090 die Suchmaschine suchen. Im Admin-Menü werde ich aber darauf hingewiesen, dass ich bitte den Port 8090 freischalten soll. Bei meinem Speddport-Router habe ich bereits für diesen Rechner das Portforwarding für 8090 eingerichtet. Bei Ubuntu muss ich m.E. nichts mehr einstellen.
Trotzdem funktioniert das nicht.

Ich besitze auch einen Privatserver im Keller mit Ubuntu-Server 12.04. Der kann auch von \“draussen\” erreicht werden, obwohl ich auch nur die Ports am Router freigegeben habe.

Vielleicht könnte mir einer helfen.

Danke

Statistik: Verfasst von djimno — Di Aug 06, 2013 9:29 pm


Fragen und Antworten • Re: Portfreischaltung Ubuntu 13.04 und Speedport W723V

Date: 2013-08-06 22:36:45

Hallo,

hat Dein Ubuntu noch eine Firewall?
Wenn ja, muss auch dort der Port freigegeben werden.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Aug 06, 2013 9:36 pm


Fragen und Antworten • Re: Portfreischaltung Ubuntu 13.04 und Speedport W723V

Date: 2013-08-06 22:44:13

Linuxe im Allgemeinen und so auch Ubuntu haben generell keine vorgeschaltete \“Personal Firewall\” die diese Ports dann wieder aus einem falschen Sicherheitsverständnis heraus wieder zustopft

Statistik: Verfasst von djimno — Di Aug 06, 2013 9:44 pm


Fragen und Antworten • Re: Portfreischaltung Ubuntu 13.04 und Speedport W723V

Date: 2013-08-06 22:55:24

sorry - ich hab keine Ahnung womit ein Ubuntu so daher kommt :-)
(ich traue dem alles zu)
Dann bleibt nur der Router - ist dort die Firewall und das Portforwarding zu dem Rechner gesetzt?
(Manche Router machen das in einem Rutsch - andere haben getrennte Masken dafür)

Statistik: Verfasst von sixcooler — Di Aug 06, 2013 9:55 pm


Fragen und Antworten • Re: Portfreischaltung Ubuntu 13.04 und Speedport W723V

Date: 2013-08-07 09:04:42

Seit 8.04 LTS ist standardmäßig [ufw]{style=“font-style: italic”} (Uncomplicated Firewall) mit an Bord. Wollte ich nur mal als Stichwort in den Raum werfen, denn ich kann nicht sagen, ob es nur mitinstalliert oder sogar aktiv ist.

Status anzeigen: sudo ufw status
Ausschalten: sudo ufw disable


Und außer der Portweiterleitung an den Rechner, an den YaCy-Port (8090), ist im SpeedPort nichts weiter zu tun - hab selbst einen.

Besuch mal https://www.grc.com/x/ne.dll?bh0bkyd2 und führe dort einen \“User Specified Custom Port Probe\” (links unter dem Eingabefeld) auf Port 8090 aus.

Statistik: Verfasst von Ruhe — Mi Aug 07, 2013 8:04 am


Wunschliste • Logging zu umfangreich

Date: 2013-08-08 17:59:47

Hallo,

vor ein paar Wochen bin ich auf yacy gestoßen und finde das Projekt echt super. Respekt!

Zunächst hatte ich yacy auf einem kleinen VServer mit Debian getestet. Da hat mir schon nicht ganz gefallen, dass yacy standardmäßig so umfangreich loggt. Die Konfiguration hat aus irgendeinem Grund nicht richtig funktioniert und ich habe mich dann damit abgefunden, da die Logs eine feste Größe haben und wohl nur etwas zusätzliches I/O entsteht.

Anschließend habe ich yacy auf meinem Desktop mit Arch Linux installiert. Da das DATA-Verzeichnis bei mir auf einer extra Partition ist, habe ich mir keine Gedanken zu den Logs gemacht.
Gestern habe ich zufällig das /var Verzeichnis durchstöbert und musste feststellen, dass der Journal-Dienst von systemd fleißig Logs von yacy sammelt. Die Logs reichen 2 Wochen zurück und haben eine Größe von über 3GB. Da das ganze auf einer SSD liegt ist das doppelt ärgerlich, da unnötig Platz verschwendet wird und die SSD abnutzt. :o
Zum Spaß habe ich gerade die Einträge bzw. Zeilen gezählt und komme auf 5.244.065 Zeilen für yacy. Der Rest ist gerade mal 56.073 Zeilen lang. Yacy ist also für über 98% der Zeilen verantwortlich.

Meiner Meinung nach reicht es standardmäßig nur Warnungen bzw. Fehler zu loggen. Wofür braucht ein normaler Nutzer beispielsweise jede gecrawlte URL in seinem Log? Die Logs laufen teilweise so schnell durch, dass sich das sowieso nur schwer überblicken lässt. (Bei der Entwicklung könnte ich die Notwendigkeit noch verstehen.)
Bei mir habe ich die Konfiguration jetzt umgestellt. Das hat nun auch den positiven Effekt, dass wichtige Fehlermeldungen und Warnungen nicht untergehen.

Prinzipiell müssten auch andere Arch-Nutzer (bzw. systemd-Nutzer) das Problem haben. Wenn das Verhalten bei Yacy nicht angepasst werden kann, müsste man das eventuell über das Arch User Repository machen.

Grüße, Jan

Statistik: Verfasst von jaka — Do Aug 08, 2013 4:59 pm


Hilfe für Einsteiger und Anwender • Re: Suche / Suchergebnis

Date: 2013-08-08 18:05:12

...wäre nachvollziehbar wenn es YaCy erst seit zwei Wochen geben würde.

Ich finde die Suchergebnisse (mit den Standardeinstellungen) weiterhin nahezu unbrauchbar.

Die Seite php.net/manual/de/function.date.php befindet sich im Index, dennoch bringt die Suche

[php date function ]{style=“font-style: italic”}

nichts verwertbares.

Hab meinen Peer jetzt abgeschaltet, denn das Aufbauen eines Index macht für mich keinen Sinn mehr, gefunden wird eh nichts.


In diesem Zusammenhang, die Suchergebnisse (die Zeile mit der Vorschau auf den Seiteninhalt) enthalten teils anstatt sinnvollem
und für den Anwender verwertbaren Text JavaScript-Sourcen -> Bug. Kann man beim Absetzen der Suche von oben nachvollziehen.

Statistik: Verfasst von Ruhe — Do Aug 08, 2013 5:05 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-09 12:51:22

To sixcooler!
Thank you for the answer you forwarded to me concerning admittance to my computer for other peers. i followed your advise. I have forwarded the port 8090 in my router as you suggested. But never the less I do still see the fatal message telling me that my computer is unattainable from outside. - I have of course no problem with searching the internet myself.
Scanning the forum i can see that many others have the same problem as me. So I appeal too to the technical staff in the YaCy-organisation.
Sincerely, Ole Rohde

Statistik: Verfasst von Ole Rohde — Fr Aug 09, 2013 11:51 am


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-09 14:40:08

Hello,

since I\’m one of the developer, myguess is that this is addressed to me :-)

But I\’m sorry - if your computers and router firewall are open on that Port and you\’ve a Portfording of 8090 to your machine,I I\’ve no idea what is going wrong.
YaCy ist running this Port, like any other http-server does.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Aug 09, 2013 1:40 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-10 09:55:49

Hi everybody, I\’m also new using Yacy (thanks to Snowden) and I installed it in win 8.1 pre-reléase. I can use 2 different ISP\’s -with different routers- and eventually (1 out of 10 times) when I\’m using one of them I get the message that I\’m running in \“Senior mode\” sharing the index to everybody in the network. With the other ISP I never get that message even though I already checked the router settings, firewall is disabled and tried utility called scanport.exe which reports my 8090 port as \“open\“. I think sometimes is an issue coming from the ISP that is blocking the port somehow. Do you know if it\’s possible to redirect the port or create a virtual machine that can find the port open?

My Windows firewall is disabled and my ESET Smart security 6 has the rule to open the port as well for both tcp and udp incoming and outgoing.

I don\’t know what else to do, but I\’ll be happy to hear your suggestions.

Thanks.

Statistik: Verfasst von alexandeer — Sa Aug 10, 2013 8:55 am


Hilfe für Einsteiger und Anwender • Re: Langsamer Tod...

Date: 2013-08-11 09:24:33

Moin moin...

4GB und mehr...
UPS!

Dann ist die Idee den \“abgelegten Rechner\” zu verwenden wohl doch keine so tolle.…
Okay, war ein Versuch...

Danke
Matthias

Statistik: Verfasst von Llandon — So Aug 11, 2013 8:24 am


Hilfe für Einsteiger und Anwender • Verschidenes

Date: 2013-08-11 11:57:24

Hallo,

ich teste gerade Yacy. Mein Ziel ist es, meine Anfragen an Google\Bing&Co zu senken. Am Anfang würde ich gerne kleinere Seiten, die ich oft ansurfe in meinen Index aufnehmen. Das funktioniert auch. Wie kann ich aber die Suche auf eine Seite beschränken?

Was genau bedeutet \“Collection\” beim Anlegen eines crawls? Ist das nur ein Name, um den crawl in der Liste finden zu können?

Ist es normal, dass das Interface viele Fehler enthält, sich die Bereiche teilweise überlappen und Texte dadurch unleserlich werden, weil sie übereinander stehen?


Grüße

Statistik: Verfasst von exoon — So Aug 11, 2013 10:57 am


Hilfe für Einsteiger und Anwender • Re: Verschidenes

Date: 2013-08-11 12:06:57

exoon hat geschrieben:\ Wie kann ich aber die Suche auf eine Seite beschränken?\



Hat sich erledigt: \“site:abc.de suchwort\”

Statistik: Verfasst von exoon — So Aug 11, 2013 11:06 am


Hilfe für Einsteiger und Anwender • Re: Suche / Suchergebnis

Date: 2013-08-11 12:17:46

Ich teste es gerade und habe die Seite \“povray.org\” in meinem Index. Google funktioniert zwar besser, aber was Yacy mir mit \“site:povray.org <suchbegriff>\” liefert ist nicht unbedingt schlecht. Allerdings kenne ich das Programm relativ gut und weiß auch wonach ich suchen muss.

Statistik: Verfasst von exoon — So Aug 11, 2013 11:17 am


Off-Topic • Polizeigewalt

Date: 2013-08-11 13:28:44

Hallo!

Der YaCy-Community möchte ich einen Fall schildern, den ich sehr erschreckend finde. Er hat mit YaCy selbst nichts zu tun, daher hier im Offtopic-Forum gepostet.

Eine gute Bekannte von mir, Frau Dr. Lilia Monika Hirsch, hat früher an der Uni Düsseldorf gearbeitet, und zwar in einer ziemlich hohen Position, im Rektorat für den Bereich Lifelong Learning, wo Firmen Fortbildungen für ihre Mitarbeiter buchen können (gegen hohe Gebühren).

Am 22. April 2009 besuchte Frau Doktor Hirsch mit einem Kunden die Düsseldorfer Altstadt. Ein Arbeitsessen, welches jedoch in der Polizeiwache der Altstadt Düsseldorfs
endete --- mit Folgen, die ich hier gar nicht wiedergeben möchte. Ich verweise auf den Artikel in der „Zeit”

http://www.zeit.de/2013/07/Polizeigewalt-Beispiele

Ihr Fall ist der erstgenannte.

Ich bin sehr schockiert, daß so etwas einer kultivierten und distinguierten Akademikerin in Deutschland passieren kann. Wenn ich früher über Personen laß, die von der Polizei etwas „mitgenommen” waren, dachte ich in die Richtung „Auf einen groben Klotz gehört ein grober Keil”... Bei ihrer eigenen Recherchearbeit stellte meine Bekannte fest, daß sie durchaus nicht die einzige Akademikerin ist, die ein Opfer der Polizeigewalt wurde; jedoch fürchten andere um ihr gesellschaftliches Ansehen: Jemand, der Probleme mit der „guten” deutschen Polizei hat, bei dem „kann ja” etwas nicht stimmen.

Meine Bekannte ließ den Fall nicht auf sich beruhen, jedoch gibt es in Deutschland keinen gesetzlichen Mechanismus, der eine unabhängige Beurteilung ermöglicht: Gegen Polizisten ermitteln wieder Polizisten --- mit voraussehbarem Ergebnis.
Meine Bekannte hat nun eine Online-Petition gestartet. Kannst Du diese Petition auch unterstützen?

Hier findest Du die Petition:

http://www.victim-veto.org/petition



Gunnar Lindenblatt

Statistik: Verfasst von Lindenblatt — So Aug 11, 2013 12:28 pm


Off-Topic • Re: Minecraft...

Date: 2013-08-11 14:22:01

Server ist jetzt auf Bukkit 1.6.xx Beta, es kann also wieder mit der neuesten Client Version gezockt werden ;-).

Thomas

Statistik: Verfasst von Vega — So Aug 11, 2013 1:22 pm


Hilfe für Einsteiger und Anwender • Re: Langsamer Tod...

Date: 2013-08-12 01:29:32

Naja, auch mit einen kleinen Peer kannst Du schon nette Sachen machen, mach halt einen Spezialisierten Index von Seiten die Dir wichtig sind...

Thomas

Llandon hat geschrieben:\ Moin moin\...\ \ 4GB und mehr\...\ UPS!\ \ Dann ist die Idee den \"abgelegten Rechner\" zu verwenden wohl doch keine so tolle\....\ Okay, war ein Versuch\...\ \ Danke\ Matthias\

Statistik: Verfasst von Vega — Mo Aug 12, 2013 12:29 am


Hilfe für Einsteiger und Anwender • Re: Langsamer Tod...

Date: 2013-08-13 16:35:04

Hallo,

Naja, das war der Plan...
Ein Peer der Fotoseiten indiziert...
Aber eine Seite (traumflieger.de) reicht schon um regelmäßige Abstürze zu provozieren...

Gruß
Matthias

Statistik: Verfasst von Llandon — Di Aug 13, 2013 3:35 pm


Off-Topic • Google, Apple and others gear up for \‘busy season\’

Date: 2013-08-17 03:13:39

It\’s the dog days for most of us, but August is the start of the busy season for technology companies, as the back-to-school buying season kicks off and the new products for the holiday season are rolled out.
This year should be more interesting than most.
There are at least three big changes in the wind that ought to keep them hopping at Microsoft, Google, Apple, and Amazon, in particular. They\’ll be battling each other for market share in a rapidly changing world.
1. Windows XP Will Blow Up Soon
Doomsday is nigh for Windows XP, the elderly but still ubiquitous version of Microsoft\’s Windows operating system. On April 8, 2014, Microsoft will stop supporting it, meaning it is decision time for millions.
An estimated 37.2% of the world\’s desktop PC users are still using Windows XP, according to research firm Net Analytics. (Only 16.4% of American desktop owners are still running it, compared with 72.1% in China.)
ComputerWorld estimates that the owners of 570 million machines around the world will be forced to transition from their 12-year-old PCs to a more modern system. Many—perhaps most—will move to mobile devices. But desktop or mobile, their likely choices boil down to Microsoft Windows, Google Android, or Apple iOS.
Here\’s the fly in that ointment: As ComputerWorld points out, we don\’t know how many owners of desktops with Windows XP also own a tablet, and have decided that it meets all of their computing needs -- business, personal, or both.
Either way, Microsoft is working hard to keep them from straying from its operating system. Just this week, the company announced that Japanese insurance company Meiji Yasuda has gone with Windows 8 tablets custom-built by Fujitsu for its sales professionals, all 30,000 of them. Microsoft pointed out that all of the benefits of its choice include compatibility with the company\’s existing XP apps.
But Microsoft has to work harder, because it\’s starting from behind -- at least for those PC users who will move on to mobile devices. Current market share of mobile devices is overwhelmingly dominated by Apple, followed by Google\’s Android, though the figures combine smartphone and tablet sales. However you count it, Windows currently has a share below 2% of mobile.
Some analysts believe that the refresh cycle forced by the impending death of Windows XP has already happened, merely cushioning the blow of declining PC sales earlier this year.
Maybe. But most of those XP users are small and medium-sized businesses that operate well outside the tech-centric world. Regional media has begun to highlight the XP dilemma. The Washington Post reports signs of \“a tidal wave\” of activity at technical consultancies in the Washington, DC, area, spurred by customers scrambling to make sure their businesses can keep running into spring 2014.
(If you\’re making this decision, you may be interested in ZDNet\’s report on a British health-care non-profit that upgraded from Windows XP to Windows 7, and found itself on a forced trek through a jungle of outdated and forgotten applications.)
2. Smaller, Cheaper Tablets Are Big Sellers
The competition among tablet manufacturers is already hot, and will get hotter from now through the holiday season, but profit margins are shrinking. The tablets that are selling are in the \$150 to \$350 price range, and stepping over that line appears to be a near-fatal move.
In the second quarter, 34 million tablets shipped, an increase of 43% year-over-year, according to the latest numbers from technology analysis firm Canalys.
Most of those shipments were for tablets packaged with Google\’s Android software, so the sales are spread among many manufacturers. They\’re smaller and lighter than the products of a year ago -- better, but not revolutionary.
According to the numbers, Apple iPad\’s share of overall shipments dropped 14.2%, to 42.7% in the quarter. Samsung was its nearest competitor, and in fact the only competitor to reach double digits, nearly tripling its share from 7.8% to 21.6%.
As impressive as the year-over-year numbers are, they still show a 10% decline from the first quarter. Research firm IDC, whose numbers came in fairly similar to those of Canalys, expects that trend to reverse later this year.
IDC predicts a surge in sales toward the end of the year, with new products from Apple, Amazon, and others. It also says that Microsoft Windows 8 was making \“notable progress\” late in the period, although its market share by the end of the quarter came in at only 4.5%.
3. Souped-Up Tablets Are Arriving Now
The above figures, for the second quarter, might not help much in predicting which brands will be bestsellers as we approach the back-to-school season and, later, the holidays. The new generation of tablets is only now arriving.kindle to pdf http://www.kindletopdf.com/
Early reports suggest that they are more of the same, but in a good way: more features and power, same low price as a year ago.
Barring an unexpected surprise from Apple, the fall competition appears to be narrowing between two brands, the Google 7 and the Amazon Kindle Fire. Of course, since Amazon\’s tablets use a version of Android, Google wins either way, sort of, but it would clearly prefer that its own hardware triumph.
Google\’s latest Nexus 7 model is priced from \$230, just under that \$250 threshold and \$30 more than the previous model. But the New York Times review says it\’s improved in \“dozens of ways.\” And, after testing it every which way, ArsTechnica concludes that it \“has once again set the bar for not just small Android tablets, but all small tablets from all ecosystems.\”
The Google tablet will compete against a new generation of Amazon Kindle Fire models, due by early September. Based on leaks of the specs, BRG says the new models will have \“vastly improved\” performance, look, and feel over the year-old models, at roughly the same prices.
Finally, it should be noted that Microsoft is not leaving the field quietly, or at all, despite the lukewarm reception so far of its Surface line of hybrid PC tablets.
There\’s an update in the works. The chipmaker Nvidia has confirmed to CNET that it is working on the next generation of Microsoft Surface tablets.
No word on pricing or dates. In fact, \“no comment\” from Microsoft.

Statistik: Verfasst von Hadley3998 — Sa Aug 17, 2013 2:13 am


Fragen und Antworten • Quelltext durchsuchen (Quellcodesuche, Quelltextsuche)

Date: 2013-08-17 09:45:51

Hallo,

ich habe mal einige Startseiten indexiewrt und würde gern wissen, wieviel Prozent davon bekannte Open Source Lösungen sind. Gibt es eine Möglichkeit den Quelltext zu durchsuchen?

Danke

Dennis

Statistik: Verfasst von FSOM — Sa Aug 17, 2013 8:45 am


Fragen und Antworten • Re: Neuinstallation von 1.529131 auf Debian 7.0 64bit

Date: 2013-08-17 09:48:12

Ruhe hat geschrieben:\ Vielleicht schau ich noch mal rein\...\


bitte, gerne! Kannst du die Abfragen raus machen?

Statistik: Verfasst von Orbiter — Sa Aug 17, 2013 8:48 am


Suchmaschinen • Facebook Social Graph

Date: 2013-08-18 13:40:39

hab eben mal die neue facebook Social Graph Suche ausprobiert. Man muss erst die eigene Sprache auf Englisch umstellen, dann bekommt man die Graph Suche angeboten:

Facebook Social Graph Search.png

Die Syntax für die Suchanfragen sind natürlichsprachig, können noch weiter geschachtelt und mit Nebenbedingungen verknüpft werden. Die Vorschläge bei der Eingabe weisen einem den Weg wie man richtig formuliert. Ganz schön beeindruckend was die da gemacht haben! und ein wenig erschreckend. Bei meinem Beispiel oben gibts über 100 Treffer. Die kann man dann weiter einschränken:

Facebook Social Graph Navigation.png

Postet doch mal die krassesten Suchanfragen die ihr so zusammenbacken könnt...

Statistik: Verfasst von Orbiter — So Aug 18, 2013 12:40 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2013-08-19 10:58:47

Vielen Herzlichen Dank für das Feedback!!




____________________________
FIFA 14 Ultimate Coins{.postlink}

Statistik: Verfasst von csluyuan — Mo Aug 19, 2013 9:58 am


Fragen und Antworten • Re: Ein Peer taucht dutzendfach in der Peer-Liste auf

Date: 2013-08-19 10:59:32

Nun die richtige Art damit umzugehen, wäre das gleich zu fixen und ich gucke mir das auch noch an. Aber ich glaube es ist nicht notwenig dafür die Peers offline zu nehmen.




______________________________-
FIFA 13 Kaufen{.postlink}

Statistik: Verfasst von csluyuan — Mo Aug 19, 2013 9:59 am


Suchmaschinen • Re: faroo.com

Date: 2013-08-19 11:01:12

Ist für mich ein \“aufpoliertes\” YaCy. Wenn man irgendwann mal selbst entscheiden darf was das Programm darf und was nicht ist es _vielleicht_ auch nicht schlecht.






__________________________
Aion Kinah kaufen{.postlink}

Statistik: Verfasst von csluyuan — Mo Aug 19, 2013 10:01 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2013-08-20 06:47:26

https://www.zeekly.com/index.php?page=

Statistik: Verfasst von ribbon — Di Aug 20, 2013 5:47 am


Suchmaschinen • Re: Facebook Social Graph

Date: 2013-08-20 20:17:55

Mit Piratenenglisch als Sprache funktioniert es leider nicht. :geek:

Technisch finde ich es sehr cool, aber ich finde es auch etwas gruselig. Aber Facebook konnte das natürlich schon immer (und wenn auch nur als direkte Datenbankabfrage). Wenn es das jetzt im Suchinterface für alle gibt, ist das ja eigentlich nur gerecht. ;)

Statistik: Verfasst von Low012 — Di Aug 20, 2013 7:17 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-08-23 08:19:22

http://www.unixmen.com/yacy-setup-the-p ... ch-engine/{.postlink}

Statistik: Verfasst von Orbiter — Fr Aug 23, 2013 7:19 am


Hilfe für Einsteiger und Anwender • YaCy start

Date: 2013-08-23 13:03:38

How to make YaCy the default web search engine when starting the browser?
As it is now you have to find the file \‘startYACY.sh\’ in the proper file directory and start i there.That is unsatisfactory.
Do someone have an idea how to make that process automatic by starting the computer/browser.
My system is openSUSE Linux and the browser Firefox.
Yours sincerely
Ole Rohde

Statistik: Verfasst von Ole Rohde — Fr Aug 23, 2013 12:03 pm


Hilfe für Einsteiger und Anwender • Re: YaCy start

Date: 2013-08-23 18:57:31

Ole Rohde hat geschrieben:\ How to make YaCy the default web search engine when starting the browser?\


Since you are a firefox user, this can be done by installing a so called search plugin{.postlink}:
http://www.searchplugins.net/pluginlist ... mode=title{.postlink}

The first plugin in the list above works fine for me, but at the moment I\’m using an older version of yacy, so maybe it wont work for you. If it doesn\’t, you can tell me and I will create an updated one for you, or you can try to do this by yourself: http://www.searchplugins.net/generate.aspx

Ole Rohde hat geschrieben:\ Do someone have an idea how to make that process automatic by starting the computer/browser.\ My system is openSUSE Linux and the browser Firefox.\


I have no clue, but under the following link is a guide, which will maybe help you:
http://unix.stackexchange.com/questions ... booting-up{.postlink}
There are also other tutorials, if you do a web search for e.g. [openSUSE auto start shell script]{style=“font-style: italic”}.

However, feel free to ask, if you need more help.

[Edit:
In the latest version of firefox you can choose a custom search engine without the need for a plugin:
1. Open the search page of the engine you want to use as default, e.g. http://localhost:8090/
2. In the firefox search bar (in the top right corner), click the down arrow symbol.
3. Click on the the search engine with the blue yacy icon. ]{style=“font-weight: bold”}

Statistik: Verfasst von David — Fr Aug 23, 2013 5:57 pm


Hilfe für Einsteiger und Anwender • Yacy noob questions.

Date: 2013-08-24 17:49:36

Hi there and congrats for your software!!! :D
I just installed it (from it\’s repository) at my system (Kubuntu x64 13.04).
I read the docs but I\’m still having a couple of questions:

1) How can I limit the memory usage?
I\’ve set it at 50MB with max 150MB, however the memory usage is increasing over time, till ~ >450MB.

2) What ports needs to be opened at peerguardian?
I suppose 8090 TCP.
Incoming? Outgoing? Forwarding? All the above?
Does it needs UDP access too? Any other ports needs to be opened?

And a couple of feature request:

1) Please translate the forum interface to English too.

2) Is it possible to add GPG repository keys?

[THANKS and keep up the good work!!!]{style=“font-weight: bold”} :D

Statistik: Verfasst von Giorgos — Sa Aug 24, 2013 4:49 pm


Wunschliste • https-Proxy

Date: 2013-08-25 00:42:40

Da ich jetzt einen wesentlich größeren VPS mein eigen nenne als vorher, kann ich yacy dort endlich sinnvoll nutzen. :-)

Ich möchte die yacy-Installation auf meinem Server auch als Proxy nutzen, benutze selbst aber in erster Linie https-Links, habe das HTTPS-Everywhere-Plugin installiert und sehe so eigentlich kaum http-Seiten.

Insofern würde ich es sehr begrüßen, wenn ich yacy auch für https als Proxy einsetzen könnte.

Ist in dieser Richtung etwas geplant? Gibt es Hindernisse, die das erschweren?

Danke, zottel

Statistik: Verfasst von zottel — Sa Aug 24, 2013 11:42 pm


Fragen und Antworten • yacy als Proxy hinter Apache-Proxy (https-only)

Date: 2013-08-25 01:55:13

Hallo,

mein yacy auf meinem VPS sitzt hinter einem Apache-Proxy, d.h. https://yacy.zottel.net kommt bei yacy an.

Jetzt habe ich versucht, per autoconfig.pac via https://yacy.zottel.net/autoconfig.pac den yacy als Proxy zu setzen, aber das funktioniert nicht – vmtl. weil yacy als #[host]# 127.0.0.1 einträgt.

Im Falle von opensearchdescription.xml konnte ich das lösen, indem ich eben diese Datei entsprechend editiert habe und als festen Host https://yacy.zottel.net eingetragen habe.

Bei autoconfig.pac weiß ich nicht so recht, was ich tun soll, weil da das Protokoll nicht dabeisteht, ich kann also nirgends https hinzufügen. Der virtual host im Apache für den Proxy existiert nur für https, und die Proxy-Verbindung soll ja auch via https laufen.

Wie muss ich autoconfig.pac editieren, damit yacy.zottel.net via https angesprochen wird? Geht das überhaupt?

Statistik: Verfasst von zottel — So Aug 25, 2013 12:55 am


Fragen und Antworten • Bekannte Links wieder crawlen

Date: 2013-08-25 03:55:05

Gibt es eine Einstellung, die yacy dazu bringt, bereits bekannte Dokumente wieder zu crawlen, wenn es gerade nichts anderes zu tun hat?

Wenn ja, wo?

Wenn nein, ist das geplant?

Statistik: Verfasst von zottel — So Aug 25, 2013 2:55 am


Hilfe für Einsteiger und Anwender • Re: Yacy noob questions.

Date: 2013-08-25 12:36:18

Hi!

Giorgos hat geschrieben:\ 1) How can I limit the memory usage?\ I\'ve set it at 50MB with max 150MB, however the memory usage is increasing over time, till \~ \>450MB.\


My peer also uses more ram than assigned, but I don\’t know the reason. Maybe it\’s caused by buffer overflows?

Giorgos hat geschrieben:\ 2) What ports needs to be opened at peerguardian?\ I suppose 8090 TCP.\ Incoming? Outgoing? Forwarding? All the above?\


In your firewall and router/modem, you need to allow TCP-traffic for the port 8090. But since peerguardian is an ip-blocker who simply let\’s you block bad ips (right?), I think you don\’t have to change any of it settings. Unless it turns out, you can\’t connect to the network at all, which probably means that all of the principal peers{.postlink} are in your blacklists.

Giorgos hat geschrieben:\ Does it needs UDP access too? Any other ports needs to be opened?\


2x No

Giorgos hat geschrieben:\ 1) Please translate the forum interface to English too.\


Yeah, I know, the forum interface should automatically be displayed in english, if the website detects that the user has set a language other than german in his web browser preferences. But unfortunately, you have to do this manually in your forum account settings (which are displayed in german by default, lol).

Here\’s a little guide:
1. After logging in, go to the said settings here: ucp.php?i=165{.postlink-local}
2. Under \“Meine Sprache\” choose \“British English\”
3. Click the button \“Absenden\“.

Giorgos hat geschrieben:\ 2) Is it possible to add GPG repository keys?\


I have no clue, someone else has to answer this question.

Statistik: Verfasst von David — So Aug 25, 2013 11:36 am


Hilfe für Einsteiger und Anwender • Re: Yacy noob questions.

Date: 2013-08-25 13:27:39

David hat geschrieben:\ peerguardian is an ip-blocker who simply let\'s you block bad ips (right?),\



Yes indeed!

David hat geschrieben:\ I think you don\'t have to change any of it settings. Unless it turns out, you can\'t connect to the network at all, which probably means that all of the [principal peers](http://www.yacy-websuche.de/wiki/index.php/En:FAQ#What_does_Virgin.2C_Junior.2C_Senior.2C_Principal_Status_mean.3F){.postlink} are in your blacklists.\ \ >
> > Giorgos hat geschrieben:Does it needs UDP access too? Any other > ports needs to be opened?\ > >


2x No




ΟΚ!. Ι\’ll leave it alone.

David hat geschrieben:\ Yeah, I know, the forum interface should automatically be displayed in english, if the website detects that the user has set a language other than german in his web browser preferences. But unfortunately, you have to do this manually in your forum account settings (which are displayed in german by default, lol).\ \ Here\'s a little guide:\ 1. After logging in, go to the said settings here: [ucp.php?i=165](http://forum.yacy-websuche.de/ucp.php?i=165){.postlink-local}\ 2. Under \"Meine Sprache\" choose \"British English\"\ 3. Click the button \"Absenden\".\



I did that at the first place and indeed the registration and FAQ was in English.
Today everything seems to be OK.
Maybe it has something to do with the browser cache.
But I still think, that the forum titles needs to be bilingual too.

[THANKS A LOT]{style=“font-weight: bold”} David for your help!!! :D

Statistik: Verfasst von Giorgos — So Aug 25, 2013 12:27 pm


Fragen und Antworten • Yacy auf Debian 6 (Virtual Server)

Date: 2013-08-25 14:20:26

Moin

Hab eben mal den yacy aus dem Debian Repo installiert.

Leider kann der Peername nicht geändert werden. Hatte den im debconf eingegeben aber im Webinteface steht ein
zufällig gewählter, der nach Eingabe und speichern sofort wieder erscheint.

Wo muss ich ansetzten.?

--
Rüdiger

Statistik: Verfasst von RudiOnTheAir — So Aug 25, 2013 1:20 pm


YaCy Coding & Architektur • Export der Metadaten

Date: 2013-08-26 09:14:00

Guten Morgen,

ich habe einige Seiten indexiert und würde gern den Export der URL nicht nur mit dem Title, sondern auch mit den Matadaten machen.
/IndexControlURLs_p.html

Kann ich irgendwo die Abfrage ändern?

Danke
Dennis

Statistik: Verfasst von FSOM — Mo Aug 26, 2013 8:14 am


Off-Topic • Microsoft offers ad-free Bing for the classroom to battle Go

Date: 2013-08-26 09:55:56

SAN FRANCISCO (Reuters) - The long-running rivalry between Microsoft Corp and Google Inc is turning into a schoolyard brawl.
Microsoft on Wednesday opened a new front against the world\’s No 1 search provider by piloting an ad-free offering for educational users of Bing, its search engine that for years has trailed Google.
Under the free program called \“Bing for Schools,\” students in participating school districts will no longer see ads or adult content when they do Internet searches.
Microsoft, which has signed up the Los Angeles Unified School District and Atlanta Public Schools among other school districts, has pitched Bing as an alternative at a time of rising public concern over how Internet companies are tracking their users\’ every move to target the ads they display.
As part of the program, Microsoft will also offer free Surface tablets and course materials for teaching youngsters about Internet use.
Stefan Weitz, Microsoft\’s director of search, said the program would help expose young users to Microsoft products.
\“We hope that we demonstrate the quality of Bing to teachers and students and also their parents, and once they see how good it is, we hope to see increased usage outside of schools too,\” Weitz said.
Bing, with 18 percent of the search market share, has long trailed Google, at 67 percent, according to data from ComScore, despite an aggressive effort to close the gap.
ATTACK CAMPAIGN
Microsoft\’s move is the latest sign that technology companies are targeting the education market as a way to reach children who will become the next generation of consumers.
The new Bing campaign, framed in the context of privacy concerns, is part of a broad, anti-Google marketing campaign directed by a team of political consultants including Mark Penn, long-time adviser to Bill and Hillary Clinton.
In recent months Microsoft has ramped up allegations posted to its \“Scroogled\” website, including claims that Google violates its users\’ trust by scanning emails to target ads. Microsoft has also backed promotion of a \“Do Not Track\” protocol that would discourage online ad targeting.
\“People just don\’t think it\’s appropriate to show ads to children in a learning environment,\” Weitz said.
A Google spokesman declined to immediately comment.
While Microsoft relies heavily on software sales, more than 95 percent of Google\’s revenue come from ads, and a significant portion of that comes from its dominant search engine.
JOSTLING IN CLASSROOMS
Google and Microsoft have also been vying to get schools to adopt their productivity software. Google has been offering a discount for its Google Apps suite, which it hopes can replace programs such as Microsoft Word on school computers.
Tech companies, led by Apple Inc, have also competed fiercely to get hardware into the classroom, even while academic studies are divided over the effectiveness of gadgets in improving student performance.pdf to kindle http://www.kindletopdf.com/
Following Apple, Google in December announced a program to give its Chromebook computers to schools for \$99 each. Six months later, Microsoft began offering its Surface RT tablet to educational institutions for \$199, a discount of more than 50 percent.
As part of the Bing campaign, school districts whose students use the Microsoft search engine win points, which they can redeem for Surface tablets.
Aleigha Henderson-Rosser, the director of instructional technology at Atlanta Public Schools, said she had no qualms about receiving aid from tech companies. Atlanta schools will not be paid money to participate in the Bing program, she said.
Henderson-Rosser said she will try to rally parents to use Bing to help win Surface tablets for schools that cannot afford the technology.
\“I\’m seeing it as a community effort to fill in the gaps,\” she said. \“What school is going to turn down tablets for our students?\”

Statistik: Verfasst von Rebecca7128 — Mo Aug 26, 2013 8:55 am


Fragen und Antworten • Help in english ? Equivalence in between plural/singular Acc

Date: 2013-08-26 11:41:42

Hello,

It tried to ask a question through the english language forum but it looks less active and flooded by spam.
I hope someone here can help me in english (or even french :mrgreen: ) Hello,

I would like to use YaCy in order to search through some websites I selected.
It seems to work well but I have a problem of relevance :
When I look for words in singular, there is no equivalence for plural, I mean if I search for \“forums\” it\’s not possible to find the results with only \“forum\” into, while it looks interesting to me. It\’s the same with accented characters... If we type a word without the special characters like \“e\” instead of \“é\” in french, YaCy will not find any result (except if the word is written without accent in the searched websites.

Do someone know wether it is possible to use some parameters in order to improve the search results in this direction ?

Thank you for reading, and I hope for helping :D

Statistik: Verfasst von TheRedSquirrel — Mo Aug 26, 2013 10:41 am


Presse • distributedcomputing.info

Date: 2013-08-26 11:50:56

Ich habe Kirk Pearson, dem Betreiber von distributedcomputing.info{.postlink}, vor ungefähr einem halben Jahr ein E-Mail geschickt und ihn darauf hingewiesen, dass Yacy eigentlich noch gut in die Kategorie \“Active Projects\” seiner Webseite passen würde. Das Dumme ist nur, dass ich bis heute keine Antwort erhalten habe. Vielleicht könnte jemand von euch nochmal versuchen ihn zu kontaktieren, für den Fall das meine E-Mail im Junk-Ordner gelandet ist.

Statistik: Verfasst von David — Mo Aug 26, 2013 10:50 am


Fragen und Antworten • Re: Yacy auf Debian 6 (Virtual Server)

Date: 2013-08-26 21:15:42

OK.

Mit einem _ vor dem Namen ging es dann. Kann es sein, das der Name noch blockirt war durch eine
vorheriege Installation auf einem anderen Server von mir.??

Statistik: Verfasst von RudiOnTheAir — Mo Aug 26, 2013 8:15 pm


Fragen und Antworten • Re: Quelltext durchsuchen (Quellcodesuche, Quelltextsuche)

Date: 2013-08-26 23:06:04

Wenn man z. B. nach [insertBefore]{style=“font-style: italic”} sucht, sieht es zumindest danach aus, dass man mit yacy auch nach Code fahnden kann.

Statistik: Verfasst von David — Mo Aug 26, 2013 10:06 pm


Fragen und Antworten • Re: Peer herunterfahren

Date: 2013-08-26 23:22:36

Mit einem durchschnittlichen Rechner sollte es eigentlich nicht lange dauern zum Herunterfahren (einige Sekunden, vielleicht 1-2 Minuten für sehr grosse Peers). Ich habe es aber auch schon gehabt, dass sich beim Beenden etwas verklemmt hat, und ich dann \“killen\” musste.

Bei der Grösse von deinem Peer würde ich schätzen, dass das Herunterfahren im Normalfall ungefähr 10-30 Sekunden dauern sollte. Wenn es jedes Mal eine halbe Ewigkeit dauert, ist auf jeden Fall irgendetwas nicht in Ordnung.

Statistik: Verfasst von David — Mo Aug 26, 2013 10:22 pm


Fragen und Antworten • Re: Bekannte Links wieder crawlen

Date: 2013-08-26 23:47:48

zottel hat geschrieben:\ Gibt es eine Einstellung, die yacy dazu bringt, bereits bekannte Dokumente wieder zu crawlen, wenn es gerade nichts anderes zu tun hat?\


Soweit ich weiss gibt es noch keine solche Funktion.

Statistik: Verfasst von David — Mo Aug 26, 2013 10:47 pm


Fragen und Antworten • Re: Help in english ? Equivalence in between plural/singular

Date: 2013-08-27 00:33:58

Bonjour!

TheRedSquirrel hat geschrieben:\ It tried to ask a question through the english language forum but it looks less active and flooded by spam.\


I assume you are talking about yacy-forum.org. In my opinion, this forum should be deactivated, respectively frozen, because it\’s way easier, if we discuss all together in the same place.

TheRedSquirrel hat geschrieben:\ When I look for words in singular, there is no equivalence for plural, I mean if I search for \"forums\" it\'s not possible to find the results with only \"forum\" into, while it looks interesting to me. It\'s the same with accented characters\... If we type a word without the special characters like \"e\" instead of \"é\" in french, YaCy will not find any result (except if the word is written without accent in the searched websites.\


I know what you mean. The most big search engine will find [René]{style=“font-style: italic”} even if you write [Rene]{style=“font-style: italic”}. But on the other hand, [forum]{style=“font-style: italic”} and [forums]{style=“font-style: italic”} are simply two different words, and [e]{style=“font-style: italic”} and [é]{style=“font-style: italic”} are two different letters, if you understand what I want to say. It always good, if you know exactly what you are looking for, and then enter it correctly in the search box.

TheRedSquirrel hat geschrieben:\ Do someone know wether it is possible to use some parameters in order to improve the search results in this direction ?\


As far as I know, there are no such parameters, but I might be wrong. Maybe you want to file a suggestion in the wishlist at bugs.yacy.net{.postlink}

Statistik: Verfasst von David — Mo Aug 26, 2013 11:33 pm


Suchmaschinen • Neuer Trend: Google-Suche statt Domain-Name

Date: 2013-08-27 08:47:45

In der letzten Zeit gelegentlich mal gesichtet: Hinweise auf Websites, die nicht die URLs nennen, sondern ein Suchwort, mit dem man dann hoffentlich die entsprechende Seite bei Google findet. m(

Zumindest im Fall vom Brainbureau hat da ja schonmal ganz toll geklappt: Statt brainbureau.de ist der erste Suchtreffer bei mir thebrainbureau.com. :lol:

Und auch bei Ebay gibt es eigentlich ganz nette URLs für Verkäufer, die weniger umständlich sind als die Anleitung auf dem Bild unten: myworld.ebay.de/schn10

Statistik: Verfasst von Low012 — Di Aug 27, 2013 7:47 am


Fragen und Antworten • Re: Crawling Intranet mit Authentifizierung

Date: 2013-08-27 14:03:50

Hallo,
hat sich hier zu dem Thema inzwischen noch etwas getan?
Ich bin bin zwar YaCy Newbie habe aber doch ettliche Erfahrung mit anderen Suchmaschienen und Crawlern und komme hier trotz einigem suchen nicht weiter.
IMHO kommt man in den komplexen Intranet und Extranets ohne Authentifizierung nicht wirklich gut zurande.
Loretta

Statistik: Verfasst von Loretta6 — Di Aug 27, 2013 1:03 pm


Fragen und Antworten • Wird Yacy von außen angepinkt?

Date: 2013-08-27 14:28:39

Habe zwei Yacy auf einem Server nebeneinander laufen, soweit so gut.
Nun auf Yacy3 läuft derzeit folgendes ab hier /AccessTracker_p.html?page=2 läuft alle 2 Sekunden folgendes ab:

Lokale Suche Log
Dies ist eine Liste aller Suchanfragen, die von diesem Peer ausgeführt wurden.
Es werden 567 Einträge von insgesamt 567 Anfragen angezeigt.

Suchwort
news /date

Anfragender Host
87.189.14.193

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0 SeaMonkey/2.19


klicke ich jetzt auf das Suchwort
news /date
erscheint die Adresse mit den laufenden Einträgen
http://81.7.11.146:8092/yacysearch.html ... urce=local{.postlink}

Ich will das aber nicht in meiner Yacy haben, bzw. wie kommen die darein, ich finde keinen Hinweis.
desgleichen lassen sich bei mir auch keine rss news mehr einbinden. Nimmt keinen einzigen mehr an.



Nun das zweite Poblem bei der anderen Yacy1, das ich hier den DHT Verkehr CrawlResults.html?process=3 nicht öffnen kann und auch keine rss-feeds annimmt.
Der einkommente Verkehr von anfragenden anderen Peers meißt Freitags so stark ist, das im Administrationscentrum kein oeffnen angeklickter Seiten mehr moeglich ist und ich nur noch in den Robinsonmodus wechseln muß, um ein Einfrieren meiner Yacy1 zu verhindern, da selbst die Suchwortabfrage auf der Webseite nicht mehr moeglich ist.
Was kann ich nun tun?

Gruß Roland

Statistik: Verfasst von RoGott — Di Aug 27, 2013 1:28 pm


Fragen und Antworten • Re: Help in english ? Equivalence in between plural/singular

Date: 2013-08-27 15:30:16

David hat geschrieben:\ Bonjour!\


Bonjour :)
Thank you very much for your answer !

David hat geschrieben:\ I assume you are talking about yacy-forum.org. In my opinion, this forum should be deactivated, respectively frozen, because it\'s way easier, if we discuss all together in the same place.\


Yes I agree, maybe a english section in this forum could be very useful !

David hat geschrieben:\ I know what you mean. The most big search engine will find [René]{style="font-style: italic"} even if you write [Rene]{style="font-style: italic"}. But on the other hand, [forum]{style="font-style: italic"} and [forums]{style="font-style: italic"} are simply two different words, and [e]{style="font-style: italic"} and [é]{style="font-style: italic"} are two different letters, if you understand what I want to say. It\'s always good, if you know exactly what you are looking for, and then enter it correctly in the search box.\


I would agree with about mistakes, it should be the problem of the user to write correctly... But for plural or singular I would be very interested in finding both for only one query. For instance it should be interesting to give a smaller weight to the word wich is not matching exctly.

David hat geschrieben:\ As far as I know, there are no such parameters, but I might be wrong. Maybe you want to file a suggestion in the wishlist at [bugs.yacy.net](http://bugs.yacy.net){.postlink}.\


Thanks, I will have a look !

Statistik: Verfasst von TheRedSquirrel — Di Aug 27, 2013 2:30 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-27 15:37:37

Thanks to sixcooler!
I appreciate your advises; have tried all of them and happily been told, that I now was a senior member of the net. But just for the actual session!
Next time I was on it did not work. I have forwarded port 8090 in booth TCP and UDP mode; in the Linux firewall as well as in the router.
So what now? I sadly conclude until further that my system (openSUSE 12.3 and Firefox) and YaCy are not fully compatible.
My hope is, that openSUSE in near future include YaCy as default package, ready to be installed and running.
Yours sincerely, Ole Rohde

Statistik: Verfasst von Ole Rohde — Di Aug 27, 2013 2:37 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-27 17:02:53

Sometimes it takes a while, after starting up yacy, until the message \“not reachable\” disappears.

Also, for the users who manually opened the port in their routers/modems, I recommended to disable UPnP{.postlink} in the yacy settings:
1. Open the \“Basic Configuration\” in your web browser (http://localhost:8090/ConfigBasic.html)
2. Remove the checkmark under \“Configure your router for YaCy\”
3. Click on \“Set Configuration\”

On the following website you can check, if the yacy port if properly forwarded. Just enter 8090, or whatever port you are using, and then press \“check your port\“. (If you visit the website via proxy, the test wont work, because the site needs to know your real ip-address to perform the test.)

http://www.canyouseeme.org/

Statistik: Verfasst von David — Di Aug 27, 2013 4:02 pm


Fragen und Antworten • Re: Firewall port 8090 - opening

Date: 2013-08-27 17:09:40

alexandeer hat geschrieben:\ I think sometimes is an issue coming from the ISP that is blocking the port somehow.\


If you suspect that your ISP is blocking the port 8090, you can simply try another one (e. g. 9999). Within the yacy settings, on the page \“Basic Configuration\“, you can freely choose any number.

Statistik: Verfasst von David — Di Aug 27, 2013 4:09 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-08-28 00:50:15

Bild

Statistik: Verfasst von Orbiter — Di Aug 27, 2013 11:50 pm


Fragen und Antworten • 99,9% JAVA CPU Last..??

Date: 2013-08-28 07:12:25

Ist es möglich, das yacy auf einem Debian 6 VServer der unteren Preisklasse nicht sinnvoll nutzbar ist.?

Bei jeder Suchanfrage sehe ich via TOP 99,9% Java, der das Webinterface auch extrem langsam macht und weitere
oder geänderte Suchanfragen wegen \“warten auf Server\” unmöglich macht.!

Ich hatte angenommen, das die gute Anbindung des Server ein Vorteil für das Projekt ist. Wenn da aber nichts zu \“optimieren\”
ist, macht es keinen Sinn.

Könnte dann auf meinem lokalen ESXi ein System aufsetzen. Dann auch mit jedem anderen Linux, wobei mein 3500 DSL eher
lahm ist und ich bedenken habe das der Traffic, den man in der Admionconsole sieht, mein Netz zu sehr belastet...!!!??

Kann da jemand was zu sagen.?

--
Rüdiger

Statistik: Verfasst von RudiOnTheAir — Mi Aug 28, 2013 6:12 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-08-28 13:27:03

Hallo Rüdiger,

ich habe zwar keine Erfahrung mit Vservern und YaCy - aber das sollte durchaus locker gehen.
Die Anforderungen an die CPU von YaCy sind eigentlich eher gering.

Was sagt denn die Thread-Dump-Statistik, womit sich Dein Peer derart ausgiebig beschäftigt?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Aug 28, 2013 12:27 pm


Suchmaschinen • Shodan - eine Server Suchmaschine

Date: 2013-08-28 13:51:36

in einem Heise Artikel vom 6. 2.2012
http://www.heise.de/security/meldung/Hi ... 28775.html{.postlink}

wird die Server Suchmaschine \‘Shodan\’ erwähnt, mit der man z. B. IP-Kameras im Netz ausfindig machen kann. In dem darin ebenfalls genannten Link

http://console-cowboys.blogspot.ca/2012 ... -like.html{.postlink}
wird ausführlich beschrieben, wie ungesicherte \‘Trendnet\’ Kameras adressiert und ausgelesen werden. Und schließlich findet man unter

http://www.schnatterente.net/technik/un ... ngskameras{.postlink}
eine Liste mit 171 z. T. ungesicherten Kamera-Adressen.

Gruß
lux

Statistik: Verfasst von lux — Mi Aug 28, 2013 12:51 pm


Panorama • Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-29 02:35:03

morgen, Freitag, halte ich bei der Gesellschaft für Wissensmanagement in Frankfurt einen einen Vortrag zum Thema Überwachung, politische Dimension und Abwehrmassnahmen für nicht-Geeks (ein wenig Schulung dazu muss aber sein..): http://www.gfwm.de/node/1520

Der Vortrag ist aber in gewisser Weise die Generalprobe für meine Keynote bei den Kieler Linuxtagen:
http://www.kieler-linuxtage.de/index.ph ... 20Internet{.postlink}

für den Vortrag morgen soll so etwas wie eine to-do Liste rauskommen und ich dachte ich versuche es mal mit gamification:
iframe

Im Vortrag werde ich jedes einzelne Tool dabei vorstellen und erklären was man damit macht und warum die Reihenfolge so Sinn macht.
Hab ich was wichtiges vergessen? Was sollte noch dazu? Ich weiss, http://prism-break.org zählt viel auf, aber die Liste sagt ja nicht welche Tools wirklich gerne benutzt werden. Habt ihr noch tipps?

Statistik: Verfasst von Orbiter — Do Aug 29, 2013 1:35 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-08-29 08:28:26

Mist, zu spät.

Hab zwischenzeitlich das ganze auf meinen lokalen ESXi5 umgezogen. Der hat mehr Rechnenleitung, und da fällt es nicht so
ins Gewicht. Aber auch da geht Java lt. top dann auf 50 - 99%. Aber nur wenn man Suchanfragen startet.

Hab jetzt mal meine neue Installation mit einer Anfrage gefüttert und diesen Dump mal kopiert. Die CPU Last steht an, solange
die Seite nicht aufgebaut ist... Beim ESX ist das aber kein Problem, weil der \“ingesammt\” genug Reserve hat. Der VS ist dann platt...
Hatte das ganze auch zum Test auf einem schon gekündigten VS von S4Y getestet. Der war dann sogar via SSH nicht mehr erreichbar...!

Wenn Du mal schauen magst...

http://pastebin.com/Mrv2SbWS

Statistik: Verfasst von RudiOnTheAir — Do Aug 29, 2013 7:28 am


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-29 11:31:30

OpenNIC und Freifunk kannte ich noch nicht, ist ja interessant.

Statistik: Verfasst von David — Do Aug 29, 2013 10:31 am


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-29 13:45:33

Orbiter hat geschrieben:\ Hab ich was wichtiges vergessen? Was sollte noch dazu?\


Facebook-Alternativen, wie z. B. Friendica und Diaspora, passen wohl eher nicht in die Liste, oder?

Statistik: Verfasst von David — Do Aug 29, 2013 12:45 pm


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-29 14:15:05

eine Facebook-Alternative passt schon da rein, nur welche? Ich hab hier nicht alles genommen was man machen kann, sondern es ist recht subjektiv und beinhaltet die Tools die ich selbst benutze. Bei Facebook benutze ich keine Alternative (was schon schlimm genug ist) aber wie kann ich dann eine empfehlen?
https://prism-break.org/ nennt ja auch http://pump.io/ , was ich auch recht spannend finde, aber ausprobiert habe ich das noch nicht.

Statistik: Verfasst von Orbiter — Do Aug 29, 2013 1:15 pm


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-29 17:27:23

Ja, das wäre dann peinlich, wenn du in einem Vortrag eine Facebook-Alternative empfiehlst, und es sich dann rausstellt, dass du selbst noch bei Facebook bist.

Statistik: Verfasst von David — Do Aug 29, 2013 4:27 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-08-30 08:52:53

GoT, anyone?
Bild

Statistik: Verfasst von Orbiter — Fr Aug 30, 2013 7:52 am


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-08-31 09:14:09

der ganze Vortrag ist nun online, allerdings gekürzt um die vielen Videos die ich drin hatte, die gehen ja nicht in ein PDF.
http://yacy.net/material/GfWM_Digitale_ ... 130830.pdf{.postlink}

Statistik: Verfasst von Orbiter — Sa Aug 31, 2013 8:14 am


Hilfe für Einsteiger und Anwender • Vorstellung, Fragen und Anmerkungen

Date: 2013-08-31 18:05:08

Hallo zusammen,

seit längerer Zeit kenne ich YaCy. Wegen den jüngsten Ereignissen (NSA-Skandal und der 4minütige Google-Ausfall) habe ich mich entschieden, mich etwas näher mit YaCy zu befassen. Mittlerweile habe ich zusätzlich zu YaCy auf meinem Heim-PC noch zwei YaCy-Peers auf virtuellen Servern dauerhaft am laufen.

Nun zu meinen Fragen:
- Was sind Node Candidates? Was sind die technischen Unterschiede zu den anderen Peers und wie entscheidet sich, wann ein Peer ein Node Candidate ist?
- In den Leistungseinstellungen (/Performance_p.html) kann ich zwischen \‘default (crawl)\’ und \‘prefer DHT\’ wählen. Was ändere ich dabei am Verhalten meines Peers und was hat es sich mit der Prozent-Angabe bei der vorgegebenen Geschwindigkeit auf sich?

Und noch zwei Anmerkungen:
Im Beispielscript auf ConfigLiveSearch.html hat sich ein kleiner Fehler eingeschlichen. Statt

Code:
<script src="http://xxx.xxx.xxx.xxx:8090/jquery/js/jquery-1.7.min.js" type="text/javascript" type="text/javascript"></script><script>


sollte es

Code:
<script src="http://xxx.xxx.xxx.xxx:8090/jquery/js/jquery-1.7.min.js" type="text/javascript"></script><script type="text/javascript">


lauten, damit das Skript validiert.

Im Debian-Package fehlen drei Skripte im yacy-Homeverzeichnis: stopYACY.sh, killYACY.sh und startYACY.sh. Damit funktioniert aber auch die bin/checkalive.sh im Fehlerfall nicht so, wie es sein sollte.

Alles was ich hier schreibe, bezieht sich auf die aktuelle Version 1.62.

Herzliche Grüße
Wolfgang

Statistik: Verfasst von wollomatic — Sa Aug 31, 2013 5:05 pm


Panorama • Re: Vortrag: Kampf um ein freies Internet nach PRISM

Date: 2013-09-01 09:49:10

habe mir das PDF angesehen - sehr schön. Den Vortrag hätte ich mir gern angehört.

Gruß lux

Statistik: Verfasst von lux — So Sep 01, 2013 8:49 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-01 13:06:07

Moin

Hab als weiteren Versuch die Java Version von Oracle mal auf dem Wheezy etabliert.

Ändert aber nichts an der Last... Hätte ja klappen können...

--

MfG

Rüdiger

Statistik: Verfasst von RudiOnTheAir — So Sep 01, 2013 12:06 pm


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-01 16:05:43

Although I have no experience and have only used it for a day or so.

Put WireShark on you connection and see whats happning.

Is there any Way you can block these addresses eg router or Hosts file this is what I have found so far.

127.0.0.1 localhost
127.0.0.1clients.l.google.com
127.0.0.1rbs1.globalcenter.net.au
127.0.0.1deploy.akamai.com
127.0.0.1akamaledge.net
127.0.0.194.245.21.253
127.0.0.1157.56.149.60
127.0.0.1203.123.73.9
127.0.0.1s.dealply.com
127.0.0.1akamaihd.net
127.0.0.1a26.ms.akamai.net

I have noticed if you search something the java is busy for awhile while its downloading from other peers.

Statistik: Verfasst von smokingwheels — So Sep 01, 2013 3:05 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung, Fragen und Anmerkungen

Date: 2013-09-02 20:59:11

Hallo wollomatic!

wollomatic hat geschrieben:\ - Was sind Node Candidates? Was sind die technischen Unterschiede zu den anderen Peers und wie entscheidet sich, wann ein Peer ein Node Candidate ist?\


[The info of node-candidates is currently a test - these are peers with good response-times and direct
connection the internet (not behind a NAT-router).]{style=“font-style: italic”} (Quelle{.postlink})

wollomatic hat geschrieben:\ - In den Leistungseinstellungen (/Performance\_p.html) kann ich zwischen \'default (crawl)\' und \'prefer DHT\' wählen. Was ändere ich dabei am Verhalten meines Peers \...\


Wenn du von \“Crawl\” nach \“prefer DHT\” wechselst, werden Crawls etwas weniger schnell abgearbeitet, dafür wird die Verteilung und Empfang der Indexdaten im Netzwerk via DHT beschleunigt.

wollomatic hat geschrieben:\ und was hat es sich mit der Prozent-Angabe bei der vorgegebenen Geschwindigkeit auf sich?\


Damit kannst du die Geschwindigkeit beeinflussen in der die Aufgaben (Crawls und DHT-Distribution) abgearbeitet werden. Wenn du den Prozentwert veränderst, verändern sich entsprechend die Verzögerungszeiten auf der Seite \“Performance Settings of Queues and Processes\” http://localhost:8090/PerformanceQueues_p.html

Statistik: Verfasst von David — Mo Sep 02, 2013 7:59 pm


Suchmaschinen • Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-09-02 21:36:46

Es ist glaube ich keine schlechte Idee, wenn wir hier eine Liste mit Yacy-basierte Suchmaschinen führen, und etwas Werbung für sie machen.

[I don\’t think it\’s a bad idea, if we maintain a list of yacy-based search engines, and promote them a little bit.]{style=“font-style: italic”}

http://www.mylookr.com/
http://thueringer-suche.de/
http://www.yacy.pl/
http://yacy-suche.de/

Statistik: Verfasst von David — Mo Sep 02, 2013 8:36 pm


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-02 21:43:15

smokingwheels hat geschrieben:\ 127.0.0.1 localhost\ 127.0.0.1clients.l.google.com\ 127.0.0.1rbs1.globalcenter.net.au\ 127.0.0.1deploy.akamai.com\ 127.0.0.1akamaledge.net\ 127.0.0.194.245.21.253\ 127.0.0.1157.56.149.60\ 127.0.0.1203.123.73.9\ 127.0.0.1s.dealply.com\ 127.0.0.1akamaihd.net\ 127.0.0.1a26.ms.akamai.net\


So, do you mean, if you put this in the hosts file, it might reduce the cpu usage of yacy?

Statistik: Verfasst von David — Mo Sep 02, 2013 8:43 pm


Fragen und Antworten • -UNRESOLVED_PATTERN- in YaCy Administration

Date: 2013-09-03 02:21:52

Hello,

I just dl and install Yacy on Windows and Linux and I found the same \“problem\” :
In the Crawler_p.html page I see a lot of [-UNRESOLVED_PATTERN-]{style=“font-weight: bold”} in Queues and Index Taille.

I also get this in my URL ex :

Code:
http://yacy:8090/yacysearch.html?query=Formicidae&resource=local&contentdom=text&verify=-UNRESOLVED_PATTERN-



It\’s a know problem ?

Regards

Statistik: Verfasst von enky — Di Sep 03, 2013 1:21 am


Hilfe für Einsteiger und Anwender • Change Yacy User agent

Date: 2013-09-03 02:26:49

Hello,

is it possible to change the yacy user agent?
By default the user agent look like

Code:
yacybot (amd64 Linux 2.6.16-2-amd64-k8-smp; java 1.5.0_10; Europe/en) http://yacy.net/yacy/bot.html



It\’s should be a great feature if we can change this.
Or just customize the URL part:

\ yacybot (amd64 Linux 2.6.16-2-amd64-k8-smp; java 1.5.0\_10; Europe/en) [http://mywebsite.net/bot.html]{style="font-weight: bold"}\



Regards

Statistik: Verfasst von enky — Di Sep 03, 2013 1:26 am


Fragen und Antworten • Re: -UNRESOLVED_PATTERN- in YaCy Administration

Date: 2013-09-03 02:45:27

My bad this is a traduction missing ;)

Statistik: Verfasst von enky — Di Sep 03, 2013 1:45 am


Fragen und Antworten • Gut oder schlecht? Good or Bad?

Date: 2013-09-03 06:33:05

Gut oder schlecht?
Pflege ist sharing..aber hohe CPU-
hier ist, was ich bisher getan habe.

Ich schlage vor, Wireshark und freuen Sie sich an was passiert dann block alle verdächtigen ips siehe meine Liste meiner hosts Datei oder Block in router.
http://www.wireshark.org/download.html
mit Capture/Optionen und aktivieren Sie Namensauflösung für Ihren Adapter.
Aufnahme starten, gehen sie und verwenden Sie die Suche für eine Weile.
Erfassung beenden und gehen Sie zu Statistiken / Gespräche und Sortieren meiner bytes.
Machen Sie eigene Entscheidung an, was man wo tun, wenn Aufnahme TCP-Adressen.

Trotzdem ist hier meine Liste von meine HOSTS-Datei auf XP suchen Sie einfach wie sie zu ändern.

HOSTS-Datei Inhalt

127.0.0.1 localhost
127.0.0.1 clients.l.google.com
127.0.0.1 rbs1.globalcenter.net.au
127.0.0.1 deploy.akamai.com
127.0.0.1 akamaledge.net
127.0.0.1 94.245.21.253
127.0.0.1 157.56.149.60
127.0.0.1 203.123.73.9
127.0.0.1 s.dealply.com
127.0.0.1 akamaihd.net
127.0.0.1 a26.ms.akamai.net

Ich kann mit fortschreitender Zeit ...

Update
ICH HABE Security Task Manager zu sehen, was da los ist..ich hatte hohe CPU-Auslastung und viele TCP Retransmissions.
Am Ende habe ich die Aufgabe openvpnserv.exe und meine cpu ging an Leerlauf laufen lassen, dabei Javaw.exe ausgeführt wurde.
Ich habe nicht wirklich mit openVPN, dass oft so Ich kann installieren Sie bei Bedarf.

ICH heruntergeladene http://yacy.net/release/yacy_v1.62_20130801_9025.exe für Windows und neu installiert.
Ich bin nicht das Entfernen von IP-Blöcke noch nicht über HOSTS-Datei.
Die HOSTS-Datei gespeichert ist c: \windows\system32 \Drivers\Etc\


English well sort of
Good or Bad ?
Caring is sharing..But High CPU
Here is what I have done so far.

I suggest to get Wireshark and look at whats going on then block any suspect ips see my list of my hosts file or block in router.
http://www.wireshark.org/download.html
use capture/options and tick name resolution for your adapter.
Start capture, go and use the search for awhile.
Stop capture and go to Statistics / conversations and sort my bytes.
Make you own decision on what you where doing when recording TCP addresses.

Anyway here is my list of my HOSTS File on XP just search how to change it.

HOSTS file contents

127.0.0.1 localhost
127.0.0.1 clients.l.google.com
127.0.0.1 rbs1.globalcenter.net.au
127.0.0.1 deploy.akamai.com
127.0.0.1 akamaledge.net
127.0.0.1 94.245.21.253
127.0.0.1 157.56.149.60
127.0.0.1 203.123.73.9
127.0.0.1 s.dealply.com
127.0.0.1 akamaihd.net
127.0.0.1 a26.ms.akamai.net

I may increase as time progresses...

Update
I used Security Task Manger to see what was going on..I had High CPU usage and lots of TCP Retransmissions.
I ended the task openvpnserv.exe and my cpu went to Idle while Javaw.exe was running.
I don\’t really use openVPN that often so I can reinstall when needed.

I downloaded http://yacy.net/release/yacy_v1.62_20130801_9025.exe for windows and reinstalled.
I am not removing any IP blocks yet via HOSTS File.
The HOSTS file is stored c:\windows\system32\Drivers\ect\

Free Translation At http://www.freetranslation.com/

Statistik: Verfasst von smokingwheels — Di Sep 03, 2013 5:33 am


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-09-03 21:20:34

Wieso wird eigentlich der Load Balancer nicht mehr benutzt? Hat das nicht so gut funktioniert?

Statistik: Verfasst von David — Di Sep 03, 2013 8:20 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2013-09-03 21:57:09

Hallo David,

das hat nicht wirklich gut funktioniert, der LB war selbst geschrieben und hat auch verschiedene Strings in den HTML Seiten die aufgerufen wurden ersetzt. Das war vom Grundprinzip eine Super Idee - aber wenn verschiedene/weit auseinander liegende YaCy Versionen im Backend liefen gab es manchmal seltsame Effekte...ebenso wenn verschiedene Sprachen/Skins eingesetzt wurden. Aus Zeitgründen haben wir das dann erst einmal auf Eis gelegt.
Effektiv kann man aber mit varnish und/oder Nginix sowas auch machen - wenn man die eingebundenen/abgefragten Peers vom Versionsstand/Layout gleich hält.

Grüße aus Dresden,
Thomas

David hat geschrieben:\ Wieso wird eigentlich der Load Balancer nicht mehr benutzt? Hat das nicht so gut funktioniert?\

Statistik: Verfasst von Vega — Di Sep 03, 2013 8:57 pm


Hilfe für Einsteiger und Anwender • Re: Langsamer Tod...

Date: 2013-09-03 22:34:03

Hallo,

ich stelle das mal am WE nach und teste mal mit wieviel Speicher ich das crawlen kann.… Mit welcher Linktiefe / Einstellungen hast Du das gemacht?

Thomas

Llandon hat geschrieben:\ Hallo,\ \ Naja, das war der Plan\...\ Ein Peer der Fotoseiten indiziert\...\ Aber eine Seite (traumflieger.de) reicht schon um regelmäßige Abstürze zu provozieren\...\ \ Gruß\ Matthias\

Statistik: Verfasst von Vega — Di Sep 03, 2013 9:34 pm


Hilfe für Einsteiger und Anwender • Zusätzliche Parser aktivieren...

Date: 2013-09-04 13:19:58

Hallo,
auf der Suche nach einer Desktop-Search-SW bin nun auch ich bei Yacy gelandet.
Allerdings gelingt es mir trotz Vor- und Rückwärtslesen des Wikis nicht, die optionalen Erweiterungen zu bekommen.
Ich habe jetzt die aktuelle 1.63-dev installiert, finde die Parser auch im Sourcecode (yacy\source\net\yacy\document\parser).
Nur, die Zeile \“Content Parser Configuration wird mir nicht unter \“erweiterte Einstellungen\” angezeigt?
Libx konnte ich auch nicht finden...

Vielen Dank schon mal für alle Antworten, hones

Statistik: Verfasst von hones — Mi Sep 04, 2013 12:19 pm


Hilfe für Einsteiger und Anwender • Re: Zusätzliche Parser aktivieren...

Date: 2013-09-04 13:32:21

wo hast du denn den Hinweis auf \‘optionale Erweiterungen\’ gelesen? die gibts nämlich schon sehr lange nicht mehr weil nun alles per default drin ist. Bitte im Wiki entfernen!
Woran hängts denn? alle Parser sind per default aktiv.

Statistik: Verfasst von Orbiter — Mi Sep 04, 2013 12:32 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-09-04 14:10:35

YaCy ist eine von vielen Quellen für Metager: http://metager.de/
Sciencenet: http://sciencenet.kit.edu/
FSFE-Portalsuche: http://fsfe.yacy.net/

Statistik: Verfasst von Low012 — Mi Sep 04, 2013 1:10 pm


Hilfe für Einsteiger und Anwender • Re: Zusätzliche Parser aktivieren...

Date: 2013-09-04 14:35:32

Hallo Orbiter, das ging schnell!

Wo ich einiges gelesen habe, da gibt\’s einige Stellen zum Thema und irgendwie bin ich immer in der Einbahnstrasse gelandet...

De:Parsers
mediawiki
Per default indiziert YaCy nur Html bzw. Text-Dateien. Um auch andere Datei-Typen zu indexieren kann man sich die optionalen Erweiterungen zu YaCy ruterladen und installieren. Dieses Zusatzpackage enthält neben anderen nützlichen Features zusätzliche Content Parsers für weitere Formate.
--
-->www.yacy-websuche.de/wiki/index.php/De:Parsers
-->http://www.yacy-websuche.de/wiki/index.php/De:Libx --
Installation

Derzeit ist das libx Paket nur für die jeweils aktuelle Entwickler-Version verfügbar. Eine Liste der Bezugsquellen gibt es hier. Je nach verwendeter Bezugsquelle gibt es unterschiedliche Pakete:
yacy_dev: enthält nur die Basisfunktionen die zum Betrieb von YaCy notwendig sind
yacy_libx: enthält die oben beschriebenen optionalen Erweiterungen (libx)
yacy_all: enthält die Basisfunktionen und libx
Alternativ können die Quellcodes von YaCy inklusive der optionalen Erweiterungen (libx) aus dem SVN-Repository geladen und selbst kompiliert werden. Eine Beschreibung für Eclipse gibt es hier.
--
-->
http://www.yacy-websuche.de/wiki/index.php/De:BugfixSources#Bezugsquellen -->...
_______________________________
Aber zurück zum Problem:
So sieht mein Menü \“Erweiterte Einstellungen\” aus:

Erweiterte Einstellungen

Wenn Sie alle Einstellungen auf die ursprünglichen Werte zurücksetzen wollen, aber Ihr Administatorpasswort vergessen haben, müssen Sie YaCy stoppen, die Datei \‘DATA/SETTINGS/yacy.conf\’ im YaCy Hauptordner löschen und YaCy neu starten.

Performanceeinstellungen für Puffer und Prozesse
Administration der Datenbank Tabellen
Einstellung Cookie Überwachung
Server Zugangs-Einstellungen
Proxy Zugangs-Einstellungen
Crawler Einstellungen
HTTP Netzwerk
Remote Proxy (optional)
Seed Upload Einstellungen
Nachrichten Weiterleitung (optional)


Vorher hatte ich Version 1.4x installiert und einen Crawl gemacht, der alle mir wichtigen Dateien geflissentlich übersprungen hat...
Aber das muss ich noch mal nachforschen. Hauptsache, dass die Parser überhaupt aktiv sind...

Hones

Statistik: Verfasst von hones — Mi Sep 04, 2013 1:35 pm


Hilfe für Einsteiger und Anwender • Re: Zusätzliche Parser aktivieren...

Date: 2013-09-04 16:46:36

hab die libx-sachen im wiki mal gelöscht. Die Parser Config ist immer noch im gleichen Servlet, /ConfigParser.html welcher aber nun im Index Administration Menü zu sehen ist, da passte es besser hin. Die Admin Console war schon am überlaufen.
Aber wie gesagt: ist alles per default an!

Statistik: Verfasst von Orbiter — Mi Sep 04, 2013 3:46 pm


Off-Topic • Rasperrby Piratebox

Date: 2013-09-05 12:15:25

Um nicht andere Threads vollzumüllen, mach ich hier mal einen Neuen auf.

Orbiter ist ja z.B. auf viewtopic.php?f=15&t=3363&p=27502&hilit=raspberry#p28030{.postlink-local} kurz auf die kreative Nutzung eines Raspberry Pi als Daten-Sammelstation eingegangen.

Die Telekom nutzt ihn wohl auch: http://www.golem.de/news/it-sicherheit-deutsche-telekom-zeigt-honeypot-mit-raspberry-pi-1309-101350.html

Ich habe letztens auch ein interessantes Kästchen bei mir in der Nähe gegenüber einer Justizvollzugsanstalt gefunden. Das war an ein Straßenschild angeschraubt und es stand drauf, dass es von der Stadt dort aufgehängt wurde. Ein paar Tage später war die Kiste dann weg. Wahrscheinlich war da nichts Aufregendes drin, aber so eine Kiste ist schon praktisch, um Elektronik vor Wettereinflüssen zu schützen.

a.png
b.png

Statistik: Verfasst von Low012 — Do Sep 05, 2013 11:15 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-06 06:20:35

David hat geschrieben:\ >
> > smokingwheels hat geschrieben:127.0.0.1 localhost\ > 127.0.0.1clients.l.google.com\ > 127.0.0.1rbs1.globalcenter.net.au\ > 127.0.0.1deploy.akamai.com\ > 127.0.0.1akamaledge.net\ > 127.0.0.194.245.21.253\ > 127.0.0.1157.56.149.60\ > 127.0.0.1203.123.73.9\ > 127.0.0.1s.dealply.com\ > 127.0.0.1akamaihd.net\ > 127.0.0.1a26.ms.akamai.net\ > >


So, do you mean, if you put this in the hosts file, it might reduce the cpu usage of yacy?



Well maybe not, but I am not removing them just yet.

I had my XP Crash with heaps of DCOM errors and no network.
I went back in time by about 18 months to a backup, I have and restored my OS.
Even then when I was running Yacy and Javaw usage was way too high.

I used The Old Sysinternals Filemon.exe to see what was happening when the CPU when high.

Here is a few lines from the Filemon log when Java was causing High CPU usage.

Description of Log
File event index, Time, Program, PID, What\’s doing, File, Result,
237545:24:18 PMjavaw.exe:3056CLOSEC:\Documents and Settings\Greg\YaCy\lib\xercesImpl.jarSUCCESS
Time and index reference

262355:24:19 PMjavaw.exe:3056READC:\WINDOWS\system32\d3d9.dllSUCCESSOffset: 735744 Length: 512
I think the file is to do with DirectX. number of times in log less than 1 sec 2460

283355:24:19 PMjavaw.exe:3056READC:\PROGRA~1\COMMON~1\SYMANT~1\VIRUSD~1\20121019.022\VIRSCAN7.DATSUCCESSOffset: 223981844 Length: 65536
I think this is incorrect, whats java got to do with antivirus

287395:24:19 PMjavaw.exe:3056SET INFORMATION C:\Documents and Settings\Greg\ntuser.dat.LOGSUCCESSLength: 8192
Not sure

287665:24:20 PMjavaw.exe:3056READC:\Documents and Settings\Greg\YaCy\lib\xercesImpl.jarSUCCESSOffset: 154487 Length: 763
Time and index reference

So thats 5012 file accesses in 1 second when Java =99%

So not happy about what JAVA was Accessing I went to http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
and downloaded Java jdk for my system Windows x86 file jdk-7u25-windows-i586.exe
I installed it and tried again to repeat the problem.

I also found when my Java was bad, if you Shutdown Yacy Java keeps using 99% of CPU until you end its task.

I ran Filemon again the the only things showing up For Java are Files in the Yacy install folder.

My CPU runs fine so far, It does go up and down.

If you would like Filemon Freeware for Windows before MS bought them out then you have to ask for it at http://forum.oldversion.com/showthread.php?3939-Archive-of-most-sysinternals-com-freeware&s=025a5966741a3cace5acabcc8394df10

Hope this helps others.
My System Idle CPU time is 24.5 Hours
Javaw.exe CPU time 2.75 Hours


Translation

[quote = \“David\” ] [ quote = \” smokingwheels \”] 127.0.0.1 localhost
127.0.0.1 clients.l.google.com
127.0.0.1 rbs1.globalcenter.net.au
127.0.0.1 deploy.akamai.com
127.0.0.1 akamaledge.net
127.0.0.1 94.245.21.253
127.0.0.1 157.56.149.60
127.0.0.1 203.123.73.9
127.0.0.1 s.dealply.com
127.0.0.1 akamaihd.net
127.0.0.1 a26.ms.akamai.net [/ quote]
So, meinst du , wenn du diese setzen in der hosts-Datei , könnte es die CPU-Auslastung von yacy reduzieren? [/ Quote]

Nun, vielleicht nicht , aber ich bin nicht zu beseitigen, nur noch.

Ich hatte meine XP Absturz mit Haufen von DCOM Fehler und ohne Netz .
Ich ging zurück in die Zeit von etwa 18 Monaten bis zu einem Backup , habe ich mein OS und restauriert .
Selbst dann , wenn ich lief Yacy und Javaw Nutzung war viel zu hoch.

Ich benutzte die Old Sysinternals Filemon.exe zu sehen, was passiert, wenn die CPU , wenn hoch.

Hier ein paar Zeilen aus dem Filemon log , wenn Java verursacht wurde Hohe CPU-Auslastung .

Beschreibung der Log
Datei- Index Ereignis , Zeit, Programm , PID, Was tut , Akte, Ergebnis,
23754 17.24.18 javaw.exe : 3056 ZU C: \ Dokumente und Einstellungen
Greg \ YaCy \ lib \ xercesImpl.jar ERFOLG
Zeit -und Index- Referenz

26235 05.24.19 javaw.exe : 3056 READ C : \ WINDOWS \ system32
d3d9.dll SUCCESS Offset: 735744 Länge: 512
Ich denke, die Datei mit DirectX zu tun. Anzahl von Malen in log weniger als 1 Sek. 2460

28335 05.24.19 javaw.exe : 3056 READ C: \ PROGRA ~ 1 \ COMMON ~ 1
SYMANT ~ 1 \ VIRUSD ~ 1 \ 20.121.019,022 \ VIRSCAN7.DAT SUCCESS Offset: 223981844 Länge: 65536
Ich denke, das ist falsch , was ist java bekam mit Antivirus tun

28739 05.24.19 javaw.exe : 3056 SET INFORMATION C: \ Dokumente und Einstellungen \ Greg \ ntuser.dat.LOG SUCCESS Length: 8192
Nicht sicher

28766 17.24.20 javaw.exe : 3056 READ C: \ Dokumente und Einstellungen \ Greg \ YaCy \ lib \ xercesImpl.jar SUCCESS Offset: 154487 Länge: 763
Zeit -und Index- Referenz

Also das ist 5012 Dateizugriffe in 1 Sekunde , wenn Java = 99%

Also nicht glücklich über das, was JAVA wurde Zugreifen Ich ging zu [ url] http://www.oracle.com/technetwork/java/ ... 80260.html{.postlink} [/ url]
und heruntergeladene Java jdk für mein Windows x86 Datei jdk- 7u25 -windows- i586.exe
Ich installierte es und versuchte es erneut , um das Problem zu wiederholen.

Ich fand auch , wenn meine Java war schlecht, wenn man Shutdown Yacy Java hält mit 99% der CPU , bis Sie seine Aufgabe zu beenden.

Ich lief wieder Filemon die die einzigen Dinge, zeigt sich für Java sind Dateien im Installationsverzeichnis Yacy .

Meine CPU läuft gut so weit , tut es rauf und runter gehen .

Wenn Sie Filemon Freeware für Windows möchten , bevor MS kaufte sie aus , dann müssen Sie danach fragen bei

Hoffe, das hilft anderen.
Mein System Idle CPU-Zeit beträgt 24,5 Stunden
Javaw.exe CPU-Zeit 2.75 Stunden

Statistik: Verfasst von smokingwheels — Fr Sep 06, 2013 5:20 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-06 17:10:09

smokingwheels hat geschrieben:\ I used The Old Sysinternals Filemon.exe to see what was happening when the CPU when high.\


Process Lasso is another good windows freeware. It let\’s you set cpu limits for applications.
http://bitsum.com/processlasso/

smokingwheels hat geschrieben:\ I had my XP Crash with heaps of DCOM errors and no network.\


As far as I know, yacy runs smoother under unix-based operating systems (like linux and mac osx). Maybe yould think about switching. Linux mint works well with yacy, and it\’s free and easy to handle for ex-windows users. I\’m using it on my own computers. http://www.linuxmint.com/

smokingwheels hat geschrieben:\ Nun, vielleicht nicht , aber ich bin nicht zu beseitigen, nur noch.\


LoL, these german translations are hilarious. I think it\’s enough if you just write in english. I\’m sure the most people here understand this language.

Statistik: Verfasst von David — Fr Sep 06, 2013 4:10 pm


Fragen und Antworten • Re: -UNRESOLVED_PATTERN- in YaCy Administration

Date: 2013-09-07 04:25:30

Not sure if this will help but I had a similar problem until I installed SDK Java.
http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

Statistik: Verfasst von smokingwheels — Sa Sep 07, 2013 3:25 am


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-09-07 04:42:39

Thankyou David for the info.

I have a P4 Server to use. I can run Yacy on in November if I want.
Right now have a few bills coming up..

Process Lasso
I don\’t mind if I ask Yacy to do something and it takes all my CPU because the process is set to Below Normal priority.

Lol the German translation, google probably had a problem with my English.

Statistik: Verfasst von smokingwheels — Sa Sep 07, 2013 3:42 am


Wunschliste • Ranking wie Reddit / Ranking like Reddit

Date: 2013-09-08 13:27:16

Was vielleicht noch eine interessante Idee wäre, wenn man eine Option hinzufügen würde, die bewirkt, dass man Suchergebnisse z. B. mit einem Daumen hoch oder runter bewerten kann (halt ähnlich wie bei reddit.com{.postlink}) und diese Bewertung dann in das Ranking miteinbezogen wird. Die Wertung würde aber immer nur zusammen mit einem Suchbegriff gelten. Also wenn man z. B. nach yacy sucht und dann yacy.net einen Daumen hoch erteilt, würde diese Empfehlung nicht automatisch für die ganze Seite und alle Suchbegriffe gelten, die dazu passen, sondern nur für die Kombination yacy + yacy.net.

[Maybe an interesting idea would be, if we add an option, which let\’s you up- and downvote search results (similar to reddit.com{.postlink}). These ratings would only apply in conjunction with search keywords. So, if you do a search for yacy and then upvote yacy.net, the rating wouldn\’t automatically count for the entire site and all search keywords which match with it, but only for the combination yacy + yacy.net.]{style=“font-style: italic”}

Statistik: Verfasst von David — So Sep 08, 2013 12:27 pm


Mitmachen • YacyWiki - Bedienoberfläche und Navigation

Date: 2013-09-08 21:01:28

Wenn ich das richtig sehe, ist die Bedienoberfläche und Navigation standardmässig immer auf Deutsch, und kann nur für registrierte und angemeldete Benutzer auf Englisch umgeschaltet werden, oder? Meiner Meinung nach wäre es besser, wenn es gerade umgekehrt wäre: standardmässig Englisch und für angemeldete Benutzer, nach Wunsch, in einer anderen Sprache. Oder noch besser: wenn man sich im deutschen Wiki bewegt auf Deutsch und im englischen Wiki auf Englisch.

Statistik: Verfasst von David — So Sep 08, 2013 8:01 pm


Solr Support • Solrj Zugriff mit Authentifizierung

Date: 2013-09-10 09:23:35

Hallo

Habe eine Frage/Problem bei der Authentifizierung beim Zugriff auf die Solr Instanz.
Ich benötige je Solr Abfrage 1000 Dokumente. Anscheinend ist dies nur mittels Authentifizierung möglich.

Mein Code sieht folgendermaßen aus.

Code:
DefaultHttpClient httpclient = new DefaultHttpClient();httpclient.getCredentialsProvider().setCredentials(new AuthScope(AuthScope.ANY_HOST, AuthScope.ANY_PORT), new UsernamePasswordCredentials("username","password"));HttpSolrServer solr = new HttpSolrServer("http://localhost:8080/solr/", httpclient);solr.setParser(new XMLResponseParser());SolrQuery query = new SolrQuery();query.setQuery("*:*");query.set("rows", 1000);QueryResponse response = solr.query(query, SolrRequest.METHOD.GET);


Leider Funktioniert die Authentifizierung nicht. Das heißt ich bekomme im result anstatt 1000 rows nur 100 rows zurück.

Benötige ich Preemptive Authentifizierung ? Leider ist die Funktion setAuthenticationPreemptiven() im HttpClient 4 nicht mehr verfügbar.

Wäre für jeden Tipp sehr dankbar!

Statistik: Verfasst von rastadisasta — Di Sep 10, 2013 8:23 am


Solr Support • Re: Solrj Zugriff mit Authentifizierung

Date: 2013-09-10 10:00:34

probier mal die authentification gleich in die URL rein zu schreiben, also

HttpSolrServer solr = new HttpSolrServer(\“http://admin:password@localhost:8080/solr/", httpclient);

Statistik: Verfasst von Orbiter — Di Sep 10, 2013 9:00 am


Mitmachen • Re: YacyWiki - Bedienoberfläche und Navigation

Date: 2013-09-10 10:06:15

ich weiss nicht wie du \‘richtig siehst\‘, aber die Webseiten von YaCy sind immer per default in Englisch. Wenn du das änderst, ist es für alle User deines Suchportals geändert.

Statistik: Verfasst von Orbiter — Di Sep 10, 2013 9:06 am


Solr Support • Re: Solrj Zugriff mit Authentifizierung

Date: 2013-09-10 10:09:28

Danke für das schnelle Feedback!
Nein leider...hat den gleichen Effekt.

Statistik: Verfasst von rastadisasta — Di Sep 10, 2013 9:09 am


Mitmachen • Re: YacyWiki - Bedienoberfläche und Navigation

Date: 2013-09-10 10:30:17

Ich meinte diese WIki hier:
http://www.yacy-websuche.de/wiki/

Statistik: Verfasst von David — Di Sep 10, 2013 9:30 am


Hilfe für Einsteiger und Anwender • Symbole im Host-Browser

Date: 2013-09-11 14:43:18

Hi zusammen,
ich bin gerade dabei, mal wieder einen Yacy-Peer zu betreiben. Bei der Durchschau der (für mich neuen) Funktionen bin ich auf den Host-Browser gestossen. Eine Legende unterhalb der Host-Liste erklärt die verschiedenfarbigen Einträge, aber nicht die Symbole (der Schwarze Kasten, mit den grünen \“LEDs\“) (http://127.0.0.1:8090/env/grafics/burn-e.gif) und das \“schwarz-gelbe\” Symbol (http://127.0.0.1:8090/env/grafics/construction.gif).
Bei letzterem handelt es sich vermutlich um einenaktiven Crawl - das andere kann ich mir nicht erklären.

Kennt jemand die Bedeutung - und wäre es nicht hilfreich diese mit in die Legende aufzunehmen?

Grüße, srvf

Statistik: Verfasst von surfvive — Mi Sep 11, 2013 1:43 pm


Hilfe für Einsteiger und Anwender • Re: Symbole im Host-Browser

Date: 2013-09-11 18:10:02

die \‘grünen LEDs\’ sind (wie der Icon-Name vermuten läßt) die Augen des Reparaturroboters BURN-E aus WALL-E, siehe auch http://www.youtube.com/watch?v=e2K9nJg1qdQ
hab ich selbst gemalt. Sie bedeuten dass ein Fehler bei der Indexierung entdeckt wurden. Allerdings nicht ein Fehler in YaCy sondern in der Konstruktion der Webseite, bsp. nicht auffindbare Links (404s). Das sind also Reparaturroboter-Augen, dort wo was kaputt ist :)
das schwarz-gelbe Pfeil-Symbol habe ich auch gemalt und ist ein typisches \‘Construction\’ Logo, also sowas wie ein Absperrband. Es ist überall dort, wo der Crawler noch arbeitet. Wenn also das Symbol da ist, läuft der Crawler und macht an der Domäne etwas.

Statistik: Verfasst von Orbiter — Mi Sep 11, 2013 5:10 pm


Panorama • Re: Lawful Interception

Date: 2013-09-12 09:07:41

Vorab veröffentlichter Bericht aus der Datenschleuder 97 über Leute, die LI-Software programmiert haben und wie es soweit kommen konnte: http://ds.ccc.de/097/ds097-ausstieg-gewissen.pdf

Statistik: Verfasst von Low012 — Do Sep 12, 2013 8:07 am


Hilfe für Einsteiger und Anwender • Re: Symbole im Host-Browser

Date: 2013-09-12 10:32:53

Ah, alles klar - gute Arbeit :D Ist der Hinweis von BURN-E in irgendwiner Weise für mich hilfreich, oder nur ein weiter Hinweis zu den Zahlenangaben?

Statistik: Verfasst von surfvive — Do Sep 12, 2013 9:32 am


Off-Topic • VNC Server

Date: 2013-09-13 00:23:47

hab zwischendurch mal was ganz anderes gemacht, einen einfachen VNC-Server! (In Java, wie immer). Funktioniert super, kann zur Zeit aber nur den Screen sharen aber keine Kommandos annehmen.

Hab das gemacht, weil der im Mac eingebaute VNC nicht den aktuellen Desktop sharen kann, nur einen neuen. Mit meinem VNC kann man auch den aktuellen sehen.

Nun kam mir die Idee, das der VNC Server statt eines Bildes vom Desktop auch nur einfach Bilder streamen könnte. Kann man sowas für irgendwas gebrauchen? Wenn einer mit dran basteln will, gerne. Mache das als LGPL frei wenns jemand will.

Statistik: Verfasst von Orbiter — Do Sep 12, 2013 11:23 pm


Hilfe für Einsteiger und Anwender • Strategie für (externe) Foren-Crawls

Date: 2013-09-13 10:00:35

Hi,
ich habe die letzten Tage unter anderem Foren in meinem Crawler gehabt. Mittlerweile habe ich einen Stapel Regulärer Ausdrücke, um die gefundenen Seiten auf die entsprechend Inhaltstragenden Seiten zu reduzieren. Das ganze funktioniert einigermaßen brauchbar :D. Mein ursprünglicher Gedanke war, anschließend per RSS Feed Import nur noch Updates der entsprechenden Foren zu crawlen.

So weit der Gedanke :) .. jedoch musste ich feststellen das die URLs im RSS Feed in der Blacklist hängen bleiben, da Links in der Form

Code:
../viewtopic.php...&goto=newpost

erzeugt werden. Diese werden aufgrund der Parameter (die zu Duplikaten führen würden) geblockt.

Das ganze wirft bei mir zwei Fragen auf..

Statistik: Verfasst von surfvive — Fr Sep 13, 2013 9:00 am


Wunschliste • Re: Logging zu umfangreich

Date: 2013-09-13 10:17:52

Hallo Jan,
bei mir sieht das ganz ähnlich aus :). Ich habe allerdings noch keinen Durchblick bei den ganzen Logging-Optionen. Kannst Du hier evtl. deine Änderungen Posten? Das würde zumindest mir schon einmal weiter helfen. Vielleicht machtes auch Sinn daraus etwas für das WIKI zu formulieren.

Statistik: Verfasst von surfvive — Fr Sep 13, 2013 9:17 am


Wunschliste • Dokumente nach Blacklist löschen

Date: 2013-09-13 11:11:29

Während der Beobachtung einiger Crawls modifiziere ich stetig meine Blacklists, um nicht vorher identifiezierte Seiten aus dem aktellen Crawl auszuschließen. Parallel dazu lösche ich ab und an die entsprechenden Dokumente aus dem Index, da sie mMn keinen informativen Wert bieten. Hierzu können mWn ebenfalls die RegEx Ausdrücke aus der Blacklist genommen werden (IndexDeletion_p.html).
Daher meine Frage, ob es nicht sinnvoll wäre, das Löschen von Dokumenten anhand von existierenden Blacklist Einträgen zu ermöglichen.

Ich stelle mir das so vor, dass ähnlich wie bei der Blacklist Administration eine Liste gewählt werden kann und dann alle, oder einzeln selektierte Ausdrücke für das Löschen angewendet werden können.

Was haltet ihr davon? :)

Statistik: Verfasst von surfvive — Fr Sep 13, 2013 10:11 am


Wunschliste • RSS Indexer - Crawl-Tiefe

Date: 2013-09-13 12:33:26

Da ich mich gerade mit dem Indexing von RSS-Feeds beschäftige (und das sehr praktisch finde :)) ist mir folgendes aufgefallen.
Eine Seite, die ich derzeit Crawle verfügt über ein Link-Directory, dessen Aktualisierungen per RSS bekannt gegeben werden. Die Links innerhalb des Feeds zeigen jedoch nur auf die Seiten des Link-Directories, die ihrerseits nur eine kurze Beschreibung des eigentlichen Ziels beinhalten.
Wenn ich nun das Indizieren der Feeds konfiguriere, kann nur jeweils die Zielseite (also die Kurzbeschreibung) indexiert werden. In meinem Fall wäre es jedoch sinnvoll, zusätzlich eine Crawl-Tiefe mitanzugeben, um die besprochene Zielseite ebenfalls in den Index zu bekommen (was mein eigentliches Ziel wäre.)
Das würde nebenbei auch gleich Abhilfe bei meinem Foren-Update-Problem{.postlink} bringen.

Statistik: Verfasst von surfvive — Fr Sep 13, 2013 11:33 am


Wunschliste • Separation Crawler/Indexer für Blacklists

Date: 2013-09-13 12:47:47

Beim Versuch, möglichst zielgerichtete Indexierungen zu erreichen, stellt sich mir die Frage, ob eine Separation zwischen Crawler und Indexer in Bezug auf die Blacklists möglich wäre.
Eine für den Crawler erlaubte URL würde wie gehabt im Index landen. Eine Seite, die für den Indexer verboten ist, würde zwar gecrawlt werden (d. h. es werden neue URLs generiert), aber der Inhalt der ursprünglichen Seite wird nicht in den Index aufgenommen.
Das würde mMn helfen, Seiten zu finden, die selbst auf nicht inhaltstragenden Seiten verknüpft sind, ohne dabei jedoch den Index zu belasten.

[Edit]{style=“font-weight: bold”}
Wenn ich die Terminologie richtig verstehe, ist das ganze schon beim [Expert-Crawl]{style=“font-style: italic”} manuell möglich(?) im Abschnitt des [Document Filters]{style=“font-style: italic”} (Index-Feeder).

Statistik: Verfasst von surfvive — Fr Sep 13, 2013 11:47 am


Fragen und Antworten • How Build Public Peer in cluster

Date: 2013-09-13 14:55:04

Hello,

I YaCy used for 3 months, but I would like to set up multiple server cluster.
Here is my situation:
I currently 2 Dedicated Server with YaCy mode robinson private peer.
Each index server 150 sites each

Is it be possible to set up two (or more) YaCy cluster mode?
Is there a tutorial that explains how to do?

Regards

Statistik: Verfasst von Guims — Fr Sep 13, 2013 1:55 pm


Mitmachen • Re: limited Branch

Date: 2013-09-13 19:03:10

Ich würde begrüßen, wenn das wieder jemand aufgreift. Ich kann derzeit nicht daran weiter arbeiten, weil ich keinen von außen offenen Internetzugang habe, und dies auch noch mindestens ein halbes Jahr so bleiben wird.

Statistik: Verfasst von Lotus — Fr Sep 13, 2013 6:03 pm


Off-Topic • Re: VNC Server

Date: 2013-09-15 10:47:41

jetzt kann man das ausprobieren: http://vnc.anomic.de

Wenn mir jemand mitteilen könnte warum das nur mit \“Chicken of the VNC\” funktioniert und nicht mit anderen VNC clients wäre ich sehr dankbar!
(Problem ist irgendwie dass der Client während der Bildübertragung das Socket einfach schliesst. Misteriös)

Statistik: Verfasst von Orbiter — So Sep 15, 2013 9:47 am


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-09-15 11:00:59

hello,

I found a solution on each server YaCy I have defined external Solr.
this is not very practical because I have to manage multiple list site crawler, but the result is centralized on a single server.

Statistik: Verfasst von Guims — So Sep 15, 2013 10:00 am


Wunschliste • Verteilung d. Index nach verfügbarem Speicherplatz auf Peers

Date: 2013-09-15 11:59:11

Liebe Entwickler,

bei mir ist der Festplattenspeicher etwas knapp, ich hab ca. 5GB für den Index frei. Dieser füllt sich relativ schnell und ich kann nicht weiter neue Suchergebnisse durch Crawlen zu Yacy beitragen. Wenn nun ein Teil meines Index an andere Peers mit mehr Speicherplatz übertragen würden, so stände meine Rechenleistung und Internetverbindung für weiteres crawlen zur Verfügung. Macht das Sinn?

Viele Grüße
anonufe

Statistik: Verfasst von anonufe — So Sep 15, 2013 10:59 am


Off-Topic • Re: VNC Server

Date: 2013-09-15 20:14:31

Nur zur Info: Mit Gtk VNC Viewer{.postlink} funktioniert es auch. Habe es Server und Client beide auf meinem Laptop laufen lassen, was ein schönes endloses Bild-im-Bild-im-Bild-im-Bild-im... gab.

Statistik: Verfasst von Low012 — So Sep 15, 2013 7:14 pm


Hilfe für Einsteiger und Anwender • Anpassung Live Search

Date: 2013-09-16 01:48:06

Hallo Zusammen,

ich habe in meine Joomla Seite die Live Search integriert und möchte folgendes anpassen, weiss aber nicht wie und wo.

1. Auslösung der Live Search Funktion frühestens ab dem 3 Buchstaben
2. Die Livesearch reagiert so schnell auf meine Eingabe, dass ich nur max. 2-3 Buchstaben eingeben kann
3. Wie kann ich autokomplete und die Funktion \“Meinten Sie ...xy\” integrieren
4. Wo finde ich das Template für die Livesearchausgabe, ich würde das gerne responsive gestalten um auch mobile Endgeräte zu bedienen

Wäre echt dankbar um Tipps & Tricks hierzu.

Statistik: Verfasst von supermoto — Mo Sep 16, 2013 12:48 am


Hilfe für Einsteiger und Anwender • Seltsames Suchergebnis bei Suchworteingabe

Date: 2013-09-16 14:17:58

Hallo Zusammen,

ich nutze die Live Search in meiner Website und habe ein interessantes Verhalten festgestellt, dass ich gerne abändern würde.

Wenn ich zum Beispiel in die Suche [Ap]{style=“font-weight: bold”} eintippe [findet sie Einträge mit Apfel]{style=“text-decoration: underline”}, hingegen wenn ich [Apfe]{style=“font-weight: bold”} eingebe [nicht]{style=“text-decoration: underline”}, bei der Eingabe von [Apfel]{style=“font-weight: bold”} wiederum [gibt es Suchergebnisse]{style=“text-decoration: underline”}?

Habe ich einen Denkfehler, ist etwas falsch konfiguriert oder kann mir jemand einen Tipp geben was ich tun kann. Kann man für die Live Search eventuell Autokomplete aktivieren. Sorry für die ganzen Fragen, aber ich bin noch ein rechter Newbie in dem Thema.

Vielen lieben Dank schon mal für Tipps & Tricks!

Statistik: Verfasst von supermoto — Mo Sep 16, 2013 1:17 pm


Fragen und Antworten • BlackList & SubFolder in url

Date: 2013-09-16 19:58:40

Hello,

I crawl many sites that use tags
for example the same page:
http://mywebsite/white_house.html
--->
http://mywebsite/tags/white_house_washington
http://mywebsite/tags/white_house_USA
http://mywebsite/tags/the_white_house
...

I want to add the subfolder / tags / in my blacklist.
But despite several test I do not.

Could you give me the excat syntax?

Thank you in advance

Statistik: Verfasst von Guims — Mo Sep 16, 2013 6:58 pm


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-09-16 20:08:16

I have try to add

.*.*/tags/.*.*

without success

Statistik: Verfasst von Guims — Mo Sep 16, 2013 7:08 pm


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-09-16 21:50:10

I don\’t know how to block subfolders, but the following string blocks every URL which contains [tag]{style=“font-style: italic”} somewhere in the path.

.*.*/.*tag.*

Maybe the following string will only block subfolders. I don\’t know.

.*.*/tag/.*

Statistik: Verfasst von David — Mo Sep 16, 2013 8:50 pm


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-09-16 21:59:47

Thx for reply,

It\’s very strange, If i test ur regex with http://localhost:8091/RegexTest.html

Test String: [http://example/tag/helloword.html]{style="text-decoration: underline”}
regular expression: [.*.*/tag/.*]{style=“text-decoration: underline”}
result: match

Ok i had the rules in my blacklist administration:
Blacklist Pattern
.*.*/tag/.*

Now i check with http://localhost:8091/BlacklistTest_p.html
[http://example/tag/helloword.html]{style="text-decoration: underline”}

result: is not blocked

i dont understand

Statistik: Verfasst von Guims — Mo Sep 16, 2013 8:59 pm


Hilfe für Einsteiger und Anwender • Hohe CPU Load

Date: 2013-09-17 08:53:20

Hallo,

YaCy benötigt im Leerlauf permanent über 100% der CPU Load. Teilweise geht die Last auf über 300%, sodass das Tool nicht mehr reagiert oder verwendbar ist. Bei früheren Versionen war das kein Problem. Allerdings kann ich leider keine genaueren Angaben machen, bei welcher Version noch alles geklappt hat. Aktuell verwende ich die neueste Version 1.69003.

Hat jemand eine Idee, wie sich die Situation lösen lässt?
Vielen Dank!

Statistik: Verfasst von hotel24 — Di Sep 17, 2013 7:53 am


Presse • Re: Bücher über YaCy

Date: 2013-09-17 09:29:11

Ich habe eben zufällig noch ein Buch gefunden, in dem YaCy erwähnt wird: http://www.amazon.de/Big-Data-Complete-Certification-Kit/dp/1486143555/ (S. 111, 112, bei Amazon kann man in das Buch schauen)

Dabei handelt es sich wohl um Schulungsunterlagen für einen Kurs auf http://www.theartofservice.org/.

Statistik: Verfasst von Low012 — Di Sep 17, 2013 8:29 am


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-09-17 10:30:21

after many test I think the rules of backlist must contain the domain and not just a subfolder

Statistik: Verfasst von Guims — Di Sep 17, 2013 9:30 am


YaCy Coding & Architektur • Indexer Bookmarklet

Date: 2013-09-17 12:08:06

Hi,
da die YacyBar derzeit nicht funktioniert, habe ich hier ein kleines Bookmarklet, um die aktuelle Seite an Yacy zu übertragen.

Code:
javascript:var curl = location.href;var yacy = "http://127.0.0.1:8090/Crawler_p.html?";var depth = prompt("Crawling depth for\n"+curl+":",0);if (depth === null) {} else {   depth = parseInt(depth);   if (isNaN(depth)){   alert("You must enter a number.");  } else {    if (confirm("Crawl '"+curl+"' with depth "+depth+"?") == true) {      target=yacy+"crawlingstart=&crawlingDepth="+depth+"&directDocByURL=on&xsstopw=true&crawlingMode=url&indexText=on&indexMedia=on&crawlingURL="+encodeURI(location.href);      window.open(target);    }  }}void 0;



Ich bin mir nicht sicher, ob alle Parameter korrekt gesetzt sind, aber nach meinen Test sollte das ganze funtionieren.
Die yacy URL muss eventuell entsprechend angepasst werden. Getestet habe ich das ausschließlich im Firefox.

Eventuell ist\’s für jemanden hilfreich :).

Statistik: Verfasst von surfvive — Di Sep 17, 2013 11:08 am


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-17 12:09:36

Hallo hotel24,

YaCy erzeugt normalerweise nur eine geringe CPU-Auslastung.
Hast Du evtl eine Thread-Dump-Statistik für uns damit wir uns ein Bild machen können?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Sep 17, 2013 11:09 am


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-09-17 12:23:15

I just tested the following string, and it works fine for me:

.*.*/tag/.*

A good way to test it, is to set yacy as proxy in your web browser settings, and then try to visit the url which should be blocked.

Statistik: Verfasst von David — Di Sep 17, 2013 11:23 am


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-17 17:24:02

Hallo sixcooler,

danke für das Feedback.

Ich denke, die Situation hat sich nun von selbst geklärt. Vor ein paar Tagen habe ich einige Crawlingprozesse gleichzeitig gestartet. Da die Verarbeitung der dabei als Basis dienenden Dateien (Dateien mit einer großen Anzahl von Urls) das Tool in die Knie gezwungen hat, habe ich diverse Abbruchfunktionen genutzt (kill, Terminate, etc.). Letztendlich waren vermeintlich alle Crawlingprozesse gestoppt und keine Daten mehr in Verarbeitung. Im Crawling Monitoring war alles ruhig. Doch dies war ein Irrtum, denn im Hintergrund hat YaCy offensichtlich weiterhin gearbeitet. Nach mehreren Stunden wurden plötzlich wieder Crawlingprozesse sichtbar, die scheinbar doch nicht ordnungsgemäß beendet wurden, etc. Dies erklärt wohl die hohe CPU-Aktivität (für das Laden der Dateien mit den Urls).

Darauf hin habe ich alle Prozesse mit \“Terminate\” gestoppt und nun werden die Seiten aus \“Lokaler Crawler\” entfernt, aber nur sehr, sehr langsam. Gibt es evtl. eine Möglichkeit, dies zu beschleunigen? Die CPU-Last liegt dzt. noch immer bei 100% und darüber.

Also generell scheint es problematisch zu sein, eine Datei mit vielen Urls hochzuladen, bzw. gleich mehrere Dateien gleichzeitig. Gelöst werden kann diese Situation aus meiner Sicht, indem jeweils nur ein Crawlingprozess gestartet wird. Wenn dieser fertig ist den nächsten, usw. Wie viele Urls dabei pro Datei seitens YaCy \“verkraftbar\” sind gilt es noch Herauszufinden.

LG, hotel24

Statistik: Verfasst von hotel24 — Di Sep 17, 2013 4:24 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-17 17:44:49

Hallo hotel24,

beim Crawlen von URLs aus einer Datei gab es mal ein Limit von 10.000 - das ist aber mal aufgehoben worden.
Nach meiner Erfahrung gehen die 10.000 auch.
Wie viel bei Dir geht kann schon wieder ganz anders sein - denn das hängt nicht nur von YaCy ab: auch muss z.B. dein DNS die anzen Namen Auflösen, etc.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Sep 17, 2013 4:44 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-17 18:10:34

es gibt seit ein paar Monaten auch noch einen Nachberabeitungsprozess, der erst gestartet wird wenn alle Crawls durch sind. Dieser berechnet dann (vor allem, mehr kann kommen) zwei Parameter: Klicktiefe eines Dokumentes und den domain-spezifischen Page Rank - diese Werte werden beim Ranking benutzt. Das kann dann aber tatsächlich ziemlich CPU-intensiv werden, wird aber seit ein paar Wochen nur dann gestartet wenn die CPU ansonsten nix zu tun hat (da wird er aktuelle Load nachgeguckt). Der Vorgang sollte nicht so lange andauern (das hängt davon ab was vorher gecrawlt wurde), ist dafür aber tatsächlich heftig.

Vielleicht war es das ja.

Dadurch dass diese Ranking-Werte nach dem Crawl erst berechnet werden, ist die Ergebnisreihenfolge während einem Crawl auch anders als wenn der Prozess dann durch ist.

Statistik: Verfasst von Orbiter — Di Sep 17, 2013 5:10 pm


YaCy Coding & Architektur • HttpClient-4.3

Date: 2013-09-18 00:03:47

Hallo,

wollte nur mal kurz melden das ich mich an das Update zu HttpClient-4.3 gemacht habe - braucht also kein anderer bei.
Vieles ist nun depricated markiert.

Der HttpClient-Teil ist auch schon fertig - evtl. noch ein paar Feinheiten könnten ich noch ändern.
Ein anderer großer Teil ist die Klasse et.yacy.cora.federate.solr.instance.RemoteInstance.
Nun wo ich mich schon mit HttpClient-4.3 beschäftige mache ich das auch gerne - aber mir fehlt ein remote-Solr zum testen.

Hat irgendwer mit remote-Solr Lust irgendwie mein Zeuch dann mal zu probieren - am besten bevor ich es commite?

Cu, Sebastian.

Statistik: Verfasst von sixcooler — Di Sep 17, 2013 11:03 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-18 00:26:46

ah, Sebastian super!
bitte aber diese Woche noch warten, ich will am Freitag noch ein kleines Zwischenrelease machen, für meinen Vortrag in Kiel.
Dann gibts noch einen Punkt den wir erst testen müssen: Solrj benutzt den httpclient und darüber laufen auch die remote Suchanfragen an die p2p-Solr. Das heisst: httpclient-4.3 muss nicht nur von solrj aus richtig aufrufbar sein, sondern sich auch mit dem YaCy httpd (über solrj) verstehen :)

Statistik: Verfasst von Orbiter — Di Sep 17, 2013 11:26 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-18 11:50:30

Danke für die Ausführungen.

Nachdem alle Seiten mittels \“Terminate\” aus \“Lokaler Crawler\” entfernt wurden, war die CPU beinahe 0.

Daraufhin habe ich einen \“Neustart\” durchgeführt und plötzlich ist die CPU Last wieder über 200%. Im Logfile ist etwas von solr-Optimierung gestanden. Nach rd. 2h war dieser Vorgang dann beendet und die CPU Last wieder ok.

Dann habe ich einen Crawlingprozess gestartet mit einem File, dessen Größe in früheren Zeiten keine Probleme bereitet hat. Diesmal ist das Tool jedoch hängen geblieben. Nach einem \“kill\” habe ich YaCy wieder aktiviert und letztendlich wurde der Indizierungsvorgang gestartet. Scheinbar führen Veränderungen im Zuge der letzten Versionsänderungen/Updates hier nun zu Problemen.

Ich verwende YaCy dzt. vordergründig zur Indizierung von Webseiten. Die Suche erfolgt über einen externen solr-Server. D.h. die solr-Optimierung, Berechnung der Rankingfaktoren, etc. werden dort behandelt. Lassen sich daher die im Hintergrund stattfindenden (und scheinbar neu implementierten) Optimierungsvorgänge und Rankingberechnungen evtl. abschalten? Dann sollte YaCy für meine Zwecke eigentlich wieder super funktionieren.

Statistik: Verfasst von hotel24 — Mi Sep 18, 2013 10:50 am


Hilfe für Einsteiger und Anwender • Re: GPG-Key für debian.yacy.net ?

Date: 2013-09-18 21:25:54

Hallo,

es fehlen nur noch zwei winzige Metadateien (Release and Release.gpg) auf dem Repository und alles wäre fein (#79{.postlink}). Kann sich dem einer annehmen?

MfG Buster

Statistik: Verfasst von Buster — Mi Sep 18, 2013 8:25 pm


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-09-20 11:40:01

es war nun die 1. Keynote! hier das pdf:
http://yacy.net/material/Kieler_Linuxta ... 130920.pdf{.postlink}

Statistik: Verfasst von Orbiter — Fr Sep 20, 2013 10:40 am


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-09-20 16:21:36

1. Keynote, cool! Und das \“Game of Tools\” finde ich super!

Statistik: Verfasst von Low012 — Fr Sep 20, 2013 3:21 pm


Hilfe für Einsteiger und Anwender • Stopwords aktivieren

Date: 2013-09-21 01:24:21

Hallo Zusammen,

leider bekomme ich es nicht hin, die Stopwords zu aktivieren. Habe die Datei befüllt und wollte dann laut der Anleitung aus dem Wiki (http://www.yacy-websuche.de/wiki/index. ... ie.C3.9Fen{.postlink}) einstellen, aber bei meiner Yacy Version (YaCy version 1.629025) habe ich bei dem Punkt Crawler/Harvester > Crwal start (Experte) (CrawlStartExpert_p.html) nicht die Möglichkeit den Flag zu setzen. Was mache ich falsch? Wer kann mir sagen wie ich die Stopwörter zum Laufen bringen kann (Mein Yacy läuft auf einem Windows Server).

Vielen Dank für die Hilfe!

Statistik: Verfasst von supermoto — Sa Sep 21, 2013 12:24 am


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-09-21 12:49:29

hier ist schon das Video!
iframe

Statistik: Verfasst von Orbiter — Sa Sep 21, 2013 11:49 am


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-09-22 10:39:05

Hi Orbiter,

ich habe mir das PDF angesehen - SUPER! Habe wieder einige - mir bislang unbekannte - wertvolle Links kennengelernt.

Eine kleine Randnotiz vielleicht: Im Dia 3031 \“Tools: freie Alternativen nach Kategorien\” hätte unter \“OS+Apps\” auch \‘F-Droid\’ (https://f-droid.org/) und \‘THE GUARDIAN PROJECT\’ (https://guardianproject.info/) ganz gut hingepasst. \‘aptoid\’ macht auf mich eher einen \“unsicheren\” Eindruck - vielleicht täusche ich mich auch.

Ein richtig guter Vortrag.

Gruß lux

Statistik: Verfasst von lux — So Sep 22, 2013 9:39 am


Mitmachen • Re: YaCy @ 11. Kieler Linuxtage, 20.+21. September

Date: 2013-09-22 20:14:51

Habs mal im Blog gepostet, da geht es vielleicht weniger schnell unter als hier.

http://blog.yacy-websuche.de/2013/09/22 ... nux-tagen/{.postlink}

Statistik: Verfasst von Low012 — So Sep 22, 2013 7:14 pm


Suchmaschinen • Googles Umgang mit robots.txt

Date: 2013-09-23 17:42:30

Zur allgemeinen Information:
Google findet sehr wohl Links, die per robots.txt ausgeschlossen wurden. Dabei wird dann nicht der Inhalt berücksichtigt, sondern die Adresse.

Hier ein Beispiel:
https://www.google.de/#filter=0&q=site: ... .google.de{.postlink}

In der robots.txt steht:

Code:
Disallow: /complete


Dazu schreibt Google:
https://support.google.com/webmasters/a ... 6449?hl=de{.postlink}

\ Zwar werden die Inhalte der Seiten, die durch die Datei \"robots.txt\" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project () in den Google-Suchergebnissen angezeigt werden.\

Statistik: Verfasst von Lotus — Mo Sep 23, 2013 4:42 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-23 20:48:03

wie in den vorangegangenen Posts beschrieben, funktioniert YaCy dzt. für meine Zwecke leider nicht mehr. Ziel ist es, rd. 10 Mio. Urls von unterschiedlichen Domains zu indizieren. Die Urls sind alle bekannt und wurden bisher mittels Dateien an YaCy übergeben, portioniert zu jeweils 1 Mio. Urls pro Datei. Dies hat bei früheren Versionen immer gut funktioniert, mit der aktuellen Version aber leider nicht mehr.

Hat jemand eine Idee, wie ich die Urls in das System bekomme bzw. YaCy diese ohne Abstürze abarbeiten kann?
1000 Dank für Eure Hilfe!!!

Statistik: Verfasst von hotel24 — Mo Sep 23, 2013 7:48 pm


Wunschliste • Präprozessierung mittels XSLT

Date: 2013-09-23 23:11:24

Bei der Frage, wie sich eventuell die Inhaltserschließung diverser Websites verbessern lässt, würde ich gerne einen Vorschlag zur Diskussion stellen, den ich bereits in einem anderen Projekt erfolgreich anwenden konnte.

Grundlage ist die Annahme, dass YaCy jeweils dedizierte Webseiten crawlt, also ein Crawl eines bestimmten Webangebotes (oder Teils davon) vorgenommen wird. Weiter trifft zu, dass Weangebote in der Mehrheit Template-basiert sind, der Inhalt also einer definierbaren Struktur folgt. So lässt sich formal bestimmen, welche Fragmente der Seite inhaltstragend sind und welche für die Indexierung uninteressant sind, oder aber für den Crawler relevant (navigationale Elemente).
Mein Vorschlag wäre, zwischen Crawler und Indexer die Möglichkeit einzuführen, die erfassten Seiten mittels XSL-Skripten manipulieren zu können. Gerade für dedoizierte Crawls könnte ein Transformationsskript etwa die Seiten nach ihrem Inhalt \“selektieren\“, bzw. auf die relevanten Teile \“stutzen\“. So könnte etwa eine News-Seite auf den jeweiligen Artikel reduziert werden (alle umgebenden Elemente werden entfernt) und relevante Links in einer Liste gesammelt angefügt werden. Der Indexer würde dann nur den relevanten Text indizieren, der Crawler hingegen den relevanten Links aus der entsprechenden Liste folgen können. Bei reinen Portal-Seiten könnte der Inhalt hingegen gänzlich verschwinden und nur die Links auf relevante Teile wiedergegeben werden.
Eventuell lässt sich mittels der Skripten auch eine \“kleine Heuristik\” bauen, die dabei helfen kann relevante Seiten/Elemente zu selektieren. Ich denke, dass dies besonders für spezialisierte Peers interessant sein könnte.
Nachteilig würde sich das ganze sicher auf die Geschwindigkeit des Crawlers auswirken, sodass man abwägen/abschätzen müsste, ob sich tatsächlich Vorteile ergeben.

Ein anderer Vorteil, der sich quasi nebenbei noch ergeben würde: im Rahmen der Transformation kann das Prinzip der Blacklists noch feiner definiert werden, da im Rahmen der Transformation das Wissen über Struktur und Inhalt der Seite vorliegt. Ein solches Skript könnte folglich weitere Links aufgrund der \“Umgebung\” ausschließen oder gar hinzufügen, bzw. modifizieren.

Statistik: Verfasst von surfvive — Mo Sep 23, 2013 10:11 pm


Hilfe für Einsteiger und Anwender • Re: Stopwords aktivieren

Date: 2013-09-24 20:08:37

Ich vermute, dass diese Funktion standardmässig aktiviert ist. In den erweiterten Einstellungen (http://localhost:8090/ConfigProperties_p.html) ist die Option \“filterOutStopwordsFromTopwords\” eingeschaltet. Ich bin mir aber nicht sicher, ob dass das Gleiche ist. Am Ende der Einstellungsliste gibt es noch die Optionen xdstopw, xpstopw, xsstopw. Was die bezwecken und ob die überhaupt etwas mit Stopwords zutun haben, weiss ich nicht. Das Beste ist glaube ich, wenn du einfach mal was in die Datei schreibst, eine Seite indexierst, und dann nachschaust, ob das Wort ignoriert wurde.

Statistik: Verfasst von David — Di Sep 24, 2013 7:08 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-24 20:22:15

Möglicherweise nützt es was, wenn du in den Leistungseinstellungen den Prozentwert auf 10 stellst, und unter \“Crawler Überwachung\” beim PPM-Wert 100 (oder niedriger, ich selber benutzte 30) eingibst und dann den Knopf \“benutzerdefiniert\” anklickst. Ich glaube auch, dass 1 Million Links pro Datei zuviel sind. Ich habe vor einiger Zeit auch mal Yacy mit solchen Listen gefüttert, und soweit ich mich erinnere hat es nur funktioniert, wenn pro Datei nicht mehr als 100 Tausend Links enthalten waren, oder vielleicht waren es auch nur 50 Tausend. Ich weiss nicht mehr genau.

Statistik: Verfasst von David — Di Sep 24, 2013 7:22 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-24 21:02:30

um den Solr-Kram ging es mir ja - ich hab aber keinen remote-Solr.
Gibst Du bescheid wenn es dir passt das ich das commite?

Statistik: Verfasst von sixcooler — Di Sep 24, 2013 8:02 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-25 10:48:23

also wenn du mit dem 4.3 noch remote Suche machen kannst und Antworten über die Solr Schnittstelle bekommst (die robinson sind ja inzwischen über solrj angebunden), dann bestätigt das schon zu 50% dass solrj mit 4.3 zusammen funktioniert. Allerdings zeigt das noch nicht, ob POST-requests gehen.

Statistik: Verfasst von Orbiter — Mi Sep 25, 2013 9:48 am


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-25 15:08:51

Ich hab das nun mal commitetd (9112).
Die remote-Suchanfragen funktionieren natürlich.
Die einzige Unsicherheit liegt bei den externen Solr-Instanzen.

Seid alle eingeladen das kritisch anzuschauen!

Statistik: Verfasst von sixcooler — Mi Sep 25, 2013 2:08 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-25 17:55:18

uiui...

Code:
I 2013/09/25 17:53:03 RemoteSolrConnector connecting Solr authenticated with url:http://localhost:8080/crawler/collection1E 2013/09/25 17:53:03 STARTUP YaCy cannot start: HttpClient instance was not of type DefaultHttpClientjava.lang.UnsupportedOperationException: HttpClient instance was not of type DefaultHttpClient   at org.apache.solr.client.solrj.impl.HttpSolrServer.setAllowCompression(HttpSolrServer.java:534)   at net.yacy.cora.federate.solr.instance.RemoteInstance.getServer(RemoteInstance.java:282)   at net.yacy.cora.federate.solr.instance.RemoteInstance.<init>(RemoteInstance.java:229)   at net.yacy.cora.federate.solr.instance.RemoteInstance.getShardInstances(RemoteInstance.java:72)   at net.yacy.search.Switchboard.<init>(Switchboard.java:501)   at net.yacy.yacy.startup(yacy.java:225



Das geht nicht.. der solrj kommt mit dem 4.3 nicht zurecht.

Statistik: Verfasst von Orbiter — Mi Sep 25, 2013 4:55 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-25 18:21:14

kleinen Moment - ich dreh den RemoteInstance-Kram mal zurück

Statistik: Verfasst von sixcooler — Mi Sep 25, 2013 5:21 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-09-26 00:50:18

Die Leute betreiben 10 Peers! :o
[These people are maintaining 10 peers!]{style=“font-style: italic”}

https://www.domengo.de/

Statistik: Verfasst von David — Mi Sep 25, 2013 11:50 pm


YaCy Coding & Architektur • Frage CollectionConfiguration

Date: 2013-09-27 11:13:40

Hallo,

Code:
I 2013/09/27 13:14:30 CollectionConfiguration.CRHost CR for http://libdem.meetup.com/cities/us/ca/san_jose/I 2013/09/27 13:14:30 CollectionConfiguration.CRHost >> count=56, cr=0.002678571428571429, crn=10I 2013/09/27 13:14:30 CollectionConfiguration.CRHost CR for http://libdem.meetup.com/cities/us/co/denver/I 2013/09/27 13:14:30 CollectionConfiguration.CRHost >> count=56, cr=0.002678571428571429, crn=10I 2013/09/27 13:14:30 CollectionConfiguration.CRHost CR for http://libdem.meetup.com/cities/us/nc/wendell/I 2013/09/27 13:14:30 CollectionConfiguration.CRHost >> count=56, cr=0.002678571428571429, crn=10I 2013/09/27 13:14:30 CollectionConfiguration.CRHost CR for http://libdem.meetup.com/cities/us/az/laveen/I 2013/09/27 13:14:30 CollectionConfiguration.CRHost >> count=56, cr=0.002678571428571429, crn=10



Dieser Prozess läuft beim Bootstrap meines Hauptpeers schon seit über 4 Wochen. Liegt wohl daran, dass der Index so riesig ist. Wenn ich jetzt den Java-Prozess killen würde weil ich die Maschine dringend mal rebooten muss, fängt der mit dem CollectionConfiguration dann wieder ganz von vorne an oder macht er an der Stelle weiter wo es abgebrochen wurde?

Statistik: Verfasst von LA_FORGE — Fr Sep 27, 2013 10:13 am


YaCy Coding & Architektur • Code, Style, Dokumentation, Modularisierung, etc.

Date: 2013-09-27 13:35:51

Ich habe vor einigen Tagen den Code von YaCy ausgecheckt und angefangen, mich ein wenig umzuschauen. Gerne würde ich ein wenig (meiner knappen :D) Freizeit \“opfern\” und mich an der Entwicklung beteiligen. An Ideen mangelt es nicht unbedingt, jedoch bleiben zunächst einige Fragen offen.
Die TODO-Listen im Wiki haben den Anschein veraltet zu sein, einige Dinge, die getan werden könnten sind im Forum verteilt. Die \“fehlende\” Dokumentation wurde ja anderweitig schon kritisiert und eine Online Dokumentation des Codes gibt es nicht, obwohl ich diese für Diskussionen sinnvoll halten würde.
Bezüglich des Codes scheint es keine Vorgaben zu geben, meinem Eindruck nach scheinen Tabs und Leerzeichen beliebig genutzt zu werden und eine Beschränkung der Zeichen je Zeilen gibt es nicht(?). Dies würde ich auch für sinnvoll halten, da nicht immer ein Widescreen zur Verfügng steht :).

Abseits von der Kritik stellt sich mir die Frage, wie man sich am besten beteiligen kann, daher würde ich ein paar \“Richtlinien\” für hilfreich halten. Aus meiner Sicht wäre es am sinnigsten den Ansatz der Modularisierung voran zu treiben, da dies die \“sporadische\” Beteiligung am ehesten unterstützen würde und auch die Experimentierfreude fördern könnte :D.

Ferner habe ich mal PMD, Checkstyle und FindBugs{.postlink} via Netbeans auf den Code losgelassen, eventuell wäre das auch noch ein Ansatz für den Code-CleanUp/die Aufbereitung.

PS: nebenei würde ich es interessant finden auf der YaCy Website irgendwie die Entwicklungsaktivität zu visualisieren, um die \“Vitalität\” des Projektes zu verdeutlichen, aber das nur am Rande :roll:.

Statistik: Verfasst von surfvive — Fr Sep 27, 2013 12:35 pm


YaCy Coding & Architektur • Re: Code, Style, Dokumentation, Modularisierung, etc.

Date: 2013-09-27 17:21:07

Hallo surfvive, super dass du mitmachen willst!

ja wir sind code-anarchisten, ich persönlich bevorzuge spaces aber hin und wieder rutschen mir tabs durch wenn ich wieder mal einen neuen eclipse installiert habe und diese blöde Umkonfigurierung vergessenn habe.

Nach fast 10 Jahren ist es auch nicht ungewöhnlich dass im Wiki was veraltet ist; es hilft aber nicht bei einem Wiki \‘warum macht das keiner\’ zu rufen, deswegen ist es ja ein Wiki damit man es gleich machen kann.

Meine persönlichen Wünsche beim Code Commit sind:
- keine bestehenden Funktionen löschen
- nicht bestehenden Code \‘perfektionieren\‘, sondern
- sich was neues ausdenken und einbauen (oder Bugs fixen wenn einer auffällt).

bitte _nicht_ mit Checkstyle etc loslegen, das geht ziemlich in die Hose. Wir haben hier Codeteile mit Reflections und das leitet diese Tools in die Irre.
Wenn du eine Visualisierung möchtest, dann baue dir eine! ansonsten da gucken: http://yacy.net/de/Mitmachen.html da ist ja schon eine :)

Statistik: Verfasst von Orbiter — Fr Sep 27, 2013 4:21 pm


YaCy Coding & Architektur • Re: HttpClient-4.3

Date: 2013-09-27 17:23:13

also ich habe hier keine anderen Probleme mehr festgestellt, ich vermute es geht jetzt alles. Nun müssen wir nur auf ein neues Solr warten welches auch auf das neue httpclient 4.3 aufsetzt, aber erfahrungsgemäß sind die Solr-Leute nicht immer so fix!

Statistik: Verfasst von Orbiter — Fr Sep 27, 2013 4:23 pm


Wunschliste • Re: Anzeige der Domain auf Platz 1

Date: 2013-09-27 19:09:50

Orbiter hat geschrieben:\ Das sind zwei verschiedene Sachen aber von der Implementierung sehr ähnlich, denn ein \'richtiges\' pre-crawling kann man sich aufgrund der Suchzeit nicht leisten und würde genau wie das post-crawling über eine Heuristik implementiert werden. Die Heuristiken haben die Eigenschaften, dass die zum Crawler hinzugefügten Seiten einen Link zum Such-Event haben, und geladene Seiten dort sofort mit eingegliedert werden können. So können Heuristik-Ergebnisse noch während der Ergebnisanzeige in die Ergebnisliste hinzugefügt werden.\


Würde ich gerne implementieren, scheitere jedoch daran, dass es nicht funktioniert:
http://bugs.yacy.net/view.php?id=261
Den Bug kann ich nicht selbst beheben, da ich keinen Überblick mehr darüber habe, wie das mit Solr im Detail funktioniert. Es scheint sehr viele verschiedene Caches auf dem Weg zur Darstellung zu geben, die erst einmal geleert werden müssen.

Statistik: Verfasst von Lotus — Fr Sep 27, 2013 6:09 pm


YaCy Coding & Architektur • Re: Code, Style, Dokumentation, Modularisierung, etc.

Date: 2013-09-28 11:17:00

Es ging mir darum \“abzulopfen\“, ob es irgendwelche Konventionen oder Koordinierungen (Roadmap, etc.) gibt, aber wenn das nicht der Fall ist, ist das auch erstmal gut so :).
Bzgl. des Wikis war die Frage, ob das was dort steht noch aktuell ist. Mein Debüt hinsichtlich des Beitragens hab ich dort schon hinter mir :).

Orbiter hat geschrieben:\ Meine persönlichen Wünsche beim Code Commit sind:\ - keine bestehenden Funktionen löschen\ - nicht bestehenden Code \'perfektionieren\', sondern\ - sich was neues ausdenken und einbauen (oder Bugs fixen wenn einer auffällt).\ \ bitte \_nicht\_ mit Checkstyle etc loslegen, das geht ziemlich in die Hose. Wir haben hier Codeteile mit Reflections und das leitet diese Tools in die Irre.\


Ist schon klar, dass man nicht alles für bare Münze nehmen sollte, was diese Tools ausspucken. Es ging mir eher um kleinere Optimierungen, die beispielsweise von PMD vorgeschlagen werden. Aber derartiges schließt Du ja in Punkt zwei eigentlich aus.
Wenn ich das korrekt verstehe sollte das Ziel eher \“mehr experimentieren\“, als das Stabilisieren der vorhandenen Teile sein.
Wie schon geschrieben, wäre meine Präferenz die Modularisierung voranzutreiben. Meine Ziele wären daruf folgend

Dafür wäre meiner Meinung nach jedoch wenigstens ein bischen Planung oder Hilfestellung notwendig, da mir dafür bislang der tiefere Einblick in den Code noch fehlt.

Orbiter hat geschrieben:\ Wenn du eine Visualisierung möchtest, dann baue dir eine! ansonsten da gucken: da ist ja schon eine ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\


:mrgreen:

Statistik: Verfasst von surfvive — Sa Sep 28, 2013 10:17 am


Hilfe für Einsteiger und Anwender • Re: What is the host with the name \“central_server\“?

Date: 2013-09-28 19:14:07

use a proxy that I happened to see my
http://www.pishrohost.net/
The reason I\’m looking for a change in the forms of

Statistik: Verfasst von jakson2334 — Sa Sep 28, 2013 6:14 pm


Off-Topic • Kaufen für die Müllhalde / The Light Bulb Conspiracy

Date: 2013-09-29 21:53:09

Ein interessanter Dokumentarfilm über geplante Obsoleszenz{.postlink}, den ich eben geschaut habe.

[An interesting documentary about planned obsolescence{.postlink}, that I have just watched.]{style=“font-style: italic”}

[[This is the story of companies who engineered their products to fail.]{style=“font-style: italic”}]{style=“font-size: 150%; line-height: 116%;“}

http://www.imdb.com/title/tt1825163/
https://de.wikipedia.org/wiki/Kaufen_f% ... %BCllhalde{.postlink}

Statistik: Verfasst von David — So Sep 29, 2013 8:53 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-30 10:52:18

Danke für die Tipps!

Ich habe nun die Dateien auf 100.000 Links reduziert. Mit dieser Zahl scheint das Tool arbeiten zu können. Mit einer Anzahl darüber hinaus gibt`s immer wieder Probleme (In früheren Versionen waren interessanterweise 1 Mio. Links auch kein Problem).

Der Grund für die Probleme ist scheinbar nicht die CPU Load, sondern der verfügbare Speicher. Das war von mir irrtümlicherweise falsch interpretiert. Die von mir beschriebenen hohen CPU Werte von über 300% beziehen sich auf die Gesamtleistung des Rechners. Bei dem gegenstädlichen Rechner liegen 8 Kerne vor, somit sind insgesamt 800% möglich (Wenn man bei \“top\” auf \“Shift I\” drückt, dann wird der Verbrauch an der gesamt zur Verfügung stehenden CPU angezeigt). D.h. die CPU war bisher nicht das Nadelöhr, sondern eben der Speicher.

Ganz verstanden habe ich die Speichersituation bzw. den Bedarf von YaCy allerdings noch nicht. Der Rechner besitzt 32 GB RAM, 16 davon sind seitens des Rechners für JAVA reserviert. Bei YaCy sind 15000 MByte für JAVA reserviert. Wenn ich nun eine Datei mit 100.000 Links hochlade, dann geht lt. \“top\” RES auf rd. 10 GB und VIRT auf über 20 GB. Swap wird scheinbar nicht angetastet. Wenn der \“Lokale Crawler\” befüllt ist, dann geht der Wert wieder runter auf 16 GB VIRT, RES und Swap bleiben ziemlich gleich.

Für mich stellt sich nun die Frage, wie VIRT, RES und Swap mit YaCy zusammenhängen. Scheinbar ist dies ein wesentlicher Punkt, was die möglichen Kapazitäten seitens YaCy angeht. Lässt sich hier evtl. noch was optimieren?

Statistik: Verfasst von hotel24 — Mo Sep 30, 2013 9:52 am


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-09-30 13:14:27

I will be guest at FLOSS-Weekly next wednesday, 8:30am pacific time!

am Mittwoch, 17:30 bin ich dann in der FLOSS-Weekly show!

This will be broadcasted (live!!!) at http://live.twit.tv/

Statistik: Verfasst von Orbiter — Mo Sep 30, 2013 12:14 pm


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-09-30 13:31:26

Up

Statistik: Verfasst von Guims — Mo Sep 30, 2013 12:31 pm


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-09-30 14:08:43

your solution is something I would suggest now if the number of peers is small.

Statistik: Verfasst von Orbiter — Mo Sep 30, 2013 1:08 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-30 15:09:20

Hallo,

ich verstehe nicht ganz: der Rechner hat 32GB, 16GB für JAVA - hast Du noch andere JAVA-Prozesse laufen? oder wie meinst Du das?
15000MB hast Du in YaCy für JAVA in /Performance_p.html eingetragen?

Der Wert in /Performance_p.html ist der entscheidene für die Speichermenge, die YaCy zu verfügung steht.

In Top ist \‘Virt\’ eine Menge Vortuellen Speichers - dieser muss nciht physikalisch vorhanden sein - nur muss der Rechner diese Menge noch adressieren können.
\‘Res\’ ist die Menge des tatsächlich genutzt Speichers.
\‘Swap\’ ist ein Speicher der auf der Festplatte \‘emuliert\’ wird - dieser wird vom Betreiebsystem möglichst nur für wenig gebrauchtes Zeugs herangezogen wenn der physische Speicher knapp wird, weil es viel langsamer ist.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Sep 30, 2013 2:09 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-09-30 17:35:03

Hallo,

danke für die Erklärungen.
Es stehen nur 16GB für JAVA zur Verfügung, weil der Provider das sicherheitshalber so begrenzt hat. Der Wert würde sich aber wohl erhöhen lassen auf die vollen 32GB. Würde Sinn machen, oder?

Ja, die 15000MB für JAVA hab ich in /Performance_p.html eingetragen und quasi sicherheitshalber 1GB Puffer gelassen.

Wie hoch kann \“VIRT\” hinaufgehen, ohne dass es in der Regel zu Problemen kommt?

LG, hotel24

Statistik: Verfasst von hotel24 — Mo Sep 30, 2013 4:35 pm


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-09-30 21:06:56

Thx for ur reply Orbiter,
is that it is possible robinson Fashion> Public Cluster have the following diagram?

Website<--Server-Crawl-1 <------->|
Website<--Server-Crawl-2 <------->|<--->Server-Data
Website<--Server-Crawl-3 <------->|


The Server-Data: have a List site crawler (example1.com, example2.com, example3.com,...) and store Data with external solr or solr/yacy.
The Server-Crawl-X is a pool of server in cluster.

I have try to read this http://www.yacy-websuche.de/wiki/index.php/En:Performance ( Switch to Robinson Mode ) but it does not really explain how.

Statistik: Verfasst von Guims — Mo Sep 30, 2013 8:06 pm


Hilfe für Einsteiger und Anwender • Keine Verbindung in die Freeworld

Date: 2013-10-01 18:23:43

Ich bin gerade mit meinem Latein am Ende..
Nach ein wenig experimentieren habe ich mich entschlossen, meinen Peer neu aufzusetzten. Bislang lief alles ohne Probleme. Nun habe ich den frischen Peer (out of the box install), aber bekomme keine Verbindung mehr in das Freeworld Netz.
Mittlerweile habe ich alle offensichtlichen Fehlerquellen abgeklopft:


Das ganze läuft auf einem aktuellen 64bit Arch Linux. In den letzten Tagen gab es ein Java-Update, aber auch ein Downgrade brachte keine Änderungen.
Da vorher alles lief (1.62 und latest Versionen), vermute ich den Fehler ganz klar bei mir, jedoch weiß ich nicht mehr, wo ich suchen soll.

Hier sind relevante Teile aus dem Logfile. Klare Fehlermeldungen gibt es keine. Aus irgendeinem Grund erhölt YaCy keine Seeds, obwohl die URLs manuell aufgerufen Peer-Adressen enthalten.

Code:
I 2013/10/01 19:12:53 YACY BOOTSTRAP: 0 seeds known from previous run, concurrently starting seedlist loader..S 2013/10/01 19:12:53 BusyThread thread 'net.yacy.search.Switchboard.loadSeedLists' terminated...I 2013/10/01 19:12:59 SERVER Trying to bind server to port 8090I 2013/10/01 19:12:59 Browser please start your browser and open the following location: http://localhost:8090/index.html..I 2013/10/01 19:13:09 YACY BOOTSTRAP: 0 seeds known from previous run, concurrently starting seedlist loaderI 2013/10/01 19:13:09 YACY re-initialized seed list. received 0 new peer(s)I 2013/10/01 19:13:09 HeapReader generating index for /usr/share/yacy/DATA/WORK/api.bheap, 0 MB. Please wait.I 2013/10/01 19:13:09 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/api.bheap, 0 entries, 0 gaps.I 2013/10/01 19:13:09 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheapI 2013/10/01 19:13:09 YACY BOOTSTRAP: seed-list URL http://mary.dyndns.biz/yacy/seed.txt too old (41 days)I 2013/10/01 19:13:09 YACY BOOTSTRAP: 0 seeds from seed-list URL http://home.arcor.de/hermens/yacy/seed.txt, AGE=0hI 2013/10/01 19:13:09 YACY BOOTSTRAP: 0 seeds from seed-list URL http://yacy.seed.mylookr.com/seed.txt, AGE=0hI 2013/10/01 19:13:09 YACY BOOTSTRAP: 0 seeds from seed-list URL http://www.yacy.net/seed.txt, AGE=2216hI 2013/10/01 19:13:09 YACY BOOTSTRAP: 0 seeds from seed-list URL http://img.homepage.bluewin.ch/352348/seed.txt, AGE=0hI 2013/10/01 19:13:10 YACY BOOTSTRAP: 0 seeds from seed-list URL https://esbek.iv.net.pl/yacy/seed.txt, AGE=0hI 2013/10/01 19:13:10 YACY BOOTSTRAP: 0 seeds from seed-list URL http://sixcooler.de/yacy/seed.txt, AGE=0hI 2013/10/01 19:13:14 YACY BOOTSTRAP: 0 seeds from seed-list URL http://www.lulabad.de/seed.txt, AGE=0h..S 2013/10/01 19:16:51 BusyThread thread 'net.yacy.peers.Network.peerPing' deployed, starting job.I 2013/10/01 19:16:51 YACY BOOTSTRAP: 0 seeds known from previous run, concurrently starting seedlist loaderI 2013/10/01 19:16:51 YACY re-initialized seed list. received 0 new peer(s)I 2013/10/01 19:16:51 YACY BOOTSTRAP: seed-list URL http://www.yacy.net/seed.txt too old (92 days)I 2013/10/01 19:16:51 YACY BOOTSTRAP: seed-list URL http://mary.dyndns.biz/yacy/seed.txt too old (41 days)I 2013/10/01 19:16:51 YACY BOOTSTRAP: 0 seeds from seed-list URL http://yacy.seed.mylookr.com/seed.txt, AGE=0hI 2013/10/01 19:16:51 YACY BOOTSTRAP: 0 seeds from seed-list URL http://home.arcor.de/hermens/yacy/seed.txt, AGE=0hI 2013/10/01 19:16:51 YACY BOOTSTRAP: 0 seeds from seed-list URL http://img.homepage.bluewin.ch/352348/seed.txt, AGE=0hI 2013/10/01 19:16:51 YACY BOOTSTRAP: 0 seeds from seed-list URL http://www.lulabad.de/seed.txt, AGE=0hI 2013/10/01 19:16:52 YACY BOOTSTRAP: 0 seeds from seed-list URL https://esbek.iv.net.pl/yacy/seed.txt, AGE=0hI 2013/10/01 19:16:52 YACY BOOTSTRAP: 0 seeds from seed-list URL http://sixcooler.de/yacy/seed.txt, AGE=0h



Wäre super, wenn irgendwer einen heißen Tip hätte :D

Statistik: Verfasst von surfvive — Di Okt 01, 2013 5:23 pm


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-10-02 09:58:58

das ganze hat auch einen IRC channel: irc.twit.tv channel #twitlive

Kann jemand von euch davon ein Protokoll machen? Ich folge der Empfehlung von twitlive und schaue selber _nicht_ darauf, weil das zu sehr ablenkt und man dann die Fragen von Randal nicht mehr mitbekommt.

Statistik: Verfasst von Orbiter — Mi Okt 02, 2013 8:58 am


Hilfe für Einsteiger und Anwender • Re: Keine Verbindung in die Freeworld

Date: 2013-10-02 10:20:10

Ich habe in der letzten Git Version im Switchboard{.postlink} die Debug Meldungen für die Header wieder eingeschaltet (Zeilen 3640-3647), die scheinen auch korrekt zu sein (entsprechende Meldungen zum Alter der Seeds kamen ja auch bereits).

Gibt es vielleicht eine Möglichkeit YaCy manuell eine SeedList zu übergeben? Im Code sieht es zumindest nicht danach aus.

[EDIT]{style=“font-weight: bold”}
*facepalm* :mrgreen:
nach etwas debugging hat sich rausgestellt, das die Peers jeweils als zu alt deklariert waren. Ursache war, dass sich aus irgendeinem Grund die Systemzeit verstellt hat. Mit korrekter Zeitzone/Systemzeit läuft alles wieder.
Sorry for the noise :oops:

Statistik: Verfasst von surfvive — Mi Okt 02, 2013 9:20 am


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-10-02 18:16:32

Habe ein Protokoll, lade es gleich hoch, wenn die Sendung vorbei ist.

Statistik: Verfasst von Low012 — Mi Okt 02, 2013 5:16 pm


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-10-02 18:47:32

oh cool, danke! super, das war eine interessante Erfahrung... mein Blutdruck geht gerade wieder runter.

Statistik: Verfasst von Orbiter — Mi Okt 02, 2013 5:47 pm


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-10-02 18:55:17

So, hier ist es. Leider konnte ich es nur als Textdatei abspeichern. Ich habe vorher leider nicht recherchiert und daher einen ziemlich blöden IRC-Client benutzt. Die Sendung konnte ich auch nicht komplett sehen, sondern erst ab 18:15. Den hohen Blutdruck konnte man dir ein bisschen ansehen, aber einen netten Hintergrund hast du gewählt. :ugeek:

Ach ja, das Video auf der YaCy-Seite hat Randal Schwartz irgendwie missverstanden...

Statistik: Verfasst von Low012 — Mi Okt 02, 2013 5:55 pm


Hilfe für Einsteiger und Anwender • Request of certification from browser

Date: 2013-10-03 11:45:59

My browser is Firefox, an I have configured it to automaticly load YaCy as my startpage (it seems to work). But when i activate the browser, I am confronted with a warning saying, that the conection to the YaCy-engine is not secure. There is missing a certification. I gues it must be certification of the entrance \‘http://localhost:8090/index.html'. How can I help to satisfy that request? - Hope somebody can adwise me.
On beforehand, thank You - Ole Rohde.

Statistik: Verfasst von Ole Rohde — Do Okt 03, 2013 10:45 am


YaCy Coding & Architektur • Re: Frage CollectionConfiguration

Date: 2013-10-03 14:40:50

Hilfe!! Kann bitte einer der Devs mal in den Code schauen ob das nach einem Neustart des Peers wieder ganz von vorne anfängt oder ab der Stelle weiterläuft wo es abgebrochen wurde?

Statistik: Verfasst von LA_FORGE — Do Okt 03, 2013 1:40 pm


Hilfe für Einsteiger und Anwender • Re: Request of certification from browser

Date: 2013-10-03 17:10:00

This is just the case, if you activated https.
You have to accept and store the certificate. It is self signed from the YaCy installation itself. You would have to worry if the warning is displayed after you have stored the certificate before and have not changed anything.

Statistik: Verfasst von Lotus — Do Okt 03, 2013 4:10 pm


Presse • Re: YaCy @ TWiT FLOSS-Weekly

Date: 2013-10-04 11:14:00

http://blog.yacy-websuche.de/2013/10/04 ... -267-yacy/{.postlink}

Statistik: Verfasst von Low012 — Fr Okt 04, 2013 10:14 am


Off-Topic • Re: Kaufen für die Müllhalde / The Light Bulb Conspiracy

Date: 2013-10-04 14:05:41

Ich habe diesen Film auf Arte gesehen, und fand ihn auch ganz gut.

Als Ingenieur muss ich aber auch zu bedenken geben: Die beste Qualität ist erreicht, wenn alle Bauteile zum vorher festgelegten Zeitpunkt x aufgrund von Alterung oder Verschleiß gleichzeitig kaputt gehen. Dann hat man den optimalen Nutzen aus dem eingesetzten Material, welches ja auch bezahlt wird. Eine Lebensdauer steht immer in den Entwicklungsvorgaben von einem Produkt. Heutzutage lässt sich das dank leistungsfähiger EDV viel genauer auslegen als früher.
Soweit ich mich erinnern kann, geht es in diesem Film aber eher um geziele Kontruktion, damit etwas nicht mehr benutzbar ist, obwohl es nicht kaputt ist.
Oft stehen in den Bedienungsanleitungen auch schon genügend Hinweise, wie die Produkte ausgelegt sind. Beispiel Küchengeräte, Handmixer. In der Regel steht dort, man soll ihn nur 3 Minuten einschalten und ihn dann 30 Minuten abkühlen lassen. Das steht dort, weil der Motor mehrfach überlastet wird, was zulässig ist, wenn man ihn in dieser Weise betreibt. So wird Geld gespart, weil man einen günstigeren Motor einsetzen kann. Bei Kinderspielzeug reicht es z.B. wenn der Motor eine Akkuladung durchhält. Danach ist das Spielzeug sowieso nicht mehr interessant.
Bei Handys habe ich heute den gleichen Eindruck. Ich benutze heute noch mein 10 Jahre altes Nokia 6100. Aktuellen Smartphones traue ich keine 5 Jahre zu, weshalb ich noch nicht umgestiegen bin. Außerdem gibt es bei Android keine serienmäßige Countdown Funktion (Wecker mit relativer Zeiteinstellung). ;) Die Displays sind übrigens robuster als es die Socken- und Taschen-Generation annimmt.

Statistik: Verfasst von Lotus — Fr Okt 04, 2013 1:05 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-10-04 19:50:29

Hallo,

leider funktioniert das Indizieren noch immer nicht. Die Urls werden via Dateien (zu jeweils 100.000 Links) hochgeladen. Zu Beginn ist alles kein Problem. Aber je größer der Index wird, desto mehr Speicher wird seitens YaCy benötigt. Ab 1 rd Mio. Urls wird das ganze instabil. Der Bedarf an RAM Speicher steigt zwar ebenfalls, ist zu dieser Zeit allerdings noch deutlich unter den verfügbaren 15GB. Der virtuelle Speicher liegt allerdings schon um die 50GB und YaCy reagiert nicht mehr. Der Prozess an sich läuft aber noch und wird nicht von der Prozessüberwachung beendet.

Wo liegt hier das Problem, weiß jemand weiter?
1000 Dank!

LG, hotel24

Statistik: Verfasst von hotel24 — Fr Okt 04, 2013 6:50 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-10-05 19:30:41

Eine türkische Suchmaschine. Schade, dass nirgends erwähnt wird, dass die Betreiber dafür das Yacy-Freeworld-Netzwerk nutzen.
[A turkish search engine. It\’s too bad, that the operators don\’t mention their use of the Yacy-Freeworld-network. ]{style=“font-style: italic”}

http://www.yasiy.com/

Statistik: Verfasst von David — Sa Okt 05, 2013 6:30 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-10-06 12:37:28

http://peksi.com/
http://www.yacy.sk/
http://search.itgrl.com/

Die Suchmaschine der Johannes Gutenberg-Universität Mainz:
[The search engine of the Johannes Gutenberg University Mainz:]{style=“font-style: italic”}
http://www.fsz.uni-mainz.de/48.php

IPredator, der VPN-Anonymisierungsdienst von The Pirate Bay, betreibt auch eine Yacy-Suche:
[IPredator, the VPN anonymizer of The Pirate Bay, runs a Yacy search as well: ]{style=“font-style: italic”}
http://search.ipredator.se/

Statistik: Verfasst von David — So Okt 06, 2013 11:37 am


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-10-06 21:33:20

Up

Statistik: Verfasst von Guims — So Okt 06, 2013 8:33 pm


Fragen und Antworten • Wiki-Fehler: URL of your website is incorrect, please ...

Date: 2013-10-07 21:01:15

Hallo,

ich bin gerade dabei, im Wiki die Beschreibung der Benutzeroberfläche zu ergänzen - diese ist bisher nur marginal beschrieben. (Seite: http://www.yacy-websearch.net/wiki/index.php/De:YaCy_benutzen)
Mehrmals konnte ich die Wiki-Artikel erfolgreich bearbeiten und speichern.

Leider erhalte ich jetzt ständig die Fehlermeldung: \”[URL of your website is incorrect, please check the URL of your website at
http://www.keycaptcha.com]{style="font-weight: bold”}\“.

Ich habe es sowohl im FF v24 als auch im IE 10.0.9200 getestet, Cookies gelöscht und zwischendurch auch den Router neugestartet (neue IP). Irgendwelche Script-Blocker o.ä. ist nicht aktiv (und war auch nicht die Störquelle, da ich die Wiki-Artikel vorher ohne Probleme bearbeiten und speichern konnte).

Ich vermute einen Fehler bei der Integration/Update von http://www.keycaptcha.com im Wiki.

Wer kann das nachprüfen und den Fehler beheben? Andernfalls bleibt das Wiki bis auf Weiteres nicht bearbeitbar!

Kontakt gern auf meine E-Mail: mail an janonymous punkt org

MfG
Jan

Statistik: Verfasst von JanOnymous — Mo Okt 07, 2013 8:01 pm


Wunschliste • Thesaurus / Stemming / Synonyme

Date: 2013-10-07 21:58:46

Das könnte auch unter \“Mitmachen\” stehen.

Ich habe mir kurzerhand mal den deutschen OpenThesaurus runtergeladen und per sed in die für YaCy benötigte Form tranferiert.
http://www.openthesaurus.de/about/download

Das geht so:

Code:
sed s/\\s*\([^\)]*\)\\s*//g openthesaurus.txt | sed s/\;/\,/g | sed s/^/\{/ | sed s/$/\}/  >openthesaurus_yacy


Kurze Erklärung dazu: 1) alles, was innerhalb von Klammern steht löschen, Whitespaces links und rechts der Klammer ebenso, 2) alle ; durch , ersetzen 3) am Zeilenanfang { hinzufügen 4) am Zeilenende } hinzufügen

Die Synonym-Liste hat dann folgendes Format:

Code:
{<synonym1>,<synonym2>,<synonym3>}


Orbiter hat es hier erklärt: http://www.yacy-forum.org/viewtopic.php?f=2&t=2784

Dort gehört sie hin:

Code:
/DATA/DICTIONARIES/synonyms



Um es zu testen, habe ich ein leeres Webportal Profil genommen. Die Snippet-Verifikation muss ausgeschaltet werden, sonst wird es bei der normalen Suchseite aussortiert!
Ich habe dann diesen Wikipedia-Artikel mit Tiefe 0 gecrawlt: http://de.wikipedia.org/wiki/Kernspaltung Dann nach \“Atomspaltung\” gesucht, und voila, es wird angezeigt, ohne dass das Wort im Artikel auftaucht. \“Prozess der Atomspaltung\” funktioniert auch, dann wird \“Prozess der\” im Snipped markiert.

Viel Spaß beim Spielen!
Ich lege eine fertige Kopie von der Liste ins addon Verzeichnis bei git.

PS: unten im Footer von Openthesaurus gibt es noch einen Link zu einer Grammatikprüfung. Vielleicht mann man sich damit mal alle Verben konjugieren. Das habe ich aber nicht weiter verfolgt.
http://www.languagetool.org/de/

Statistik: Verfasst von Lotus — Mo Okt 07, 2013 8:58 pm


Wunschliste • Re: Thesaurus / Stemming / Synonyme

Date: 2013-10-07 23:17:56

aaah total geil! öh, das wird aber noch nicht automatisch benutzt? Wenn nicht, wäre da noch ein Kopierprozess dafür sinnvoll. Schaue ich mir später noch an.

Statistik: Verfasst von Orbiter — Mo Okt 07, 2013 10:17 pm


Fragen und Antworten • Host Browser: Sicherheitslücke?

Date: 2013-10-08 16:59:54

Tach zusammen,

kann man nicht mit Hilfe des Host Browsers (z. B. hier: http://178.63.84.82:8092/HostBrowser.html?hosts=) ganz einfach meine Surf-Historie nachvollziehen (im Beispiel kann man etwa sämtliche besuchten Wikipedia-Einträge auflisten)? Oder habe ich den Host Browser falsch verstanden?

Grüße!

Statistik: Verfasst von r++GfDr/jLt2 — Di Okt 08, 2013 3:59 pm


Wunschliste • Re: Thesaurus / Stemming / Synonyme

Date: 2013-10-08 19:12:09

Nein, das wird noch nicht automatisch genutzt. Ich wollte es erst einmal zum spielen anbieten, zumal ich nicht weiß wie sehr das auf die Performance beim Crawlen geht und die Datenbank fett macht.
Im OpenThesaurus stehen auch viele Sachen drin, die mehrere Wörter statt eins nutzen. Und dann ist es oft nur die Grundform, die so alleine normal gar nicht benutzt wird. Andererseits sind die Daten die dort drin sind besser, als gar keine zu haben.

Den OpenThesaurus gibt es auch noch für andere Sprachen, die hier verlinkt sind: http://www.openthesaurus.de/about/index

\ Griechisch\ Polnisch\ Portugiesisch\ Slowenisch\ Spanisch\



Und nun noch für alle die kein Git haben, hier der Link zum Download:
https://gitorious.org/yacy/rc1/source/6 ... n/synonyms{.postlink}

Statistik: Verfasst von Lotus — Di Okt 08, 2013 6:12 pm


Fragen und Antworten • Re: Host Browser: Sicherheitslücke?

Date: 2013-10-08 21:29:44

Hallo,

Die Indexdaten werden ja automatisch via DHT im Netzwerk verteilt (du erhältst Indexdaten von anderen Teilnehmern, und versendest wiederum auch solche Daten.) Von daher ist es ziemlich schwer und aufwendig, und für aussenstehende eigentlich unmöglich, anhand des Host-Browsers zu sagen welche Seiten du selbst gecrawlt hast und welche nicht.

Dazu kommt noch, dass man ja nicht nur mit dem Proxy Seiten indexieren kann, sondern z. B. den Crawler mit irgendeiner Seite als Startpunkt losschicken kann, und er dann sozusagen selbständig seinen Weg sucht und so querbeet das Internet indexiert. Die so gecrawlten Seiten tauchen dann alle auch im Host-Browser auf, obwohl sich der Benutzer in den meisten Fällen eigentlich gar nicht für sie interessiert.

Statistik: Verfasst von David — Di Okt 08, 2013 8:29 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-10-08 21:38:53

Wenn du deinen Yacy mit 100\‘000 Links gefüttert hast, wartest du aber schon bis diese abgearbeitet sind, oder?

Statistik: Verfasst von David — Di Okt 08, 2013 8:38 pm


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-10-09 08:45:16

Ja, die jeweils nächsten 100.000 Links werden erst dann hochgeladen, wenn der Crawler fertig ist.

Irgendetwas scheint sich im Hintergrund abzugleichen, zu optimieren, oder dergleichen und mit zunehmender Anzahl an Links staut sich dies mehr und mehr auf, sodass letztendlich YaCy still steht. Wie gesagt, in einer früheren Version (vor ca. einem halben Jahr) war dieses Problem nicht vorhanden. Da waren auch Dateien mit 1 Mio. Links kein Problem.

Statistik: Verfasst von hotel24 — Mi Okt 09, 2013 7:45 am


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-10-09 11:25:45

hotel24 hat geschrieben:\ Im Logfile ist etwas von solr-Optimierung gestanden. Nach rd. 2h war dieser Vorgang dann beendet und die CPU Last wieder ok.\


Das ist der postprocessing-job. Er nimmt sich alle hosts der zuletzt beendeten crawls und macht eine Linkstrukturanalyse, wobei der Citation Rank und die Klicktiefe jeder URL jedes Hosts der Crawls bestimmt werden. Diese Werte sollen für das Ranking benutzt werden, funktioniert aber noch nicht so ganz.

Du kannst das ausschalten, indem du in IndexSchema_p.html die Felder clickdepth_i, cr_host_count_i, cr_host_chance_d, cr_host_norm_i und process_sxt deaktivierst.

Statistik: Verfasst von Orbiter — Mi Okt 09, 2013 10:25 am


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-10-09 23:05:52

Do I have this right? You want to use three yacys as crawlers, and another yacy tells the other three what sites to crawl?

Statistik: Verfasst von David — Mi Okt 09, 2013 10:05 pm


YaCy Coding & Architektur • Hilfe bei Git pull request

Date: 2013-10-10 10:41:52

Hi,
ich habe einige Änderungen an YaCy vorgenommen und wollte euch diesbezüglich einen Pull-Request schicken, jedoch klappt das ganze irgendwie nicht. Da ich relativ frisch im Umgang mit git und gitorious bin frage ich mich, was der Fehler ist.
Meine Änderungen liegen im CSE-post{.postlink} branch, wenn ich jedoch einen Pull-Request erstelle (mein Branch auf rc1/master) kann ich keine Commits auswählen, obwohl Änderungen vorliegen (git diff zeigt diese auch an).
Im Gitourious Forum bin ich nicht fündig geworden, denke aber, dass der Fehler irgendwo bei mir liegt.

Vielleicht kann mir jemand mit mehr Erfahrung auf die Sprünge helfen :)

Statistik: Verfasst von surfvive — Do Okt 10, 2013 9:41 am


YaCy Coding & Architektur • Re: Hilfe bei Git pull request

Date: 2013-10-10 11:31:31

Hi, ich habe deinen branch gestern gemerged! Die Crawler-Start Sachen aus dem Process Scheduler heraus sind super Sache, die Idee hatte ich schon mal aber hatte die Zeit nicht. Oder ist das nun etwas anderes?
Nachdem ich deinen Code gemerged hatte, wollte ich dir auf deinen merge request antworten, der war aber dann verschwunden!

Statistik: Verfasst von Orbiter — Do Okt 10, 2013 10:31 am


YaCy Coding & Architektur • Re: Hilfe bei Git pull request

Date: 2013-10-10 12:01:14

Ah, dann ist alles klar :).
An dem Code habe ich nichts weiter verändert. Ich hatte den Request abgeschickt und war später von dem Umfang der Änderungen die Angezeigt wurden irritiert und ging von einem Fehler aus. Deshalb hatte ich den zurückgezogen.
Aber wenn das bereits gemerged ist, dann ist klar, warum ich keine Commits wählen kann.

Vielen Dank, alles in Butter :)

Statistik: Verfasst von surfvive — Do Okt 10, 2013 11:01 am


Hilfe für Einsteiger und Anwender • Re: Reihenfolge der Suchergebnisse

Date: 2013-10-10 17:34:18

ich greife das nochmal auf weil es hier Verbesserungen gibt!
Eine bestimmte experimentelle Einstellung im Ranking (boost functions) hat das Ranking in letzter Zeit unnötig schlecht gemacht :(

Seit gestern habe ich einen Patch im Code, der die falschen Standardeinstellungen überschreibt. Ich hoffe dass das klappt, ansonsten bitte nach dem Update auf die letzte dev-Version in /RankingSolr_p.html mal (3x) auf \“Re-Set to default\” klicken (je in allen drei Kategorien).

Und dann mal ausprobieren, geht viel besser :)

Statistik: Verfasst von Orbiter — Do Okt 10, 2013 4:34 pm


Hilfe für Einsteiger und Anwender • Index und Collections

Date: 2013-10-11 00:12:56

Hallo zusammen :)
Ich hatte angefangen mir mit Hilfe von yacy zum Test einen Index zu einem bestimmten Thema zu erstellen. Bei meinen Crawlversuchen hatte ich die zu indizierenden Seiten keiner collection zugeordnet. Jetzt wo ich schon mehr als 60K Dokumente im index habe, finde ich gefallen an der Möglichkeit Seiten in verschiedene Collections zu verteilen, um gezieltere Suchen zu ermöglichen.

Meine Frage dazu: Wenn ich einen Crawl aufrufe und jetzt den collection Parameter setze, werden da alle Dokumente der Domain erneut gecrawlt, weil nicht in der Collection vorhanden oder werden die bereits im Index existierenden Dokumente enfach nur der angegebenen collection zugewiesen?

Hier noch als Beispiel die URL, wie ich bisher einen crawl initiiert habe und wie ich das ab jetzt gerne machen würde:

bisher:

Code:
http://localhost:31999/Crawler_p.html?reloadIfOlderNumber=&crawlingDomMaxPages=1000&deleteold=off&intention=&range=domain&indexMedia=off&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=&crawlingQ=on&cachePolicy=iffresh&crawlingMode=url&indexText=on&crawlingURL=http://www.domain.de&crawlingDomFilterDepth=1&mustnotmatch=&bookmarkTitle=http://www.domain.de&crawlingDomFilterCheck=off&reloadIfOlderUnit=day&directDocByURL=off&crawlingstart=Starte%20neuen%20Crawl&crawlingDepth=5&crawlingDomMaxCheck=500



zukünftig:

Code:
http://localhost:31999/Crawler_p.html?reloadIfOlderNumber=&crawlingDomMaxPages=1000&deleteold=off&intention=&range=domain&indexMedia=off&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=mycollection&crawlingQ=on&cachePolicy=iffresh&crawlingMode=url&indexText=on&crawlingURL=http://www.domain.de&crawlingDomFilterDepth=1&mustnotmatch=&bookmarkTitle=http://www.domain.de&crawlingDomFilterCheck=off&reloadIfOlderUnit=day&directDocByURL=off&crawlingstart=Starte%20neuen%20Crawl&crawlingDepth=5&crawlingDomMaxCheck=500



Der einzige Unterschied ist der collection Parameter.

Grüße

Statistik: Verfasst von freak — Do Okt 10, 2013 11:12 pm


Hilfe für Einsteiger und Anwender • Re: Index und Collections

Date: 2013-10-11 09:20:35

ein nachträgliches Zuweisen oder Ändern der Collection gibts nicht. 60k Dokumente sind aber schnell neu indexiert, hierzu gibts auch ein neues Mittel: Crawl Clones!
Seit dieser Woche ist im Process Scheduler ein \‘Clone\’ Button an jedem Crawl, da kann man dann so ein Crawl wieder-editieren und die entsprechenden Parameter ändern. Ich empfehle hier auch noch den Flag \‘from cache\’ zu setzten, dann werden die Dokumente komplett aus dem Webcache genommen und der Crawl sollte schnell durch sein.

Statistik: Verfasst von Orbiter — Fr Okt 11, 2013 8:20 am


Hilfe für Einsteiger und Anwender • Re: Hohe CPU Load

Date: 2013-10-11 17:05:40

Hey, super, Danke! Ich glaub, das war das Problem. :)
Ich habe jetzt die Felder deaktiviert. Auch wenn ich die neue Einstellung bisher nur mit \“kleinen\” Dateien zu jeweils 10.000 Links getestet habe, scheint YaCy nun viel schneller und ressourcenschonender zu laufen und stürzt vor allem nicht mehr ab.

LG, hotel24

Statistik: Verfasst von hotel24 — Fr Okt 11, 2013 4:05 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-10-11 17:36:21

Die Tagesschau weiss wieder mal genau wie Hacker aussehen!{.postlink}
Bild
So ein blödes Klischeebild sollte man vielleicht sogar mal nachstellen, aber was soll dieser Mist auf den Bildschirmen? der rechte und der zweite von links zeigt das gleiche Bild. Was ist das für ein splash-image auf dem Notebook?

Statistik: Verfasst von Orbiter — Fr Okt 11, 2013 4:36 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-10-11 23:03:49

Mensch Orbiter,

das ist doch nur ne virale Sony Werbung :roll:

Statistik: Verfasst von 140#gast — Fr Okt 11, 2013 10:03 pm


Hilfe für Einsteiger und Anwender • Re: Index und Collections

Date: 2013-10-12 00:19:07

Halo Orbiter

Danke für die Info. Ich hol mir die Dokumente einfach nochmal und sortier die gleich in eine Collection. :)

Statistik: Verfasst von freak — Fr Okt 11, 2013 11:19 pm


Presse • Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-13 18:37:27

Offenbar finden ein paar Leute den Yacy-Bot nicht so toll:

\“Der YaCy-Bot ist der Crawler einer verteilten Suchmaschine aus Russland, die mit Peer-to-Peer-Technik arbeitet. Bereits durch dieses Funktionsprinzip ist ein hohes Risiko von - möglicherweise unbeabsichtigten - DDoS-Angriffen gegeben.\”
Quelle: http://de.wetena.com/bot/yacy-bot

\“Beim YaCy-Bot neige ich zur Ansicht von Wetena. Dass der Bot unbekümmert vorgeht habe ich auch festgestellt. Auch wenn der Grundgedanke durchaus in Ordnung ist, Spammer, Content-Grabber und die üblichen robots.txt-Ignoranten verwenden alles, was sich verwenden lässt.\”
Quelle: http://www.kocznar.com/bot/blacklist/YaCy-Bot.htm (Domain ist für den Yacy-User-Agent gesperrt.)

Statistik: Verfasst von David — So Okt 13, 2013 5:37 pm


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2013-10-14 01:25:10

http://freemusicarchive.org

Statistik: Verfasst von Orbiter — Mo Okt 14, 2013 12:25 am


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-14 01:39:27

ohne Trollfutter verstreuen zu wollen: der yacybot ist äusserst konservativ was die robots.txt angeht! Das heisst:

- die robots.txt wird selbstverständlich befolgt
- der crawler läd niemals mehr als 2 Seiten pro Sekunde von der gleichen Domäne um eben nicht zu DoSen,
- der crawlen ist gar nicht unbekümmert weil er auch noch die Antwortzeit des remote Servers misst und mindestens das doppelte der letzten Antwortzeit als mindest-Wartezeit zwischen zwei Ladezugriffen nutzt. Eine Einsicht in die Statistik über die remote response Time hat man in jedem Peer in /api/latency_p.xml

Um das plausibel zu machen:
- bei jeden Crawl Start wird die robots.txt geladen. Nur wenn diese das Crawlen erlaubt, wird auch der Crawl Start erlaubt. Das sieht man interaktiv während man die Start-URL eintippt durch Erscheinen des grünen Hakens.
- eine Einsicht in die Liste der geladenen robots.txt erhält man über die Seite /Tables_p.html?table=robots
- einen Test, ob die robots.txt erkannt und richtig verstanden wird kann man mit Hilfe der Seite /CrawlCheck_p.html durchführen.

Ausserdem gibt der User-Agent von YaCy den Link http://yacy.net/bot.html an, welcher erklärt dass Yacy die robots.txt befolgt.

Statistik: Verfasst von Orbiter — Mo Okt 14, 2013 12:39 am


Hilfe für Einsteiger und Anwender • Re: Change Yacy User agent

Date: 2013-10-14 15:25:07

This is really good idea i think. But i would not replace the yacy url by a user url. The link to yacy should be left as is.

Another way could be: Just give the user the ability to add an additional part to the user agent string, example:

Code:
yacybot (amd64 Linux 2.6.16-2-amd64-k8-smp; java 1.5.0_10; Europe/en) http://yacy.net/yacy/bot.html - This YaCy instance is maintained by www.userswebpage.com


This could be really nice feature for people with their own theme specific search instance.

Statistik: Verfasst von freak — Mo Okt 14, 2013 2:25 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-14 15:58:07

Dazu hab ich eine (Verständnis)-Frage: Auch wenn ein [einzelner]{style=“font-style: italic”} Crawler alles macht, um nicht unnötig viele Request an eine Internetseite abzusetzen, wie sieht das im YaCy Netzwerk aus? Hier gibt es ja theoretisch unzählige YaCy Instanzen, jede für sich mit einem Crawler. Was passiert z.B. wenn 10 YaCy Instanzen zufällig dieselbe Domain crawlen? Würde das nicht die Schutzmechanismen, wie z.b. das ein Crawler nur 2 Seiten / Sekunde holt nicht aushebeln? Bei 10 Crawlern wären das ja rein rechnerisch schon 20 Seiten / Sekunde, die ein Webserver für YaCy abarbeiten müsste.
Unterhalten sich die YaCy Instanzen im Netzwerk was sie gerade crawlen, um so etwas zu vermeiden oder kann man das Thema verschiedene \“Yacy Instanzen - gleiche Domain\” generell vernachlässigen, weil es statistich gesehen nicht oder sehr selten vorkommt?

Statistik: Verfasst von freak — Mo Okt 14, 2013 2:58 pm


Off-Topic • Re: Kaufen für die Müllhalde / The Light Bulb Conspiracy

Date: 2013-10-14 16:07:00

Ein Artikel zu diesem Thema gibt es auch auf Telepolis: http://www.heise.de/tp/artikel/39/39022/1.html

Habe die Doku leider verpasst, aber ich vermute fast, das der Film auf Grundlage des Buches (oder umgekehrt?) entstanden ist. Wenn es nicht sogar die gleiche Leute sind.

Statistik: Verfasst von freak — Mo Okt 14, 2013 3:07 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-14 18:36:12

natürlich kann so etwas zufällig passieren, oder wenn man das vermuten will: man kann sich dazu auch verabreden. Das ist aber kein Problem von YaCy, eine solcher Zusammenschluss von Leuten zum Zwecke des DDoSen kann ja auch mit jeder anderen Software ausgeführt werden, und da gibt es wesentlich bessere Werkzeuge als YaCy die dafür gedacht sind so etwas agressiv zu tun.

Was hier wichtig ist: es gibt dabei keinen konzeptionellen Fehler bei YaCy, denn die in YaCy vorhandene remote-crawl Funktion, welche ja Teile des Crawl Baumes nach aussen abgeben kann, hat ebenfalls die gleiche Crawl-Bremse eingebaut: die URLs werden so vom Crawl Stack für die remote Crawler ausgelesen, als sollten sie lokal geladen werden. Und hier schlägt auch die Bremse zu, so dass es kein \‘versehentliches\’ DDoSen durch einen Konstruktionsfehler in YaCy geben kann.

Wenn man sich diese Argumente in den Berichten oben durchliest, so sieht man sehr deutlich dass diese \‘vermutlichen Beschuldigungen\’ nicht aus Erfahrungswerten herausgelesen wurden sondern auf den Verdacht, dass bei der Konstruktion von YaCy doch bestimmt ein Fehler sei. Das ist nicht so.

Statistik: Verfasst von Orbiter — Mo Okt 14, 2013 5:36 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-14 18:59:43

Orbiter hat geschrieben:\ \...\ \ Was hier wichtig ist: es gibt dabei keinen konzeptionellen Fehler bei YaCy, denn die in YaCy vorhandene remote-crawl Funktion, welche ja Teile des Crawl Baumes nach aussen abgeben kann, hat ebenfalls die gleiche Crawl-Bremse eingebaut: die URLs werden so vom Crawl Stack für die remote Crawler ausgelesen, als sollten sie lokal geladen werden. Und hier schlägt auch die Bremse zu, so dass es kein \'versehentliches\' DDoSen durch einen Konstruktionsfehler in YaCy geben kann.\ \....\


Ok, danke für die Infos. :)
Was kann man jetzt gegen solche falschen negativ Meldungen zum YaCy Crawler unternehmen?

Statistik: Verfasst von freak — Mo Okt 14, 2013 5:59 pm


Presse • YaCy bei gnufunzt

Date: 2013-10-15 11:07:12

im September 2013 wurde in
http://gnufunzt.de/index.php?e=9
u. a. YaCy (ab ca. Minute 13:00) vorgestellt. In der Bewertung wurde bemängelt, dass
- die Oberfläche und die Bedienung unübersichtlich ist,
- keine Dokumentation über die Funktionsweise der Suchmaschine existiert

Als lobenswert wurde der Peer-to-Peer Gedanke hevorgehoben und dass YaCy auch für kleine Firmen und Vereine interessant sei.

Statistik: Verfasst von lux — Di Okt 15, 2013 10:07 am


Wunschliste • Anzahl gecrawlter Dokumente / Job

Date: 2013-10-15 16:05:48

Ist es möglich, das man in der Prozess Liste ( /Table_API_p.html ) für Jobs des Typs crawler noch eine Spalte angezeigt bekommt, aus der hervor geht, wieviel Seiten der CrawlJob beim letzten Lauf gecrawlt hat bzw. wieviel Seiten (neu) indexiert wurden?

Gerade wenn man die Jobs automatisiert über den Scheduler starten lässt bzw. die Jobs von extern via wget startet, wäre es von Vorteil zu sehen, was die Jobs an neuen Seiten verarbeitet haben. Man hätte damit auch gleich eine gewisse Kontrolle darüber, ob man die Jobs mit den richtigen Parametern aufgerufen hat.

Grüße

Statistik: Verfasst von freak — Di Okt 15, 2013 3:05 pm


Wunschliste • Re: Anzahl gecrawlter Dokumente / Job

Date: 2013-10-15 18:01:47

Diese Information könnte man aufgrund einer Änderung im Postprocessing nun tatsächlich erhalten, da wird das Postprocessing ja pro Crawl einzeln angestossen, und das weiss auch wieviele Dokumente dazugehören.
Nur weiss ich momentan noch nicht wie und wo ich das speichern werde, mal sehen.

Statistik: Verfasst von Orbiter — Di Okt 15, 2013 5:01 pm


Presse • Re: YaCy bei gnufunzt

Date: 2013-10-16 12:03:35

das ist eine prima Reportage! Ich habe dort noch mehr berechtigte Kritik gesehen und habe deswegen erst mal das iframe zum Donate abgeändert, so dass dieses Iframe nun in den lokalen webserver geht.

Die Kritik an der \‘altbackenen\’ (so sagten sie es nicht, meinten es aber so) Oberfläche von YaCy ist ebenfalls berechtigt, da kann ich aber nicht so einfach was dran machen. Wir brauchen Designer die sich mal darum kümmern! Aber nicht wie hier schon öfters vorgeschlagen: alles neu gestalten. Da kommen wir nie hin, nicht mit 20 Leuten die das machen. Was aber ein einzelner machen kann, ist eine Überarbeitung des hroot/env/base und einem neuen Skin, mehr braucht man nicht um die Darstellung aufzufrischen.

An der Dokumentation kann man ebenfalls nicht gleich was dran machen: das hier ist eine Wissensdomäne bei der man semesterweise Vorlesungen drüber halten könnte. Ein FAQ füllt diese Lücke nicht aus. Ich hatte schon mal überlegt, so eine Reihe von 3-Minuten Erklärvideos zu machen, aber das brauch auch Zeit... Vielleicht gibts hier ja Helfer?

Statistik: Verfasst von Orbiter — Mi Okt 16, 2013 11:03 am


Mitmachen • Re: Yacy bekannter machen

Date: 2013-10-17 12:30:01

Hello Friends . I write through Google translator so there may be mistakes. Mnya have a good idea how to attract thousands of people to YASY. You need to give them a tasty cookie. There are many SEO masters who need to keep track of backlinks to websites . YACY scan sites and can save the data on these links. For his work in the project webmaster to get credit to spend on link analysis .
These thoughts come from the project majestic12.co.uk, buyout uses slaves free meals for their project majesticseo.com and sells the results for the money.
What to think?

Statistik: Verfasst von Kai — Do Okt 17, 2013 11:30 am


Wunschliste • Personalisierte Startseite

Date: 2013-10-18 21:54:41

Ich möchte hier nur kurz eine Idee abladen, die mir beim Lesen dieses Atikels kam:
http://www.heise.de/newsticker/meldung/ ... 81499.html{.postlink}

YaCy könnte durchaus eine personalisierte Startseite anbieten, auf der beispielsweise Wetter, Nachrichten + X angezeigt werden können. Einen RSS Parser gibt es ja schon. Eine Möglichkeit Alerts über die Such-Funktion auch. Und eine Suche sowieso. ;) Dem ganzen könnte man auch einen schönen Namen geben: Mein Netz, weil alles Lokal generiert wird.
Bookmarks könnten auch angebunden werden.
Das Wiki könnte man als Notizblock benutzen.
Oder eine Funktion, um getätigte Suchen abzuspeichern.

Statistik: Verfasst von Lotus — Fr Okt 18, 2013 8:54 pm


Mitmachen • Federation bei verschiedenen dezentralen Projekten

Date: 2013-10-20 14:24:02

Hi, die Federation (Inter-Server-Kommunikation) ist bei verteilten Systemen ja immer durchaus ein kompliziertes Topic.
Beim freien sozialen Netzwerk Diaspora muss diese Funktion überarbeitet werden und wird nun als eigene Zwischenschicht isoliert und herausgelöst. Das möchte eine Workinggroup angehen:
https://www.loomio.org/discussions/766

Mein Vorschlag wäre, ob man das nicht Projekt-übergreifend realisieren möchte, so dass etwa auch Mediagobblin{.postlink}, ... und andere Projekte das selbe Protokoll sprechen und damit Entwicklungsaufwand einsparen und Kräfte bündeln. Könnte ja ein Pendant wie XMPP für IM rauskommen wenn es wirklich gut läuft und dafür kriegt man sicherlich ein Fundraising hin, damit man mal ein paar Monate ungestört dran arbeiten kann.

Statistik: Verfasst von Seitenreiter — So Okt 20, 2013 1:24 pm


Mitmachen • Re: Yacy bekannter machen

Date: 2013-10-20 14:28:26

\@Kai personally I see SEO as some kind of enemy, as they don\’t rely on the wisdom of the search engine, but try to cheat to place their pages in top10. This is egoistic behaviour and results to suboptimal results for the enduser.

Statistik: Verfasst von Seitenreiter — So Okt 20, 2013 1:28 pm


Mitmachen • Re: Yacy bekannter machen

Date: 2013-10-20 14:34:31

Versteht mich bitte nicht falsch, ihr leistet großartige Arbeit, aber IMHO ist Yacy noch gar nicht so weit, dass man das wirklich breit bewerben sollte. Aus meiner Erfahrung sind das insbesondere:

Das sind nur mal ganz allgemein meine Eindrücke und ja, es ist gemein bei FLOSS zu meckern, ohne selbst was beizutragen.
IMHO liegt aber genau da der Hase begraben: Vielleicht sollte der Werbe-Fokus eher dahin gehen weitere Entwickler zu motivieren?

Statistik: Verfasst von Seitenreiter — So Okt 20, 2013 1:34 pm


Hilfe für Einsteiger und Anwender • Geschützter Admin-Bereich, aber http!?

Date: 2013-10-21 11:38:27

Hallo YaCy-Fans,
der Admin-Bereich ist zwar teilweise kennwortgeschützt, aber der Netzverkehr geht über das http-Protokoll. Demnach kann man den Datenstrom mitlesen und Benutzername und Kennwort herausfiltern. Sehe ich das richtig (oder falsch)?
Jetzt kenne ich zwar die Option \“with SSL (https enabled)\“, diese ist aber so formuliert, dass ich davon ausgehen muss, dass nur andere Peers https mit meiner Instanz sprechen.
Zudem kann ich zwar meine YaCy-Installation wohl auch über https ansprechen ... aber leider \“nur zusätzlich\“, d.h. http geht parallel auch noch.
Wie kann ich den kompletten Fernzugriff nur über https realisieren?
LG Yuki

Statistik: Verfasst von Yuki — Mo Okt 21, 2013 10:38 am


Hilfe für Einsteiger und Anwender • Re: Geschützter Admin-Bereich, aber http!?

Date: 2013-10-21 12:06:09

Die Option \“with SSL (https enabled)\” ist zwar ok, du kannst aber auch mit einem eigenen Zertifikat und stunnel ein https-Interface vor YaCy setzen:
http://www.yacy-websearch.net/wiki/inde ... yOverHTTPS{.postlink}
Du hättest dann einen \‘echten\’ https Port 443. Den YaCy-internen Port 8090 könntest du dann über iptables sperren:

Code:
/sbin/iptables -A INPUT -p tcp --destination-port 8090 -j DROP


z.B. hier beschrieben: http://www.cyberciti.biz/faq/iptables-block-port/

Das ist aber nur ratsam bei einem eigenen Suchportal, für die p2p-Konfiguration ist das nichts, das geht nur über http.

Statistik: Verfasst von Orbiter — Mo Okt 21, 2013 11:06 am


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-10-21 12:40:33

Hello David,

I now work this way.
1 solr server for data
2 YaCy servers with each list a different site crawler

what I want:
1 solr server for data
YaCy 1 server with a single list of site crawler
YaCy X server that will crawler my list

Basically I want to do to increase cluster performance / redundancy as an example ScienceNet

Statistik: Verfasst von Guims — Mo Okt 21, 2013 11:40 am


Mitmachen • Re: Yacy bekannter machen

Date: 2013-10-21 13:03:14

Ich glaube, dass es möglich ist, ein notwendiges Übel SEO tolerieren, und bekommen eine Menge Rechenleistung für YaCy. Nur in meinem RU sigmente gibt es zwischen 100.000 Menschen in SEO für Google und Yandex beteiligt.

Statistik: Verfasst von Kai — Mo Okt 21, 2013 12:03 pm


Hilfe für Einsteiger und Anwender • Re: Geschützter Admin-Bereich, aber http!?

Date: 2013-10-21 13:16:57

Danke für die Info!

Statistik: Verfasst von Yuki — Mo Okt 21, 2013 12:16 pm


Fragen und Antworten • Retry \“load fail\”

Date: 2013-10-21 13:52:43

Hello,

What is the best way to crawl retry the urls with status \“load fail\“.
Because i have a crash of yacy and many urls have status \“load fail\“.

Thx

Statistik: Verfasst von Guims — Mo Okt 21, 2013 12:52 pm


Fragen und Antworten • Hilfe Bei yacy und solr

Date: 2013-10-21 16:46:29

Kann einer mir helfen . Habe bei solr mmer den Fehler 16:20:13 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:34037

Statistik: Verfasst von ww1com — Mo Okt 21, 2013 3:46 pm


Off-Topic • Wer sucht Suchmaschinen-Optimierer ?

Date: 2013-10-22 12:06:41

Suchmaschinenoptimierung / Adwords-Kampagnen
Agentur aus Ostwestfalen
http://seo.x-instruments.de

Statistik: Verfasst von thom443 — Di Okt 22, 2013 11:06 am


Suchmaschinen • Re: Googles Umgang mit robots.txt

Date: 2013-10-22 15:02:10

hm, wir haben seit ein paar Tagen auch die Anchor Texte zu den Links im Index, jedoch werden die noch nicht zur Suche benutzt. Könnten wir aber.…

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:02 pm


Wunschliste • Re: Präprozessierung mittels XSLT

Date: 2013-10-22 15:05:36

das ist eine super Idee! Wäre das Anwendungszenario folgendermaßen:
- beim Crawl Start gebe ich so eine XSLT an. Man könnte das so machen, dass man das nur kann, wenn man den Crawl auf eine Domäne begrenzt. Dann kann man eine XSLT angeben, die eben genau auf die Dokumente der Domäne passt.
- der Crawler transformiert alle Dokumente vor dem Parsen

Oder wäre ein allgemeines XSLT-Archiv mit matches für bestimmte URL-regexe besser?
Würdest du Beispiel-XSLTs machen, die z.B. auf mediawiki, phpbb etc passen?

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:05 pm


YaCy Coding & Architektur • Re: Code, Style, Dokumentation, Modularisierung, etc.

Date: 2013-10-22 15:19:30

den Scheduler muss man nicht aufbohren, der kann alles was das Interface kann. Dazu muss im entsprechenden Servlet nur eine Zeile hinzugefügt werden, die den Aufruf des Servlets im Scheduler speichert. Das ist daher schon so modular wie man was nur mudular machen kann.

Was meinst du mit plug-ins konkret?

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:19 pm


Hilfe für Einsteiger und Anwender • Re: Keine Verbindung in die Freeworld

Date: 2013-10-22 15:36:14

ach herrje, an so einen Fall hatte ich auch noch nie gedacht. Ja das mag ggf. sogar ganz oft vorkommen, daher baue ich nun einen Patch wo das Datum von mindestens einer Seedlist nicht geprüft wird, damit es hier immer eine Seedlist-Quelle gibt.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:36 pm


YaCy Coding & Architektur • Re: Frage CollectionConfiguration

Date: 2013-10-22 15:37:06

Die CR-Berechnung war buggy! Habs gefixt.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:37 pm


Fragen und Antworten • Re: Wiki-Fehler: URL of your website is incorrect, please ..

Date: 2013-10-22 15:40:52

ist das immer noch so? Kann mal jemand nach dem Wiki gucken?

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:40 pm


Hilfe für Einsteiger und Anwender • Re: Change Yacy User agent

Date: 2013-10-22 15:44:07

changing the user agent to something generic would not be a good idea since this will be recognized as \‘bad habit\‘. But the suggestion to have an additional text at the end is ok. Lets see, I will put this on my list.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:44 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-22 15:49:20

naja du kannst das machen was jeweils möglich ist: Texte im Wiki abändern, in foren kommentieren und ggf. den Leuten eine email schreiben.
Aber du weisst ja was passiert, wenn man einen troll füttert.…

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:49 pm


Mitmachen • Re: Federation bei verschiedenen dezentralen Projekten

Date: 2013-10-22 15:53:27

keine schlechte Idee, wir hatten auch schon mal so etwas wie Crawl Hubs diskutiert (während einem Linuxtag). Was da in Frage kommen würde, wäre z.B. ein Apache ActiveMQ, damit habe ich auch schon Erfahrung. Da kann man XMPP-Messages drin Queuen oder Broadcasts machen. Das ist aber alles fertig, man müsste nur die Messages definieren. Und die sind bei Diaspora sicherlich ganz anders als bei YaCy, sind ja verschiedene Aufgaben. Aber warum nehmen die bei Diaspora nicht einfach auch so etwas?

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:53 pm


Fragen und Antworten • Re: How Build Public Peer in cluster

Date: 2013-10-22 15:55:46

Yes you can easily set up three YaCy without the built-in Solr and assign the same Solr to all three YaCy instances. But you cannot distribute the crawl list this way. This works only for YaCy networks and you would need to define your own YaCy network within these Peers.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:55 pm


Fragen und Antworten • Re: Retry \“load fail\”

Date: 2013-10-22 15:57:44

Thats easy, just open the Process Scheduler (/Table_API_p.html), then check the row with your crawl (probably the last line) and hit the \‘Execute Selected Actions\’ button.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:57 pm


Fragen und Antworten • Re: Hilfe Bei yacy und solr

Date: 2013-10-22 15:58:32

ups, noch nie gesehen. Bitte mehr log bzw. eine Beschreibung was du besonderes konfiguriert hast und was das gerade macht.

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 2:58 pm


Fragen und Antworten • Re: Hilfe Bei yacy und solr

Date: 2013-10-22 17:10:26

Habe mal yacy und solr installiert
jetzt kommt unter solr logging die Meldung

Wenn du Jetzt mehr Infos Haben Möchtest dan muss du mir mal sagen wo.

17:00:17 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:59907
17:00:17 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60043
17:00:17 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60044
17:00:17 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60045
17:00:21 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:59909
17:02:22 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60095
17:02:22 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60099
17:02:22 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60100
17:02:41 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:59913
17:02:41 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60102
17:02:42 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60103
17:02:42 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60104
17:02:50 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60047
17:02:50 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60110
17:03:09 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60105
17:03:09 WARN HttpParser HttpParser Full for /192.168.0.22:8983 <--> /192.168.0.22:60112

Statistik: Verfasst von ww1com — Di Okt 22, 2013 4:10 pm


Fragen und Antworten • Re: Hilfe Bei yacy und solr

Date: 2013-10-22 17:14:37

ist ja schräg, hab nur das hier gefunden:
http://stackoverflow.com/questions/1434 ... arser-full{.postlink}
das kommt nicht von YaCy sondern aus dem jetty, wo Solr drin läuft.
Angeblich wäre das der http request zu groß, das sagt mir gar nichts.
Wie genau löst du das aus? Kommt das einfach so?

Statistik: Verfasst von Orbiter — Di Okt 22, 2013 4:14 pm


Fragen und Antworten • Re: Hilfe Bei yacy und solr

Date: 2013-10-22 17:28:00

Orbiter hat geschrieben:\ ist ja schräg, hab nur das hier gefunden:\ [http://stackoverflow.com/questions/1434 \... arser-full](http://stackoverflow.com/questions/14345872/jetty-httpparser-full){.postlink}\ das kommt nicht von YaCy sondern aus dem jetty, wo Solr drin läuft.\ Angeblich wäre das der http request zu groß, das sagt mir gar nichts.\ Wie genau löst du das aus? Kommt das einfach so?\





http request !

Statistik: Verfasst von ww1com — Di Okt 22, 2013 4:28 pm


Fragen und Antworten • Re: Wiki-Fehler: URL of your website is incorrect, please ..

Date: 2013-10-22 18:58:27

Hallo, ich habe es jetzt an einem anderen Rechner getestet, da funktionierte es wieder. Ich möchte aber nicht beschwören, dass es ab jetzt immer funktioniert. Mal schauen...

Statistik: Verfasst von JanOnymous — Di Okt 22, 2013 5:58 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-22 19:47:34

Orbiter hat geschrieben:\ \...Aber du weisst ja was passiert, wenn man einen troll füttert\....\


Ja das kenn ich. das kann sehr ermüdend und demotivierend sein.

Statistik: Verfasst von freak — Di Okt 22, 2013 6:47 pm


Presse • Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Date: 2013-10-22 22:43:29

Bild

Statistik: Verfasst von David — Di Okt 22, 2013 9:43 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-10-23 00:14:39

http://find.flp-de.de/
http://free-linux.ru/
http://yacy.allesehersonerdshier.net/
http://www.maazk.com/

Statistik: Verfasst von David — Di Okt 22, 2013 11:14 pm


Mitmachen • 30C3

Date: 2013-10-23 01:35:50

bin recht sicher beim 30C3 dieses Jahr, wer kommt sonst noch nach Hamburg?

Statistik: Verfasst von Orbiter — Mi Okt 23, 2013 12:35 am


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-10-24 14:19:12

David hat geschrieben:\ http://yacy.allesehersonerdshier.net/\



Das ist mein Peer, aber der ist auf nichts Besonderes spezialisiert. Ich lese regelmäßig allerhand Presse-RSS-Feeds aus aller Welt ein und lasse ihn sonst nur laufen.

Statistik: Verfasst von Low012 — Do Okt 24, 2013 1:19 pm


Mitmachen • Re: 30C3

Date: 2013-10-24 14:23:33

Bei mir sind die C3-Besuche wohl erstmal gestrichen, bis ich den Nachwuchs mitnehmen kann... :cry:

Statistik: Verfasst von Low012 — Do Okt 24, 2013 1:23 pm


Suchmaschinen • Re: Search as RIghts

Date: 2013-10-25 04:52:34

Google suche nach Rechten. Wie macht google das? Muss das YaCy auch können?





______________________________________________
FIFA 14 Coins{.postlink}

Statistik: Verfasst von markjosol — Fr Okt 25, 2013 3:52 am


Wunschliste • Re: Erweiterung von Statistics about top-domains in URL Data

Date: 2013-10-25 04:53:01

Domains wo nur 1 Ergebnis/Seite im Index vorhanden ist





______________________________________________
FIFA 14 Coins{.postlink}

Statistik: Verfasst von markjosol — Fr Okt 25, 2013 3:53 am


YaCy Coding & Architektur • Re: Frage Speicherallokation

Date: 2013-10-25 04:53:25

verzeichnen - aber das hab ich wie gesagt nicht probiert





______________________________________________
FIFA 14 Coins{.postlink}

Statistik: Verfasst von markjosol — Fr Okt 25, 2013 3:53 am


Mitmachen • Re: Federation bei verschiedenen dezentralen Projekten

Date: 2013-10-27 09:44:00

Du ich kann es dir nicht sagen, wenn ich raten müsste, wäre es sicherlich \“historisch gewachsen\“.
Wichtig war mir, dass mal jemand den Kontakt herstellt und auf Leute zugeht. Den nächsten Schritt müssten wirklich die Entwickler gehen und mal sich zusammensetzen und Techniken diskutieren. Wenn es dann an die Implementierung geht, kann man ja noch mal über Spenden reden ;)

Statistik: Verfasst von Seitenreiter — So Okt 27, 2013 9:44 am


Fragen und Antworten • A Few Tips for Windows Peers/Servers

Date: 2013-10-27 12:01:47

TRY AT OWN RISK. Disclaimer. Win 2000 and XP are ok not sure about Vista or Win 7 + 8

Starting a YaCy client or server search engine with out having to manually click icon or logon in Windows. Please Ask me if you have trouble understanding what I type.
Feel Free to comment including Mods.
I have used this handy little program to start lots of Windows programs and batch files for many years now as Services.

ServiceExe is a Program to install a Program as a service in Windows, so that it will automatically start with windows in a timely manner, there is a optional delay to set if needed for wait for system to start up.

Web Site for more info.
http://www.dateiliste.com/fr/descent-3/15-command-line-utilities/45-serviceexe-install-and-run-applications-as-windows-services.html?showall=1

Download for ZIP File
http://www.dateiliste.com/software/ServiceExe/ServiceExe.zip

ServiceExe.zip

UnZip ServiceExe.zip to your YaCy folder then add a folder called Logs in it.

I have Successfully shifted my YaCy folder to C:\YaCy.
I do not use Filenames with Spaces if you need to just enclose with quotes \”\“.
Note: From the best of my memory.

This is the important Section in my YaCy.ini, after copy and rename the test file.

[Process1]
ApplicationName=C:\YaCY\startYACY.bat
CommandLine=
CurrentDirectory=C:\YaCy

A simple install and removal procedure for Serviceexe.exe and the program you have installed. See the END of this thread for contents of YaCy.ini ..

Create a Batch file called YaCyinstall.bat
Serviceexe /install YaCy.ini /s /a
PAUSE

The /s is for Start Service after install.
The /a is for setting an Automatic startup by default.
Both settings can be left out if you are unsure.

Create A batch file called YaCyremove.bat
PAUSE
Serviceexe /remove YaCy.ini
PAUSE

Contents of my YaCy.ini adapt to suit your install.

; ***************************************************************************
;
; Example configuration file for ServiceExe.exe
;
;
; History
;
; WhenWhoWhat
; ---------------------------------------------------------------------------
; 2008-02-04ThomasCreated.
; 2010-09-27ThomasUpdated for different fail strategies.
;
; ***************************************************************************

[General]

; The service\’s name to display.
; The service name (not the display name) is the name of the ini file.
ServiceDisplayName=YaCy_Search_Engine

; The service\’s description.
ServiceDescription=This is Windows flavored YaCy Search Engine, Peer To Peer Driven. The network does not store user search requests and it is not possible for anyone to censor the content of a shared index. See http://www.yacy.net/en/index.html

; Time in seconds to wait before the processes are
; started.
StartUpPause=10

; Time in seconds to wait between each process to
; start.
CreateProcessPause=1

; Path to the log files. If this is not given, the application\’s
; (executable file\’s) path is assumed. Note that this will not work
; without changing the permissions accordingly.

LogPath=Logs

; Lists all the sections of the processes, separated by blanks.
ServiceProcesses=Process1

[Process1]
ApplicationName=C:\YaCY\startYACY.bat
CommandLine=
CurrentDirectory=C:\YaCy

; Specifies the behaviour in case the process terminates or its
; creation fails. Default is behaviour 0.
;
; 0 = The service stops, terminating all processes that belong to it.
; Use this for Windows command line applications.
; 4 = The service stops, ending all processes that belong to it by
; sending WM_QUIT messages to their windows. Use this for
; Windows GUI (graphical user interface) applications.
FailStrategy=0

Statistik: Verfasst von smokingwheels — So Okt 27, 2013 12:01 pm


Presse • iX: Anonymisierende Suchmaschinen - Tauschhandel

Date: 2013-10-28 08:19:52

http://www.heise.de/ix/artikel/Tauschha ... 81724.html{.postlink}

Aktuell ist der Artikel noch im Ticker. Metager und YaCy werden erwähnt im Zusammenhang mit noch anderen Suchmaschinenalternativen.

Statistik: Verfasst von Orbiter — Mo Okt 28, 2013 8:19 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-10-28 08:36:47

http://imb.donau-uni.ac.at/suchmaschine ... oftware/#1{.postlink}

Statistik: Verfasst von Orbiter — Mo Okt 28, 2013 8:36 am


Presse • Re: iX: Anonymisierende Suchmaschinen - Tauschhandel

Date: 2013-10-29 23:12:46

Klasse. Da muß ich mir die iX 112013 unbedingt mal ausleihen ...

Schön, daß die NSA so gute Argumente liefert, daß alternative Suchmaschinen zwingend notwendig sind ...

Statistik: Verfasst von Huppi — Di Okt 29, 2013 11:12 pm


Solr Support • Embedded Solr mit Java App abfragen

Date: 2013-10-30 10:36:10

Wie gehe ich am besten vor wenn ich meinen embedded Solr direkt aus einem eigenen Java Programm abfragen möchte?

Hat jemand da Erfahrung, Code-Beispiele etc?

Danke!

Statistik: Verfasst von netsearch — Mi Okt 30, 2013 10:36 am


Solr Support • Wechsel von Embedded Solr auf externen Solr

Date: 2013-10-30 11:01:37

Hallo

Wie kann vom embedded Solr auf einen externen Solr gewechelt werden ohne die Daten zu verlieren?

Resp. wie die Daten migrieren?

Wenn der externe und interne Solr gleichzeitig eingetragen werden - werden die Daten dann vom internen zum externen Solr synchronisiert?

Wer hat das bereits gemacht und kann da Tipps geben?

Danke!

Statistik: Verfasst von netsearch — Mi Okt 30, 2013 11:01 am


Fragen und Antworten • Yacy Performance steigern

Date: 2013-10-30 11:06:01

Hallo

Wenn der Index grösser wird und die Performance nicht mehr optimal ist - was sind eurer Erfahrung nach die wichtigsten Faktoren um die Performance zu steigern?

Was kann bei der Konfiguration noch optimiert werden damit es bei grossen Indexes besser läuft? Habe bei den meisten Einstellungen vermutlich noch Standardwerte.

RAM, CPU, oder was?

Wo lohnt es sich am meisten zu investieren?

Danke!

Statistik: Verfasst von netsearch — Mi Okt 30, 2013 11:06 am


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-10-30 12:47:26

http://www.parahir.hu/

Statistik: Verfasst von Orbiter — Mi Okt 30, 2013 12:47 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-10-30 12:57:11

Hallo.

ich denke Deine Frage kann man klar mit \‘mehr Arbeitsspeicher\’ beantworten.

Wieviel Speicher hast Du denn deinem Peer schon zugewiesen?
Und wo merkst Du das es die Performance singt?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Okt 30, 2013 12:57 pm


Presse • Re: YaCy bei gnufunzt

Date: 2013-10-30 13:07:56

hier das Video nochmal mit Youtube Link auf die Minute 13:00:
http://www.youtube.com/watch?v=e5uK5ANCW6k#t=775

Statistik: Verfasst von Orbiter — Mi Okt 30, 2013 1:07 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-10-30 15:47:01

Ich habe 16GB auf der Maschine und ca 8GB für Yacy freigegeben.

Das ist langsam:

- Bei den Suchanfragen tröpfeln die Resultate auf den Bildschirm.

- Bei wenig Resultaten werden diese oft nicht angezeigt, wenn dieselbe Suche noch einmal ausgeführt wird kommen die Resultate dann meistens.

- Das Neu-Starten von Yacy dauert ewig (wirklich ewig.…).

- Im Backend ist auch nicht immer alles fix.

- Ab und zu reagiert Yacy für ein paar Minuten fast gar nicht.

Danke für weiteren Input!

Statistik: Verfasst von netsearch — Mi Okt 30, 2013 3:47 pm


Fragen und Antworten • Privoxy front end

Date: 2013-10-30 21:18:49

Is there a way to setup Privoxy as a front end to Yacy? I would like all web traffic to be routed through privoxy first and then to Yacy. I have searched for a config example but have been unable to find one.

Statistik: Verfasst von jdpete — Mi Okt 30, 2013 9:18 pm


Fragen und Antworten • Re: Privoxy front end

Date: 2013-10-30 23:26:13

I think, in the advanced settings of yacy, under \”Remote Proxy (optional){.postlink}\“, you have to set the following:

- Use remote proxy
- Remote proxy host: 127.0.0.1 (If you are running privoxy on another computer, you have to enter the ip-address of this machine.)
- Remote proxy port: 8118

Possibly, it\’s recommended to remove the checkmark for \“Use remote proxy for yacy <-> yacy communication\” and \“Use remote proxy for HTTPS\“. I don\’t know. It probably also depends on what privoxy settings you are using.

Statistik: Verfasst von David — Mi Okt 30, 2013 11:26 pm


Fragen und Antworten • Re: Privoxy front end

Date: 2013-10-31 01:15:08

I am using the remote proxy feature already to forward to another instance of privoxy that communicates with tor. I was hoping there was a way to frontend yacy with another instance of privoxy.

Statistik: Verfasst von jdpete — Do Okt 31, 2013 1:15 am


Mitmachen • Re: Raspberry Pi

Date: 2013-10-31 17:33:49

ich wäre das hier mal wieder auf, weil ich gerade ein neues Raspbian ausprobiere: das von http://www.raspberrypi.org/downloads hat nun ein Java 1.7 vorinstalliert.

Was ich vorhabe: ein fertig aufgebautes Raspbian, so wie in http://www.yacy-websuche.de/wiki/index. ... spberry_Pi{.postlink} beschrieben wieder als Image zum Download anbieten.

Frage dazu in die Runde: wie erzeuge ich aus dem, was ich da dann auf meiner 8GB SD-Karte habe, wieder ein Image das man runterladen kann? Mich interessiert vor allem wie man das so macht dass das Image möglichst klein wird, also whitespace nullen etc.

Statistik: Verfasst von Orbiter — Do Okt 31, 2013 5:33 pm


YaCy Coding & Architektur • DHT seedlist bug in mode any

Date: 2013-11-01 21:20:54

Hello!

We are facing a problem when trying to use DHT.

network.unit.domain = local works with only private addresses (10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16)

network.unit.domain = global does not allow us to use .onion domains as
a crawling target as they are not globally accessible in yacy\’s point of
view.

network.unit.domain = any makes it impossible possible to upload seedlist which we consider as a BUG.

All url\’s and methods will be rejected with message of

seedURL in localhost rejected

Please try it out, it does not need any special config.

Best Regards,
Ahmia.fi

Statistik: Verfasst von ahmia — Fr Nov 01, 2013 9:20 pm


Fragen und Antworten • Crawler API / Media / Parser

Date: 2013-11-02 22:05:37

Hallo zusammen

Ich habe die ein oder andere Frage, die sich mir in den letzten Tagen YaCy Nutzung so ergeben hat ...

[1. Crawler API Parameter [indexMedia=]{style=“font-style: italic”}]{style=“text-decoration: underline”}

Obwohl ich diesen Parameter auf off gesetzt habe, holt der Crawler Bilddokumente. Ich hätte erwartet, das auch Bilder als media(le) Dokumente gesehen werden und demzufolge nicht geholt werden.
Wie ist der Begriff Media im Zusammenhang mit dem Parameter definiert?

[2. Crawler und deaktivierte Parsermodule]{style=“text-decoration: underline”}

Über die Parserkonfiguration habe ich einige Parsermodule u.a. die für PDF deaktiviert. Trotzdem holt der Crawler PDF Dokumente legt diese im Cache ab, entscheidet aber dann lokal aufgrund des deaktivierten Parsers, das dieses Dokument nicht indexiert werden soll/darf.

Hier die dazugehörigen Logeinträge:

Code:
...I 2013/11/02 21:30:20 HTCACHE storing content of url http://www.domain.de/downloads/book.pdf, 3025766 bytesI 2013/11/02 21:30:20 REJECTED http://www.domain.de/downloads/book.pdf - no parser available: mime type 'application/pdf' is denied (2)I 2013/11/02 21:30:20 REJECTED http://www.domain.de/downloads/book.pdf - cannot load: not enqueued to indexer: not allowed: no parser available: mime type 'application/pdf' is denied (2)...


Könnte der Crawler an dieser Stelle nicht eine Menge Traffic für sich bzw. für den Seitenbetreiber sparen, wenn er nur Dokumente holt, die er aufgrund der Parserkonfiguration auch indexieren würde?

[3. YaCy geladene Parsermodule]{style=“text-decoration: underline”}

Wie bereits im Punkt 2 angesprochen, habe ich einige Parser deaktiviert. Dennoch werden die Parser laut Logfile geladen, wenn Yacy (neu) startet. Dazu ein Auszug aus dem Logfile speziell für den PDF Parser:

Code:
...I 2013/05/01 23:21:14 PARSER Parser for mime type 'application/acrobat': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for mime type 'text/pdf': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for mime type 'applications/vnd.pdf': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for mime type 'application/x-pdf': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for mime type 'text/x-pdf': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for mime type 'application/pdf': Acrobat Portable Document ParserI 2013/05/01 23:21:14 PARSER Parser for extension 'pdf': Acrobat Portable Document Parser...


Werden die Parser wirklich geladen, oder ist das nur ein Logeintrag der generell beim hochfahren von Yacy kommt?
Könnte man hier nicht noch etwas Speicher sparen, wenn [deaktivierte]{style=“font-weight: bold”} Parser nicht geladen werden?

Statistik: Verfasst von freak — Sa Nov 02, 2013 10:05 pm


Fragen und Antworten • Re: Crawler API / Media / Parser

Date: 2013-11-03 11:49:03

Hi freak!

Deine Analyse macht Sinn, insgesamt ergibt sich hier für mich das Bild das das Ganze ein wenig renoviert werden sollte. Ich beantworte deine Fragen mal in anderer Reihenfolge, weil dadurch die Argumente in der richtigen Reihenfolge kommen:

zu Punkt 2)

Leider ist es nicht so einfach, genau die richtigen URLs zu laden und dabei nicht Daten zu verpassen die zu Parsern gehören die nicht deaktiviert sind. Grund: manche Dateitypen erkennt man nicht an der Extension des Filenamens, sondern am mime-type. Diesen sendet der httpd aber erst im http-header mit. Folglich gibt es manchmal mehrere Parser, die in Frage kommen, daher registrieren sich alle Parser mit den Extensionen und mime-types, für die sie zuständig sind. Wenn aufgrund dessen mehrere Parser in Frage kommen, so werden die auch alle gefragt und dann geschaut ob ein Parser durch Werfen einer Exception \‘aufgibt\‘. Schliesslich gibts noch einen generischen Parser, der immer dazugenommen wird und der nur die URL als Dateninput nimmt. Der kann dafür aber auch Mediatypen gut parsen, bsp. bei Namen von Videodateien die CamelCases bei der Benennung verwenden, die tokenisiert der generische Parser dann richtig.

Also gibt es ausser den Parsern noch eine andere Regel, die entscheidet ob eine Datei geladen wird: alle ausser die, die in der Klasse Classification in den Medientypen apps, audio, video, ctrl drin stehen. Das sind diese:

Code:
        final String apps = "7z,ace,arc,arj,apk,asf,asx,bat,bin,bkf,bz2,cab,com,css,dcm,deb,dll,dmg,exe,java,gho,ghs,gz,hqx,img,iso,jar,lha,rar,sh,sit,sitx,tar,tbz,tgz,tib,torrent,vbs,war,zip";        final String audio = "aac,aif,aiff,flac,m4a,m4p,mid,mp2,mp3,oga,ogg,ram,sid,wav,wma";        final String video = "3g2,3gp,3gp2,3gpp,3gpp2,3ivx,asf,asx,avi,div,divx,dv,dvx,env,f4v,flv,hdmov,m1v,m4v,m-jpeg,mkv,moov,mov,movie,mp2v,mp4,mpe,mpeg,mpg,mpg4,mv4,ogm,ogv,qt,rm,rv,vid,swf,webm,wmv";        final String ctrl = "sha1,md5,crc32,sfv";



Wenn ich nun die Dateien zu den Extensionen der deaktivierten Parser nicht lade, kann ein Fehler entstehen. Ich könnte einen Flag bei Crawl Start einbauen, das das Laden der deaktivierten extensionen unterdrückt. Wäre das ok?

zu Punkt 3)

Hier muss man den eigentlich Parser, der als library eingebunden wird und den Parser-Wrapper, der die Library aufruft unterscheiden. Der Wrapper gibt die Info, zu welchen mime-types und extensionen die Lib gehört weiter und muss daher auch geladen werden. Die eigentliche Library wird dadurch noch nicht instantiiert, das passiert nur wenn eine Datei solchen Typus auch geparst wird. Das sollte also kein Problem darstellen.

zu Punkt 1)
die indexMedia Option war mal zum Steuern so gedacht, aber im Laufe der Zeit habe ich auch aus dem Auge verloren was das eigentlich noch bewirkt. Das müsste ich tatsächlich mal aufräumen. Denke dir die Option mal weg, wir machen zwei neue Optionen hin:
- Switch zwischen \‘Load all non-media files for parsing\’ und \‘Suppress files with deactivated parsers file extension\’
- Switch zwischen \‘Index all documents which are linked using filename-parsers for deactivated file types\’ und \‘Store only links for active parsers\‘.
Du könntest dann mit der jeweils 2. Option alle Image Links sowohl zum Laden unterdrücken und auch nicht im Index als Link haben. Dann verschwinden aber Links wie die hier: http://commons.wikimedia.org/wiki/File: ... _gross.jpg{.postlink}
Das ist ein html, hat aber ein jpg als Extension. man sieht es erst am mime-type, dass es html ist.

Statistik: Verfasst von Orbiter — So Nov 03, 2013 11:49 am


Fragen und Antworten • Feste IP-Nummer zuweisen

Date: 2013-11-03 18:16:33

Hallo, liebe Leute,

ich habe einen Server mit mehreren statischen IP-Adressen und möchte nun explizit eine davon der Suchmaschine zuweisen.

Ich kann zwar in der Konfiguration staticIP zuweisen, dennoch wird gelauscht auf 0.0.0.0:8090

Wie bekomme ich das hin, dass nur an der speziellen 1.2.3.4:8090 gelauscht wird?

vielen Dank für Lösungen
henning

Statistik: Verfasst von henningb — So Nov 03, 2013 6:16 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-11-03 18:55:05

http://search.joepcs.com/
http://sixcooler.de:8080/
http://www.emgrande.com/
http://yududi.de:8090/

Statistik: Verfasst von David — So Nov 03, 2013 6:55 pm


Fragen und Antworten • Re: Feste IP-Nummer zuweisen

Date: 2013-11-04 00:16:45

Ok, habe ich nun herausbekommen: unter \“Peer Kontrolle\” -> \“Admin Konsole\” -> \“Eingangskonfiguration\” bei \“Peer-Port\” eben nicht nur den Port eingeben, sondern Port mit IP-Adresse: 1.2.3.4:8090. Sprachlich halt nicht eindeutig, besser wäre sowas wie \“Peer-Port/Peer-IP:Port\” und/oder eine direkte Hilfe per Link oder CSS-Trick durch hinterlegter Titelbeschreibung auf den Bereich.

Nun ist Yacy tatsächlich nur noch über die explizite IP erreichbar und weist netstat auch aus.

Jedoch ist bei der Nutzung von yacy als Proxy weiterhin eine andere IP_Adresse als Absender vorhanden, beispielhaft 5.6.7.8.
Unter \“Peer Kontrolle\” -> \“Admin Konsole\” -> \“Erweiterte Einstellungen\” bei \“Proxy Zugangs-Einstellungen\” ist aber 1.2.3.4:8090 eingetragen, holt sich also weiterhin nicht die gewünschte.

Statistik: Verfasst von henningb — Mo Nov 04, 2013 12:16 am


Fragen und Antworten • Thomas Sabo ist oft ein Trend Silberschmuck Marke in Deutsch

Date: 2013-11-04 07:36:50

Thomas sabo charm carrier{.postlink} Jahr 1984 , als eine Mode Schmuck-Liebhaber , Thomas Sabo gründete Herr Selbstvertrauen, seine ganz eigene Schmuck-Geschäft , aus der geschichtsträchtigen bayerischen Stadt Lauf an der Pegnitz , USA, und unter ihren eigenen Titel .Einzelhändler in jeder Ausstellung , konsequent bulk erwerben , so Goldfore silber ( Zhen Fernie ) diese \“gold\” Dekoration Markt war verblüfft . Dann kann es ein ungeschriebenes Gesetz zu sein : kaum hat der Designer Unterschrift Silber. Kunden auf der Messe zu sehen, nur die Marke. Clients unter keinen Umständen sehen . Konfrontiert mit diesem Szenario , Thomas Sabo Präsident , während in den späten 1980s.A Wahl ihre ganz eigene Schmuckmarke zu machen.



Thomas Sabo Pakete{.postlink} den frühen 1990er Jahren hat Thomas Sabo Herr Fräulein Susanne K ? Lbs als Designer und dem Unternehmen als Creative Director ernannt. Ihre profitable Zusammenarbeit so THOMAS SABO Silberschmuck Marke effektiv zu erobern mehrere Schmuckgeschäft und gewann ihre Verbraucher . Sie können als ungewöhnlich zarte für die Materialien , verehren zum Detail und Marke Mode sechsten Sinn . THOMAS SABO präsentieren eine außergewöhnliche Art . Wie Existenz , voller Vitalität , so Wahrnehmungs- Qualitäten mit dem Produkt oder eine Dienstleistung finden Sie unzählige Begeisterung für diese Marke , eine klare Route. Sie nicht einfach ein neues Design entworfen . Aber auch effektiv eine ganz neue Markt etabliert .http://www.pandora.net



Thomas Sabo Chains{.postlink} Silber Erfolg der Marke , machte das Unternehmen eine Entscheidung aus den späten 1990er Jahren , ihre eigenen Retail-Netzwerk zu etablieren. Geschäfte, \“shop in store\” und Einkommen Agenten in Europa, Asien sowie Nord-und Südamerika , der rasante Anstieg in vielen Ländern . THOMAS SABO , eine einzigartige Art Geheimnis , jetzt hat sich zu einem leistungsfähigen internationalen Schmuckmarke formuliert .

Statistik: Verfasst von Jiangermam — Mo Nov 04, 2013 7:36 am


Fragen und Antworten • Pandora Geschichte

Date: 2013-11-04 07:43:43

Dänemark, Pandora Armbänder{.postlink} Jewelry Unternehmen auf eine qualitativ hochwertige Schmuck charmante interaktive Flügel produzieren fegte den Globus. PANDORA Schmuck mit attraktiven Lösung für Lebenswerk unvergessliche Momente zu erfassen, um eine schöne, exquisite Schmuck zu schaffen , um die Gunst der Käufer auf der ganzen Welt zu gewinnen.http://www.pandora.net



1982 startete seine erste Pandora Charms{.postlink} Store in Kopenhagen , Dänemark, hat jetzt in 47 Nationen mit viel mehr als 10 Tausend Zähler , die 260 PANDORA branded Idee Geschäften zählen gewesen . Aufgrund der weltweit drittgrößte größten Schmuck-Marke Produktverkäufe, PANDORA letzten Jahr einen Umsatz von bis zu 2 Mrd. ¡ ê , während der primäre Hälfte dieses Umsatzes wurde auch das Stadium der Ansicht von Milliarden .


Pandora Halsketten{.postlink} Marke wird von der griechischen Mythologie inspiriert. Prometheus ( Prometheus ) gestohlen Himmel Surefire gab sterblich. Zeus ( Zeus ) als Vergeltung für Prometheus , Befehl Hephaistos ( Hephaistos ) , eine Dame Pandora ( Pandora ) zu produzieren, und damit die Götter Großzügigkeit zu produzieren Pandora oft schnell den Sterblichen versucht . Göttin der Weisheit, Athena ( Athena ), dann gab Pandora bunten Kostümen , Eros Aphrodite ( Aphrodite ) verleiht Pandora Eleganz. Glamour Göttin, die Hephaistos gemacht hat Pandora eine Halskette .



Zeus gab Pandora einen Kasten , aber sie durfte nicht zu öffnen , und danach schickte sie auf die Erde . Während bei der Schaffung von Pandora , war sie eine Neugier angeboten . Als Ergebnis konnte der Versuchung nicht widerstehen , die Box zu öffnen. Als sie an die Box sah , wenn jeder der menschlichen Leidens unter der Bedingung, dann lassen Sie den Teufel so aus dem Feld zu entkommen. Box auf der linken Hoffnung und Chance. So Pandora Schmuck stellt auch Glück und Hoffnung.



Pandora startete im Jahr 2000 , die Popularität von Pandora Armbänder, erreicht damit einen bedeutenden Durchbruch . Pandora Buchhalter Ron helfen will Mädels verstehen eine Menschenmenge Zoran herausragende fantastische Effekte , damit sie durch die Gestaltung Ihrer ganz eigenen Schmuck , um ihre Individualität auszudrücken. Folglich Pandora Entwicklung Veers , Lenkung ein einzigartiges patentiertes Konzept austauschbarer Bettelarmband.

Statistik: Verfasst von Jiangermam — Mo Nov 04, 2013 7:43 am


Presse • Re: Blog-Sammel-Thread

Date: 2013-11-04 11:44:57

http://digitalcourage.de/support/digita ... rteidigung{.postlink}

Statistik: Verfasst von Orbiter — Mo Nov 04, 2013 11:44 am


Wunschliste • Re: Präprozessierung mittels XSLT

Date: 2013-11-04 13:53:55

Ich habe mir bezüglich der Umsetzung noch keine konkreten Gedaken gemacht. In einem anderen Projekt hatte ich eine bestimmte \“Klasse\” von Webseiten, daher konnte ich mittels XSLT eine art \“Heuristik\” basteln, die das entsprechend geeignete Stylesheet ausgewählt hat.

Ich könnte mir beide von Dir vorgeschlagenen Herangehensweisen vorstellen. Zum einen könnte man ein lokales Stylesheet für einen bestimmten Anwendungsfall erstellen, zum anderen könnten auch generische Stylesheets für etwa Foren oder Blogs zur Verfügung gestellt werden. Mir schwebt da etwas, wie ein User-Repository vor, aber das wäre wohl etwas weit gegriffen.
Ich denke eine automatisierte Vorauswahl wäre dann für Massenhoster, wie Blogger, Wordpress oder Foren-Hoster (um beim Beispiel zu bleiben) eventuell möglich.
Man müsste abschätzen, wie stark sich das im Fehlerfall (falsches Stylesheet automatisch gewählt) auswirkt. Eventuell kann man auch ein Pre-Test machen (ähnlich, wie der Test der robots.txt im CrawlStartExpert) einbauen, der versucht einen Stylesheet vorzuschlagen. Andererseits bedeutet das wohlmöglich zu viel Arbeit, um alle Fälle abzudecken.

Statistik: Verfasst von surfvive — Mo Nov 04, 2013 1:53 pm


YaCy Coding & Architektur • Designspielerei

Date: 2013-11-04 14:05:39

Ich habe mich mal daran gemacht, die Oberfläche von YaCy etwas aufzufrischen :D
Das ganze ist mehr als experimentell und erstmal eher als Vorschlag zu sehen. Auch wird sich zeigen müssen, wieviel Arbeit das ganze noch mit sich bringen wird.
Bislang habe ich mir das Menü und die CrawlStartExpert vorgenommen. Beide sind in einem brauchbaren Zustand (wobei der Crawl start nur visuell fertig ist). Wer möchte, kann sich das ganze im HTML5-ui{.postlink} Branch ansehen.

Technisch basieren die Änderungen auf jQuery{.postlink}, jQuery-ui{.postlink}, YAML{.postlink} und SASS{.postlink}. Getestet wurde bislang nur im aktellen Firefox unter Linux.

[Feedback ist natürlich erwünscht :)]{style=“font-style: italic”}
Edit -> Screenshot ([geht irgendwie nicht kleiner :? ]{style=“font-style: italic”})

YaCy__Crawl Start - 2013-11-04.png

Statistik: Verfasst von surfvive — Mo Nov 04, 2013 2:05 pm


Fragen und Antworten • Re: Crawler API / Media / Parser

Date: 2013-11-04 18:13:55

Hi Orbiter

Danke für deine ausführlichen Erklärungen.

Zum Thema Mime-Type von Dokumenten hätte ich eine Idee:

Das HTTP Protokoll bringt die Methode HEAD mit, das Ergebniss entspricht einem GET aber liefert nur die Header Informationen eines Dokuments zurück:

\ The HEAD method is identical to GET except that the server MUST NOT return a message-body in the response. The metainformation contained in the HTTP headers in response to a HEAD request SHOULD be identical to the information sent in response to a GET request. This method can be used for obtaining metainformation about the entity implied by the request without transferring the entity-body itself. This method is often used for testing hypertext links for validity, accessibility, and recent modification.\


Quelle: http://www.w3.org/Protocols/rfc2616/rfc ... tml#sec9.4{.postlink}

Wenn man jetzt HEAD nutzen würde, um die Header Informationen eines Dokumentes zu bekommen, könnte man aufgrund des zurückgelieferten mime-types entscheiden, das Dokument dann doch noch mit einem GET komplett zu holen oder nicht, je nachdem ob der dazugehörige Parser aktiviert ist.

Der oben zitierte Text liefert eigentlich gleich noch 2 Pro\’s für einen Einsatz der Methode HEAD: letzte Änderung des Dokuments, was vom Crawler sicherlich genutzt wird, oder auch Links auf Existenz prüfen (Stichwort Linkanalyse (SEO)).

[Vorteile die ich sehe:]{style=“text-decoration: underline”}

[Nachteile die ich sehe:]{style=“text-decoration: underline”}

Statistik: Verfasst von freak — Mo Nov 04, 2013 6:13 pm


Hilfe für Einsteiger und Anwender • Re: Change Yacy User agent

Date: 2013-11-04 20:34:25

\@enky: Another solution could be to use an remote proxy for yacy with a header replace feature. Squid is a good point for that ...

[a small (not tested) \‘howto\’ based on]{style=“text-decoration: underline”} squid{.postlink}:


This should help you to \“change\” the user agent string.

btw: Why do you want to change the user-agent string?

Statistik: Verfasst von freak — Mo Nov 04, 2013 8:34 pm


Off-Topic • Vorstellung :)

Date: 2013-11-05 13:42:02

Hallo zuasmmen :)
Ich wollte mich mal kurz bei euch Vorstellen da ich neu hier bin :) Bin 27 Jahre und arbeite als Koch . Bin ja auch eher zufaällig auf das Forum grade gestoßen aber denke mal das ich hier gut aufgehoben bin :b

Bis dann

Statistik: Verfasst von Chello — Di Nov 05, 2013 1:42 pm


Off-Topic • Re: Vorstellung :)

Date: 2013-11-05 23:54:18

Willkommen an Bord, Chello!

Statistik: Verfasst von David — Di Nov 05, 2013 11:54 pm


Fragen und Antworten • Thomas Sabo ist ein Trend Silberschmuck Marke in Deutschland

Date: 2013-11-06 07:15:44

Thomas Sabo Ohrringe{.postlink} Jahr 1984 , als Mode- Schmuck-Liebhaber gründete Thomas Sabo , Mr. Selbstvertrauen , seiner persönlichen Schmuck Organisation , während der geschichtsträchtigen bayerischen Stadt Lauf an der Pegnitz , USA, und unter ihrem eigenen Namen.



Thomas Sabo Halsketten{.postlink} Einzelhändler in jeder Ausstellung , ständig Großeinkäufe , so Goldfore silber ( Zhen Fernie ) diese \“gold\” Dekoration Geschäft war verblüfft Dann gibt es sicherlich eine ungeschriebene Regel : . In keiner Weise hat der Designer Unterschrift Silber Verbraucher mit nur demonstrieren Besuche die Marke. Verbraucher in keiner Weise zu sehen. Angesichts dieser besonderen Umstand , Thomas Sabo Präsident aus dem späten 1980s.A Wahl ihrer besonderen Schmuck-Marke zu produzieren.



Von den frühen 1990er Jahren hat Thomas Sabo Anhänger{.postlink} Herr Fräulein Susanne K ? Lbs als ein Designer und wie das Unternehmen die imaginative Direktor ernannt. Ihre florierende Zusammenarbeit so THOMAS SABO Silberschmuck Marke erfolgreich erobern viele Schmuck-Geschäft und gewann ihre Kunden. Sie sind ungewöhnlich empfindlich gegenüber dem Material , genießen zum Detail und Marke Trend sechsten Sinn . THOMAS SABO präsentieren eine außergewöhnliche Art und Weise . genießen Sie das tägliche Leben, angefüllt mit Vitalität , so Wahrnehmungs- Züge auf dem Produkt oder welche Dienstleistung Sie grenzenlose Begeisterung für die Marke zu finden , um eine klare Route zu etablieren . Sie haben nicht nur eine völlig neue Art entwickelt. Doch zusätzlich effektiv einen neuen Markt etabliert.



THOMAS SABO Silber Marke Erfolg, der das Unternehmen die Entscheidung in den späten 1990er Jahren für die Errichtung ihrer eigenen Retail-Netzwerk . Outlets , \“shop in store\” und Produkt- Vertriebsstellen in Europa, Asien sowie Nord-und Südamerika , dem schnellen Anstieg in vielen Ländern. THOMAS SABO , ein authentischer Mode geheim , jetzt hat sich zu einem stabilen internationalen Schmuckmarke formuliert .http://www.pandora.net

Statistik: Verfasst von Xiesimam — Mi Nov 06, 2013 7:15 am


Fragen und Antworten • Pandora Geschichte

Date: 2013-11-06 07:20:37

Dänemark , fegte Pandora Armbänder{.postlink} Jewelry Unternehmen zu hochwertigem Schmuck charmante interaktive Flügel schaffen den Globus. PANDORA Schmuck mit wunderschönen Strategie mit Leben denkwürdige Momente einzufangen , um ein attraktives , exquisite Schmuck zu schaffen , um die Gunst der Menschen auf der ganzen Welt zu gewinnen .



1982 startete Pandora Halsketten{.postlink} seine mit Geschäft in Kopenhagen , Dänemark, starten nun in 47 Nationen mit mehr als zehntausend Zähler gewesen , zusammen mit 260 PANDORA branded Idee Einzelhändler. Als weltweit drittgrößten Schmuckmarke Produktverkäufe, PANDORA letzten Jahr einen Umsatz von als viel wie \$ 2000000000 (ca. NT \$ 700.000.000 ) , obwohl die erste Hälfte dieses Umsatzes wurde auch die Höhe der zu sehen Milliardenhöhe.Pandora Marke wird von der griechischen Mythologie inspiriert. Prometheus ( Prometheus ) gestohlen Himmel Surefire gab sterblich. Zeus ( Zeus ) als Vergeltung für Prometheus , Befehl Hephaistos ( Hephaistos ) , eine Dame Pandora ( Pandora ) zu machen, und ließ die Götter Großzügigkeit Pandora erstellen kann bequem den Sterblichen verführen. Göttin der Weisheit, Athena ( Athena ), dann gab Pandora bunten Kostümen , Eros Aphrodite ( Aphrodite ) verleiht Pandora Attraktivität . Glamour Göttin, die Hephaistos entwickelt hat Pandora eine Halskette .



Zeus gab Pandora Bead Charms{.postlink} einen Kasten , aber sie war nicht erlaubt zu öffnen und danach schickte sie für die Erde. In der Schöpfung der Pandora, sie war ein Kuriosum gegeben . Aus diesem Grund konnte nicht aufstehen, um die Versuchung, den Kasten zu öffnen . als sie in den Kasten sah , wenn alle Menschen kämpfen von der Krankheit dann lassen Sie den Teufel so in der Box entkommen. Box um den linken Hoffnung und Chance. Daher Pandora stellt auch Glück und Hoffnung.Pandora startete im Jahr 2000 , die Anerkennung der Pandora Armbänder, damit das Erreichen einer wichtigen Durchbruch. Pandora Buchhalter Ron wünscht , damit Mädchen erkennen einer Menschenmenge Zoran außergewöhnliche hervorragende Effekte , um sicherzustellen, dass sie durch die Schaffung persönlicher Schmuck , um ihre Individualität auszudrücken. Folglich Pandora Wachstum Veers , Lenkung ein einzigartiges patentiertes Konzept austauschbarer Bettelarmband. http://www.pandora.net

Statistik: Verfasst von Xiesimam — Mi Nov 06, 2013 7:20 am


Hilfe für Einsteiger und Anwender • Adminbereich sperren

Date: 2013-11-07 16:58:05

Hi,

gibt es in Yacy eine Option den Adminbereich komplett für Dritte zu sperren sprich .htaccess Zugriffsschutz oder sowas in der Art damit nur der Admin da rein kann?

Gruß

Statistik: Verfasst von Internetz — Do Nov 07, 2013 4:58 pm


Hilfe für Einsteiger und Anwender • Urheberrecht und sonstige Hürden + yacy

Date: 2013-11-07 17:25:17

Hi,

wie sieht es denn rechtlich mit dem Betreiben eines yacy-Peers in Deutschland aus.
(Ich erwarte keine Rechtsberatung sondern Meinungen da ich weiß für eine Rechtsberatung muss man zu einem Anwalt gehen).
Ich frage deshalb weil wenn ich freiwillig und auf eigene Kosten einen yacy-Peer betreibe dann möchte ich hinterher nicht von unseren nicht zur Neuzeit passenden Gesetzen in Deutschland überrollt werden wo es zum Teil 3-5000 Euro kostet wenn jemand mal ein Bild/Zitat von sich in der yacy-Suche wiederfindet und dann deswegen den Peerbetreiber in Grund und Boden klagt weil dann kann man das auch einfach sein lassen und US-Dienste beim Wachstum unterstützen indem man sie nutzt.
Ich kenne nämlich Fälle von Bloggern wo sowas passiert war der einzige Unterschied dazu wäre ja das yacy im Prinzip selbständig arbeitet.

Gruß

Statistik: Verfasst von Internetz — Do Nov 07, 2013 5:25 pm


Hilfe für Einsteiger und Anwender • Re: Adminbereich sperren

Date: 2013-11-07 17:38:22

Wie man den Bereich komplett sperren kann, sodass Dritte z. B. die Status- oder Network-Seite nicht mehr einsehen können, weiss ich nicht. Aber unter http://localhost:8090/ConfigPortal.html kann man \“kein Verweis auf YaCy Menu\” wählen, dann wird auf der Seite mit der Suchmaske und auf den Seiten mit den Suchergebnissen das Menu am oberen Rand nicht mehr angezeigt. Zusätzlich könnte man noch unter http://localhost:8090/ConfigAccounts_p.html ein Admin-Passwort definieren, sodass selbst Benutzer, die physischen Zugriff zum Computer haben, sich einloggen müssen, um Einstellungen zu ändern.

Statistik: Verfasst von David — Do Nov 07, 2013 5:38 pm


Hilfe für Einsteiger und Anwender • Re: Adminbereich sperren

Date: 2013-11-07 17:47:05

Hallo,

Grund: habe im Adminbereich gesehen es wird auch die IP eines Nutzers gespeichert der die yacy-Suche benutzt was problematisch ist da die IP mit zu den persönlichen Daten gehört und dem Betreiber des peers rechtlich Probleme machen kann. Daher würde ich am liebsten den kompletten Admin hinter ein .htaccess oder ähnliches packen. Nur den Link im Menü entfernen hält Abmahner wohl nicht davon ab um einem das Leben schwer zu machen.

Gruß

Statistik: Verfasst von Internetz — Do Nov 07, 2013 5:47 pm


Off-Topic • Mietwagen

Date: 2013-11-08 14:51:56

Hallo und guten Tag zusammen,
wie geht es Euch? Bin gerade rein, Jacke in die Ecke und nun erst mal das Wochenende genießen. Habe ich auch bitter notwendig:P Wie sieht es bei Euch aus? Habt Ihr was geplant? Denke hier in diesem allgemeinen Bereich bin ich genau richtig. Bekommen nächste Woche von Bekannten aus der Schweiz Besuch. Die würden sich gerne einem Mietwagen nehmen. Habe mich nun mal im Internet erkundigt und bin dabei auf http://www.europcar.de/EBE/module/render/flotte-standard gestoßen könnt Ihr mir das empfehlen? Würde mich über Euer Feedback freuen. Beste Grüße

Statistik: Verfasst von Chello — Fr Nov 08, 2013 2:51 pm


Off-Topic • Re: Vorstellung :)

Date: 2013-11-08 14:52:34

Hallo David, danke!;)

Statistik: Verfasst von Chello — Fr Nov 08, 2013 2:52 pm


Off-Topic • Re: Kaufen für die Müllhalde / The Light Bulb Conspiracy

Date: 2013-11-08 14:53:13

danke für den Hinweis ;)

Statistik: Verfasst von Chello — Fr Nov 08, 2013 2:53 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-11-09 16:03:12

Hallo Orbiter,

das könnte das sein, was Dich interessiert: http://wiki.stocksy.co.uk/wiki/Raspberry_Pi_Setup#Take_an_Image

Am besten erzeugst Du das Image auf einer 4GB-Karte, dann bleibt auch das Raw-Image klein.

Grüße
Wolfgang

Statistik: Verfasst von wollomatic — Sa Nov 09, 2013 4:03 pm


Hilfe für Einsteiger und Anwender • Re: Adminbereich sperren

Date: 2013-11-09 17:14:20

der Admin-Bereich sperrt eigentlich alle Seiten die persönliche Daten des eigenen Peers beinhalten. wo genau hast du IPs mit Suchanfragen gesehen? sowas soll selbstverständlich nicht öffentlich sein.

Statistik: Verfasst von Orbiter — Sa Nov 09, 2013 5:14 pm


Fragen und Antworten • Re: Version 1.5 UPnP

Date: 2013-11-10 21:12:40

irgendwie funktioniert unser upnp Modul nicht so gut, das haben wir ja vor Urzeiten mal im Source Code übernommen weils sonst nichts gab.
Wollen wir mal was neues probieren?
Wer kennt bsp. https://code.google.com/p/weupnp/ ?
oder http://4thline.org/projects/cling ?

Statistik: Verfasst von Orbiter — So Nov 10, 2013 9:12 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-11-11 15:25:27

Habe eben das hier gesehen: http://www.golem.de/news/entwicklerplatine-cubietruck-mit-2-gbyte-ram-und-gbit-lan-1311-102613.html

Das Ding ist von der Hardware her deutlich besser bestückt als der erste Rechner, auf dem ich mal YaCy installiert habe. Allerdings dürfte der Pi eine erheblich höhere Verbreitung haben.

Statistik: Verfasst von Low012 — Mo Nov 11, 2013 3:25 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-11-12 00:32:39

Hallo erstmal

Wie sieht es inzwischen mit IPv6 aus?

Statistik: Verfasst von schoenix — Di Nov 12, 2013 12:32 am


Mitmachen • Re: Intresse an IPv6?

Date: 2013-11-12 10:45:14

vor einigen Wochen, bei den Kieler Linuxtagen, hatte ich die Gelegenheit YaCy in einem Freifunknetz auszuprobieren. Das ging erst nicht weil das Freifunk-Intranet IPv6-only war. Nach einigem Debuggen fiel dann auf, dass das nur desewegen nicht ging, weil beim Start ein prefer-IPv4-only in Java gesetzt war. Nachdem ich das auskommentiert hatte, schien alles zu gehen! Das ist bis heute auskommentiert und ich empfehle daher mal das zu testen.

Oder kurz gesagt: sollte möglicherweise einfach so gehen. Wenn nicht: her mit den Bugs.

Statistik: Verfasst von Orbiter — Di Nov 12, 2013 10:45 am


YaCy Coding & Architektur • Re: Designspielerei

Date: 2013-11-12 11:11:48

Hallo surfvive,

ich probiere deine Änderungen immer mal wieder aus. Ich glaube zu wenig Leute sind in der Lage sich das aus deinem git repository
https://gitorious.org/yacy/jensbees-rc1

selber auszuchecken und zu bauen, daher habe ich hier mal einen aktuellen Stand fertig gebaut zum Download:
http://latest.yacy.net/yacy_jensbee_HTM ... 112.tar.gz{.postlink}

Du hattest ja mal einen Branch, jensbees/yaml-ui, der mir etwas mehr zugesagt hat, wegen der Aufteilung der Menüs. Also hier mal meine Meinung:

- abseits von negativen Punkten, die unten kommen, will ich betonen dass mir die Arbeit und die Mittel herovrragend gefällt. Wir haben dringend eine Auffrischung des User Interfaces nötig und das, was du machst, übertrifft alle vorherigen Versuche was zu verbessern. Denn deine Änderungen sind sofort nutzbar, alle andere Vorschläge waren nur \‘Designstudien\‘, gemaltes Zeug. Allerdings...
- .. ich mag die Zusammenführung des vertikalen und horizontalen Menüs in unter-aufklappende Submenüs nicht. Da sind mehrere Sachen: zum einen hüpft der Inhalt so immer umher und ich finde das schrecklich unübersichtlich. Das war in jensbees/yaml-ui besser!
- irgendwie ändert sich auch das Hauptmenü (oberste Ebene), das kann ich nicht ganz nachvollziehen
- Die Suchseite ist broken, da sind links oben einfach ein paar Links und unten drunter kommt der Suchschlitz
- Alle Webseiten haben keinen linken Rand, das klebt da immer so dran
- viele Kleinigkeiten, wie so oben links herumhängende Weblinks.

Ich finde wir sollten das aber intensivieren, kann hier jeder, der sich mal mit YaCy Webseitengestaltung beschäftigt hat da mal draufgucken?

surfvive: gibts eine Möglichkeit, den Bruch mit der alten Menüstruktur nicht allzu groß zu machen und wieder eine linke Hauptmenüspalte und unter-Menüs oben einzuführen?

Statistik: Verfasst von Orbiter — Di Nov 12, 2013 11:11 am


Hilfe für Einsteiger und Anwender • Re: Urheberrecht und sonstige Hürden + yacy

Date: 2013-11-12 12:58:43

2005, bei einem der ersten SuMa-eV Foren gab es einen Beitrag der rechtliche Aspekte des Betreibens von Suchmaschinen beleuchten sollte. Der Referent tat sich schwer weil es keine Referenzen gab und betonte dass die Rechtsprechung sich noch mit der Validität von Faxen beschäftigen würde.

Heute ist das meines Wissens nicht viel besser. Was man aber sagen kann, ist das wir einen Status Quo erreicht haben und das wir seit mindestens 8 Jahren offene Suchmaschinen betreiben die nie angemahnt wurden. Natürlich kann man sagen dass wir nicht wichtig genug dafür sind damit sich die Exekutive mit uns beschäftigt. Ich glaube es wird schwer herauszufinden was nun wirklich erlaubt ist und was nicht. Andererseits habe ich immer gesagt, dass wir nie aus einer \‘illegalen\’ Ecke heraus so etwas wie \‘darknet-software\’ bauen, sondern dass YaCy schlichtweg legal sein soll. Wenn sich dabei herausstellt, dass die Entwicklung einer legalen Suchmaschinensoftware nicht tatsächlich möglich ist, so würde das ganze recht politisch werden und wir sollten da einen Pressehammer auspacken. Aber wie gesagt: uns hat noch niemand angegriffen, dass wir hier nicht legal sein würden.

Statistik: Verfasst von Orbiter — Di Nov 12, 2013 12:58 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-11-12 16:14:01

Nun, mein P4 läuft gut. keine Eier in einen Korb.
Dont viel Speicher zuweisen versuchen DEFAULT Setting Erste und Build Data Base mehr PEERS ist, was gebraucht wird. Überqueren install Java. Löschen Java.exe Mit Symbol.
I how Google Translate..

Statistik: Verfasst von smokingwheels — Di Nov 12, 2013 4:14 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-11-12 16:23:18

smokingwheels hat geschrieben:\ Nun, mein P4 läuft gut. keine Eier in einen Korb.\ Dont viel Speicher zuweisen versuchen DEFAULT Setting Erste und Build Data Base mehr PEERS ist, was gebraucht wird. Überqueren install Java. Löschen Java.exe Mit Symbol.\ I how Google Translate..\



Can you pls post that in english? unfortunately the machine translation is not understandable.…

Statistik: Verfasst von netsearch — Di Nov 12, 2013 4:23 pm


YaCy Coding & Architektur • Re: Designspielerei

Date: 2013-11-13 08:59:12

Vielen Dank für das Feedback ..
ja, nach dem Post befürchtete ich fast, dass das mit dem Feedback schwierig wird, aufgrund des git repositorys. Hi n und wieder ein Snapshot zu machen ist vielleicht eine gte Idee. Danke dafür.

Orbiter hat geschrieben:\ Du hattest ja mal einen Branch, jensbees/yaml-ui, der mir etwas mehr zugesagt hat, wegen der Aufteilung der Menüs.\


Ehrlich gesagt gefiel mir das Menü auch nur eine kurze Zeit lang. Ich habe das erstmal bei Seite gelassen und mich um andere Dinge gekümmert. Da mir die CrawlStartExpert-Seite als eine der komplexesten erschien, habe ich mit der begonnen. Derzeit entsteht erstmal eine Javascript \“Library\” (YaCyUi), die ich hoffentlich dann auf die anderen Seiten anwenden kann, sodass die Überarbeitung dort schneller von Statten gehen sollte.

Orbiter hat geschrieben:\ - abseits von negativen Punkten, die unten kommen, will ich betonen dass mir die Arbeit und die Mittel hervorragend gefällt. Wir haben dringend eine Auffrischung des User Interfaces nötig und das, was du machst, übertrifft alle vorherigen Versuche was zu verbessern. Denn deine Änderungen sind sofort nutzbar, alle andere Vorschläge waren nur \'Designstudien\', gemaltes Zeug.\


Genau darum ging es mir auch. Ich wollte nicht wieder ein Mockup erstellen, das dann keine Umsetzung findet, daher habe ich mich direkt an den Code gemacht. Aber gleich der Mockups wollte ich betonen, dass das ganze ein Vorschlag ist, daher auch der Aufruf für Feedback.

Orbiter hat geschrieben:\ Allerdings\...\ - .. ich mag die Zusammenführung des vertikalen und horizontalen Menüs in unter-aufklappende Submenüs nicht. Da sind mehrere Sachen: zum einen hüpft der Inhalt so immer umher und ich finde das schrecklich unübersichtlich. Das war in jensbees/yaml-ui besser!\ - irgendwie ändert sich auch das Hauptmenü (oberste Ebene), das kann ich nicht ganz nachvollziehen\


Wie bereits oben erwähnt habe ich das ganze rgendwie \“kaputtgestaltet\” :D. Momentan suche ich nach einer geeigneten Idee, das ganze besser zu machen. Der Grund, warum ich von der zweiteiligen Navigation weg wollte ist, dass bei der alten Navigation die ersten zwei Ebenen sichtbar waren, die dritte aber erst nach dem Aufruf einer Seite aus der zweiten Ebene sichtbar wurden. Ich habe dann öfters Seiten aufrufen müssen, um einen gesuchten Menüpunkt zu finden. Die Idee war, das eine Navigation die auf der aktuellen Seite verbleibt einfacher zu durchsuchen ist.

Orbiter hat geschrieben:\ - Die Suchseite ist broken, da sind links oben einfach ein paar Links und unten drunter kommt der Suchschlitz\ - Alle Webseiten haben keinen linken Rand, das klebt da immer so dran\ - viele Kleinigkeiten, wie so oben links herumhängende Weblinks.\


Das liegt sicher daran (sofern du Seiten außer der CrawlStartExpert meinst), dass der alte CSS-Stylesheet nicht mehr eingebunden wird. Der Grund dafür ist, dass ich den HTML-Code aller Seiten neu strukturieren möchte, da sich über die Zeit dort einiges angesammelt hat. Folglich passen die alten Seiten nicht mehr zu den neuen Stylesheets. Sobald die CrawlStartExpert fertig ist, nehme ich mir sukzessive alle anderen Seiten vor.

Orbiter hat geschrieben:\ Ich finde wir sollten das aber intensivieren, kann hier jeder, der sich mal mit YaCy Webseitengestaltung beschäftigt hat da mal draufgucken?\


Das würde mich freuen. Ich hoffe, dass ich das ganze fertig bringe, bevor meine Master-Arbeit ansteht :)

Orbiter hat geschrieben:\ surfvive: gibts eine Möglichkeit, den Bruch mit der alten Menüstruktur nicht allzu groß zu machen und wieder eine linke Hauptmenüspalte und unter-Menüs oben einzuführen?\


Wie oben erwähnt suche ich nach einer geeigneten Möglichkeit. Eventuell lässt sich auch alles linksseitig einpassen.

Statistik: Verfasst von surfvive — Mi Nov 13, 2013 8:59 am


Fragen und Antworten • transfer data

Date: 2013-11-13 23:47:34

I am running yacy on two seperate computers and would like to transfer the information from one computer to another and use just use one machine. Can I do that and not have any problems and would I transfer just the index directory?

Statistik: Verfasst von jdpete — Mi Nov 13, 2013 11:47 pm


Hilfe für Einsteiger und Anwender • website testers needed earn \$25 - \$50 per hour from home as

Date: 2013-11-14 08:25:47

website testers needed earn \$25 - \$50 per hour from home as a website tester. huge online companies such as google, yahoo and msn are now hiring people to work from home testing sitesin their database for full details visit:(http://tinyurl.com/3gce3ot) ids (11550) and select website tester link

Statistik: Verfasst von leo345 — Do Nov 14, 2013 8:25 am


Fragen und Antworten • Re: transfer data

Date: 2013-11-14 10:35:15

We don not have a simple tool which can do that. It would be necessary to merge two Solr indexes which is possible, see http://wiki.apache.org/solr/MergingSolrIndexes
But there is a lot of organization around to do that. We would need a simple function in the web pages to do the merge automatically but we don\’t have this now.

Statistik: Verfasst von Orbiter — Do Nov 14, 2013 10:35 am


YaCy Coding & Architektur • Re: Designspielerei

Date: 2013-11-14 13:04:44

Es gibt nun einen anderen Vorschlag für das Menü im git. Es ist immernoch horizontal, jedoch ist die darauf folgende Aufteilung um einiges sauberer als vorher.
Die CrawlStartExpert sollte soweit fertig sein. Derzeit funktioniert jedoch das \“clonen\” von crawls noch nicht, sowie das absenden des crawls wird unterbunden.

Statistik: Verfasst von surfvive — Do Nov 14, 2013 1:04 pm


Hilfe für Einsteiger und Anwender • Alte Host löschen unter Warteschlangen Lokal

Date: 2013-11-14 17:16:30

Hallo Leute.
Bin neu und freue mich immer mehr über euer Projekt.
Und obwohl ich schon so einiges in den letzten Tagen herausgefunden habe und auch mit gewissen Einstellungen herumexperimentierte, bleibt eine Frage die mich echt wurmt. :x
Wie kann ich endlich die Server/Daten von Host´s löschen, die ich nicht mehr Crawlen will? :?:
Ich fand bei manch einem Host im Nachhinein: \“Eine dumme Idee\” und habe diese bei der Crawler-Überwachung / Terminiert.
Wenn ich aber unter Web Crawler / Warteschlangen / Lokal, nachsehe sind diese noch immer da und warten auf ihre Reaktivierung. :shock:
Kann ich die nicht für immer löschen oder müssen diese Leichen weiterhin dort herumliegen? :(
Danke und viel Erfolg bei euerm Projekt, ich finde dass echt super. :D

Statistik: Verfasst von Thomas Weddige — Do Nov 14, 2013 5:16 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2013-11-16 22:48:47

There is a Capture The Flag Hacker game portal which hosts a \‘virtual Internet\’ as battleground and gives VMs to players as \‘Fortress\’ for penetration tests. Inside that VM-Battleground is a \‘simulated google\’ which is at http://googu.ctf/ and is driven by YaCy!
http://blog.ctf365.com/ctf365-building- ... resources/{.postlink}

Bild

Statistik: Verfasst von Orbiter — Sa Nov 16, 2013 10:48 pm


Off-Topic • dyndns Alternative?

Date: 2013-11-18 22:54:21

Hallo,

meine schöne yacy.dyndns.org Adresse geht schon länger nicht mehr, die haben das nun auf bezahlten Dienst umgestellt!

Kennt jemand eine kostenloste Alternative?

Statistik: Verfasst von Orbiter — Mo Nov 18, 2013 10:54 pm


Off-Topic • Re: dyndns Alternative?

Date: 2013-11-19 00:49:23

Hallo,

dyndns.org sollte auch weiterhin gehen - nur muss man sich da monatlich oder so auf deren Website einloggen - sonst ist die Subdomain weg.

Für 50cent / Monat gibt es ne de-Domain bei Strato die man auch mit seiner dynamischen ip nutzen kann.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Nov 19, 2013 12:49 am


Off-Topic • Re: dyndns Alternative?

Date: 2013-11-19 11:09:27

zu dyndns habe ich das hier gefunden: http://www.heise.de/netze/meldung/Dyn-schraenkt-kostenlose-DynDNS-Accounts-weiter-ein-1863537.html

Weil ich dyndns für einen Server mit fester IP eingesetzt habe, habe ich irgendwann mal dafür bezahlt (läuft erst im Mai 2014 aus). Eine Subdomain habe ich dort noch, werde sie aber auslaufen lassen, 31 weitere sind ungenutzt. Wenn du willst, kann ich mal versuchen, yacy.dyndns.org bei mir einzutragen. Wenn es klappt, wäre sie bis Ende Mai 2014 gesichert und ich könnte sie umleiten, wohin du willst oder mal schauen, ob ich dir den Account übertragen kann.

Statistik: Verfasst von Low012 — Di Nov 19, 2013 11:09 am


Hilfe für Einsteiger und Anwender • \‘OR\’ Operator

Date: 2013-11-19 22:25:15

Liebes Entwickler- und Foren- Team,


Ja, ich habe nach Gründen gesucht, warum Yacy offenbar keinen \‘OR\’ - Operator verwendet, und auch ein paar alte Einträge von \‘Orbiter\’ zu dessen aus seiner Sicht fehlenden Sinnhaftigkeit gefunden ... aber ... ich verstehe diese Argumentation nicht, Null komma Nichts, Nada, und ich gestehe, ich kann die Argumentation nicht nachvollziehen ...


Würde mich hier nicht melden, wenn mich Yacy nicht grundsätzlich sehr anspräche ... jedoch: für mich gehört der \‘OR\’ Operator zu den absoluten Essentials!!!! Denn ich sehe keinen Weg, wie ich ohne diesen Operator, Yacy jemals sinnvoll für mich verwenden könnte! Oder sehe und erkenne ich da irgendetwas, für Andere Offensichtliches, nicht?


Vermutlich sollte ich meinen Sichtwinkel etwas besser erklären. Nach meinem Verständnis liefert \‘OR\’ immer die Vereinigungsmenge, und \‘AND\’ immer die Schnittmenge. D.h, im Fall von \“A OR B\” ist die Treffermenge grösser gleich anzunehmen als bei nur A, bzw. nur B, Anfragen. Und bei \“A AND B\” Anfragen erwarte ich folglich eine Treffermenge, die kleiner gleich der der einzelnen Anfragen ist.

Solange es noch keine automatisiert sicheren Synonym-Zuordnungen gibt (falls es die jemals gibt), muss ich für möglichst vollständige SERPs, die Synoyme leider noch selber zuordnen. Und genau dazu brauche ich den \“OR\” Operator.

Eine typische Anfrage sieht bei mir deshalb logisch so aus - wobei hier \‘a1\’ ein synoymer Begriff von/für \‘a2\’ und von a3 usw., und b1 ein Synoym von b2 und von b3 usw. sei:
(a1 OR a2 OR a3 OR a4) AND (b1 OR b2 OR bn ) [[ AND (c1 OR c2 OR cn..) ] AND (...) ]

Um eine solche Query an Yacy (ganz ohne OR-Operator) stellen zu können, müsste ich diesen Term zunächst ausmultiplizieren, bis kein OR-Ausdruck mehr darin enthalten ist. Dann, je nach Länge, die -Zig, bis Hunderte, bis Tausende, der daraus entstandenen Sub-Queries sequentiell an Yacy stellen, um dann zuletzt noch die Vereinigungsmenge aller Treffer von ihren Dubletten zu befreien. Ein nicht unerheblicher, und v.a. Zeit- und Resourcen-intensiver und zunächst zu programmierender Aufwand zur externen Steuerung von Yacy!


Vllt. stehe ich ja so was von auf der \‘Leitung\‘?
So kann ich Yacy jedenfalls zunächst nicht verwenden, und ich verstehe sogar nicht mal, warum dieses Feature nicht bereits von vielen Hunderten mithoffender Zeitgenossen und ständig \‘requested\’ wurde und wird ... lässt sich das denn ganz einfach auf eine andere Art erreichen? Deshalb: Ganz vielen Dank für Euer Feedback! ...



... und VGe,
Cajun

Statistik: Verfasst von Cajun — Di Nov 19, 2013 10:25 pm


Off-Topic • Re: dyndns Alternative?

Date: 2013-11-21 00:07:21

danke, Marc für das Angebot, ich suche ja eigentlich was wo man den eigenen Peer \‘von draussen\’ automatisch findet. Dazu fiel mir ein, man könnte ja in YaCy auch so was wie ein \‘jump\’ Servlet machen, dass einen 303 oder 307{.postlink} (welcher ist besser?) mit der aktuellen Peer-IP zurückgibt. Dann kann man jeden anderen Peer nutzen, um zu seinem eigenen zu springen.

Statistik: Verfasst von Orbiter — Do Nov 21, 2013 12:07 am


Off-Topic • Re: dyndns Alternative?

Date: 2013-11-21 08:37:16

Ich würde 307 vorziehen und zwar aus dem Grund, dass bei 307 der gleiche Request (mit geänderter Adresse) nochmal geschickt werden sollte, bei 303 der Request immer zu GET geändert wird. Das würde bei POST-Requests sehr wahrscheinlich zu Problemen führen.

Statistik: Verfasst von Low012 — Do Nov 21, 2013 8:37 am


Hilfe für Einsteiger und Anwender • Handling non-standard TLD\’s?

Date: 2013-11-21 12:06:42

YaCy looks like it would be really nice for indexing content in non-standard TLD\’s such as OpenNIC, which Google doesn\’t touch. (I\’m interested in using it with the Namecoin .bit TLD, which is a decentralized DNS which is relatively resistant to censorship, hijacking, and surveillance.) However, obviously it would be bad if those results started showing up for users who can\’t resolve those domains. Is there a way to allow users to index nonstandard TLD\’s in the freeworld network, and have a user option to enable/disable such TLD\’s from showing up in results (disabled by default)? If there is no way to do this, is there any chance such a mechanism could be added?

Thanks.

Statistik: Verfasst von biolizard89 — Do Nov 21, 2013 12:06 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-11-21 14:45:11

Orbiter hat geschrieben:\ Mich interessiert vor allem wie man das so macht dass das Image möglichst klein wird, also whitespace nullen etc.\



Hallo Orbiter, ich verwende dafür jeweils das folgende Skript (ggf noch mit Optmierungspotential) auf einem laufenden Raspbian:

Code:
#!/bin/bashrm -f /etc/udev/rules.d/70-persistent-*.rulesrm -f /var/log/*rm -f /var/cache/apt/archives/*.debrm -f /var/cache/apt/archives/partial/*.debrm -f /etc/ssh/ssh_host*rm -f /var/lib/dhcp/*cat /dev/zero > /zeroes; rm -f /zeroespoweroff



Danach wird die SD-Karte in den Linux-Desktop geschoben und dort per

Code:
dd if=/dev/sdx bs=4096 | gzip -9 > custom-raspbian.img.gz


zu einem relativ kompakten Image verpackt. sdx musst du an die jeweils korrekte Bezeichnung deines Cardreaders anpassen.

Statistik: Verfasst von neonknight — Do Nov 21, 2013 2:45 pm


Fragen und Antworten • php-template Frage

Date: 2013-11-21 18:55:57

Tagchen! Brauch nen Template, aber woher das gute Teil nehmen? Schwanke zwischen dreamstime und Templatemonster{.postlink}. Jemand Erfahrung mit den beiden? Ich tendiere eher zu Templatemonster, weil größere Auswahl. Alternativen? Achja, sollte möglichst einfach zu installieren sein. Danke für Tipps! tristan

Statistik: Verfasst von Tristan — Do Nov 21, 2013 6:55 pm


Fragen und Antworten • Delete domain

Date: 2013-11-22 01:34:11

I have a database domain I am trying to delete but it won\’t do it. It shows http:///\“ip\”
Any suggestions?

Statistik: Verfasst von jdpete — Fr Nov 22, 2013 1:34 am


Fragen und Antworten • Hello my friends I am from China

Date: 2013-11-22 01:34:32

Sorry that I can only read/write in English. I believe the P2P search idea is fantastic,especially for countries like China.I would love to devote my time to this project.Can people try to use English here? Thanks a lot.(of course if you are using Chinese,that is cool )

Statistik: Verfasst von sunzhoujian — Fr Nov 22, 2013 1:34 am


Fragen und Antworten • How can I set a virtual server option?

Date: 2013-11-22 03:17:36

” Your peer cannot be reached from outside (which is not fatal, but would be good for the YaCy network); please open your firewall for this port and/or set a virtual server option in your router to allow connections on this port.”

I would love to open the 8090 port and set up the virtual server. But how can I do that? I also search online, but can anyone point that out for me here?

Statistik: Verfasst von sunzhoujian — Fr Nov 22, 2013 3:17 am


Off-Topic • Re: Raspberry Piratebox

Date: 2013-11-22 08:43:03

Einen AP irgendwo aufzumachen und zu schauen, was dann passiert, scheint tatsächlich zu funktionieren: http://blog.fefe.de/?ts=ac70ce04

Den kompletten Artikel der französischen Zeitung auf Englisch hat jemand hier gepostet: http://zerobin.hsbp.org/?42523fc0eefa107e#6CeyNZk64M/KLO5XUIsL/HNynV9W2lMpgUu68iqzW6I=

Wenn man mal ein bisschen schaut, finden sich viele Möglichkeiten, ein Kästchen unauffällig irgendwo anzubringen.

Statistik: Verfasst von Low012 — Fr Nov 22, 2013 8:43 am


Fragen und Antworten • Re: Hello my friends I am from China

Date: 2013-11-22 11:20:02

everybody will understand you. use english ;-),.

Statistik: Verfasst von kilian — Fr Nov 22, 2013 11:20 am


Fragen und Antworten • Re: Delete domain

Date: 2013-11-22 16:49:18

what have you tried exactly?

Statistik: Verfasst von Orbiter — Fr Nov 22, 2013 4:49 pm


Wunschliste • Re: Debian Package Maintainer

Date: 2013-11-22 21:17:39

Hallo,
ist hier noch was zu tun?

ich könnte mich da mit reinklinken.

In dem Zusammenhang würde mich nämlich auch interessieren, ob tatsächlich openjdk-6-jre notwendig ist oder ob nicht auch openjdk-6-jre-headless langt. Letztere ist nämlich um einges schmaler, und ich habe nicht so gern so viel Krempel auf dem Server ;-)

Die deb-Packet-Signierung scheint mir ja auch noch nicht geklärt, jedenfalls taucht weiterhin ein Hinweis auf, dass die Authentifizerung des Paketes nicht möglich ist.

Grüße
henning

Statistik: Verfasst von henningb — Fr Nov 22, 2013 9:17 pm


Wunschliste • Re: Debian Package Maintainer

Date: 2013-11-22 21:34:51

Hi Henning,

aber klar können wir Hilfe gebrauchen. Ich habe nach durchforsten von etlichen Foren und anderen Dingen nie richtig rausbekommen wie man ein Debian Package richtig signiert und dem User das so zur Verfügung stellt, dass man nicht die unsichere Quelle extra bestätigen muss. Wenn du uns hier helfen kannst bist du ein Held!

openjdk-6-jre-headless: richtig, das sollte reichen und ich bevorzuge das auch und würde alles aus dem Package raus halten wollen was über openjdk-6-jre-headless hinaus geht!

Statistik: Verfasst von Orbiter — Fr Nov 22, 2013 9:34 pm


Wunschliste • scans matching documents for links only / HrefOnly

Date: 2013-11-22 21:52:59

Hallo,
entweder ich habe das noch nicht gefunden oder es gibt es nicht: Übersichtseiten sollen nicht indiziert werden, sondern nur die vorhandenen Links sollen verfolgt werden.

Ich habe eine zeitlang intensiv mit mngosearch gearbeitet, da hieß der Befehl HrefOnly (http://www.mnogosearch.org/doc33/msearc ... fonly.html{.postlink}).
Das ist eine feine Sache, weil der Index effizienter wird und weniger \“Müll\” vorhanden ist

Statistik: Verfasst von henningb — Fr Nov 22, 2013 9:52 pm


Wunschliste • Re: Debian Package Maintainer

Date: 2013-11-22 22:47:40

OK, dann werde ich mich in der VM mal ranmanchen und schauen.

Und mal schauen, dass die Abhängigkeiten sich nach der Headless-Version auflösen.

Wie kommunizieren wir am besten?

Statistik: Verfasst von henningb — Fr Nov 22, 2013 10:47 pm


Fragen und Antworten • Re: Delete domain

Date: 2013-11-23 05:39:04

In index administration under top 100 domains I selected the delete button next to the domain.

Statistik: Verfasst von jdpete — Sa Nov 23, 2013 5:39 am


Wunschliste • Alte Links/ Einträge / Blacklist

Date: 2013-11-24 15:30:07

Ich würde mir wünschen, dass alte Links zu Webseiten, die nicht mehr existieren automatisch gelöscht werden. So, dass Yacy den Index regelmäßig überprüft und dann die Links automatisch rausgibt. Auch super wäre es, wenn alte Links regelmäßig aktualisiert werden, ohne dass man extra einen neuen Crawl starten muss.

Außerdem wäre super, wenn Links, die in der Blackliste nicht auch nicht mehr in den Suchergebnissen angezeigt werden bzw. aus dem Index gelöscht werden.

Statistik: Verfasst von peer1 — So Nov 24, 2013 3:30 pm


Hilfe für Einsteiger und Anwender • Local Crawl Queue wächst zu stark

Date: 2013-11-24 19:48:08

Hi, ich habe etwa 50 laufende Crawls plus etwa 20 RSS Feeds. Das führt dazu, dass meine Local queue > 1.8 Mio Links angewachsen ist und nicht wirklich abbaut. Mein Gefühl ist, dass Yacy dadurch arg zu kämpfen hat.

Gibt es da eine Möglichkeit Yacy beizubringen etwas weniger Aufträge auf einmal zu bearbeiten bzw. raus zu kriegen wie weit die Aufträge abgearbeitet sind?

Statistik: Verfasst von Seitenreiter — So Nov 24, 2013 7:48 pm


Mitmachen • support for YaCy on CTF365 battleground

Date: 2013-11-25 17:39:44

CTF365{.postlink} operators of the battleground-embedded YaCy peer are looking for YaCy developer support for the purpose to harden YaCy in rough environments. Marius, the current maintainer of the \‘Googu\’ (YaCy) search wrote me:

Marius hat geschrieben:\ What I did, I took YaCy, I did a basic Debian deploy, changed the layout to be more catchy by imitating Google, and let our security professionals play with it.\ There (on CTF365) are more open source apps and beside letting infosec professionals get train, another scope is that CTF365 platform can help Open Security community to become more secure by sending their findings (vulnerabilities) to that specific open source development team. Which I did with you too.\ \ For example we use ESME to mimic microblogging platform Twitter. And there are more to come like joindiaspora.com for social network etc.\ \ The platform invite open source communities to use it as a pentest platform for your products.\


Marius asks me to support the search plattform there:

Marius hat geschrieben:\ Would you like to take over that server and keep it update it? Every time they find a vulnerability and reported, it will be directly send it to you and will have the opportunity to fast fix YaCy security holes and make it more secure.\


..but I rejected since this would eat up too much time which I currently need for development and documentation in advance of the 30C3 which will bring \‘nice\’ things for YaCy (this will be really nice!).

So here is my question to everyone: who wants to take over maintenance of Marius\’ CTF365 YaCy and hold the YaCy flag on a YaCy team fortress there? I will send Marius a link to this posting so you can get in direct contact.

Statistik: Verfasst von Orbiter — Mo Nov 25, 2013 5:39 pm


Mitmachen • Re: support for YaCy on CTF365 battleground

Date: 2013-11-25 19:54:36

Nice things could be a more intensive cleanup like I have always proposed:
- Use interface as type-hint wherever possible
- Rewrite the bootup/shutdown process to visitor-based approach
- Get rid of more old code and replace it with encapsulated (new) code

I was asked by Orbiter by through email if I\’m still involved in YaCy, so here is the answer: Only running an out-dated node as my changes has not been fully merged. In development I have currently retired from it as my patches are declared as \“change all and everything\“.

Statistik: Verfasst von Quix0r — Mo Nov 25, 2013 7:54 pm


Mitmachen • Raspberry Pi und CubieTruck

Date: 2013-11-26 11:15:22

Hallo,

[RasperyPi:]{style=“text-decoration: underline”}

Bin erst seit kurzem mit Yacy zugange. RasperyPis habe ich schon mehrere in Betrieb genommen. Einer läuft bei mir am WAN als FTP-Server für einen Chor. Dafür reicht dessen Tempo locker aus. Vor einer Woche war ich nun am Experimentieren mit YACY auf dem RPi. Als Java hab ich die von Oracle genommen (nach Anleitung in einem Forumsbeitrag). Also es läuft. Beim Crawlen aber am Anschlag. Irgendwann ist er ja aber soweit durch, die kleine Festplatte voll, dass er dann nur noch mit den Aufträgen anderer Peers zu tun hat. Mit der Konfiguration habe ich soweit rumgespielt, dass es stabil läuft. Nur eines klemmt: Wegen des kleinen RAMs stoppt das Crawlen immer nach mehreren Minuten (RAM voll). Klar, er muss die gesammelten Daten im RAM erst mal verarbeiten. Aber das Crawlen läuft danach nicht immer wieder von selbst an. [Hat jemand eine Konfiguration (oder habt ihr (\“orbiter\“) das Image schon oben?), mit dem diese Probleme nicht auftreten?]{style=“font-weight: bold”}

Jetzt wird\’s interessant:

[CubieTruck:]{style=“text-decoration: underline”}

Das von [Low012]{style=“font-style: italic”} genannte Teil habe ich seit Donnerstag auf dem Tisch. Und es hat mich schon viele Nerven gekostet. Das Teil wurde vor kurzem erst ausgeliefert und die Firmware ist noch nicht voll einsatzfähig. Die Community ist kleiner als beim RPi und nach wichtigen Informationen muss man ne ganze Zeit suchen. Kein Vergleich zum RPi. Aber wer Erfahrung mit solcher Art Hardware hat, kann sich ran wagen. Offenbar richtig lauffähig ist das Android-Image. Aber da geht\’s schon los: Nicht mit jedem Bildschirm. Meiner hat DVI (mit HDMI->DVI-Adapter) und VGA. Irgendwann mit irgend einer runtergeladenen und geflashenten Android-version habe ich dann mal den Zustand erreicht, wo es ging. Ein späterer Versuch scheiterte dann wieder. Mit Lubuntu geht mein Monitor per HDMI aber problemlos.

Hab inzwischen in der Summe 2 12 Arbeitstage investiert.

Der Stand ist:

* Das CubieTruck hat (als größerer Bruder vom Cubieboard 2) 2 GByte RAM, das aktuelle Lubuntu kann aber [derzeit nur 1 GByte]{style=“font-weight: bold”} ansprechen.
* Und es besitzt gegenüber Cubieboard 2 integriertes WLAN.
* Beide Boards haben SATA und einen Dual-Cor-Prozessor (!).

aber
* WLAN funktioniert bei mir immer nur, wenn auch das LAN gesteckt ist (???)
* LAN scheint nicht Hot-Plug-fähig zu sein. Es muss beim Booten schon da sein. (Zumindest mit meiner Einstellung mit DHCP. Das lässt sich aber über ein Script sicher noch ändern.)
* SATA geht derzeit nicht mit Lubuntu (Das untersuche ich noch. Es sieht so aus, dass der Treiber die SATA-Stromversorgung nicht mit einschaltet. Forenbeiträge schlagen das Umkonfigurieren im Sourcecode und Kompilieren des u-boot vor. Ist es wirklich nur die Stromversorgung, müsste sie auch mittels Script über den GPIO einschaltbar sein. -> Mit dieser Methode geht aber Booten von SATA (noch) nicht. Dazu muss definitiv der Sourcecode geändert werden. Mit dem Android-Image im Flash soll es aber wohl gehen (nicht getestet).
* Booten über USB geht auch noch nicht. Offenbar werden die USB-Treiber beim Booten noch nicht geladen.
* Man sollte sich zutrauen, das Flash über USB zu laden. Ist aber eigentlich recht einfach und funktioniert zuverlässig, auch wenn man mal zwischendurch unterbricht. Der Bootloader für\’s Flashen ist also offenbar nicht mit auf dem Flash. Den macht man also beim Flashen nicht kaputt.
* Tastatur und Maus gehen bei mir nicht am USB-Port sondern nur über einen dort angesteckten Hub. Das ist aber definitiv kein Stromversorgungsproblem meines Steckernetzteils. Das liefert genug.
* Allgemein hat man beim Lesen der Forenbeiträge das Problem, die Beschreibungen nicht sicher bezüglich der Hardware auseinander halten zu können. Denn es gibt ein Cubieboard 1 (Single-Core A10), ein Cubieboard 2 (ab hier ein Dual-Core A20) und das Cubietruck (auch Cubieboard 3 genannt). Dinge, die auf dem Cubieboard 2 laufen, müssen nicht auf dem Cubietruck laufen. Außer auf der offiziellen Download-Seite lassen sich Images schlecht den betreffenden Versionen zuordnen. man muss probieren, was geht.

-> Das CubieTruck ist derzeit ein echtes Bastelprojekt, wenn man etwas Zeit dafür hat. Aber wenn man den RPi kennt: Im Gegensatz zu dem rasend schnell.

aber
* mit SD-Karte für das root-Filesystem läuft es an und lädt auch den USB-Treiber, um die Festplatte, die ich eigentlich ans SATA anschließen wollte, am USB zu nutzen. YACY will ich nicht auf der SD-Karte betreiben.
* Installation von YACY und Oracle Java ging nahezu problemlos. Die Pfadeinstellungen muss man aber mit der Hand machen. Laut Forenbeiträgen soll das bereits im Lubuntu integrierte Java auf dem CubieTruck (noch) nicht fehlerfrei laufen.
[* Mit den derzeit ansprechbaren 1 Gbyte ist Yacy recht flott. Größenordnungen besser als der RPi!]{style=“font-weight: bold”}
* Crawlen läuft bei mir ohne Unterbrechungen durch zu wenig RAM. (seit gestern Vormittag bis jetzt am Stück)
* Die integrierten LEDs blinkern nervig hell. Ist zwar nicht wichtig, nervt aber, wenn man das Board beim Arbeiten noch vor der Tastatur bzw. Bildschirm liegen hat. Später soll\’s in den Schrank kommen. Dann ist\’s egal.

So, wie es aussieht, würde für Yacy auch das Cubieboard 2 mit 1GByte RAM voll zureichen. Für die 15 Euro mehr des CubieTruck bekommt man aber auch das integrierte WLAN und ein Plexiglas-Satz dazu, der ganz brauchbar als \“Rack\” dient. Eine 2 12\“-Festplatte kann man gleich mit befestigen. Das passende SATA-Kabel liegt bei. (Wenn es denn dann irgendwann mal geht. Im Moment belegt der Aufbau mit dem externen SATA-USB-Adapter noch den halben Tisch.)

Mein Ziel für diesen Aufbau: SATA so weit lauffähig, dass man darauf booten kann und die SD-Karte nicht mehr benötigt wird. 2GByte RAM ansprechbar. (WLAN auch ohne angestecktes LAN; ist aber für mich nicht so wichtig, da das teil am Ende in meinen kleinen Serverschrank kommt, wo LAN drin ist.)

Meine Installationsschritte habe ich übrigens genauestens dokumentiert. Und vorgestern Abend damit noch mal ganz von vorn angefangen, um sicher zu sein, dass alles so stimmt, wie ich es mir notiert habe. Ins Netz habe ich das noch nicht gestellt. Will erst mal noch paar Sachen testen.

Ein Wort zum Preis (mit Versand): RPi um die 40 Euro, CubieTruck um die 95 Euro. Also das 2 12-fache. Diese Leistung bringt es aber auch.

Meiner Meinung nach ist das CubieTruck (wenn dann mal die Firmware rund ist) für einen recht leistungsfähigen Home-Server (NAS/FTP/WEB/TOR/YACY/Cloud...) gut zu gebrauchen. Die Montage einer Festplatte an den Plexi-Platten ist ne gute Lösung, zumal das mitgelieferte SATA-Kabel sehr kurz ist und nicht dumm rumhängt. Das Board am USB3.0-Port das Laptop (liefert 1A, CubieTruck kann nur USB2.0) zu flaschen und dabei den Monitor gesteckt lassen, geht. Zum Betrieb, zumal später direkt mit SATA, sollte man sich aber unbedingt ein 2A-Netzteil besorgen.

Viele Grüße!
Frank

Statistik: Verfasst von fherb — Di Nov 26, 2013 11:15 am


Mitmachen • YACY auf Cubieboard testen

Date: 2013-11-26 11:36:49

Wer dieser Tage mal testen möchte: Derzeit läuft das Board (und crawlt vor sich hin) unter dem YACY-Namen \“fherb_cubietruck1\” an folgender Adresse:

http://fherb.de:8090

Ob als Dauerlösung, wird sich noch zeigen. Und derzeit natürlich nur, wenn ich es eingeschaltet habe und nicht dran rumexperimentiere.

Mein Netzzugang bzgl. Geschwindigkeit: Download meist über 25MBit/s; Upload recht stabil bei 2MBit/s (Kabeldeutschland)

Bei meinen Tests erreicht das Board auch mal über 150 PPM.

Viele Grüße!

Statistik: Verfasst von fherb — Di Nov 26, 2013 11:36 am


Mitmachen • Re: Raspberry Pi

Date: 2013-11-26 12:46:15

Hallo Frank, vielen Dank für den ausführlichen Artikel. Ich hatte den Link zum CubieTruck nur mal hier angeladen, ohne Erfahrung damit zu haben.

Statistik: Verfasst von Low012 — Di Nov 26, 2013 12:46 pm


Fragen und Antworten • Re: Hello my friends I am from China

Date: 2013-11-26 14:59:06

sunzhoujian hat geschrieben:\ Sorry that I can only read/write in English. I believe the P2P search idea is fantastic,especially for countries like China.I would love to devote my time to this project.Can people try to use English here? Thanks a lot.(of course if you are using Chinese,that is cool )\



Its worth taking the time to learn how to use it.
Its a really fantastic software tool.
Then some things can be done on automatic when you know what to do.

I\’m a new user myself took a few goes to work it out, but now I run it when ever I can afford the power to keep the PC running overnight.

Statistik: Verfasst von smokingwheels — Di Nov 26, 2013 2:59 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-11-26 15:35:45

netsearch hat geschrieben:\ >
> > smokingwheels hat geschrieben:Nun, mein P4 läuft gut. keine Eier in > einen Korb.\ > Dont viel Speicher zuweisen versuchen DEFAULT Setting Erste und > Build Data Base mehr PEERS ist, was gebraucht wird. Überqueren > install Java. Löschen Java.exe Mit Symbol.\ > I how Google Translate..\ > >



Can you pls post that in english? unfortunately the machine translation is not understandable.…



Ok from memory after YaCa crash in windows P4.

Unless SSD Drives in YaCa server, Do not increase Java memory so large to improve performance.
Note: If have Normal hdd look at a reformat/partition with 512 byte sectors because most of YaCy disk activity is 1024 bytes. eg Normal Format is 4096 bytes per sector.

I have found that Java.exe with Icon is loading to perform an update, I deleted Java.exe with Icon Under a search window. YaCy not affected and no automatic update ICON Gone.

The CPU Speed is not the problem its the Hard disk access time. Typically an old P4 server with SCSI Disks can have approx 4 times less Latency time for the data than with a SATA disk drive So try to build your search index first, BACKUP then play with memory setting on JAVA.

Happy to be proven wrong.

Statistik: Verfasst von smokingwheels — Di Nov 26, 2013 3:35 pm


Hilfe für Einsteiger und Anwender • Intranet Ersteinrichtung (Datenschutz)

Date: 2013-11-26 15:38:57

Hallo,
ich habe mir nun bereits mehrere Artikel bezüglich Yacy durchgelesen und bin nun sehr daran interssiert es für mein Intranetprojekt zu verwenden.
Nun wollte ich mich bei euch Profis vorab vergewissern ob folgendes möglich ist:

- Verwendung von Yacy ohne Webserver
- Verwendung von Yacy ohne Datenbank (MySQL)
- Sucheingabezeile (\“input=text\“) einfach in ein homepagestyle einzubinden?
- Keine Senundung von Daten in das Internet?? (Sehr wichtig - Datenschutz: Yacy sollte keinesfalls Daten die gefunden werden im Internet verbreiten)
- Kein Empfang aus dem Internet?? (Sehr wichtig - Datenschutz: Yacy sollte keinesfalls Daten aus dem Internet in die eigenen Suchergebnisse miteinspielen lassen)

Wenn dies alles möglich ist, würde ich Yacy gerne mal ausprobieren. Gibt es hierfür auch eine Schritt für Schritt Anleitung? Die auch explizit auf die Abschaltung von Sendung/Empfang von Daten eingeht?

Viele Grüße und ein Danke bereits im voraus!

Statistik: Verfasst von Neuling — Di Nov 26, 2013 3:38 pm


Fragen und Antworten • Re: 99,9% JAVA CPU Last..??

Date: 2013-11-26 16:08:22

smokingwheels hat geschrieben:\ I had my XP Crash with heaps of DCOM errors and no network.\


As far as I know, yacy runs smoother under unix-based operating systems (like linux and mac osx). Maybe yould think about switching. Linux mint works well with yacy, and it\’s free and easy to handle for ex-windows users. I\’m using it on my own computers. http://www.linuxmint.com/

I found by installing JAVA version 6 u 26 then 7 u25 it runs real smooth on P4 3 G unless its index time. YaCa is About 2% of CPU time at normal operation on Windows XP desktop PC.

Statistik: Verfasst von smokingwheels — Di Nov 26, 2013 4:08 pm


Hilfe für Einsteiger und Anwender • Re: Intranet Ersteinrichtung (Datenschutz)

Date: 2013-11-26 16:09:15

Hallo Neuling,

ich denke das viele YaCy im Intranet verwenden - wie viele es sind wissen wir nur leider nicht.

Es Wird kein externer Webserver (Apache oder so) gebraucht, aber YaCy bringt seinen eigenen Webserver mit.
Denn Such-Anfragen und Administration geht über den internen httpd.

Es wird auch keine externe Datenbank benötigt - alles für Datenhaltung des Indexes bringt YaCy mit.

Es gibt einige Beispiele im YaCy-Interface unter \‘Integration Suche in Externe Seiten\’ zumeinbinden des Suchschlitz.

Die Konfiguration, ob man am Freeworld teilnimmt - oder wie Du es möchtest, als private Suche sein YaCy laufen soll kommt gleich am Anfang nach dem ersten Start.
In der \‘Netzwerk-Konfiguration\’ kann man das aber auch später noch so konfigurieren.

Ob es irgendwo noch eine detailierte Anleitung gibt weiss ich gerade auch nicht. Es ist ja aber auch einfach der Robinson-Modus von YaCy, der das schon so mitbringt wie Du es möchtest.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Nov 26, 2013 4:09 pm


Hilfe für Einsteiger und Anwender • Re: Local Crawl Queue wächst zu stark

Date: 2013-11-26 18:48:47

2.2 Mio Links :(

Statistik: Verfasst von Seitenreiter — Di Nov 26, 2013 6:48 pm


Hilfe für Einsteiger und Anwender • Re: Local Crawl Queue wächst zu stark

Date: 2013-11-26 20:38:10

in /CrawlProfileEditor_p.html kannst du die Crawl Tiefe verstellen, ganz unten ein Profil auswählen und editieren. Welche Tiefe hast du eingestellt? Über den Daumen gepeilt sind das ca. 20\^<depth> Links bei <depth> Tiefe, also bei <depth> = 8 ungefähr das ganze Internet.

Statistik: Verfasst von Orbiter — Di Nov 26, 2013 8:38 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-11-27 00:48:56

Nun, Raspberry Pi ist bei mir auch noch Thema. Aber wegen der doch etwas begrenzten Leistungsfähigkeit hatte ich mich jetzt mal umgesehen, was es alternativ noch gibt. Zumindest zum Crawlen und Parsen ist der Pi doch etwas schwach. Wenn man ihn aber nur wenige PPM abarbeiten lässt und ihn nicht über die Weboberfläche mit Suchanfragen quält, kann er am Netz sicher einen kleinen, preiswerten Suchnutzen bringen. Gerade auch, wenn man noch eine ältere Laptop-Festplatte rumliegen hat. Der mittlere Stromverbrauch sollte für RPi und Festplatte unter 1 A, also 5 Watt liegen. Vorausgesetzt, das Netzteil ist nicht selbst ein Stromfresser.

Es wäre interessant von den Entwicklern mal zu erfahren, ob z.B. ein Cluster aus z.B. 10 RasPis mit jeweils einer 32GBit SD-Karte wirtschaftlicher ist als ein vergleichbar teurer Server. Ich schätze mal, der Gesamtpreis pro Clusterelement wird bei 70 Euro liegen (gemeinsames Netzteil und Hubs preislich auf alle umgelegt). Inkl. Kleinkram. Alternativ ein Server mit einer Ausstattung, wie der in der ct kürzlich aktualisierter 11-Watt-PC (Ruheleistung). Lag auch so um die 700 Euro.

An dem Cubieboard habe ich jetzt ne Festplatte, auf der rund 430GB für YACY Platz ist. Mal sehen, wie sich die Prozessorauslastung ändert, wenn die Platte gut gefüllt ist. Vielleicht ist das eine passendere Zusammenstellung: Irgendwas von einigen hundert Gigabyte Festplatte, einen 1- oder 2-corigen nicht zu langsamen ARM an einem DSL- bzw. Kabelnetzanschluss.

Viele Grüße!

Statistik: Verfasst von fherb — Mi Nov 27, 2013 12:48 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-11-27 09:10:20

140\#gast hat geschrieben:\ das ist doch nur ne virale Sony Werbung ![:roll:](http://forum.yacy-websuche.de/images/smilies/icon_rolleyes.gif "Rolling Eyes")\


Darum sind auf dem Medion-Monitor auch nur mehr oder wenige wirre Zeichen zu sehen? ;)

Statistik: Verfasst von Low012 — Mi Nov 27, 2013 9:10 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-11-27 09:14:32

Was ist das für eine Welt, in der Serverfehler in ein Formular eingetragen werden? :shock:

Statistik: Verfasst von Low012 — Mi Nov 27, 2013 9:14 am


Hilfe für Einsteiger und Anwender • Re: Local Crawl Queue wächst zu stark

Date: 2013-11-27 14:45:13

Bei vielen steht da 99, wobei ich aber meine die nirgendwo so extrem eingestellt zu haben. Ok, werde sie mal auf 3..5 runterdrehen

Statistik: Verfasst von Seitenreiter — Mi Nov 27, 2013 2:45 pm


Hilfe für Einsteiger und Anwender • Re: Local Crawl Queue wächst zu stark

Date: 2013-11-27 15:30:46

die 99 kommt automatisch bei site-crawl starts, das sollte schon ok sein ausser du hast da hosts, die unendlich viele Seiten automatisch generieren, was z.B. bei einem Kalender ganz natürlich wäre.

Statistik: Verfasst von Orbiter — Mi Nov 27, 2013 3:30 pm


Off-Topic • Spanish corner?

Date: 2013-11-27 20:40:47

Is it possible to open an Spanish corner in the forum?

I have started to translate the interface in Spanish, and I think this is the best place to communicate with potential partners

Statistik: Verfasst von melonius — Mi Nov 27, 2013 8:40 pm


YaCy Coding & Architektur • YaCy Lizenz

Date: 2013-11-28 09:58:33

Ich beschäftige mich gerade mit der Aktualisierung der YaCy Web-Oberfläche. In dem Zuge habe ich einige externe Scripts integriert, die von ihrer Lizenz her GPLv2 kompatibel sind. Nun würde ich gerne eine Schriftart hinzufügen, die jedoch Apache v2 lizensiert ist.
Ein ähnliches Thema wurde bereits hier diskutiert{.postlink}, wobei es um die Apache Libs und Jetty ging. Der Punkt war, sofern der Code nicht modifiziert wird und die Lizenz beiliegt, sollte das in Ordnung gehen.
Andererseits geht aus der YaCy Lizenz hervor, dass die GPLv2 oder später angewendet werden kann, bzw. werden schon mehrere Lizenzen genannt:

\ All parts of the software known as YaCy are covered under the\ terms of the GNU Lesser General Public License (files in source/net/yacy/cora) or\ the GNU General Public License (all other files) as published by the\ Free Software Foundation;[ either version 2 of the License, or (at your option)\ any later version unless stated otherwise]{style="font-weight: bold"}.\


Würde das bedeuten, dass im Grunde auch die GPLv3 angewendet werden kann, bzw. macht es sinn YaCy komplett unter die v3 zu stellen (vor allem auch wegen der Apache Libs), sofern dies überhaupt [einfach]{style=“font-style: italic”} möglich ist?

Das ganze Lizenz-Thema ist ziemlich komplex und genau kann das sicher keiner sagen :) .. mir stellt sich nun die Frage, ob es ok ist, die Schrift unter Apache v2 zu integrieren, oder ob ich es besser lassen sollte.

Statistik: Verfasst von surfvive — Do Nov 28, 2013 9:58 am


YaCy Coding & Architektur • Re: YaCy Lizenz

Date: 2013-11-28 13:23:17

wir haben ja unmengen an apache-lizensierten Dingen in YaCy, vor allem die ganzen apache-libraries (http client, parser, solr etc). Ich bin beim Thema \‘richtige Lizenzangaben\’ auch nicht unbedingt der richtige Berater, aber wir versuchen einfach jede Komponente, die wir in YaCy integrieren mit einem .license-File zu begleiten wo drin steht was das für eine Lizenz ist. Bei den Schriften würde ich das auch so machen.

Statistik: Verfasst von Orbiter — Do Nov 28, 2013 1:23 pm


Fragen und Antworten • Pending in collection : (What is that)

Date: 2013-11-28 14:14:52

Hi.

On http://localhost:8090/Crawler_p.html under Progress there is a row named \“Pending in collection:\” , what does that mean exactly?

//Usern

Statistik: Verfasst von usern — Do Nov 28, 2013 2:14 pm


Fragen und Antworten • Speichernutzung

Date: 2013-11-28 14:41:04

Hallo
19 GB Speicher zugeordnet ist 50-100 mb und yatsy beginnt \“spät\“. Seite
http://localhost:8091/Status.html?noforward =
nicht öffnen. Yatsy müssen neu starten. 1,62-1,65 aufgewertet.
Wie kann ich es beheben?

Statistik: Verfasst von mass — Do Nov 28, 2013 2:41 pm


Fragen und Antworten • Re: Pending in collection : (What is that)

Date: 2013-11-28 21:19:35

As far as i understood, \“pending in collection\” shows the amount of documents which are queued for (solr) postprocessing. The postprocessing will start automatically after the crawler is ready to crawl documents, but i am not sure at this point.

Statistik: Verfasst von freak — Do Nov 28, 2013 9:19 pm


Fragen und Antworten • Re: Pending in collection : (What is that)

Date: 2013-11-28 22:56:25

Thank you freak.

It seems to me that this is a HDD thrashing job, I had over 200000 pending in collection and it has been going on for hour after hour now.
Would it help if I did put some of the files on a separate disk (SSD in this case)?

Statistik: Verfasst von usern — Do Nov 28, 2013 10:56 pm


Fragen und Antworten • Re: Pending in collection : (What is that)

Date: 2013-11-28 23:23:33

Possibly it helps if you stop the crawler manually ... the post processing job starts automatically after a while and the counter should decrease. That\’s what i observed ...

Statistik: Verfasst von freak — Do Nov 28, 2013 11:23 pm


Fragen und Antworten • Re: Pending in collection : (What is that)

Date: 2013-11-28 23:56:40

I am not crawling any sites at the moment, crawler queue is empty.
What I did was that I performed a lot of searches ~24 hours ago, I am using the option shallow crawl on http://localhost:8090/ConfigHeuristics_p.html and my intention was to fill up the crawler queue with some good stuff before i got to bed, what I did not know was that it would take me this long to process that queue.
I am now down to ~10000 pending in collection so I guess it should be finished when I wake up tomorrow.

Statistik: Verfasst von usern — Do Nov 28, 2013 11:56 pm


Off-Topic • Re: Spanish corner?

Date: 2013-11-29 13:30:49

Hello melonius! First of all thank you for translating YaCy!

I just would like to join and extend the discussion. There still is an English forum (http://www.yacy-forum.org/) which is not my forum, but I try to keep it clean from spam which has become a major task recently.

When YaCy as a project evolved and it became clear that people outside of a small circle of developers and early users were interested in the software, the idea was born that for every language there could be an extra forum with it\’s own domains and people operating the forums who are not from the YaCy dev team. (Keeping it decentralized...)

The English forum was founded a few years ago, but the owner\’s interests have shifted into other directions. He gave me moderator\’s permissions, but I don\’t have any access to the server itself which keeps me from installing updates myself for example. The English forum is more or less dead, but I think there is a need for an international forum. I am not sure if we should try to encourage independent forums or if this forum should have more sections in more languages. :?

Statistik: Verfasst von Low012 — Fr Nov 29, 2013 1:30 pm


Wunschliste • Re: Alte Links/ Einträge / Blacklist

Date: 2013-11-30 01:27:27

man kann nur überprüfen ob Webseiten noch existieren indem man alle links, die man kennt, wieder versucht zu laden. Das ist zwar vorstellbar, aber strategisch nicht unbedingt sinnvoll. Beispielsweise gehen Nutzer so vor, um wöchentlich alle Webseiten neu zu erfassen und abei alles, was älter als zwei wochen ist und nicht mehr existiert zu löschen:
- bestimmte Webseiten sollen regelmäßig neu gecrawlt werden
- damit das nicht so aufwendig ist, wird dabei im Crawl Start inden \“Double-Check Rules\” das Flag \“Re-load\” aktiviert und auf 7 Tage gestellt.
- damit alles was älter als 14 Tage ist und nicht mehr existiert, wird im Feld \“Clean-Up before Crawl Start\” das Flag \“Delete only old\” aktiviert und auf 14 Tage gestellt.

Dabei ist zu vermerken, dass ein Überprüfen von allen Links, wie du vorschlägst nicht so effizient ist, wie ein Neuladen von allen Links, die nicht im Cache sind und beim Löschen von älteren Dateien übrig geblieben sind.

Das ganze funktioniert so natürlich nur innerhalb der Zielsetzung, einzelne Domänen zu crawlen. Wenn du den gesamten Index ohne Crawlerziel \‘auffrischen\’ willst, dann muss man das tatsächlich so machen wie du vorschlägst.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:27 am


Fragen und Antworten • Re: Speichernutzung

Date: 2013-11-30 01:28:40

mass, this auto-translation is not really understandable. Please re-post in english language.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:28 am


Wunschliste • Re: scans matching documents for links only / HrefOnly

Date: 2013-11-30 01:32:11

das Identifizieren, was eine \‘Übersichtsseite\’ ist, kann (noch) nicht automatisch geschehen. Du kannst aber beim Crawl Start über den \“Document Filter\” ein Pattern angeben, wie die URL dazu aussehen soll. Wenn du beispielsweise eine einzlne URL hast, die die Übersichtsseite ist, dann schreibst du die innerhalb von \“Document Filter\” in \“Filter on URLS\” - \“must-not-match\” rein. Das sollte das Crawlen nicht verhindern, aber das Indexieren genau dieser Seite.

So weit ich das HrefOnly verstanden habe sollte das hier das gleiche sein.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:32 am


Fragen und Antworten • Re: How can I set a virtual server option?

Date: 2013-11-30 01:36:21

There is no general explanation for this because it is router-specific. You must search the documentation of your router to get the specific and appropriate help. Try to search for it: http://localhost:8090/yacysearch.html?q ... ing+router{.postlink}

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:36 am


Hilfe für Einsteiger und Anwender • Re: Handling non-standard TLD\’s?

Date: 2013-11-30 01:39:44

this is possible, but you must know and be aware which IP-range your non-standard TLD has. If it is within the public IP range, the standard setting should already allow that! If the IP-range belongs to the intranet, then you must set the network operation mode to \‘intranet\‘. If the IP-range cannot be specified with the public or private IP pattern, then you can set YaCy to accept any IP range by selecting the /ConfigNetwork_p.html servlet and setting the \“Network Definition\” to \“allip\“.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:39 am


YaCy Coding & Architektur • Re: DHT seedlist bug in mode any

Date: 2013-11-30 01:42:10

yes, creating a YaCy network within an intranet is on my working list. What you see is because it is not supported, yet, but I want to do that.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:42 am


Hilfe für Einsteiger und Anwender • Re: Alte Host löschen unter Warteschlangen Lokal

Date: 2013-11-30 01:45:37

Du kannst Hosts im HostBrowser löschen, da gibts ja diesen \‘Delete Subpath\’ button wenn du zu einem Host hingeklickt hast. Du kannst aber auch im Servlet /IndexDeletion_p.html ganz genau angeben was du löschen willst. Schreibe bsp. den Host in das \“Delete by URL Matching\” feld und dann auf \“Simulate Deletion\” klicken, dann kannst du sehen wieviel gelöscht werden würde.

Statistik: Verfasst von Orbiter — Sa Nov 30, 2013 1:45 am


Fragen und Antworten • Re: Speichernutzung

Date: 2013-11-30 05:38:56

hello
YACY highlighted for 19 GB of memory. After one day, have to restart YACY, because-that 50-100 mb left
Can not open http://localhost:8091/Status.html?noforward =.
The problem appeared after upgrading from version 1.62 to 1.65.
How can I fix it?
Apologies for the translation
OS Ubuntu 12.04

Statistik: Verfasst von mass — Sa Nov 30, 2013 5:38 am


Fragen und Antworten • Installationsproblem: Unable to find expected entry

Date: 2013-12-01 10:11:39

Hallo

Leider habe ich bei einer Neuinstalltion (Erstinstallation) folgendes Problem:

Nach dem apt-get update kommt:
[W: Failed to fetch http://debian.yacy.net/./Release Unable to find expected entry Packages in Meta-index file (malformed Release file?)]{style=“font-style: italic”}

Folgendes wurde gemacht:
Anleitung nach: http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink}

Die /etc/apt/sources.list sieht so aus:

Code:
deb http://debian.etc.usw/debian/ squeeze main non-free contribdeb-src http://debian.etc.usw/debian/ squeeze main non-free contribdeb http://security.debian.org/ squeeze/updates main contrib non-freedeb-src http://security.debian.org/ squeeze/updates main contrib non-freedeb http://debian.etc.usw/debian/ squeeze-updates main contrib non-freedeb-src http://debian.etc.usw/debian/ squeeze-updates main contrib non-freedeb http://debian.yacy.net ./


System:
Debian GNU/Linux 6.0 \n \l
Linux version 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4) (dannf@debian.org) (gcc version 4.3.5 (Debian 4.3.5-4) ) #1 SMP Mon Sep 23 22:14:43 UTC 2013

Taten:
... abgesehen von den üblichen Verzweiflungstaten, folgendes
apt-get clean (kein Erfolg)
apt-get autoremove (kein Erfolg)
apt-get dist-upgrade (kein Erfolg)
Spracheinstellungen LC_ etc... (kein Erfolg)

Status:
yacy noch nicht istalliert, weil kein apt-get update möglich ist.
Logfile-, Internet- und Forensuche nach dem Problem abgeschlossen.

Statistik: Verfasst von nux — So Dez 01, 2013 10:11 am


Fragen und Antworten • Re: Installationsproblem: Unable to find expected entry

Date: 2013-12-01 12:35:30

oh sorry wir basteln da grade dran rum, bitte nochmal probieren!

Statistik: Verfasst von Orbiter — So Dez 01, 2013 12:35 pm


Fragen und Antworten • Re: Speichernutzung

Date: 2013-12-01 14:11:28

Experimented with proxy
Fail ((
I do not know how to fix

Code:
I 2013/12/01 17:08:00 LibraryProvider creating vocabulary map from PND triplestoreI 2013/12/01 17:08:00 org.apache.solr.core.ConfigSolr Loading container configuration from /usr/share/yacy/defaults/solr/solr.xmlI 2013/12/01 17:08:00 org.apache.solr.logging.LogWatcher SLF4J impl is org.slf4j.impl.JDK14LoggerFactoryI 2013/12/01 17:08:00 org.apache.solr.logging.LogWatcher Registering Log Listener [JUL (org.slf4j.impl.JDK14LoggerFactory)]I 2013/12/01 17:08:02 SolrEmbeddedInstance detected default solr core: collection1I 2013/12/01 17:08:02 Fulltext using lucene version LUCENE_45I 2013/12/01 17:08:02 Fulltext connected solr in /usr/share/yacy/DATA/INDEX/SEGMENTS/solr_45, lucene version LUCENE_45, default core size: 0I 2013/12/01 17:08:02 RemoteSolrConnector connecting Solr with url:http://127.0.0.1:8983/solr/collection1I 2013/12/01 17:08:02 HeapReader generating index for /usr/share/yacy/DATA/INDEX/NETWORK/seed.new.heap, 0 MB. Please wait.I 2013/12/01 17:08:02 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/NETWORK/seed.new.heap, 0 entries, 0 gaps.I 2013/12/01 17:08:02 Heap initializing heap /usr/share/yacy/DATA/INDEX/NETWORK/seed.new.heapI 2013/12/01 17:08:02 HeapReader generating index for /usr/share/yacy/DATA/INDEX/NETWORK/seed.old.heap, 0 MB. Please wait.I 2013/12/01 17:08:02 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/NETWORK/seed.old.heap, 0 entries, 0 gaps.I 2013/12/01 17:08:02 Heap initializing heap /usr/share/yacy/DATA/INDEX/NETWORK/seed.old.heapI 2013/12/01 17:08:02 HeapReader generating index for /usr/share/yacy/DATA/INDEX/NETWORK/seed.pot.heap, 0 MB. Please wait.I 2013/12/01 17:08:02 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/NETWORK/seed.pot.heap, 0 entries, 0 gaps.I 2013/12/01 17:08:02 Heap initializing heap /usr/share/yacy/DATA/INDEX/NETWORK/seed.pot.heapI 2013/12/01 17:08:02 TABLE initialization of news1024.db. table copy: no, available RAM: 20830MB, needed: 200MB, allocating space for 0 entriesI 2013/12/01 17:08:02 TABLE /usr/share/yacy/DATA/INDEX/NETWORK/news1024.db: TABLE /usr/share/yacy/DATA/INDEX/NETWORK/news1024.db has table copy DISABLEDI 2013/12/01 17:08:02 TABLE initializing RAM index for TABLE news1024.db, please wait.I 2013/12/01 17:08:02 TABLE initialization of newsOut.table. table copy: no, available RAM: 20830MB, needed: 200MB, allocating space for 0 entriesI 2013/12/01 17:08:02 TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsOut.table: TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsOut.table has table copy DISABLEDI 2013/12/01 17:08:02 TABLE initializing RAM index for TABLE newsOut.table, please wait.I 2013/12/01 17:08:02 TABLE initialization of newsPublished.table. table copy: no, available RAM: 20830MB, needed: 200MB, allocating space for 0 entriesI 2013/12/01 17:08:02 TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsPublished.table: TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsPublished.table has table copy DISABLEDI 2013/12/01 17:08:02 TABLE initializing RAM index for TABLE newsPublished.table, please wait.I 2013/12/01 17:08:02 TABLE initialization of newsIn.table. table copy: no, available RAM: 20830MB, needed: 200MB, allocating space for 0 entriesI 2013/12/01 17:08:02 TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsIn.table: TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsIn.table has table copy DISABLEDI 2013/12/01 17:08:02 TABLE initializing RAM index for TABLE newsIn.table, please wait.I 2013/12/01 17:08:02 TABLE initialization of newsProcessed.table. table copy: no, available RAM: 20830MB, needed: 200MB, allocating space for 0 entriesI 2013/12/01 17:08:02 TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsProcessed.table: TABLE /usr/share/yacy/DATA/INDEX/NETWORK/newsProcessed.table has table copy DISABLEDI 2013/12/01 17:08:02 TABLE initializing RAM index for TABLE newsProcessed.table, please wait.I 2013/12/01 17:08:02 SWITCHBOARD Initializing Word Index for the network ''.E 2013/12/01 17:08:02 SWITCHBOARD no network name given - shutting down

Statistik: Verfasst von mass — So Dez 01, 2013 2:11 pm


Hilfe für Einsteiger und Anwender • Re: Handling non-standard TLD\’s?

Date: 2013-12-02 02:38:19

Orbiter hat geschrieben:\ this is possible, but you must know and be aware which IP-range your non-standard TLD has. If it is within the public IP range, the standard setting should already allow that! If the IP-range belongs to the intranet, then you must set the network operation mode to \'intranet\'. If the IP-range cannot be specified with the public or private IP pattern, then you can set YaCy to accept any IP range by selecting the /ConfigNetwork\_p.html servlet and setting the \"Network Definition\" to \"allip\".\



Ah, great! So let me see if I understand... if I have my YaCy node (connected to freeworld) index a .bit domain (a nonstandard TLD which uses the public Internet IP range), then the site will be indexed, and other users who are able to view .bit domains will see my index in their search results? How do the other users\’ nodes determine if they can see nonstandard domains? Do the nodes just try to retrieve the website in question prior to displaying results? Will nonstandard TLD\’s propagate the DHT index properly? Do the nodes in the DHT have to support a nonstandard TLD to be able to store an index for it?

Thanks.

Statistik: Verfasst von biolizard89 — Mo Dez 02, 2013 2:38 am


Fragen und Antworten • Debian-Repository streikt

Date: 2013-12-02 11:47:27

Hallo zusammen,

ich hatte irgendwann vorige Woche gehört, daß jemand dabei ist, das Debian-Repository auf Crypt-Stand zu bringen. Dazu habe ich jetzt eine gute und eine schlechte Nachricht. Zuerst die gute: gpg-keys scheinen zu funktionieren. Die schlechte: beim apt-get update kommt folgende Fehlermeldung:

Code:
W: Failed to fetch http://debian.yacy.net/./Release  Unable to find expected entry 'Packages' in Release file (Wrong sources.list entry or malformed file)E: Some index files failed to download. They have been ignored, or old ones used instead.



Und wirklich: Packages fehlt in http://debian.yacy.net, da gibt es nur die Packages.gz. Und damit streikt zumindest der wheezy-apt. Ich habe so vage die Erinnerung, daß die Fehlermeldung schon vor der gpg-Umstellung auftauchte, so ein zwei Tage vorher.

Statistik: Verfasst von click42 — Mo Dez 02, 2013 11:47 am


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 13:08:13

Hm, seltsamer Effekt. Etwa seit Mitte November war meine Maschine (Hetzner-Büchse, i7, 16GB) alles andere als performant. Das Ding schlich einfach nur noch. Gerade habe ich den vorigen Post von Orbiter gelesen und meine Instanz auf v6 befördert. Nach Durchsicht meines Netstat machen jetzt etwa 60% aller Peerzugriffe v6. Und die Engine läuft wieder flüssig.

Könnte es sein, daß sich das Yacy-Netz klammheimlich und schnell in ein v6-Netzwerk verwandelt hat? Kann es sein, daß sich das eventuell auf die v4-Kollegen auswirkt?

Statistik: Verfasst von click42 — Mo Dez 02, 2013 1:08 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 13:25:22

das ist tatsächlich interessant. Dazu bitte mal die IPs der Peers kontrollieren, hierzu gibts seit zwei Wochen ein neues Servlet das die gleichen Daten produziert wie das, was Principals hochladen. Also eine komplette Seed-Liste. Der json-Zugang dazu ist unter http://localhost:8090/yacy/seedlist.json
Darin siehst du nun unter IP die IPs. sind das IPv4 oder IPv6? Ich habe nur IPv4.

Statistik: Verfasst von Orbiter — Mo Dez 02, 2013 1:25 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 13:54:55

In der Seeds-Liste sind nur v4-Maschinen. Irgendwas scheint bei mir intern nicht so wirklich zu stimmen...
Ich halte nochmal folgenden Fakt fest: v6 eingeschaltet, alles läuft schneller.

Ich sehe allerdings bei netstat grundsätzlich alles Yacy-mäßige (Port 8090) im v6-stack (also tcp6-Einträge). Da stehen auch die v4-Adressen drin. Und die v6-Einträge sind immer mit meinem eigenen v6-Netz (vorsicht, ich sehe nachträglich nur die WAITs):

Code:
tcp6  1234 0 hier.meine.v4.adresse:8090 ne.andere.v4.ip:12345 FIN_WAIT1tcp6  0 0 mein:v6:prefix::8090 mein:v6:prefix:irgendwas TIME_WAIT



Sieht also nach einer Fehlinterpretation meinerseits aus. mein.v6:prefix::8090 sieht nach einer selbstgebauten Service-Adresse aus. Sowas wie mein:v6:prefix::123 für ntp. Daß aber auch die v4-Adressen im v6-Stack auftauchen ist seltsam. Und natürlich die Geschwindigkeitssteigerung. Ist da javamäßig irgendwas im Argen, wenn eine Maschine Dual-Stack fährt?

Statistik: Verfasst von click42 — Mo Dez 02, 2013 1:54 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 14:30:45

kannst du irgendwie ein anderes Programm zum Vergleichen nutzen um festzustellen ob das ein Java-issue oder ein OS Issue ist?
Zu IPv6 schreibt Oracle: http://docs.oracle.com/javase/6/docs/te ... index.html{.postlink}

Statistik: Verfasst von Orbiter — Mo Dez 02, 2013 2:30 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 14:54:14

Naja, ich betreibe die Maschine selbst seit mehr als einem Jahr voll Dual Stack und yacy war eins der Problemkinder. Da tickern Apache, Exim, Jabber usw. sauber. D. h. die anderen Programme arbeiten sauber v4-Adressen bei netstat mit \“tcp\” und die v6-Adressen mit \“tcp6\“. Meine Kommunikation von zuhause zu dieser Maschine überwiegend v6, ich komme unterwegs ohne Tunnel problemlos mit v4 drauf.

Das einzige, was ich nicht testen kann, ist java. Ich bräuchte da irgendein .jar, was ohne Oberfläche irgendwas dual-Stack-taugliches macht...
Ich werd erstmal das Oracle-Dokument anschauen und verdauen...

Statistik: Verfasst von click42 — Mo Dez 02, 2013 2:54 pm


Mitmachen • Re: Intresse an IPv6?

Date: 2013-12-02 15:10:57

Works as designed:

\ The Java networking stack will first check whether IPv6 is supported on the underlying OS. If IPv6 is supported, it will try to use the IPv6 stack. More specifically, on dual-stack systems it will create an IPv6 socket.\



Wußte gar nicht, daß das dann auch mit v4-Adressen geht...

Statistik: Verfasst von click42 — Mo Dez 02, 2013 3:10 pm


Hilfe für Einsteiger und Anwender • domain yacy

Date: 2013-12-02 22:59:29

Hello
How to open address Http://<peer>.yacy ?

Statistik: Verfasst von mass — Mo Dez 02, 2013 10:59 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-12-03 00:56:12

Kurzer Zwischenstand, wen es interessiert. Und vielleicht kann ich jemanden mobilisieren, mitzumachen.
------------------------------------------------------------------------------------------------------------------------------------

Habe jetzt 3 auf interessante Weise vergleichbare Systeme laufen:

[*] fherb-hetzn62{.postlink} Läuft auf einer virtuellen Maschine bei Hetzner; bekannte Randdaten: 512MB RAM, 100MBit-Anbindung, Verwendung eines Swapfiles
[*] fherb-CubieTruck1{.postlink} Läuft bei mir zu Hause über LAN am Router. Der genannte CubieTruck. Randdaten: Dual-Core-Arm; derzeit reichlich 800MB RAM ansprechbar (noch Firmwareproblem; 2GB sind verlötet)
[*] fherb-RasPi1{.postlink} Läuft ebenfalls bei mir zu Hause, aber über WLAN am Router. Hier tuckert ein ARM mit 512MB RAM.

Die beiden ARMse hängen an 24...32MBit Downloadrate und 2MBit Uploadrate im Netz von Kabeldeutschland.

Soweit ich das aber bisher beobachten kann: Nicht der mittlere Durchsatz des Netzes scheint die Kommunikation mit anderen Peers zu beeinflussen, sondern die Reaktionszeiten am Netz. Richtig? Ein reaktionsschneller Peer wird offenbar \“gerne\” ausgewählt, um Daten zu speichern, die von anderen Peers kommen. (s. Bemerkung unten)

Interessant: Der knappe Speicher von 512MB beim Hetzner-System scheint YACY bei der Netzwerkarbeit mit den anderen Peers wenig auszubremsen. Offenbar zählt hier vor allem schnelle Reaktion in der Netzwerkkommunikation. Die zugeteilte Prozessorleistung und Zugriff auf die Festplatte für diese VM scheint ganz passabel. Vielleicht sind das wenig beanspruchte Systeme, mit denen ich die Hardware bei Hetzner teilen muss. Auch scheint das Indexieren vor allem Leistung im Download (Netzanbindung) und im Parsen (Prozessor) zu fordern. Auch das geht ganz zügig.

Der CubieTruck hat mich inzwischen von seiner Leistungsfähigkeit gegenüber dem Raspberry Pi überzeugt. Beide liegen natürlich weit hinter dem Hetzner-System zurück. Beim RasPi macht das Zusammenspiel aus begrenzter Leistungsfähigkeit und nicht allzu großem RAM vor allem beim Crawlen Probleme. Aber: Er arbeitet stabil. Vermutlich sind aber auch seine Reaktionszeiten am Netz nicht so dolle, weswegen er von anderen Peers kaum zur Verwaltung von Daten angesprochen wird. Das klappt beim CubieTruck schon deutlich besser. Ob den CubieTruck nun eher die Netzwerkanbindung oder die eigene Leistungsfähigkeit bremst, weiß ich noch nicht. Die zwei Kerne sind jedenfalls nicht permanent bei 100%.

Die Probleme mit der SATA-Festplatte am CubieTruck sind gelöst: Auch ein 2A-Netzteil reicht nicht aus. Der zentrale Stromversorgungsbaustein resetet den Prozessor in dem Moment, wenn die Festplatte vom Prozessor eingeschaltet wird. Der Treiber beherrscht inzwischen alles: SATA wie auch das Einschalten der Stromversorgung. Und: Die Festplate wird nur versorgt, wenn man den Strom über den Rundsteckverbinder zuführt. Das CubieBoard lässt ebenso die Versorgung über die Mini-USB-Buchse zu. Aber wie ich der Schaltung inzwischen entnehmen konnte, ohne einen Teil der Peripherie zu versorgen. Also auch ein kräftiges 12W-Apple-Steckernetzteil mit Mini-USB-Stecker reicht nicht zu, um die Anordung mit Festplatte zu betreiben. - Ob man mittels Stützkondensator das CubieTruck inckl. Festplatte an einem 2A-Netzteil verwenden kann, teste ich noch. Nach dem Einschaltmoment des Spindelantriebs sollte das völlig ausreichend sein. - Nutzer von SSD-Festplaten haben dieses Problem nicht. Aber das wird vorerst der Sonderfall bleiben, da eine SSD am CubieTruck, wie auch am Raspberry Pi kostenmäßig Unsinn ist. Dann lieber das Geld in leistungsfähigere Prozessor(Mainboard)hardware stecken.

Das Tuning der Parameter zur Verbesserung der Leistungsfähigkeit ist für mich noch ein Rätsel. Manche Parameter sind ein wenig verständlich. Aber um das wirklich ausgewogen zu tun, muss man wohl die YACY-Software besser in ihrer Struktur und Leistungsverteilung kennen. Was ich vor allem tue: performanceIO etwas reduzieren. Sowie den Heap für Java gegenüber der Standardeinstellung zu reduzieren.

Bemerkung: Wenn reaktionsschnelle Peers von den Teilnehmern \“gern\” zur Ablage der Index-Informationen verwendet werden würde es doch Sinn machen, wenn wir neben zusätzlicher Hardware zu Hause lieber einen Server, von mir aus auch einen Virtuellen, bei einem gut angebundenen Hoster für das Netzwerk sponsoren (betreiben), das Crawlen aber vor allem mit unseren Systemen zu Hause erledigen, wenn sie gerade eingeschaltet sind. Dann müsste das Netz als solches doch auf Suchanfragen einerseits schnelle Antworten liefern können, während die mit reichlich Verzögerung versehenen Systeme zu Hause den Input liefern.

Statistik: Verfasst von fherb — Di Dez 03, 2013 12:56 am


Fragen und Antworten • Re: Speichernutzung

Date: 2013-12-03 06:33:10

Corrected as follows:
1. Made a backup /var/lib/yacy , an error has occurred \“corrupted file xxxxx\” (can not remember the name)
2. sudo apt-get purge yacy
3. sudo apt-get install yacy
4. sudo apt-get purge openjdk-6-jre automatically established openjdk-7-jre
5. returned data /var/lib/yacy
6. reboot

Statistik: Verfasst von mass — Di Dez 03, 2013 6:33 am


Hilfe für Einsteiger und Anwender • Re: domain yacy

Date: 2013-12-03 17:03:20

As far as i know you must configure your browser to use YaCy as proxy because a .yacy domain can only be resolved by YaCy itself. Outside the YaCy Network a .yacy Domain is not known.

Statistik: Verfasst von freak — Di Dez 03, 2013 5:03 pm


Hilfe für Einsteiger und Anwender • Disabling system log at yacy\data\log

Date: 2013-12-03 18:14:05

Seems like those log there take up a LOT of space (20 MB for 30 minutes). Can logging be disabled?

Statistik: Verfasst von Kozuch — Di Dez 03, 2013 6:14 pm


Mitmachen • Monetizing the YaCy network

Date: 2013-12-03 18:26:26

Hi guys,

I like this project very much. I know it brings some very innovative technology, but it seems to suffer the usual FOSS sicknesses like small community and limited growth and thus seems to be \“yet another FOSS project\” only. Have you been thinking about monetizing the network somehow? If there was a commercial incentive why to join the network, crawl, help the index grow and serve it to others, there might be some more potential around. The same way like Bitcoin is taking off - one can (or at least could) make money Bitcoin in various ways (I am not saying that the Bitcoin scheme is sustainable though).

I can imagine setting up a commercial YaCy node (public search portal) that would serve adds and thus could pay for its index storage and bandwidth... something in this way. Do you have any ideal on the commercial potencial?

Statistik: Verfasst von Kozuch — Di Dez 03, 2013 6:26 pm


Hilfe für Einsteiger und Anwender • Re: domain yacy

Date: 2013-12-03 18:28:35

freak hat geschrieben:\ As far as i know you must configure your browser to use YaCy as proxy because a .yacy domain can only be resolved by YaCy itself. Outside the YaCy Network a .yacy Domain is not known.\


Thank you.
I\’m getting old, I do not think)

Statistik: Verfasst von mass — Di Dez 03, 2013 6:28 pm


Hilfe für Einsteiger und Anwender • Re: Disabling system log at yacy\data\log

Date: 2013-12-04 09:29:28

You can edit the yacy.logging file in the log directory (DATA/LOG) to set logging options.

I am not sure if I understood the comments in the file correctly, but it seems that if you delete the whole content and only set

Code:
.level=OFF

logging should be turned off completely.

Statistik: Verfasst von Low012 — Mi Dez 04, 2013 9:29 am


Hilfe für Einsteiger und Anwender • Re: Disabling system log at yacy\data\log

Date: 2013-12-04 11:04:21

Ok, thanks for a reply. The logs seem to have a constant size of about 20 MB so I guess they may purge automatically.

Statistik: Verfasst von Kozuch — Mi Dez 04, 2013 11:04 am


Fragen und Antworten • Re: Debian-Repository streikt

Date: 2013-12-04 20:10:01

... immer noch (aktuell 1.65.6290)

Statistik: Verfasst von click42 — Mi Dez 04, 2013 8:10 pm


Fragen und Antworten • Format of \“URL No-Depth-Limit Must-Match Filter\”

Date: 2013-12-05 23:55:03

Hello!

When I configure a crawl eg. of \“http://wikibooks.org" and I put into the filter form \“URL No-Depth-Limit Must-Match Filter\” the reg-exp .*wikibooks\.org.* so the crawler finished after less than 100 web pages. But when I put into this filter form only .*wikibooks.* so the crawler goes deep into wikibooks.org . It seems that real reg-expressions are not allowed in this form. That \. produces a wrong expression. Or is this a bug? Or do I make a mistake by myself?

Regards, Frank!

Statistik: Verfasst von fherb — Do Dez 05, 2013 11:55 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-06 00:13:56

http://www.yacy.fr/
http://papelesdeinteligencia.com/buscad ... -a-google/{.postlink}
https://plus.google.com/app/basic/s/%23yacy/
https://n-1.cc/bookmarks/view/1835627/d ... cador-yacy{.postlink}
http://vraag.ubuntu-nl.org/1027/install ... oekmachine{.postlink}

Statistik: Verfasst von Orbiter — Fr Dez 06, 2013 12:13 am


Suchmaschinen • DOMENGO

Date: 2013-12-06 11:16:21

seit rund zwei Wochen tauchen vermehrt DOMENGO-Peers im YaCy Netzwerk auf und dahinter steckt offenbar ein Suchportal: https://www.domengo.de/
Die haben im Backend nun 36 YaCy Suchserver, die auch gerade gut gefüllt werden. Die Suche auf deren Portal macht merkwürdiges:
- Sucht man nach einem Wort X und dieses wurde dort noch nicht gesucht, so kommt die Meldung \“Unser Index wird durchsucht!\” und das füllt offenbar ein Akkumulationsindex aus einzelnen Suchanfragen gegen all deren Server (im Moment 36, einer davon ist offenbar der Akkumulationsindex)
- Dann kommt eine Suchergebnisseite davon
- Das Suchergebnis ist aber dann auch unter https://domengo.de/X verfügbar. Jedes Suchwort erzeugt damit eine Ergebnisseite.
Das FAQ dort gibt auch ein wenig Auskunft https://www.domengo.de/fragen.asp
Der Menüpunkt \“Mitmachen\” führt direkt zu yacy.net! Das Activity Log ist auch nett: https://www.domengo.de/activity.asp
In https://www.domengo.de/warum.asp steht auch das sie aktiv das YaCy freeworld Netz unterstützen. Der Menüpunkt kommt aber erst, wenn man vorher auf \‘Fragen\’ geklick hat.

Ich war ein wenig überrascht dass hier so ein großes YaCy Suchportal entstanden ist. Im Prinzip ist das ja das, was wir eigentlich wollen: jeder soll so etwas können. Die wollen sich offenbar über Werbung finanzieren und das ist eigentlich ja auch ok. Die unterstützen das YaCy freeworld Netz damit und das ist fair.
Leider ist das Design der Suchseite ein wenig kacke aber das kann sich ja noch ändern.

Wie seht ihr das?

Statistik: Verfasst von Orbiter — Fr Dez 06, 2013 11:16 am


Suchmaschinen • Re: DOMENGO

Date: 2013-12-06 23:19:40

Ich finde es cool das es so etwas gibt - ich würde mir wünschen das von dem Betreiber etwas feedback bzgl. des Einsatzes käme.

Statistik: Verfasst von sixcooler — Fr Dez 06, 2013 11:19 pm


Suchmaschinen • Re: DOMENGO

Date: 2013-12-07 14:35:32

habs mal getwittert: https://twitter.com/yacy_search/status/ ... 4801626112{.postlink}

Statistik: Verfasst von Orbiter — Sa Dez 07, 2013 2:35 pm


Wunschliste • Re: https-Proxy

Date: 2013-12-08 05:50:02

zottel hat geschrieben:\ Da ich jetzt einen wesentlich größeren VPS mein eigen nenne als vorher, kann ich yacy dort endlich sinnvoll nutzen. ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ \ Ich möchte die yacy-Installation auf meinem Server auch als Proxy nutzen, benutze selbst aber in erster Linie https-Links, habe das HTTPS-Everywhere-Plugin installiert und sehe so eigentlich kaum http-Seiten.\ \ Insofern würde ich es sehr begrüßen, wenn ich yacy auch für https als Proxy einsetzen könnte.\ \ Ist in dieser Richtung etwas geplant? Gibt es Hindernisse, die das erschweren?\ \ Danke, zottel\



This is a bit of a late reply, but in case you\’re still checking this thread, HTTPS proxies generally can\’t access the content of web pages that pass through them, since that would compromise the encryption. However, if you want to index with YaCy HTTPS pages that you visit, you might try looking at my Greasemonkey script for that:

viewtopic.php?f=8&t=4593{.postlink-local}

Statistik: Verfasst von biolizard89 — So Dez 08, 2013 5:50 am


Mitmachen • Re: Monetizing the YaCy network

Date: 2013-12-09 05:26:29

Kozuch hat geschrieben:\ Hi guys,\ \ I like this project very much. I know it brings some very innovative technology, but it seems to suffer the usual FOSS sicknesses like small community and limited growth and thus seems to be \"yet another FOSS project\" only. Have you been thinking about monetizing the network somehow? If there was a commercial incentive why to join the network, crawl, help the index grow and serve it to others, there might be some more potential around. The same way like Bitcoin is taking off - one can (or at least could) make money Bitcoin in various ways (I am not saying that the Bitcoin scheme is sustainable though).\ \ I can imagine setting up a commercial YaCy node (public search portal) that would serve adds and thus could pay for its index storage and bandwidth\... something in this way. Do you have any ideal on the commercial potencial?\



Hmm, so here\’s a similar idea. Let\’s say I run a YaCy node locally to perform searches. How about if my node keeps track of the other nodes which served good results to me (this could be based on results which I clicked, or via some other metrics), and periodically I can click a link in my YaCy node which generates a Bitcoin URL which will donate a certain amount of money (which I specify) to those nodes, split proportionally to how many good results were served to me by each node. This incentivises nodes to crawl/index large numbers of sites. Would something like this be workable?

Statistik: Verfasst von biolizard89 — Mo Dez 09, 2013 5:26 am


Off-Topic • Купить Ночник проектор звездное небо Черепаха

Date: 2013-12-09 09:47:44

Ночник Черепашка — проектор звездного неба,порадует вашего малыша

Ночник Черепашка — проектор звездного неба

Bild{.postlink}

Это мягкая плюшевая игрушка черепашка, но самое интересное происходит ночью, когда этот
необыкновенный светильник ночник начинает через отверстия в панцире проецировать
звезды на потолок и стены! Это настоящий релаксант, позволяющий как детям, так и
взрослым легко и быстро заснуть, погрузившись в мир ночного неба

Функции проектора звездного неба Черепашки:
— проецирует на потолок ночное небо со звездами;
— имеет 3 режима освещения, соответствующих Вашему настроению

[Пароль для скидки 5% - \“АНАНАС\” )))))))]{style=“font-weight: bold”}
Купить Ночник проектор звездное небо Черепаха{.postlink}

Statistik: Verfasst von SandraDign — Mo Dez 09, 2013 9:47 am


Hilfe für Einsteiger und Anwender • Re: Disabling system log at yacy\data\log

Date: 2013-12-09 14:20:35

Yes, as far as I know the default setting is 1MB per log file and a maximum of 20 files which makes 20MB as you have observed. I thought you were concerned about I/O and not about size. ;)

Statistik: Verfasst von Low012 — Mo Dez 09, 2013 2:20 pm


Off-Topic • đồ ăn Megastar

Date: 2013-12-09 15:42:29

Thor: The Dark World’, ‘Ender’s Game’, ‘Las Vegas’ hay ‘Snowpiercer’ là nhiều tác phẩm đáng để tâm nhất trên màn ảnh rộng tháng này. Hãy đến Giá vé megastar nhằm trải nghiệm những tác phẩm điện ảnh sống động nhất bạn nhé .
http://deezzle.com/demo/pf/blog/313522/ ... -megastar/{.postlink}

1. Ender’s Game
Ngày khởi chiếu: 111
Bộ phim mở màn cho rạp chiếu Việt tháng này là Ender’s Game, một tác phẩm khoa học viễn tưởng. truyền thông phim kể về 70 năm trước, cuộc xâm lăng của giống loài Formics bí ẩn đến từ một hành tinh xa xôi đã đẩy loài người vào một trận chiến khốc liệt. Dù giành được chiến thắng, loài người phải hứng chịu tổn thất to lớn. cho phép chuẩn bị sẵn sàng cho cuộc xâm lăng tiếp theo có khả năng diễn ra vào bất cứ lúc nào một trạm không gian khác biệt được xây dựng nhằm huấn luyện những cô, cậu bé thiếu niên trở thành thủ lĩnh quân đội tối cao của Trái Đất.
Vào lúc số nhiều thiếu niên trẻ tuổi ấy, Ender Wiggins là một trường hợp khác biệt khi biểu lộ tài năng điều binh xuất chúng từ rất sớm. Nhưng chính phẩm chất đặc biệt ấy lại làm cho Ender bị người thân xa lánh, vào lúc lúc cuộc xâm lăng tiếp theo của Formics đã đến rất gần… Ender’s Game dựa trên tác phẩm văn học cùng tên của nhà văn Orson Scott Card và có sự góp mặt của ngôi sao kỳ cựu Harrison Ford cùng dàn diễn viên trẻ như Asa Butterfield (từng tham dự Hugo), Abigail Breslin (Little Miss Sunshine) và Hailee Steinfeld (True Grit).

5. Thor: The Dark World - 3D Atmos .Giá vé rap megastar
Ngày khởi chiếu: 811.
Phần hai của Thor là bộ phim được chờ đợi nhất tại những rạp chiếu trên toàn thế giới tháng này. Câu chuyện của Thor: The Dark World tiếp nối sau những sự kiện xảy ra thời điểm The Avengers. Thor trở lại vương quốc Asgard và phải đối mặt với nhiều thế lực mới muốn thôn tính địa cầu. Để cứu Trái đất thoát khỏi thế lực hắc ám, Thor phải nhờ cả tới sự trợ có tác dụng giúp của người em Loki – nhân vật phản diện của phần trước và vào lúc cả The Avengers.
các diễn viên từ phần một là Chris Hemsworth, Natalie Portman, Tom Hiddleston, Kat Dennings, Anthony Hopkins vẫn trở lại trong phần hai. Thor: The Dark World là bộ phim tiếp theo được chiếu ở Việt Nam với định dạng 3D Atmos - đem tới sử dụng tuyệt vời về hiệu ứng âm thanh và hình ảnh.
http://www.khachsannamdinh.com/gia-ve-m ... cuoi-cung/{.postlink}

7. Đại náo học đường .
Ngày khởi chiếu: 1511.
Đại náo học đường là phim Việt thứ hai ra rạp vào tháng 11, đánh dấu sự trở lại của danh hài Hoài Linh trên màn ảnh rộng. thời điểm phim, Hoài Linh hóa thân thành cậu học viên trung học nghịch ngợm và phải “che giấu thân phận” bằng kiểu khoác lên mình mẫu thời trang sơ mi trắng, quần tây xanh và hòa nhập vào lớp học do cô giáo Thảo (Hiền Mai) chủ nhiệm. Phim xoay quanh những câu chuyện về giới học trò “nhất quỷ, nhì ma”. Đại náo học đường là tác phẩm thứ ba của đạo diễn Lê Bảo Trung về chủ đề trường lớp, sau Bóng ma học đường và Gia sư nữ quái.


12. Snowpiercer .
Ngày khởi chiếu: 2911.
Khép lại những Gia ve MegaStar Việt tháng 11 là một bộ phim sở thích giả tưởng. Chuyện phim xoay quanh số phận của nhiều hành khách trên chuyến tàu mang tên Snowpiercer. Lấy bối cảnh năm 2031 sau Công Nguyên, bộ phim khắc họa một câu chuyện viễn tưởng miêu tả thế giới sau tận thế với băng tuyết bao phủ hành tinh do thất bại của một cuộc thí nghiệm. nhiều người thiết kế mắn sống sót cùng đồng hành trên chuyến tàu đi tới mọi chỗ trên Trái Đất. tuy nhiên trên con tàu này lại ẩn chứa vô số những mâu thuẫn và sự phân biệt giàu nghèo giữa chính nhiều con người hiện đang phải cùng nhau đương đầu với cái chết.

Tất cả những bộ phim hot khi được trình làng tại Việt Nam phần lớn đều được trình chiếu tại MegaStar, bởi việc mua bản quyền phim là do MegaStar thực hiện và cũng chính là điểm mạnh của hệ thống . Chính vì thế, khi chọn MegaStar nhằm tới xã stress với những tác phẩm điện ảnh nổi tiếng thế giới, bạn luôn luôn cảm thấy đảm bảo một điều là mình là một trong số những người đầu tiên được xem tác phẩm điện ảnh này.



Mục đích vận động của rạp chiếu phim Giá vé MegaStar là mang đến cho khán giả có sở thích điện ảnh một thế giới giải trí đạt tiêu chuẩn quốc tế tại Việt Nam. Vì thế, người mua được dễ dàng nhận thấy được sự đầu tư kỹ lưỡng của MegaStar ngay từ hình ảnh bên ngoài nhiều sảnh chờ của rạp chiếu phim MegaStar là điểm hẹn lý tưởng dành cho các cuộc gặp gỡ người thân hoặc đối tác. Không gian được thêm hài hòa của sắc màu tạo ra nét trẻ trung mới mẽ nhưng cũng không kém phần hiện đại nhờ vào kiểu dáng trang trí bằng poster trên tường, hoa văn của thảm trải sàn, ghế ngồi. Tại rạp chiếu phim MegaStar, bạn còn được hưởng thụ hệ thống âm thanh Surround Sound có khả năng tận dụng những kỹ thuật mới nhất hiện nay của Sony, trong số đó đặc trưng là S-Force PRO Front Surround Sound. Dàn âm thanh này mang lại cho các bạn như đang đắm chìm trong những âm vang rõ nét tốt nhất trên thế giới điện ảnh. Hệ thống Surround Sound cho âm thanh nổi bởi một thiết bị gồm 2 chế độ (night, dialog) và 4 trường âm thanh (standard, stereo, vivid, dynamic).

Statistik: Verfasst von NeerTrauritaw — Mo Dez 09, 2013 3:42 pm


Hilfe für Einsteiger und Anwender • Re: Strategie für (externe) Foren-Crawls

Date: 2013-12-09 21:27:05

Hallo,


... Brauchbare Strategien? Ja, auf der Sources-Ebene, zumindest in einem heuristischen Sinne ;-)

Würde mich interessieren, was Sie unter \‘Content Awareness\’ verstehen!?


Da Yacy zum crawlen zunächst ganz einfach Links braucht, löste ich das ähnlich, wie von ihnen beschrieben:

1.) Ein Script, welches Link-Extraktionen und Kürzungen der Links auf Pfade, aus etwa vierteljährlich generierten TOP 200 - SERPs, vornimmt, deren Such-Queries explizit und implizit auf Foren abzielen
2.) Diese Listen werden dann als Start-Listen für einen regelmässigen Crawl eingesetzt, wobei der Crawl auf die jeweils darunterliegenden Pages beschränkt wird

Da die Foren-Landschaft nicht so dynamisch ist, dass die Startlisten für meine Belange ständig verändert werden müssten, geht es bei mir bislang händisch zu - es sollte jedoch auch relativ einfach machbar sein, bspw. mit wget und grep, automatisch und regelmässig solche Listen aktuell generieren, und diese dann Yacy unterschieben, zu lassen ...

Statistik: Verfasst von Cajun — Mo Dez 09, 2013 9:27 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-12-09 23:58:26

Im Moment verfolgt den Thread zwar offenbar niemand, aber ich setze ihn trotzdem fort, falls er wieder von Interesse wird.

Mein Raspberry Pi läuft nun seit Tagen nahezu ununterbrochen mit YaCy.

Aber auch genau so nutzlos. Rund 33.000 Dokuments werden angezeigt. Das änderte sich die letzten Tage nicht mehr. Und DHT Words liegt jetzt bei rund 206 000. Das geht mal runter und rauf. Meist bleibt es aber, wo es ist.

Mit htop und iotop habe ich mal die Auslastung beobachtet: Festplattenzugriffe (über USB) sind marginal. Schlauchen also nicht am System. Speicher ist ausgelastet wie auch beim Hetzner-System (welches kräftig am Netz aktiv ist). Aber der Prozessor ist faktisch immer auf 100%. Das bedeutet, dass er nur sehr träge auf Ereignisse reagiert. Der Aufruf der Webseiten geht zwar, ist jedoch entsprechend langsam. Und deshalb wird er inzwischen wohl auch nur noch sehr, sehr selten von anderen Peers zur Ablage von DHT/RWI/URL angesprochen. Auch beim Restart von Raspberry Pi oder YACY ändert sich nichts.

[Demzufolge scheint der Raspberry Pi als vollwertiger grundsätzlich YACY-Peer nicht brauchbar. Flaschenhals ist die Prozessorleistung.]{style=“font-weight: bold”}

Für weitere \“Forschungen\” wäre überlegenswert, ob und wie man Raspberry Pi oder ähnliche Systeme in einem preiswerten Cluster zusammenführen kann, dass nur spezielle Aufgaben übernimmt, die dann möglichst resourcenschonend implementiert werden. Die Frage nach dem Kosten-Nutzenverhältnis bleibt aber. Das ist selbst mit so einer Spezialisierung womöglich bei etwas teureren Systemen, wie Cubieboard 2 oder 3 (CubieTruck) trotzdem viel günstiger.

Noch jemand Interesse am Experimentieren?

Bei den ganzen Versuchen habe ich etwas Mögliches im Hinterkopf: Eine selbstständig arbeitende YaCy-Box, die man einfach (so, wie auch ein fertig konfiguriertes NAS) in sein Homenetz hängt und die dann stromsparend tut, was für YaCy zu tun ist. Denn YaCy könnte zukünftig mit dem Nachteil konfrontiert werden, dass immer mehr Nutzer stromsparende Laptops statt Desktops nutzen, auf denen man (ich auch nicht) die Batterie und die gute SSD ungern für YaCy vor sich hinlaufen lassen will.

Viele Grüße

Statistik: Verfasst von fherb — Mo Dez 09, 2013 11:58 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-12-10 12:22:02

fherb hat geschrieben:\ Im Moment verfolgt den Thread zwar offenbar niemand, aber ich setze ihn trotzdem fort, falls er wieder von Interesse wird.\


Ich lese hier interessiert mit, habe aber zur Zeit leider nicht genug Zeit, selbst aktiv zu werden.

Statistik: Verfasst von Low012 — Di Dez 10, 2013 12:22 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-10 12:39:43

http://idienstler.de/2480/yududi-die-fr ... utschland/{.postlink}

Statistik: Verfasst von Yududi — Di Dez 10, 2013 12:39 pm


Fragen und Antworten • YaCy + SSL

Date: 2013-12-10 13:13:43

Hi,

ich betreibe unter yududi.de einen YaCy-Peer.
Für den möchte ich HTTPS einrichten.

Ich habe mir bei StartSSL.com dazu ein Class 1 TLS/SSL-Zertifikat geholt.
Mir lagen danach 4 Dateien vor:

yududi.de.key (lokal erzeugt auf meinem Server)
ssl.crt (Zertifikat)
ca.pem (Root Zertifikat)
sub.class1.server.ca.pem (Intermediate Zertifkat)

Analog zu http://www.yacy-websuche.de/wiki/index. ... onnections{.postlink}
habe ich bei mir dann

Code:
yacy@server:~/yacy/DATA/SETTINGS$ openssl pkcs12 -export -out keystore.pkcs12 -passout pass:passwordforyacysconfig -in ssl.crt -inkey yududi.de.keyyacy@server:~/yacy/DATA/SETTINGS$ vi yacy.conf


durchgeführt und die yacy.conf entsprechend angepasst wie in dem Wiki oben beschrieben.
(\“passwordforyacysconfig\” natürlich geändert)

Wenn ich YaCy dann per Mac-Rechner, iPhone und iPad aufrufe klappt mit HTTPS alles wunderbar ohne eine Sicherheitsabfrage.
Wenn ich hingegen mein Android 4.2.1 Smartphone mit dem integrierten Browser oder Chrome nehme dann erhalte ich einen Warnhinweis.
Screenshot_2013-12-10-12-45-34.png

Wenn ich das selbe Class 1 TLS/SSL-Zertifikat für Apache2 einrichte und dann https://yududi.de:80 aufrufe erscheint auf meinem Android 4.2.1 Smartphone kein Warnhinweis.

Ich nehme also an das liegt daran, dass ich bei der Konfiguration von YaCy
1. ca.pem (Root Zertifikat)
2. sub.class1.server.ca.pem (Intermediate Zertifkat)
nicht mit ins Spiel gebracht habe.

Meinen Apache2 habe ich nämlich alle 4 zur Verfügung gestellt:

Code:
SSLCertificateFile /etc/apache2/ssl/ssl.crtSSLCertificateKeyFile /etc/apache2/ssl/yududi.de.keySSLCertificateChainFile /etc/apache2/ssl/sub.class1.server.ca.pemSSLCACertificateFile /etc/apache2/ssl/ca.pem



Frage: wie bringe ich YaCy dazu die beiden Files zu schlucken und korrekt auszuliefern damit unter Android der Warnhinweis verschwindet?

Statistik: Verfasst von Yududi — Di Dez 10, 2013 1:13 pm


Fragen und Antworten • Re: YaCy + SSL

Date: 2013-12-10 14:02:04

Hi!
Glückwunsch zu deinem YuDuDi-Peer, das ist eine gute Sache.

ich weiss nicht wirklich genau wie diese Zertifikate funktionieren, aber wenn es nur darum geht die Dateien \‘auszuliefern\‘, dann musst du dir den richtigen Pfad dazu überlegen und dann legst du die Dateien unter DATA/HTROOT/, denn das ist deckungsgleich mit dem Servlet-Pfad htroot. Wenn der YaCy-httpd einen Pfad genannt bekommt, und dies nicht in htroot zu finden ist, dann guckt der alternativ unter DATA/HTROOT nach.

Wenn das ganze klappt, kannst du das bitte in http://www.yacy-websuche.de/wiki/index. ... onnections{.postlink} dokumentieren? Danke!

Statistik: Verfasst von Orbiter — Di Dez 10, 2013 2:02 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-12-10 14:04:39

Hi, ich hab mir auch noch vorgenommen für den 30C3 ein ArchLinux{.postlink} RPi + YaCy Image zu bauen, weiss aber noch nicht ob ich dazu komme.

Statistik: Verfasst von Orbiter — Di Dez 10, 2013 2:04 pm


Wunschliste • Re: https-Proxy

Date: 2013-12-10 14:07:56

while biolizard89 is fully right about indexing of https connections (not possible because its encrypted), it should still be possible to use YaCy as https proxy. In that case YaCy does what all https proxies do: just passing the data.

Statistik: Verfasst von Orbiter — Di Dez 10, 2013 2:07 pm


Off-Topic • Продвижение сайтов

Date: 2013-12-10 14:31:16

Bild
Большая часть владельцев сайтов создают ресурсы с целью увеличения прибыли компании.
цены на создание сайтов{.postlink}

Все ради того, чтобы веб-портал нормально функционировал, чтобы количество посетителей увеличивалось, мало просто создать славный электронный ресурс. В данном случае потребуется качественное продвижение сайта.

Для сегодняшний число существует немалое количество разнообразных методов того, вроде дозволительно раскрутить веб-портал. В первую очередь нуждаться отметить такой прием, чистый поисковая оптимизация. Она включает в себя ряд действий, нацеленных на то, чтобы продвигаемый ресурс получил высокие позиции присутствие выдаче результатов. Основная поделка в данном случае направлена на выявление семантического ядра – списка слов, около которого будет выстраиваться контент сайта. Известный метод является очень эффективным, впрочем имеет одинокий важный минус. Чтобы поисковая оптимизация сайта дала первые результаты, потребуется около двух месяцев. Это говорит о книга, который такой метод раскрутки лучше только открыть пользоваться сразу же затем создания веб-ресурса.
http://www.tsikoliya.ru/

Помимо этого, не менее действенной оказывается интернет-реклама. Существует маломальски её разновидностей: медийная, геоконтекстная, контекстная, вирусная и пр. Медийная, alias баннерная объявление, является страшно эффективным средством продвижения сайта. Баннеры предоставляют мочь не только ярко прорекламировать услуги, товары сиречь термин компании, только и также дают мочь сразу же перейти для продвигаемый ресурс. Этим медийная объявление выгодно отличается через своего печатного аналога.

Надо также несколько слов сказать и о контекстной рекламе, которая, в награда через баннеров, чаще всего имеет всего текстовый контент. Контекстная реклама появляется рядом с первыми результатами выдачи – около со ссылками для сайты. Важность контекстной рекламы заключается в часть, сколько она нацелена на конкретную аудиторию, которая заинтересована в приобретении того иначе иного товара или услуги.

Для нынешний погода всё чаще и чаще чтобы продвижения используются социальные путы, блоги и форумы. Там без труда можно поместить тематические посты с указанием ссылки на продвигаемый сайт. Огромное величина пользователей силок интернет проводит в соцсетях много времени, поэтому использование данных площадок довольно правильным решением. Когда в предыдущих случаях раскрутка будет требовать определённых денежных затрат, то в данном случае они не потребуются. Всё, что необходимо, - это лишь зарегистрироваться на том иначе ином сайте.

Существуют и другие способы раскрутки сайта, предположим, почтовая рассылка. Все ради того, дабы продвижение было максимально эффективным, рекомендуется пользоваться не наедине метод раскрутки, а сразу несколько.

Statistik: Verfasst von SharonCab — Di Dez 10, 2013 2:31 pm


Fragen und Antworten • Re: YaCy + SSL

Date: 2013-12-10 17:53:38

Wenn ich weiß wie es geht auf jeden Fall.
Um dahin zu kommen muss ich aber erst noch einen schweren Bug beseitigen.
YaCy lässt sich bei mir auf einmal nicht mehr starten.
Lief 3,4 Tage ohne Probleme und plötzlich war der Prozess weg.
Als ich es neu starten wollte bekam ich fast den gleichen Fehler wie hier:
http://mantis.tokeek.de/view.php?id=251
Mit der Ausnahme bei mir war pkcs12ImportFile leer aber nicht pkcs12ImportPwd.

Aus meinem Log:

\ yacy\@server:\~/yacy\$ tail -n 100 DATA/LOG/yacy00.log\ I 2013/12/10 17:15:40 SERVER Import certificates from import file \'DATA/SETTINGS/keystore.pkcs12\'.\ E 2013/12/10 17:15:40 SERVER Unable to import certificate from import file \'DATA/SETTINGS/keystore.pkcs12\'.\ java.io.IOException: Keystore was tampered with, or password was incorrect\ at sun.security.provider.JavaKeyStore.engineLoad(JavaKeyStore.java:788)\ at sun.security.provider.JavaKeyStore\$JKS.engineLoad(JavaKeyStore.java:55)\ at java.security.KeyStore.load(KeyStore.java:1201)\ at net.yacy.utils.PKCS12Tool.importToJKS(PKCS12Tool.java:89)\ at net.yacy.server.serverCore.initSSLFactory(serverCore.java:1037)\ at net.yacy.server.serverCore.\(serverCore.java:198)\ at net.yacy.yacy.startup(yacy.java:349)\ at net.yacy.yacy.main(yacy.java:671)\ Caused by: java.security.UnrecoverableKeyException: Password verification failed\ at sun.security.provider.JavaKeyStore.engineLoad(JavaKeyStore.java:786)\



Was habe ich bisher probiert:
- Ich habe den RAM des Servers jetzt von 1 GB auf 4 GB angehoben.
(YaCy selbst läuft bei mir normalerweise mit 600 MB)
- Server Reboot und dann YaCy starten bringt nichts
- Ich habe die yacy.conf kontrolliert dass pkcs12ImportFile und pkcs12ImportPwd drinsteht
- Ich habe die keystore.pkcs12 mit dem alten Passwort neu erstellt
- Ich habe die Einträge für pkcs12ImportFile und pkcs12ImportPwd und die keystore.pkcs12 entfernt mit der Hoffnung YaCy so wenigstens ohne TLS/SSL starten zu können aber scheinbar reicht das nicht aus den Modus zu ändern.
- Ich habe keystore.pkcs12 neu erstellt und die Einträge für pkcs12ImportFile und pkcs12ImportPwd in der yacy.conf wieder gesetzt. Dabei darauf geachtet dass das verwendete Passwort identisch ist.
- Ich habe über ./reconfigureYACY.sh den Memory auf 1600 MB hochgesetzt

Klappt alles nicht.
Wenn ich YaCy starte dauert es nicht lange und der Prozess von YaCy wird beendet.
Einzige Lösung bei der ich im Moment Aussicht auf Erfolg hätte: YaCy neu installieren.
Dann würde der gleiche Fehler wohl aber wieder auftreten.

Jemand eine Idee wie man den Fehler beseitigen kann?

Statistik: Verfasst von Yududi — Di Dez 10, 2013 5:53 pm


Fragen und Antworten • Re: Debian-Repository streikt

Date: 2013-12-11 10:01:23

Ah, jetzt tuts wieder

Statistik: Verfasst von click42 — Mi Dez 11, 2013 10:01 am


Fragen und Antworten • Как найти #rnd_user

Date: 2013-12-11 10:54:18

How Build Public Peer in cluster[url=http://theloneranger.ru/].[/url

Statistik: Verfasst von Colinpn — Mi Dez 11, 2013 10:54 am


Fragen und Antworten • Yacy Frontend lädt nicht

Date: 2013-12-11 10:58:13

Ich habe YaCy für Linux herunter geladen und entpackt.
Dann gestartet und Wikipedia crawlen lassen.
Nach ca. 40.000 Seiten war das Frontend nicht mehr erreichbar.

YaCy selbst arbeitet noch wenn ich
tail -f ./DATA/LOG/yacy00.log
aufrufe kommen ständig neue Logs rein wie

Code:
2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER Transfer finished of chunk to target CPezQCO8xAyi/XDo98X1I 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER starting new index transmission request to wuQqB1UIY___I 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER Index transfer of 4 words [oUtlnVS0x-sp .. wVFIf61AEc__] and 7 URLs to peer _anonw-46199199-0:xQUtnlzXaUUQ in 3 seconds successful (1 words/s)I 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER Transfer finished of chunk to target xQUtnlzXaUUQ/_anonw-46199199-0I 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER starting new index transmission request to yzUQWtFNNR__I 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER Transfer failed of chunk to target 0lx1JH5PgzAq/gack: not_grantedI 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER STORE: Chunk yzUQWtFNNR__ has failed to transmit index; marked peer as busyI 2013/12/11 10:52:48 INDEX-TRANSFER-DISPATCHER starting new index transmission request to AuQqB1UIY___I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER Index transfer of 15 words [4thlY7OUbMww .. AuQqB1UIY___] and 22 URLs to peer DOMENGO-026:C19MTdRlmBpf in 0 seconds successful (28 words/s)I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER Transfer finished of chunk to target C19MTdRlmBpf/DOMENGO-026I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER STORE: Chunk AuQqB1UIY___ has FINISHED all transmissions!I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER starting new index transmission request to wVFIf61AEc__I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER Index transfer of 4 words [oUtlnVS0x-sp .. wVFIf61AEc__] and 7 URLs to peer yacy-phenomenon:xjfRb-XNZwlT in 0 seconds successful (29 words/s)I 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER Transfer finished of chunk to target xjfRb-XNZwlT/yacy-phenomenonI 2013/12/11 10:52:49 INDEX-TRANSFER-DISPATCHER starting new index transmission request to yzUQWtFNNR__I 2013/12/11 10:52:50 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission cloud: 30I 2013/12/11 10:52:50 SWITCHBOARD dhtTransferJob: result from dequeueing: trueI



Wenn ich YaCy stoppe mit \“./stopYACY.sh\” dann tut sich 5 Minuten lang nichts ich muss den Prozess dann mit \“kill\” killen.
Nach einem erneuten Start geht das Frontend wieder aber keine 5 Minuten später die selbe Geschichte.
Ich habe auch schon alle Crawls deaktiviert in der Zeit wo das Frontend nach einem Neustart geht es läuft immer auf das gleiche hinaus.

Frontend: Hier tut sich nichts
tail -f ./DATA/LOG/yacy00.log: Hier tut sich was

Infos:
YaCy 1.66 für GNU/Linux von http://yacy.net/release/yacy_v1.66_20131205_9294.tar.gz mit 600 MB reservierten Speicher
GNU/Linux 7.2 mit 1 Prozessor

Code:
top - 10:56:51 up  1:39,  1 user,  load average: 0.16, 0.48, 0.77Tasks:  35 total,   1 running,  34 sleeping,   0 stopped,   0 zombie%Cpu(s):  0.3 us,  0.3 sy,  2.4 ni, 93.6 id,  3.4 wa,  0.0 hi,  0.0 si,  0.0 stKiB Mem:   4194304 total,  1772880 used,  2421424 free,        0 buffersKiB Swap:        0 total,        0 used,        0 free,   787064 cached



[Edit 1:]{style=“font-weight: bold”}
Unter viewtopic.php?f=5&t=3411&p=23543&hilit=frontend#p23543{.postlink-local} von 2011 habe ich einen Thread gefunden der das gleiche Problem beschreibt.

[Edit 2:]{style=“font-weight: bold”}
Ich habe jetzt mal Open JDK 6 komplett runtergeschmissen
http://www.bennyn.de/webanwendungen/vir ... ieren.html{.postlink}
und Open JDK 7 installiert
http://openjdk.java.net/install/
Bin mal gespannt ob es was bringt.

[Edit 3:]{style=“font-weight: bold”}
Nein hat nichts gebracht.
Neuer Versuch diesmal mit dem offiziellen Paketinstaller.
http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink}

[Edit 4:]{style=“font-weight: bold”}
Der offizielle Paketinstaller zeigt das gleiche Verhalten.
Ich habe einen ziemlich hohen Wert bei numproc bei failcnt gefunden.

Code:
root@136035:/usr/share/yacy/htroot/env/grafics# cat /proc/user_beancountersVersion: 2.5       uid  resource                     held              maxheld              barrier                limit              failcnt   136035:  kmemsize                377343968            377868288  9223372036854775807  9223372036854775807                    0            lockedpages                     0                    0  9223372036854775807  9223372036854775807                    0            privvmpages                433796               434904  9223372036854775807  9223372036854775807                    0            shmpages                     9179                 9179  9223372036854775807  9223372036854775807                    0            dummy                           0                    0  9223372036854775807  9223372036854775807                    0            numproc                       253                  256                  256                  256                  387

Statistik: Verfasst von Yududi — Mi Dez 11, 2013 10:58 am


Wunschliste • Re: Präprozessierung mittels XSLT

Date: 2013-12-11 13:27:18

In dem Zusammenhang würde mich nämlich auch interessieren, ob tatsächlich openjdk-6-jre notwendig ist oder ob nicht auch openjdk-6-jre-headless langt. Letztere ist nämlich um einges schmaler, und ich habe nicht so gern so viel Krempel auf dem Server ;-)

Statistik: Verfasst von maithly — Mi Dez 11, 2013 1:27 pm


Wunschliste • Re: Präprozessierung mittels XSLT

Date: 2013-12-11 13:59:52

openjdk-6-jre-headless sollte reichen. Also es soll per Definition für die linux-Distro reichen.

Statistik: Verfasst von Orbiter — Mi Dez 11, 2013 1:59 pm


Mitmachen • YaCy Suchportal

Date: 2013-12-12 16:02:34

Hi,

das YaCy Suchportal geht schon eine Weile nicht.
Ich möchte mich irgendwann auch mal aktiv hier mit einbringen im Moment fehlt mir dafür aber die Zeit.
Da irgendeine Lösung besser ist als keine würde ich vorschlagen das Suchportal temporär mit einem Peer zu verlinken.
Ich denke https://www.domengo.de wäre eine gute Idee ich möchte mich nicht selbst vorschlagen.
Alternativ das Suchportal komplett abschalten da es denke eher abschreckt als neugierig macht wenn die Suche über das Suchportal nicht geht.

Gruß :)

Statistik: Verfasst von Yududi — Do Dez 12, 2013 4:02 pm


YaCy Coding & Architektur • Re: Designspielerei

Date: 2013-12-12 20:06:59

surfvive hat geschrieben:\ Der Grund dafür ist, dass ich den HTML-Code aller Seiten neu strukturieren möchte, da sich über die Zeit dort einiges angesammelt hat.\


Halte ich auch für nötig. Was mich (wenn ich das Webinterface erweitert / geändert habe) immer sehr gestört hat ist die etwas wirre Verwendung von Formularen. Das äußert sich in der Usability darin, dass man besser nicht mit der Tastatur bestätigt, sondern immer brav mit der Maus den richtigen Button drückt.

Statistik: Verfasst von Lotus — Do Dez 12, 2013 8:06 pm


Mitmachen • Ausgesetzte bounties

Date: 2013-12-12 20:52:24

Nur zur Info, es wurden einige finanzielle Spenden für einige Yacy issues ausgesetzt:
http://freedomsponsors.org/core/issue/? ... ect_id=228{.postlink}

Statistik: Verfasst von Seitenreiter — Do Dez 12, 2013 8:52 pm


YaCy Coding & Architektur • Re: Greasemonkey Script for Initiating Crawls

Date: 2013-12-13 11:20:53

Well done.
I like it ;-)

Statistik: Verfasst von Yududi — Fr Dez 13, 2013 11:20 am


Fragen und Antworten • Re: YaCy + SSL

Date: 2013-12-13 17:15:05

Hi,

ich habe jetzt HTTPS mit stunnel eingerichtet.
Testen kann man es mit https://yududi.de
Auf meinem Blog habe ich ein Tutorial dazu geschrieben: http://idienstler.de/2915/tutorial-yacy ... inrichten/{.postlink}
Das Wiki überarbeite ich in den kommenden Tagen.

Gruß

Statistik: Verfasst von Yududi — Fr Dez 13, 2013 5:15 pm


Off-Topic • amoxicillin 500mg capsule tev Sinks Grove

Date: 2013-12-14 02:42:51

Hullo! My name is KARENA. I am from Bean Station.
amoxicillin online paypal New Hampshire{.postlink} and amoxicillin tropical fish amoxicillin strep throat dosage Italy{.postlink} Phillipkl: Although a mild amoxicillin overdose is not likely to cause any significant problems, a large overdose could affect the kidneys. Another facts: where to get amoxicillin without a prescription Netherlands andshelf life of amoxicillin 500mg capsules{.postlink} Susan Hyman, who chairs the American Academy of Pediatrics subcommittee on autism, strongly recommends having children screened by a child development specialist at 18, 24, and 30 months.
P.S. I\’m sorry for choosing matter to leave a proffer for men about amoxicillin for head cold pretense behaviorism connectives

Statistik: Verfasst von Phillipkl — Sa Dez 14, 2013 2:42 am


Mitmachen • Let Me YaCy That For You

Date: 2013-12-14 03:28:27

Jeder kennt doch dieses Let Me Google That For You.
Ich finde das wär auch mal was Tolles für YaCy und halte die Idee hier mal fest.
Man könnte das ja auch so ähnlich nennen: Let Me YaCy That For You und die Suche wird dann auf einem YaCy-Peer durchgeführt.
Demo: http://lmgtfy.com/?q=yududi

Statistik: Verfasst von Yududi — Sa Dez 14, 2013 3:28 am


Mitmachen • WP-UserOnline with YaCy

Date: 2013-12-14 11:58:03

I run a WordPress Blog and the WordPress-Plugin WP-UserOnline from http://wordpress.org/plugins/wp-useronline/ but every time when my YaCy-Peer or another YaCy-Peer visited my blog the peer was displayed as an user and not as a search engine. So I quickly changed the plugin WP-UserOnline a little bit and now it is displayed correct.

How to:
Open core.php of the WordPress-Plugin WP-UserOnline and look for

Code:
         'Yandex' => 'yandex',


change this to

Code:
         'Yandex' => 'yandex',         'YaCy' => 'yacy',


and thats it.

You also can download it here:
http://idienstler.de/wp-content/uploads ... y.2.82.zip{.postlink}

Bildschirmfoto 2013-12-14 um 11.47.27.png

As long as this is a very minor change I asked the developers of the original plugin to add yacy to their list of search engines and to not publish a new plugin on wordpress by myself.

Statistik: Verfasst von Yududi — Sa Dez 14, 2013 11:58 am


Wunschliste • Re: Personalisierte Startseite

Date: 2013-12-14 14:15:39

Auf jeden Fall eine tolle Idee :-)

Statistik: Verfasst von Yududi — Sa Dez 14, 2013 2:15 pm


Wunschliste • YaCy Image Builder

Date: 2013-12-14 14:17:24

Ich möchte mal eine Idee festhalten.
Man müsste sich auf Knopfdruck und nur durch hochladen einer Grafik und meinetwegen ein paar Einstellungen ein eigenes YaCy bauen können.
Im Hintergrund müsste daraus dann ein YaCy \“gebacken\” werden was man sich ganz normal runterladen kann.

Statistik: Verfasst von Yududi — Sa Dez 14, 2013 2:17 pm


Mitmachen • Re: YaCy Suchportal

Date: 2013-12-14 17:05:24

Eigentlich ist es ja nur als Demo gedacht und nicht als \“vollwertiges\” Suchportal. Aber es ist natürlich trotzdem nicht so gut, wenn es zu lang offline ist. Da hast du schon recht.

Statistik: Verfasst von David — Sa Dez 14, 2013 5:05 pm


Presse • Самосвалы

Date: 2013-12-14 17:13:29

Фирма сапрос предлагает в аренду различную технику. Весь парк авто состоит в отличном положении и всегда предоставлен к вашим услугам.
Погрузчики способны выполнить восстановительные маневры скоро и профессионально. Аренда спец техники способствует намного сэкономить деньги на ее покупке, а, так же, и траты на ремонт в общем.
Наша фирма предлагает гибкую систему скидок, хорошие цены, доступное качество и доброе отношение к всякому клиенту. наша компания всегда рады вас видеть.


sapros.ru: пассажирские перевозки{.postlink}

Statistik: Verfasst von PSmanolla — Sa Dez 14, 2013 5:13 pm


Off-Topic • Web hosting using bittorrent technology

Date: 2013-12-14 18:10:10

It seems like the the pirate bay people are working on a specialized web browser, which basically turns website visitors into web hosters, with the help of the bittorrent technology.

\ Currently under development is a BitTorrent-powered browser that will enable users to store and distribute The Pirate Bay and other sites without need for central hosting.\


http://torrentfreak.com/pirate-bay-dock ... nt-131212/{.postlink}

Statistik: Verfasst von David — Sa Dez 14, 2013 6:10 pm


Mitmachen • Suchmaschine - auf Basis von YaCy

Date: 2013-12-14 23:22:23

Hallo,
Ich und ein Freund von mir wollen zusammen eine Suchmaschine bauen bzw. \“neu\” erfinden.
Diese soll mehr zum persönlichen Assistenten werden.

Nun suchen wir eine Basis auf der wir beginnen können dazu haben wir uns einen Server gemietet .
Jetzt würde mich interessieren ob es ein php script oder so etwas ähnliches gibt mit dem wir arbeiten können ?

Danke im Voraus
:)

Statistik: Verfasst von Scobel — Sa Dez 14, 2013 11:22 pm


Mitmachen • Re: Suchmaschine - auf Basis von YaCy

Date: 2013-12-15 00:47:38

Na dann schlage ich einfach mal YaCy vor :)

Statistik: Verfasst von Yududi — So Dez 15, 2013 12:47 am


Fragen und Antworten • Where\’s the English section?

Date: 2013-12-15 07:03:34

Sorry, I might be misunderstanding things here but apparently this is the \“English and German Forums for YaCy\“, but almost all of it is in German (I assume). I don\’t speak German so I can\’t even read the forum headings to work out which section of this forum to post this question in.

If this is supposed to be an English AND German forum, how come none of the section names and descriptions are also in English? I tried to find some sort of toggle but can\’t locate one.

Is there some way to filter out English or German posts so that the forum is more readable? Unfortunately, for people that only speak one language, it makes any attempt at using this forum essentially unusable. I don\’t mind that most of the posts are in German (which may in itself reflect the underlying problem if non-German people are dissuaded from using this forum), but to gain broader acceptance and usability, there needs to be some way for non-German people to use this forum - or, at least, be able to read the forum section names!

I saw that there is/was another forum/bbs for english language but its clearly not active. I\’ve been involved in many communities that are located in Germany or have a majority of German users, but they have separated their forums into language-specific areas. Examples include Media Portal and Meedio but I\’ve seen this forum/bbs software used on many sites and all of them keep the languages separate.

I think the main developer leads of YaCy need to understand that broad acceptance and widespread use of this search engine requires accepting that forums need to facilitate and encourage global use, and the interfaces to the engine, forums, and apps need to be user-centric. I think YaCy is very much still in the control of extreme technical people that fail to understand this and will likely continue to ignore this as a priority. YaCY simple cannot and will not succeed without strong guidance from non-technical people that have an understanding of marketing, presentation, user interfaces, usability, and ease of use.

You will be able to tell which sort of person you are by how strongly you disagree with me. Unfortunately in my 30+ years experience with technical people, there have been almost zero individuals that have been able to bridge this divide.

I\’ll look up YaCy in a year or two to see if anything has changed, but mark my words, if the leadership behind this forum and this search system do not introduce marketing/management/usability experts that have equal say in direction, YaCy will remain a marginal product that will never take off. How do I know this? I\’ll put up my 30 years of technical development, infrastructure, and product management against any tech-centric person any day.

Statistik: Verfasst von dir — So Dez 15, 2013 7:03 am


Mitmachen • Das leidige Thema SPAM im Forum

Date: 2013-12-15 11:54:54

Hi,

ich möchte an der Stelle mal ein Beitrag zum Thema SPAM in diesem Forum aufmachen.
Im Moment gehen ja 20-30 oder mehr Postings jeden Tag ein mit SPAM und das kostet ja auch Zeit die jedes mal zu löschen.
Zeit die man anderweitig investieren könnte.

Unter
https://www.phpbb.de/kb/spamschutz
wird für dieses Forum hier empfohlen Frage/Antwort zu nutzen und bestimmte Nutzergruppen zu erstellen.
Die Frage/Antwort Geschichte wird hier ja schon umgesetzt.

Hat jemand eine andere Idee oder kennt jemand ein Plugin für phpBB mit dem man die Situation etwas verbessern kann?
Wenn ja dann immer her damit.

Beispiel:
- Vielleicht ermöglicht diese Software hier ja alle neuen User zuerst in eine Gruppe \“Neuling\” zu stecken und nur in einem einzigen Forum zu posten zum Beispiel \“Ich stelle mich vor\” und das Forum \“Ich stelle mich vor\” ist nur für Mitglieder des Forums einsehbar so haben die Spammer nichts davon.

Statistik: Verfasst von Yududi — So Dez 15, 2013 11:54 am


Fragen und Antworten • Re: Where\’s the English section?

Date: 2013-12-15 13:54:52

Hi,

yeah, I think the structure of the forum should be changed.
But it would be better if you actively participate in this process.
Do you have an idea how the structure of the forum should look like?

German
|
- News
- ...

English
|
- News
- ...

Regards

Statistik: Verfasst von Yududi — So Dez 15, 2013 1:54 pm


Suchmaschinen • Re: DOMENGO

Date: 2013-12-15 14:01:23

Finde die Seite bis auf das Design klasse aber das kann man ja noch ändern.
Eine Möglichkeit URLs eintragen zu lassen ist top.
So zieht man auch Webmaster an.
Das normale YaCy sollte auch so eine zuschaltbare Funktion haben.

Statistik: Verfasst von Yududi — So Dez 15, 2013 2:01 pm


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2013-12-15 17:33:09

lange Zeit war Ruhe, der Spam kam früher eher aus Asien. Ich habe dann Testfragen gemacht die einen ganz leichten kulturellen Bezug haben, z.B. Namen von Flughäfen. Wenn mich jemand nach dem Namen des Flughafens von Bangkok fragen würde, dann wüsste ich zwar in etwa dass es dieser Name ist den man sich nicht merken kann weil er so lang und unaussprechlich ist, aber nicht mehr.
Jetzt sind da wohl russische Spammer, die englisch oder deutsch können und solche Fragen beantworten können...

Statistik: Verfasst von Orbiter — So Dez 15, 2013 5:33 pm


Fragen und Antworten • Re: BlackList & SubFolder in url

Date: 2013-12-15 18:21:34

Hi,

I have also some trouble with reg-exp in the crowl configurations.

Why we have to use

.*.*/tag/.*

and not the more simple expression

.*/tag/.*

??

Frank

Statistik: Verfasst von fherb — So Dez 15, 2013 6:21 pm


Mitmachen • 10 Jahre YaCy

Date: 2013-12-16 11:23:48

YaCy ist gestern 10 Jahre alt geworden oder jedenfalls hat Michael (Orbiter) seine Idee, eine P2P-Suchmaschine zu schreiben, damals das erste Mal öffentlich gemacht (im Heise-Forum).

Eigentlich hatte ich vor, eine kleine Artikelserie zu schreiben, in der ich mich zu den Anfängen (mit Screenshots alter Versionen und dem übergeordneten Ziel \“Informationsfreiheit\“), der Entwicklung (mit den Erfahrungen z.B. der ganzen Linuxtage, auf denen YaCy Gast war) und meinen persönlichen Erfahrungen (das Vorstellungsgespräch, das mir meine Diplomandenstelle eingebracht hat, drehte sich zum Teil um dieses Suchmaschinendings, das ich unter \“Hobbies\” angegeben hatte) mit YaCy auslassen. Weil die Zeit aber mal wieder nicht gereicht hat, habe ich das Ganze zu einem kurzen Artikel zusammengeschrumpft, der (wenn alles gut geht) heute automatisch um 12:00 unter http://blog.yacy-websuche.de/2013/12/16/happy-10th-birthday/ veröffentlicht wird.

Statistik: Verfasst von Low012 — Mo Dez 16, 2013 11:23 am


Fragen und Antworten • Re: Where\’s the English section?

Date: 2013-12-16 12:24:42

Maybe this thread could be merged with this one: viewtopic.php?f=12&t=4872{.postlink-local}

Statistik: Verfasst von Low012 — Mo Dez 16, 2013 12:24 pm


Mitmachen • Re: 10 Jahre YaCy

Date: 2013-12-16 12:37:28

Happy Birthday von http://yududi.de

Statistik: Verfasst von Yududi — Mo Dez 16, 2013 12:37 pm


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2013-12-16 23:30:07

Ich denke die setzen Software ein die dafür ausgelegt ist die 10,11, ... Fragen zu erkennen und zu unterscheiden. Nur wenn eine Frage einmal nicht erkannt werden kann weil sie noch nicht in der Datenbank vorhanden ist wird sich jemand manuell damit beschäftigen und ransetzen. Wenn das dann geschehen ist hagelt es SPAM ohne Ende weil die Mauer durchbrochen ist.

Ich hab grad https://www.phpbb.com/customise/db/mod/ ... block_mod/{.postlink} gefunden evtl. wäre das eine Idee

Statistik: Verfasst von Yududi — Mo Dez 16, 2013 11:30 pm


Mitmachen • Re: 10 Jahre YaCy

Date: 2013-12-16 23:50:40

Alles Gute zum Geburtstag!

Statistik: Verfasst von David — Mo Dez 16, 2013 11:50 pm


Mitmachen • Re: 10 Jahre YaCy

Date: 2013-12-17 10:27:05

oh Marc du bist super, vielen Dank für deinen Blogartikel. (OT) Hab gestern gar kein Internet gehabt, war den ganzen Tag im Meeting, in Basel, wegen YaCy :), mehr dazu später woanders :)
Ich finde inzwischen ja auch dass das ein wenig gruselig ist, diese lange Zeit für so ein Projekt. Aber gerade wegen euch allen \‘Kümmerern\’ macht das anhaltend viel Spass! Also ein großes Dankeschön an alle die während den 10 Jahren mitgemacht haben und hier und da sehr viel oder auch nur ein bisschen geholfen haben.

Statistik: Verfasst von Orbiter — Di Dez 17, 2013 10:27 am


Fragen und Antworten • Re: Where\’s the English section?

Date: 2013-12-17 10:41:46

\@dir, your thoughts about structuring the forums into language-specific departments is basically right, but the hint \‘and english forums\’ in the title is just a patch to the problem that the english forums in yacy-forum.org is so badly maintained and full of spam and it is not a good place to link to at this time.

The very simple answer to the demand to make international sections in the forums here is that it would also not be possible for us to maintain non-english/german sections because we cannot speak these languages. The only exception is english, therefore we encourage the people to also speak english here. Nevertheless I believe that a spanish/french/russian etc. YaCy forum should be maintained by someone who speaks this language and therefore should run their own forums.

This is therefore a call to everyone who wants a non-german YaCy forum: please start one yourself! I will be happy to link your forum on yacy.net

Statistik: Verfasst von Orbiter — Di Dez 17, 2013 10:41 am


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2013-12-17 10:43:53

Yududi hat geschrieben:\ wenn eine Frage einmal nicht erkannt werden kann weil sie noch nicht in der Datenbank vorhanden ist wird sich jemand manuell damit beschäftigen und ransetzen. Wenn das dann geschehen ist hagelt es SPAM ohne Ende weil die Mauer durchbrochen ist.\



Ah so funktioniert das, dann muss ich wohl mal alle Fragen ändern.

Statistik: Verfasst von Orbiter — Di Dez 17, 2013 10:43 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2013-12-18 16:12:33

Um kurz vor Weihnachten mal etwas subversiven Geist hier zu versprühen...

Bild

Statistik: Verfasst von Low012 — Mi Dez 18, 2013 4:12 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-18 17:56:15

http://piratenhagen.de/advent-2013-tuer ... tware.html{.postlink}

Statistik: Verfasst von Orbiter — Mi Dez 18, 2013 5:56 pm


Fragen und Antworten • API yacysarch.rss - Fehlende Informationen in der Antwort?

Date: 2013-12-18 18:26:52

Bei Verwendung der RSS Such-API bin ich auf ein kleines Problem gestossen. Trotzdem ich in der Suchanfrage den Parameter [meanCount=5]{style=“font-style: italic”} mitgebe, bekomme ich in der RSS Antwort keinerlei Informationen zum Thema \‘Did you mean\‘. Sowohl im Domains- als auch im Topics Abschnitt ist der Parameter mean auf 0 gesetzt. Auch an anderer Stelle habe ich keine Vorschläge gefunden.
Bei der Analyse der zurückgelieferten RSS Antwort ist mir aufgefallen, das ein Teil der Suchanfrage fehlt. Ich bin mir nicht sicher, ob das teilweise Fehlen der URL nur ein Fehler im zurückgelieferten RSS ist, oder ob das eventuell die Ursache für die fehlenden Suchvorschläge (mean count) ist.

Hier meine abgesetzte Suchanfrage:

Code:
http://localhost:31999/yacysearch.rss?query=hilden&Enter=Suchen&verify=iffresh&contentdom=text&nav=all&startRecord=0&indexof=&meanCount=5&resource=local&prefermaskfilter=&maximumRecords=100&collection=collection1



Hier die formatierte RSS Antwort, aus Platzgründen gekürzt auf nur ein Item und ohne Topics und Domains:

Code:
          'xmlns:yacy' => 'http://www.yacy.net/',          'xmlns:opensearch' => 'http://a9.com/-/spec/opensearch/1.1/',          'xmlns:atom' => 'http://www.w3.org/2005/Atom',          'xmlns:geo' => 'http://www.w3.org/2003/01/geo/wgs84_pos#',          'version' => '2.0',          'channel' => {                       'link' => 'http://localhost:31999/yacysearch.html?query=hilden&resource=local&contentdom=text&verify=-UNRESOLVED_PATTERN-',                       'opensearch:Query' => {                                             'searchTerms' => 'hilden',                                             'role' => 'request'                                           },                       'yacy:navigation' => {                                            'yacy:facet' => {                                                            'topics' => {                                                                        'min' => '0',                                                                        'yacy:element' => {                              .....                                                                                        },                                                                        'max' => '0',                                                                        'displayname' => 'Topics',                                                                        'type' => 'String',                                                                        'mean' => '0'                                                                      },                                                            'domains' => {                                                                         'min' => '0',                                                                         'yacy:element' => {                              ......                                                                                         },                                                                         'max' => '0',                                                                         'displayname' => 'Domains',                                                                         'type' => 'String',                                                                         'mean' => '0'                                                                       }                                                          }                                          },                       'item' => [                                 {                                   'yacy:file' => {},                                   'yacy:host' => 'www.domain.de',                                   'dc:publisher' => {},                                   'link' => 'http://www.domain.de/',                                   'yacy:sizename' => '-1 bytes',                                   'yacy:path' => '/',                                   'description' => ' long description',                                   'dc:creator' => {},                                   'dc:subject' => 'long subject',                                   'guid' => {                                             'isPermaLink' => 'false',                                             'content' => 'McdQ1Q6NNc8B'                                           },                                   'title' => "long title",                                   'pubDate' => 'Tue, 17 Dec 2013 01:46:34 +0000',                                   'yacy:size' => '-1'                                 },             'description' => 'Search for hilden',                       'opensearch:startIndex' => '0',                       'image' => {                                  'link' => 'http://localhost:31999/yacysearch.html?query=hilden&resource=local&contentdom=text&verify=-UNRESOLVED_PATTERN-',                                  'url' => 'http://localhost:31999/env/grafics/yacy.gif',                                  'title' => 'Search for hilden'                                },                       'opensearch:itemsPerPage' => '100',                       'opensearch:totalResults' => [                                                    '0',                                                    '26'                                                  ],                       'title' => 'P2P Web Search: hilden',                       'atom:link' => {                                      'rel' => 'search',                                      'href' => 'http://localhost:31999/opensearchdescription.xml',                                      'type' => 'application/opensearchdescription+xml'                                    }                     },          'xmlns:dc' => 'http://purl.org/dc/elements/1.1/',          'xmlns:media' => 'http://search.yahoo.com/mrss/'        };



Wie in der RSS Antwort zu sehen ist, kommt die Suchanfrage im RSS unvolständig zurück. Diese ist nach [verify=]{style=“font-style: italic”} zu Ende und wird stattdessen mit einem [-UNRESOLVED_PATTERN-]{style=“font-style: italic”} \“aufgefüllt\“. Desweiteren steht in der Antwort statt yacysearch[.rss]{style=“font-weight: bold”} yacysearch[.html]{style=“font-weight: bold”} .

URL der Anfrage/URL in der Antwort im direkten Vergleich:

Code:
http://localhost:31999/yacysearch.rss?query=hilden&Enter=Suchen&verify=iffresh&contentdom=text&nav=all&startRecord=0&indexof=&meanCount=5&resource=local&prefermaskfilter=&maximumRecords=100&collection=darksearchhttp://localhost:31999/yacysearch.html?query=hilden&resource=local&contentdom=text&verify=-UNRESOLVED_PATTERN-



Nutze ich die Search API falsch oder ist das möglicherweise ein Fehler?

Ergänzung: Derzeit eingesetzt YaCy version 1.679439

Statistik: Verfasst von freak — Mi Dez 18, 2013 6:26 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-18 20:14:05

My experiences are similar.

When you have a very slow processor (like my ARM at RaspberryPi) so you see the processor load around 100% and this is the bottleneck. Otherwise look for your HDD io access. In Linux you can use iotop. Write access is not so intensive. But read.

When this HDD access brakes to much and the web reaction is in slow motion following can help to make the system more stable: (I tried it on a dual-core ARM system and a virtual server) Increase the busy-sleep time of crawling and DHT distribution and set performanceIO to a higher value. performanceIO is a %-value and said how much time is used for io processes. So the system gets more time to work with the hard disk and to answer on web front-end. I don\’t know if this is the best way, but it seems to help when the system starts to lame. But, what you not get, is a higher crawl and DHT distribution rate. Then you should think about a faster HDD (SSD of course) or HDD-Interface when it is not the newest one. But I\’m not sure if the costs for changing the hardware are in a good relation to the benefit of YACY for your system.

Statistik: Verfasst von fherb — Mi Dez 18, 2013 8:14 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-18 20:45:52

Nette Idee das mit dem Adventskalender. Das Buch von Tag 15{.postlink} ist erstmal auf meinen Wunschzettel gewandert, weil ich dank Yacy und kaskelix{.postlink} ziemlich Wal- und Meer-fixiert bin, was Bücher angeht. :geek:

Statistik: Verfasst von Low012 — Mi Dez 18, 2013 8:45 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 11:09:20

In the meantime I have bought a new server for yacy with 84GB ram and processor with 8 cores.

Performance when searching is now better.

For the harddisks - I don\’t know how large SSD are around, because the index is huge.

But crawling is not really faster, I still would like to speed that up...

Statistik: Verfasst von netsearch — Do Dez 19, 2013 11:09 am


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 11:09:28

In the meantime I have bought a new server for yacy with 84GB ram and processor with 8 cores.

Performance when searching is now better.

For the harddisks - I don\’t know how large SSD are around, because the index is huge.

But crawling is not really faster, I still would like to speed that up...

Statistik: Verfasst von netsearch — Do Dez 19, 2013 11:09 am


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 11:09:41

In the meantime I have bought a new server for yacy with 84GB ram and processor with 8 cores.

Performance when searching is now better.

For the harddisks - I don\’t know how large SSD are around, because the index is huge.

But crawling is not really faster, I still would like to speed that up...

Statistik: Verfasst von netsearch — Do Dez 19, 2013 11:09 am


Mitmachen • Suchbegriffe anonymisieren

Date: 2013-12-19 11:37:51

Hi,

ich bin der Meinung die Suchbegriffe in der Anzeige auf
/Status.html sollten komplett und ausnahmslos anonymisiert werden.
Wenn jemand meinetwegen ausversehen nach seiner E-Mail oder seinem Passwort sucht dann könnte das ein Dritter lesen.
Ich denke es reicht wenn nur da steht es wurde gesucht ohne irgendeine Suchphrase die dargestellt wird.

Gruß

Statistik: Verfasst von Yududi — Do Dez 19, 2013 11:37 am


Mitmachen • Anbindung externer Speichermedien

Date: 2013-12-19 11:57:53

Hi,

falls die Frage blöd klingt: nicht hauen.
Ich habe den YaCy Sourcecode noch nicht durchgesehen.
Wie wäre es denn wenn man innerhalb von YaCy noch mehrere (S)FTP-Server einstellen könnte deren einzige Aufgabe es ist die Leistung von YaCy zu erweitern.

Bsp.: ich habe 26 FTP-Server deren Zugangsdaten ich YaCy bekannt gebe. Wenn YaCy dann einen Link zu einem Suchwort ablegen möchte was meinetwegen mit A beginnt dann wird dafür der 1. FTP-Server genommen. Bei B der 2. und so weiter. Wenn eine Suchabfrage reinkommt weiß YaCy auf welchem FTP-Server sie schauen muss ob dort Informationen liegen die brauchbar sind.

Die Suche über eine solche sortierte Ansammlung von Daten geht ja logarithmisch über die Bühne.
Für FTP-Server kann man zudem ja Accounts einrichten die nur Lesezugriff haben.
Hier könnten dann sogar auch andere Peers direkt ihre Anfragen hinschicken.

Gruß

Statistik: Verfasst von Yududi — Do Dez 19, 2013 11:57 am


Wunschliste • HTML5 Doctype

Date: 2013-12-19 12:02:08

Wie wäre es YaCy auf HTML5 Doctype umzustellen?
Im Sourcecode habe ich gesehen läuft meistens XHTML 1.0 Strict/Transitional.
Google hat auch schon auf HTML5 umgestellt.
Jemand was dagegen oder alle dafür?

Statistik: Verfasst von Yududi — Do Dez 19, 2013 12:02 pm


Mitmachen • Re: Suchbegriffe anonymisieren

Date: 2013-12-19 12:04:43

ah, keine Panik, die kannst du sowieso nur als Administrator sehen. Ich gebe zu dass dies nicht gleich ersichtlich ist, ist aber so. Das Servlet fragt ab, ob der Besucher autorisiert ist. Wenn nicht, werden diese Suchbegriffe nicht angezeigt.

Kann man im Code sehen:
https://gitorious.org/yacy/rc1/source/c ... /feed.java{.postlink}
..tested ob der User autorisiert ist, und checkt dann ob der angefragte Channel ein privater channel ist (EventChannel.privateChannels).

Die Definition von privaten Channels sieht man in
https://gitorious.org/yacy/rc1/source/9 ... annel.java{.postlink}

Statistik: Verfasst von Orbiter — Do Dez 19, 2013 12:04 pm


Wunschliste • Re: HTML5 Doctype

Date: 2013-12-19 12:08:29

ein Branch ist dafür bereits in Arbeit, siehe https://gitorious.org/yacy/jensbees-rc1 ... 754be11457{.postlink}
du kannst Jens dabei helfen, z.B. das auschecken und kommentieren.

Statistik: Verfasst von Orbiter — Do Dez 19, 2013 12:08 pm


Mitmachen • Re: Anbindung externer Speichermedien

Date: 2013-12-19 12:11:49

das geht nicht weil die Datenablage so nicht funktioniert. Indexe werde nicht einfach in Dateien geschrieben, die werden von einem Suchserver gehostet. In diesem Fall Solr; Solr ist zwar integriert in YaCy, kann man aber auch auslagern. Dabei ist es möglich das auch auf mehreren Servern zu machen, die dafür notwendige Technik nennt sich SolrCloud{.postlink}. Ich bin gerade dabei so etwas zu installieren und werde das auch dokumentieren, aber mit FTP-Servern kannst du nichts machen.

Statistik: Verfasst von Orbiter — Do Dez 19, 2013 12:11 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 12:14:16

netsearch hat geschrieben:\ In the meantime I have bought a new server for yacy with 84GB ram and processor with 8 cores.\ \ Performance when searching is now better.\ \ For the harddisks - I don\'t know how large SSD are around, because the index is huge.\ \ But crawling is not really faster, I still would like to speed that up\...\



Wow whats your portal, I will use yours http://?

Statistik: Verfasst von smokingwheels — Do Dez 19, 2013 12:14 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 12:16:57

when you have more RAM in the server, you must assign that in /Performance_p.html, otherwise YaCy does not use that.
Crawling cannot be enhanced much with RAM since crawling obeys speed rules applied by the response time of the crawled servers. You can speed up crawling if you crawl a lot of different remote servers at the same time. YaCy can index tenthousands of documents per minute, but only if the number of remote servers is large.

Statistik: Verfasst von Orbiter — Do Dez 19, 2013 12:16 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-19 12:54:31

Hi

Of course I have assigned the RAM to yacy ;-)

Regarding Crawling: that means by starting more crawing tasks at the same time it will be faster?

At the moment I have about 10 crawlers running - so should i increase that to 30 or so crawlers?

Thanks

Statistik: Verfasst von netsearch — Do Dez 19, 2013 12:54 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-20 00:19:34

84GB???

Do you design your own motherboards? ;)
But, Orbiter, should YACY be really designed to work on such fat servers? When the power of YACY is the network of many users, YACY should get the most power when we get it from a lot standard PCs in a big network (and don\’t forget that more and more Laptops substitute PCs at home). Or what, when YACY could use the big amount of NAS which users installed the last years. That are really wide distributed servers!

I read across the forum the last 3 weeks. But what I could find was, that a big index don\’t need a big HDD. It needs a lot of RAM. Or is this a wrong cognition? Maybe it is a fast computing solution to have the index in a Java heap. But users have normally some 100GB HDD space free but needs the RAM for theirs work. I think that not more than 18...14 of RAM should be used in background from such services like YACY. And when we have a typical PC or Laptop so this is a range of 250MB...2GByte.

Maybe a special YACY search server can have the full 8...32GByte to use only for YACY. But when we need to update a computer to 84GByte to give the place that YACY can use HDD and LAN performance, ... That is not the right relation in my opinion.

Best greetings,
Frank

Statistik: Verfasst von fherb — Fr Dez 20, 2013 12:19 am


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-20 09:43:20

While I constantly try to keep the memory and CPU demand low (I partly develop and test on a 2006 macbook) there might be use cases for very large memory demands. Memory may speed up search performance and it will ensure the capability for large indexes while the p2p architecture ensures unlimites scalability.
Which means: \@fherb is right demanding a non-high-cpu-ram ability favoring p2p technology while \@netsearch is right to enlarge his capability for high load/high document number.
I really like tests on such string hardware because it will tighten the professional application of YaCy. It is costly to do such tests and it is very valuable to have such users and their experience reports here.
The other end of the performance options is hardware like RaspberryPi which I also would like to see as a YaCy plattform. But it is not right to demand that YaCy should be made for a single way of configuration and a \‘typical\’ class of home computers.

Statistik: Verfasst von Orbiter — Fr Dez 20, 2013 9:43 am


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2013-12-20 12:26:12

I started with yacy on a smaller server but I\’ve reached limits very soon because I try to collect as many urls as possible (basically I don\’t set any limits).

I think for a restricted index with a few thousand pages/urls it will be no problem to run that on any regular machine.

I am running the peer called zerberos which has up to now indexed more than 42 million pages - there are not so many peers that have so many pages.

And yes, I have invested a few thousand for the server, just because I am interested to see what happens when the index grows bigger :D
Orbiter, if you have any questions about the system or suggestions for improvement of spidering speed then don\’t hesitate to contact me.

Also I posted a question some time ago - I wonder if a direct access to the solr server from java would be possible, maybe you know that?

And I would have some more technical questions on what information can be extracted.…

Statistik: Verfasst von netsearch — Fr Dez 20, 2013 12:26 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-20 14:12:29

OK, ist kein Blog und es ist auch nur in den Kommentaren zu einer andern Software, aber immerhin: http://forum.golem.de/kommentare/internet/bittorrent-chat-sicherer-chat-ohne-server/ich-hoffe-ja-immer-noch-auf-p2p-suche/78754,3592915,3592915,read.html#msg-3592915

Statistik: Verfasst von Low012 — Fr Dez 20, 2013 2:12 pm


Wunschliste • Yacy auf OpenWRT

Date: 2013-12-21 12:26:15

Ich finde, Yacy sollte auf OpenWRT verfügbar sein.




PS.
Bei der Einrichtung eines Yacy-Zuganges wurde ich an ein Strafgefangenenlager erinnert.

Statistik: Verfasst von smilebef — Sa Dez 21, 2013 12:26 pm


YaCy Coding & Architektur • Impressum + Datenschutzerklärung getrennt

Date: 2013-12-21 13:15:58

Neben einer Möglichkeit ein Impressum einzugeben muss es nun auch eine separate Möglichkeit geben eine Datenschutzerklärung einzugeben
http://idienstler.de/3052/neue-regelung ... orderlich/{.postlink}
Kann das jemand zeitnah umsetzen?
Ich bin mit dem Code noch nicht vertraut genug und bau mir behelfsweise dann erst einmal selbst eine Quick&Dirty Lösung zusammen.
Betrifft aber nur die unter deutschem Recht stehenden Nutzer.

Statistik: Verfasst von Yududi — Sa Dez 21, 2013 1:15 pm


Wunschliste • Re: Yacy auf OpenWRT

Date: 2013-12-21 14:03:32

smilebef hat geschrieben:\ PS.\ Bei der Einrichtung eines Yacy-Zuganges wurde ich an ein Strafgefangenenlager erinnert.\



Weil?

Statistik: Verfasst von Yududi — Sa Dez 21, 2013 2:03 pm


Mitmachen • Re: Anbindung externer Speichermedien

Date: 2013-12-21 14:05:31

Okay dann bin ich mal gespannt was SolrCloud angeht.

Statistik: Verfasst von Yududi — Sa Dez 21, 2013 2:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2013-12-22 19:33:33

http://peerproduction.net/issues/issue- ... ed-search/{.postlink}

Statistik: Verfasst von Orbiter — So Dez 22, 2013 7:33 pm


Hilfe für Einsteiger und Anwender • Htcache

Date: 2013-12-23 02:56:15

Can you put Htcache on a ramdisk? If so, how would you configure yacy to do that?

Statistik: Verfasst von jdpete — Mo Dez 23, 2013 2:56 am


YaCy Coding & Architektur • Re: Designspielerei

Date: 2013-12-23 02:57:09

Hallo surfvive, ich habe mir eben deine Herkulesarbeit angeschaut und bin sehr beeindruckt!
Leute schaut euch https://gitorious.org/yacy/jensbees-rc1 an, das ist der Hammer. Ich hatte vor einer Woche schon mal ausgecheckt, aber da ging irgendwie gar nichts, aber jetzt sieht das ja ziemlich fertig aus.

Allerdings... jeder der sich das ansieht wird denken: oh Mann, das ist ja ein ganz anderes Programm. Man findet erst mal gar nichts wieder, aber nach ein wenig Eingewöhnung ist alles wieder gut :) Jedenfalls denke ich dass wir hier den Sprung in ein modernes Design schaffen.

Ich habe wieder ein paar Kritikpunkte, surfvive nimm mir das bitte nicht übel, die Arbeit ist super aber das hier ist mir eben aufgefallen:
- die Darstellung ist äusserst Raumgreifend, ich habe einen ziemlich großen Monitor aber trotzdem muss ich überall hin-und-her scrollen.
- Die Kontraste sind bei den Tabellen schlecht, die Schrift ist zu hell
- Wie kann ich das customizen, bzw. skinnen?
- Der Process Scheduler hat keine Eingaben angenommen, bzw. dann ist nichts passiert...
- Die Suchseite ist ja ziemlich stark geändert, sieht interessant aus, aber mein Anliegen war es dort möglichst google-ähnlich zu sein, damit die Leute nicht zu viel Veränderung spüren müssen wenn sie YaCy mal ausprobieren. Den blauen Hintergrund mag ich auch irgendwie nicht, skin wäre gut.
- Die Selektionspunkte unter der Sucheingabe sieht etwas verzerrt aus (Text/Bildersuche), das muss irgendwie anders, wäre mir lieb wenn man das wieder tiefer hat.
- Der Stealth mode auf der Suchseite nimmt zu viel Raum ein. Kann das wieder nach rechts oben?
- Die Eingabezeile bei der Suche müsste größer sein, mit größerer Schrift, das wirkt immer gut
- Alle Schriften und Abstände ein wenig kleiner könnte mehr Übersichtlichkeit bringen?
- Das runter- und hochrutschen den Seiteninhaltes beim Aufklappen des Menüs wirkt verwirrend. Kann das Menü statt dessen einfach drüberblenden? Oder ist das aus einem bestimmten Grund so oder Drüberblenden schlecht?
- Kann das Hauptmenü beim mouseover automatisch aufblenden, ich habe den Eindruck man muss ansonsten sehr viel klicken
- wo kann man global einstellen dass diese html5-Bearbeitungsnotizen nicht kommen? Wie kann man die wieder holen wenn man sie einmal weggeklickt hat?
- Die Statusseite sieht nicht gut aus. Das ist nicht deine Schuld, du hast alles gut untergebracht und die Alerts sind schön. Aber das wäre ein Punkt wo man eine ganz andere Statusseite machen könnte, die anders die Daten darstellt oder mischt mit anderen Informationen aus anderen Servlets.

Statistik: Verfasst von Orbiter — Mo Dez 23, 2013 2:57 am


Hilfe für Einsteiger und Anwender • Re: Htcache

Date: 2013-12-23 10:24:15

Hi, you can choose where to store the htcache under: Index Administration / Web Cache
http://localhost:8090/ConfigHTCache_p.html

Statistik: Verfasst von David — Mo Dez 23, 2013 10:24 am


YaCy Coding & Architektur • Re: Jetty HTTP Server in YaCy

Date: 2013-12-23 14:40:36

Florians Arbeit wurde von Burkhard nun fertig gemacht und ich habe es heute ins main gemerged!
Das war eine Mammutarbeit und Burkhard hat das super gemacht, auch die Solr Servlets schon als native jetty-servlets mit eingebaut.
Es fehlt noch die https-Unterstützung, aber das kriegen wir auch noch irgendwie wieder hin.

Statistik: Verfasst von Orbiter — Mo Dez 23, 2013 2:40 pm


Wunschliste • Re: Yacy auf OpenWRT

Date: 2013-12-23 16:32:41

OK, hast mich eiskalt erwischt.

ich habe keine Ahnung wie Yaci eigentlich funktioniert und ob es überhaupt auf einem kleinen Router läuft.
Ich würde mir jedoch eine Suchmaschine im Freifunknetz wünschen.
Jetzt könntest du sagen, kannste doch jeden x-beliebigen Rechner ins Freifunk setzen.
Ja, könnte ich.
Und genau hier beginnt das Dilema, dass ich nicht richtig bescheid weiß.

Angenommen jemand hat einen Router mit einer kleinen Webseite und OpenWRT. Wie wird die dann von einer dezentralen Suchmaschine gefunden, wenn nicht irgend ein Tool die Dateinen auf dem Router indiziert?

Statistik: Verfasst von smilebef — Mo Dez 23, 2013 4:32 pm


Wunschliste • Re: Yacy auf OpenWRT

Date: 2013-12-23 16:43:47

Ach Gott, jetzt sehe ich erst dass du meinen kleinen Kommentar befragt hast.
Genau das ist mir durch den Kopf gegangen, als ich mich anmelden mußte.
Registrieren, Passwort mit Zahlen und Großbuchstaben, Email verifizieren.
Laufzettel und gestreifte Anzüge und die Kette am Bein.
Ja ich weiß, dass macht jeder so. Und ich werde jedes mal aufs neue an ein Strafgefangenenlager erinnert.
Deshalb gebe ich hin und wieder einen blöden Kommentar von mir.

Statistik: Verfasst von smilebef — Mo Dez 23, 2013 4:43 pm


Wunschliste • Re: Yacy auf OpenWRT

Date: 2013-12-23 17:59:07

Welche Hardwarespecs hat denn der Router?
Einige haben YaCy auf einem Raspberry Pi laufen (512 MB Ram / 700 oder 1000 MHz).
Laut Wiki wird 1GB Ram und mehr empfohlen.
Ich würde 2GB Ram aufwärts empfehlen.

In YaCy sind zum Start bestimmte Adressen bzw. Quellen anderer YaCy Peers fest integriert:
http://www.yacy-websearch.net/wiki/index.php/Seedlists damit finden die sich gegenseitig
und tauschen ihre Adressen aus.

Statistik: Verfasst von Yududi — Mo Dez 23, 2013 5:59 pm


Fragen und Antworten • Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 00:53:34

Mein Peer antwortet nicht mehr. Keine Ahnung, was los ist. Inzwischen mehrfach neu gestartet. Im folgenden die letzten Log-Zeilen, die sich mehr oder weniger dauerhaft wiederholen.

Gibt\’s im Forum irgendwo ein Thread, wo man gelernt bekommt, was das Log einem sagt? Ohne Grundwissen kann ich aus dem Zeugs auch keine Bug-Meldung machen, wenn es irgendwas am System unter bestimmten Konstellationen ist, was mir den Peer blockiert.

Log:

Code:
E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:30:45 MEMORY performed explicit GC, freed 226 KB (requested/available/average: 136521 / 42140 / 780 KB)I 2013/12/24 00:31:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42137 / 780 KB)I 2013/12/24 00:32:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42136 / 780 KB)I 2013/12/24 00:33:46 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 779 KB)D 2013/12/24 00:34:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:34:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:34:26 RESOURCE OBSERVER resources okI 2013/12/24 00:34:46 MEMORY performed explicit GC, freed 3081 KB (requested/available/average: 136521 / 42115 / 779 KB)E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:35:46 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42139 / 774 KB)I 2013/12/24 00:36:46 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 774 KB)I 2013/12/24 00:37:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42136 / 775 KB)I 2013/12/24 00:38:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42138 / 775 KB)D 2013/12/24 00:39:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:39:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:39:26 RESOURCE OBSERVER resources okI 2013/12/24 00:39:47 MEMORY performed explicit GC, freed 3200 KB (requested/available/average: 136521 / 42114 / 775 KB)E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:40:47 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42138 / 799 KB)I 2013/12/24 00:41:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42138 / 799 KB)I 2013/12/24 00:42:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42137 / 799 KB)



Der Peer hat jetzt inzwischen 4,5 Mio URLs gespeichert. Ist eigentlich zu 100% mit 100MBit/s am Netz für das Netzwerk nützlich. Soll ich den jetzt neu aufsetzen und alles in den Müll werfen? Wäre schade.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Di Dez 24, 2013 12:53 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 01:05:11

Falls es interessiert, hier noch ein viel längeres Listing der letzten Logs.

Installierte Version ist 1.679560.

Musste aber inzwischen neu starten, da im Debug-Modus laufend über SSH-Terminal.


Code:
E 2013/12/23 23:28:02 org.apache.solr.update.CommitTracker auto commit error...:java.lang.IllegalStateException: this writer hit an OutOfMemoryError; cannot commit at org.apache.lucene.index.IndexWriter.prepareCommitInternal(IndexWriter.java:2793) at org.apache.lucene.index.IndexWriter.commitInternal(IndexWriter.java:2970) at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:2940) at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:559) at org.apache.solr.update.CommitTracker.run(CommitTracker.java:216) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334) at java.util.concurrent.FutureTask.run(FutureTask.java:166) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$101(ScheduledThreadPoolExecutor.java:165) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:266) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1146) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:701)W 2013/12/23 23:28:07 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:05 StackTrace nulljava.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:622) at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:637) at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:766) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:298) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:360) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:686) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:229) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:960) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1021) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:957) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:668) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:701)Caused by: java.lang.OutOfMemoryError: Java heap spaceD 2013/12/23 23:28:07 SWITCHBOARD Processing 668 bytes / 2 words / 5 entries from mW99MJOxtezC:_anonufe-32037536-40/1.67009319W 2013/12/23 23:28:05 org.eclipse.jetty.server.AbstractHttpConnection /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:12 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:25 org.eclipse.jetty.server.AbstractHttpConnection /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:28 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:22 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:27 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:24 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:25 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:24 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceI 2013/12/23 23:28:41 YACY hello/server: responded remote junior peer 'YuDuDi' from 193.111.136.35, time_dnsResolve=0, time_backping=32459, method=clientip=193.111.136.35, urls=-1W 2013/12/23 23:28:34 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:34 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:36 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceI 2013/12/23 23:28:40 MEMORY performed explicit GC, freed 11 KB (requested/available/average: 136521 / 14 / 25879 KB)W 2013/12/23 23:28:41 org.eclipse.jetty.io.nio handle failedjava.lang.OutOfMemoryError: Java heap spaceI 2013/12/23 23:28:48 MEMORY checkProper: below treshold; tresholdCount: 1; proper: trueW 2013/12/23 23:28:44 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:46 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:52 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:48 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:57 org.eclipse.jetty.server.AbstractHttpConnection /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:56 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceD 2013/12/23 23:28:54 SWITCHBOARD Processing 1965 bytes / 4 words / 15 entries from FBjj5uvvdkBM:_anonw-57121074-0/1.66009294java.lang.OutOfMemoryError: Java heap spaceI 2013/12/23 23:28:54 YACY hello/server: changing remote peer 'YuDuDi' [193.111.136.35] peerType from 'principal' to 'junior'.W 2013/12/23 23:28:54 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:14 org.eclipse.jetty.io.nio handle failedjava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:19 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/transferRWI.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:28:54 org.eclipse.jetty.servlet.ServletHandler Error for /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceE 2013/12/23 23:29:24 UNCAUGHT-EXCEPTION Thread HTTPClient-201.11.210.128: Java heap spacejava.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:24 StackTrace Java heap spacejava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:23 StackTrace nulljava.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:622) at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:637) at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:766) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:298) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:360) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:686) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:229) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:960) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1021) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:957) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:668) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:701)Caused by: java.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:24 org.eclipse.jetty.servlet.ServletHandlerjavax.servlet.ServletException at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:769) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:298) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:360) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:686) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:229) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:960) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1021) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:957) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:668) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:701)W 2013/12/23 23:29:24 org.eclipse.jetty.servlet.ServletHandler /yacy/transferRWI.htmljavax.servlet.ServletException at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:769) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:298) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:360) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:686) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:229) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:960) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1021) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:957) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:668) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:701)D 2013/12/23 23:29:24 SWITCHBOARD Processing 2237 bytes / 10 words / 17 entries from FyTrV2uI2hju:schid7864/1.67009319W 2013/12/23 23:29:05 BusyThread Thread 'Balancer waiting for fi.wikibooks.org: 367 milliseconds' runs short memory cycle. Free mem: 0 KB, needed: 12288 KBW 2013/12/23 23:29:08 org.eclipse.jetty.server.AbstractHttpConnection /yacy/hello.htmljava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:10 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs short memory cycle. Free mem: 0 KB, needed: 12288 KBW 2013/12/23 23:29:11 StackTrace Java heap spacejava.lang.OutOfMemoryError: Java heap spaceW 2013/12/23 23:29:11 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteCrawlLoaderJob' runs short memory cycle. Free mem: 1 KB, needed: 12288 KBD 2013/12/23 23:29:24 SWITCHBOARD Processing 2805 bytes / 9 words / 21 entries from G2ZFEXmbIUqt:burningmeteor_yacy/1.67009319D 2013/12/23 23:29:24 SWITCHBOARD Processing 806 bytes / 3 words / 6 entries from RCgp926QywEn:_anonufe-42386521-55/1.67009308D 2013/12/23 23:29:24 SWITCHBOARD Processing 2535 bytes / 3 words / 19 entries from 6TSkG7AHNB9C:WE-B13/1.67009319D 2013/12/23 23:29:24 SWITCHBOARD Processing 1750 bytes / 6 words / 13 entries from HQ3oL58n_jE2:yacy-KC/1.67009319D 2013/12/23 23:29:24 SWITCHBOARD Processing 3027 bytes / 6 words / 23 entries from ZU2sdlXLFHx2:JanOnymous/1.67009439D 2013/12/23 23:29:24 SWITCHBOARD Processing 402 bytes / 3 words / 3 entries from cP7sFMRk0-ry:ORG-Domains/1.66009294D 2013/12/23 23:29:24 SWITCHBOARD Processing 272 bytes / 1 words / 2 entries from L1yRP6ARB4U6:ken/1.67009319D 2013/12/23 23:29:24 SWITCHBOARD Processing 530 bytes / 4 words / 4 entries from GuTqcE_nEpAA:sixcooler1/1.67009541I 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'YuDuDi' [193.111.136.35] in 76091 millisecondsI 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer 'SAMMI-VS2' from 78.46.145.203, time_dnsResolve=0, time_backping=53, method=clientip=78.46.145.203, urls=4419845I 2013/12/23 23:29:24 YACY hello/server: responded remote junior peer '_anonufe-8876689-0' from 46.5.30.32, time_dnsResolve=0, time_backping=95, method=clientip=46.5.30.32, urls=-1I 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer 'cherrypig' from 31.53.94.71, time_dnsResolve=0, time_backping=183, method=clientip=31.53.94.71, urls=916199I 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer 'moon1' from 31.130.253.52, time_dnsResolve=0, time_backping=229, method=clientip=31.130.253.52, urls=1980432I 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'cherrypig' [31.53.94.71] in 200 millisecondsI 2013/12/23 23:29:24 SWITCHBOARD Received 2 RWIs, 1 Words [hobZhdKDZ1km .. hobZhdKDZ1km], processed in 213 milliseconds, -4415622907521074184, blocked 0, requesting 2/2 URLs from L1yRP6ARB4U6:ken/1.67009319I 2013/12/23 23:29:24 SWITCHBOARD Received 3 RWIs, 3 Words [h6xVNa5BtrXm .. h60MQBzOTlgk], processed in 236 milliseconds, -4456977303085339040, blocked 0, requesting 0/3 URLs from cP7sFMRk0-ry:ORG-Domains/1.66009294I 2013/12/23 23:29:24 YACY hello/server: responded remote peer '_anonufe-8876689-0' [46.5.30.32] in 258 millisecondsI 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer '_anonufe-65733772-76' from 88.191.140.42, time_dnsResolve=0, time_backping=261, method=clientip=88.191.140.42, urls=1930859I 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'SAMMI-VS2' [78.46.145.203] in 276 millisecondsI 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer 'GamerX-Server' from 85.25.152.52, time_dnsResolve=0, time_backping=254, method=clientip=85.25.152.52, urls=1003551I 2013/12/23 23:29:24 SWITCHBOARD Received 4 RWIs, 4 Words [KAcg99xXlxAW .. KAgJjHphsoyb], processed in 288 milliseconds, -1011004798038418116, blocked 0, requesting 2/4 URLs from GuTqcE_nEpAA:sixcooler1/1.67009541I 2013/12/23 23:29:24 SWITCHBOARD Received 6 RWIs, 3 Words [-XxdKZQb-xsv .. -ZAxQ3Vw41eB], processed in 306 milliseconds, 664517906804996104, blocked 0, requesting 0/6 URLs from RCgp926QywEn:_anonufe-42386521-55/1.67009308I 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'moon1' [31.130.253.52] in 318 millisecondsI 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'GamerX-Server' [85.25.152.52] in 312 millisecondsE 2013/12/23 23:29:24 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:29:24 YACY hello/server: responded remote peer '_anonufe-65733772-76' [88.191.140.42] in 348 millisecondsE 2013/12/23 23:29:24 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:29:24 YACY hello/server: responded remote senior peer 'aquayacy' from 188.61.32.164, time_dnsResolve=0, time_backping=538, method=clientip=188.61.32.164, urls=874555E 2013/12/23 23:29:24 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:29:24 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:29:24 YACY hello/server: responded remote peer 'aquayacy' [188.61.32.164] in 542 millisecondsI 2013/12/23 23:29:24 SWITCHBOARD Received 13 RWIs, 6 Words [itTK8qA_wsSk .. itVC0Zeke1Pl], processed in 551 milliseconds, -4570740556884762596, blocked 0, requesting 8/13 URLs from HQ3oL58n_jE2:yacy-KC/1.67009319I 2013/12/23 23:29:25 SWITCHBOARD Received 19 RWIs, 3 Words [SgUMt3biCiBl .. SgVqy7t-B9Ne], processed in 582 milliseconds, -2235653217334940892, blocked 0, requesting 11/19 URLs from 6TSkG7AHNB9C:WE-B13/1.67009319I 2013/12/23 23:29:25 SWITCHBOARD Received 17 RWIs, 10 Words [QyTo0NN7EQ7h .. QyY53iNXydVg], processed in 592 milliseconds, -1988002288946513684, blocked 0, requesting 6/17 URLs from FyTrV2uI2hju:schid7864/1.67009319I 2013/12/23 23:29:25 SWITCHBOARD Received 21 RWIs, 9 Words [yZ4JRxSY469v .. yZ7FbNNKXbv5], processed in 606 milliseconds, 2390504795714215756, blocked 0, requesting 7/21 URLs from G2ZFEXmbIUqt:burningmeteor_yacy/1.67009319I 2013/12/23 23:29:25 YACY hello/server: responded remote senior peer '_anonufe-43695664-16' from 207.191.217.99, time_dnsResolve=0, time_backping=806, method=clientip=207.191.217.99, urls=1295954I 2013/12/23 23:29:25 YACY hello/server: responded remote senior peer '_anonufe-42201609-0' from 190.162.42.120, time_dnsResolve=0, time_backping=803, method=clientip=190.162.42.120, urls=260308I 2013/12/23 23:29:25 YACY hello/server: responded remote peer '_anonufe-42201609-0' [190.162.42.120] in 812 millisecondsI 2013/12/23 23:29:25 YACY hello/server: responded remote peer '_anonufe-43695664-16' [207.191.217.99] in 818 millisecondsI 2013/12/23 23:29:25 SWITCHBOARD Received 23 RWIs, 6 Words [6VN7uB7pjrLF .. 6VOvgy0jyOxK], processed in 809 milliseconds, 1248113168591313340, blocked 0, requesting 21/23 URLs from ZU2sdlXLFHx2:JanOnymous/1.67009439D 2013/12/23 23:29:25 SWITCHBOARD Cleaning Loaded-URLs report stack, 2841 entries on stack 3D 2013/12/23 23:29:25 SWITCHBOARD Cleaning Incoming News, 67 entries on stackI 2013/12/23 23:29:26 MEMORY performed explicit GC, freed 25210 KB (requested/available/average: 20495 / 41217 / 11471 KB)I 2013/12/23 23:29:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:29:26 RESOURCE OBSERVER resources okI 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer '_anonufe-51991484-34' from 81.235.133.177, time_dnsResolve=0, time_backping=6096, method=clientip=81.235.133.177, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer '_anonufe-31109173-12' from 67.247.251.63, time_dnsResolve=0, time_backping=6089, method=clientip=67.247.251.63, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer '_anonw-13586337-10' from 2.10.226.93, time_dnsResolve=0, time_backping=6092, method=clientip=2.10.226.93, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer '_anonufe-52281438-0' from 84.192.109.230, time_dnsResolve=0, time_backping=6094, method=clientip=84.192.109.230, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer '_anonw-18842700-32' from 58.167.88.201, time_dnsResolve=0, time_backping=6093, method=clientip=58.167.88.201, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote peer '_anonufe-51991484-34' [81.235.133.177] in 6104 millisecondsI 2013/12/23 23:29:30 YACY hello/server: responded remote peer '_anonw-13586337-10' [2.10.226.93] in 6104 millisecondsI 2013/12/23 23:29:30 YACY hello/server: responded remote peer '_anonw-18842700-32' [58.167.88.201] in 6101 millisecondsI 2013/12/23 23:29:30 YACY hello/server: responded remote peer '_anonufe-31109173-12' [67.247.251.63] in 6103 millisecondsI 2013/12/23 23:29:30 YACY hello/server: responded remote peer '_anonufe-52281438-0' [84.192.109.230] in 6108 millisecondsI 2013/12/23 23:29:30 YACY hello/server: responded remote junior peer 'oe8spq_test2' from 54.229.84.42, time_dnsResolve=0, time_backping=6133, method=clientip=54.229.84.42, urls=-1I 2013/12/23 23:29:30 YACY hello/server: responded remote peer 'oe8spq_test2' [54.229.84.42] in 6137 millisecondsI 2013/12/23 23:29:36 MEMORY performed explicit GC, freed 9599 KB (requested/available/average: 136521 / 42011 / 13159 KB)I 2013/12/23 23:30:36 MEMORY performed explicit GC, freed 927 KB (requested/available/average: 136521 / 42046 / 10431 KB)I 2013/12/23 23:31:36 MEMORY performed explicit GC, freed 679 KB (requested/available/average: 136521 / 42073 / 7150 KB)I 2013/12/23 23:32:37 MEMORY performed explicit GC, freed 498 KB (requested/available/average: 136521 / 42079 / 7283 KB)I 2013/12/23 23:33:37 MEMORY performed explicit GC, freed 402 KB (requested/available/average: 136521 / 42081 / 7382 KB)D 2013/12/23 23:34:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:34:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:34:26 RESOURCE OBSERVER resources okI 2013/12/23 23:34:37 MEMORY performed explicit GC, freed 3348 KB (requested/available/average: 136521 / 42063 / 2421 KB)E 2013/12/23 23:34:37 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:34:37 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:34:37 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:34:37 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:35:37 MEMORY performed explicit GC, freed 341 KB (requested/available/average: 136521 / 42088 / 1171 KB)I 2013/12/23 23:36:37 MEMORY performed explicit GC, freed 282 KB (requested/available/average: 136521 / 42090 / 1054 KB)I 2013/12/23 23:37:37 MEMORY performed explicit GC, freed 265 KB (requested/available/average: 136521 / 42096 / 974 KB)I 2013/12/23 23:38:37 MEMORY performed explicit GC, freed 254 KB (requested/available/average: 136521 / 42095 / 928 KB)D 2013/12/23 23:39:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:39:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:39:26 RESOURCE OBSERVER resources okI 2013/12/23 23:39:38 MEMORY performed explicit GC, freed 3442 KB (requested/available/average: 136521 / 42073 / 898 KB)E 2013/12/23 23:39:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:39:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:39:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:39:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:40:38 MEMORY performed explicit GC, freed 284 KB (requested/available/average: 136521 / 42099 / 917 KB)I 2013/12/23 23:41:38 MEMORY performed explicit GC, freed 247 KB (requested/available/average: 136521 / 42100 / 906 KB)I 2013/12/23 23:42:38 MEMORY performed explicit GC, freed 245 KB (requested/available/average: 136521 / 42101 / 898 KB)I 2013/12/23 23:43:38 MEMORY performed explicit GC, freed 243 KB (requested/available/average: 136521 / 42102 / 894 KB)D 2013/12/23 23:44:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:44:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:44:26 RESOURCE OBSERVER resources okI 2013/12/23 23:44:38 MEMORY performed explicit GC, freed 3242 KB (requested/available/average: 136521 / 42080 / 892 KB)E 2013/12/23 23:44:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:44:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:44:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:44:38 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:45:39 MEMORY performed explicit GC, freed 273 KB (requested/available/average: 136521 / 42105 / 852 KB)I 2013/12/23 23:46:39 MEMORY performed explicit GC, freed 234 KB (requested/available/average: 136521 / 42104 / 850 KB)I 2013/12/23 23:47:39 MEMORY performed explicit GC, freed 236 KB (requested/available/average: 136521 / 42109 / 847 KB)I 2013/12/23 23:48:39 MEMORY performed explicit GC, freed 232 KB (requested/available/average: 136521 / 42109 / 846 KB)D 2013/12/23 23:49:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:49:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:49:26 RESOURCE OBSERVER resources okI 2013/12/23 23:49:39 MEMORY performed explicit GC, freed 3169 KB (requested/available/average: 136521 / 42087 / 843 KB)E 2013/12/23 23:49:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:49:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:49:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:49:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:50:39 MEMORY performed explicit GC, freed 261 KB (requested/available/average: 136521 / 42110 / 829 KB)I 2013/12/23 23:51:40 MEMORY performed explicit GC, freed 228 KB (requested/available/average: 136521 / 42115 / 827 KB)I 2013/12/23 23:52:40 MEMORY performed explicit GC, freed 224 KB (requested/available/average: 136521 / 42116 / 825 KB)I 2013/12/23 23:53:40 MEMORY performed explicit GC, freed 221 KB (requested/available/average: 136521 / 42116 / 823 KB)D 2013/12/23 23:54:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:54:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:54:26 RESOURCE OBSERVER resources okI 2013/12/23 23:54:40 MEMORY performed explicit GC, freed 3170 KB (requested/available/average: 136521 / 42095 / 821 KB)E 2013/12/23 23:54:40 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:54:40 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:54:40 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:54:40 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/23 23:55:40 MEMORY performed explicit GC, freed 254 KB (requested/available/average: 136521 / 42122 / 821 KB)I 2013/12/23 23:56:40 MEMORY performed explicit GC, freed 216 KB (requested/available/average: 136521 / 42123 / 820 KB)I 2013/12/23 23:57:40 MEMORY performed explicit GC, freed 214 KB (requested/available/average: 136521 / 42124 / 817 KB)I 2013/12/23 23:58:41 MEMORY performed explicit GC, freed 212 KB (requested/available/average: 136521 / 42125 / 815 KB)D 2013/12/23 23:59:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/23 23:59:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/23 23:59:26 RESOURCE OBSERVER resources okI 2013/12/23 23:59:41 MEMORY performed explicit GC, freed 3113 KB (requested/available/average: 136521 / 42101 / 813 KB)E 2013/12/23 23:59:41 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:59:41 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:59:41 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/23 23:59:41 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:00:41 MEMORY performed explicit GC, freed 245 KB (requested/available/average: 136521 / 42130 / 802 KB)I 2013/12/24 00:01:41 MEMORY performed explicit GC, freed 206 KB (requested/available/average: 136521 / 42131 / 800 KB)I 2013/12/24 00:02:41 MEMORY performed explicit GC, freed 204 KB (requested/available/average: 136521 / 42132 / 798 KB)I 2013/12/24 00:03:41 MEMORY performed explicit GC, freed 202 KB (requested/available/average: 136521 / 42133 / 796 KB)D 2013/12/24 00:04:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:04:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:04:26 RESOURCE OBSERVER resources okI 2013/12/24 00:04:42 MEMORY performed explicit GC, freed 3121 KB (requested/available/average: 136521 / 42111 / 794 KB)E 2013/12/24 00:04:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:04:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:04:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:04:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:05:42 MEMORY performed explicit GC, freed 232 KB (requested/available/average: 136521 / 42134 / 795 KB)I 2013/12/24 00:06:42 MEMORY performed explicit GC, freed 196 KB (requested/available/average: 136521 / 42138 / 793 KB)I 2013/12/24 00:07:42 MEMORY performed explicit GC, freed 194 KB (requested/available/average: 136521 / 42139 / 791 KB)I 2013/12/24 00:08:42 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 789 KB)D 2013/12/24 00:09:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:09:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:09:26 RESOURCE OBSERVER resources okI 2013/12/24 00:09:42 MEMORY performed explicit GC, freed 3125 KB (requested/available/average: 136521 / 42116 / 786 KB)E 2013/12/24 00:09:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:09:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:09:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:09:42 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:10:42 MEMORY performed explicit GC, freed 224 KB (requested/available/average: 136521 / 42138 / 787 KB)I 2013/12/24 00:11:43 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 786 KB)I 2013/12/24 00:12:43 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 785 KB)I 2013/12/24 00:13:43 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 784 KB)D 2013/12/24 00:14:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:14:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:14:26 RESOURCE OBSERVER resources okI 2013/12/24 00:14:43 MEMORY performed explicit GC, freed 3075 KB (requested/available/average: 136521 / 42117 / 784 KB)E 2013/12/24 00:14:43 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:14:43 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:14:43 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:14:43 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:15:43 MEMORY performed explicit GC, freed 226 KB (requested/available/average: 136521 / 42142 / 774 KB)I 2013/12/24 00:16:43 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42141 / 775 KB)I 2013/12/24 00:17:44 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42139 / 774 KB)I 2013/12/24 00:18:44 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42141 / 774 KB)D 2013/12/24 00:19:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:19:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:19:26 RESOURCE OBSERVER resources okI 2013/12/24 00:19:44 MEMORY performed explicit GC, freed 3141 KB (requested/available/average: 136521 / 42117 / 774 KB)E 2013/12/24 00:19:44 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:19:44 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:19:44 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:19:44 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:20:44 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42141 / 787 KB)I 2013/12/24 00:21:44 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42141 / 787 KB)I 2013/12/24 00:22:44 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 787 KB)I 2013/12/24 00:23:44 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 787 KB)D 2013/12/24 00:24:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:24:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:24:26 RESOURCE OBSERVER resources okI 2013/12/24 00:24:45 MEMORY performed explicit GC, freed 3065 KB (requested/available/average: 136521 / 42115 / 787 KB)E 2013/12/24 00:24:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:24:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:24:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:24:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:25:45 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42140 / 772 KB)I 2013/12/24 00:26:45 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 772 KB)I 2013/12/24 00:27:45 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42140 / 772 KB)I 2013/12/24 00:28:45 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 772 KB)D 2013/12/24 00:29:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:29:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:29:26 RESOURCE OBSERVER resources okI 2013/12/24 00:29:45 MEMORY performed explicit GC, freed 3104 KB (requested/available/average: 136521 / 42112 / 772 KB)E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:29:45 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:30:45 MEMORY performed explicit GC, freed 226 KB (requested/available/average: 136521 / 42140 / 780 KB)I 2013/12/24 00:31:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42137 / 780 KB)I 2013/12/24 00:32:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42136 / 780 KB)I 2013/12/24 00:33:46 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 779 KB)D 2013/12/24 00:34:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:34:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:34:26 RESOURCE OBSERVER resources okI 2013/12/24 00:34:46 MEMORY performed explicit GC, freed 3081 KB (requested/available/average: 136521 / 42115 / 779 KB)E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:34:46 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:35:46 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42139 / 774 KB)I 2013/12/24 00:36:46 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42139 / 774 KB)I 2013/12/24 00:37:46 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42136 / 775 KB)I 2013/12/24 00:38:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42138 / 775 KB)D 2013/12/24 00:39:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:39:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:39:26 RESOURCE OBSERVER resources okI 2013/12/24 00:39:47 MEMORY performed explicit GC, freed 3200 KB (requested/available/average: 136521 / 42114 / 775 KB)E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:39:47 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:40:47 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42138 / 799 KB)I 2013/12/24 00:41:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42138 / 799 KB)I 2013/12/24 00:42:47 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42137 / 799 KB)I 2013/12/24 00:43:47 MEMORY performed explicit GC, freed 188 KB (requested/available/average: 136521 / 42135 / 799 KB)D 2013/12/24 00:44:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:44:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:44:26 RESOURCE OBSERVER resources okI 2013/12/24 00:44:48 MEMORY performed explicit GC, freed 3105 KB (requested/available/average: 136521 / 42114 / 799 KB)E 2013/12/24 00:44:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:44:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:44:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:44:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:45:48 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42138 / 780 KB)I 2013/12/24 00:46:48 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42137 / 780 KB)I 2013/12/24 00:47:48 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42137 / 780 KB)I 2013/12/24 00:48:48 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42137 / 780 KB)D 2013/12/24 00:49:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:49:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:49:26 RESOURCE OBSERVER resources okI 2013/12/24 00:49:48 MEMORY performed explicit GC, freed 3073 KB (requested/available/average: 136521 / 42111 / 780 KB)E 2013/12/24 00:49:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:49:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:49:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:49:48 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2013/12/24 00:50:48 MEMORY performed explicit GC, freed 225 KB (requested/available/average: 136521 / 42137 / 774 KB)I 2013/12/24 00:51:49 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42136 / 774 KB)I 2013/12/24 00:52:49 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42136 / 774 KB)I 2013/12/24 00:53:49 MEMORY performed explicit GC, freed 190 KB (requested/available/average: 136521 / 42136 / 774 KB)D 2013/12/24 00:54:26 SWITCHBOARD Cleaning Incoming News, 66 entries on stackI 2013/12/24 00:54:26 YACY rulebasedUpdateInfo: not an automatic update selectedI 2013/12/24 00:54:26 RESOURCE OBSERVER resources okI 2013/12/24 00:54:49 MEMORY performed explicit GC, freed 3072 KB (requested/available/average: 136521 / 42110 / 774 KB)E 2013/12/24 00:54:49 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:54:49 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:54:49 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2013/12/24 00:54:49 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!

Statistik: Verfasst von fherb — Di Dez 24, 2013 1:05 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 01:08:33

Hallo,

Dir geht der Speicher aus - bei zu vielen Anfragen an das Solr-Subsystem.
Das einfachste dürfte sein YaCy mehr Speicher zuzuweisen - wenn möglich.
Welche Versio nutzt Du?

Cu, Sebastian.

Statistik: Verfasst von sixcooler — Di Dez 24, 2013 1:08 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 02:11:16

Hallo Sebastian,

Version ist 1.679560

Nur: Speicher kann ich nicht mehr zuweisen. Der gemietete virtuelle Hetzner-Server hat nun mal nur 512MB. Plus Swap. Da es aber perfomance-mäßig wenig nutzt, das Swappen extensiv zu nutzen, kann ich den Speicher für YACY nicht weiter vergrößern.

Der Vorteil des Servers: 100MBit up- and down-Stream und der (virtuelle) Prozessore-Kern ist ziemlich fix. Auch der Festplatenzugriff ist fix, wie ich mit iotop hab sehen können. Mit 4 12 Mio URLs macht der Server auch Sinn am YACY-Netz. Aber nur, solange er damit stabil bleibt.

Es macht keinen Sinn, wenn YACY nur so viele Tage läuft, bis es sich selbst abschießt. Wenn der RAM nicht mehr reicht, sollte sich YACY selbst begrenzen und einfach so am Netz arbeiten, dass es arbeitsfähig bleibt.

Ich kann (noch) nicht glauben, dass YACY mit seiner \“Gefräßigkeit\” nach mehr URLs und DHT-Speicher sich irgendwann selbst auffrisst.

Statistik: Verfasst von fherb — Di Dez 24, 2013 2:11 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 03:05:35

Crawl und dht hätte der Peer auch abstellen sollen bevor es zu spät ist.
Ist das nicht passiert?
Versuche mal unter /PerformanceMemory_p.html -> Häkchen weg bei \‘use Standard Memory Strategy\’ - schaltet es dann zuverlässiger Crawl und dht ab?

Statistik: Verfasst von sixcooler — Di Dez 24, 2013 3:05 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 10:34:11

Also bei \”[use Standard Memory Strategy (current: Generation Memory Strategy)]{style=“font-style: italic”}\” ist [kein Häckchen]{style=“text-decoration: underline”}, wenn man die Seite aufruft.

[Setzt man das Häckchen]{style=“text-decoration: underline”}, dann wechselt die Zeile zu \”[use Standard Memory Strategy (current: Standard Memory Strategy)]{style=“font-style: italic”}\“.

Ruft man nun wieder diese Seite auf, dann steht da wieder wie zu Beginn:

\”[use Standard Memory Strategy (current: Generation Memory Strategy)]{style=“font-style: italic”}\” [ohne Häckchen]{style=“text-decoration: underline”}.

Ist das richtig so?

Statistik: Verfasst von fherb — Di Dez 24, 2013 10:34 am


Mitmachen • Re: 30C3

Date: 2013-12-24 11:03:56

nur noch drei Tage! Wer kommt denn nach Hamburg? Es gibt ja eine gewisse Planung, dass wir da was \‘besonderes\’ machen, weiss aber noch nicht ob das alles klappt. Ich werde dann mal hier mitloggen, wenn was passiert.

Wie immer mache ich da einen Suchserver, hab gerade auf twitter announced: https://twitter.com/yacy_search/status/ ... 7898032128{.postlink}
Im 30C3 Wiki habe ich eine Projektseite angelegt: https://events.ccc.de/congress/2013/wiki/Projects:YaCy

Statistik: Verfasst von Orbiter — Di Dez 24, 2013 11:03 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 15:52:00

jupp - das meine ich

Statistik: Verfasst von sixcooler — Di Dez 24, 2013 3:52 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-24 22:44:13

Mhm. Habs nun über den Heiligen Nachmitag und Abend laufen lassen ohne anzufassen.

Jetzt eben den Laptop wieder aufgeklappt und mal sehen, was angezeigt wird, wenn die Browserseite sich aktualisiert:

Jetzt zeigt\’s an, dass der Indexer beschäftigt ist (Admin-Statusseite) und bei Local Crawl ist das grüne Dreieck (bei stehendem Crawl) wieder dem roten Quadrat gewichen. Aber die Seite wird nicht wirklich vollständig geladen. YACY reagiert nicht mehr vollständig auf Webanfragen. Das Diagramm und das Loggingfenster bekommen keine Daten mehr.

Nun Klick auf Monitoring->Computation: .… YACY sendet nicht wirklich noch eine Antwort an den Browser. Und im Log stehen für mich wieder nicht erklärbare Einträge:

Code:
W 2013/12/24 22:14:36 BusyThread Thread 'net.yacy.search.Switchboard.dhtTransferJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:15:36 BusyThread Thread 'net.yacy.peers.Network.peerPing' runs short memory cycle. Free mem: 1024 KB, needed: 2048 KBW 2013/12/24 22:15:38 BusyThread Thread 'net.yacy.search.Switchboard.surrogateProcess' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBD 2013/12/24 22:17:30 SWITCHBOARD Cleaning Incoming News, 11 entries on stackI 2013/12/24 22:17:30 YACY rulebasedUpdateInfo: not an automatic update selectedW 2013/12/24 22:18:31 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: $W 2013/12/24 22:18:37 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.coreCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:18:47 BusyThread Thread 'net.yacy.search.Switchboard.dhtTransferJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:19:49 BusyThread Thread 'net.yacy.peers.Network.peerPing' runs short memory cycle. Free mem: 1024 KB, needed: 2048 KBW 2013/12/24 22:19:50 BusyThread Thread 'net.yacy.search.Switchboard.surrogateProcess' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBD 2013/12/24 22:22:30 SWITCHBOARD Cleaning Incoming News, 11 entries on stackI 2013/12/24 22:22:30 YACY rulebasedUpdateInfo: not an automatic update selectedW 2013/12/24 22:22:43 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: $W 2013/12/24 22:22:49 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.coreCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:22:59 BusyThread Thread 'net.yacy.search.Switchboard.dhtTransferJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:24:03 BusyThread Thread 'net.yacy.search.Switchboard.surrogateProcess' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:24:03 BusyThread Thread 'net.yacy.peers.Network.peerPing' runs short memory cycle. Free mem: 1024 KB, needed: 2048 KBW 2013/12/24 22:26:56 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: $W 2013/12/24 22:27:02 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.coreCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:27:12 BusyThread Thread 'net.yacy.search.Switchboard.dhtTransferJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBD 2013/12/24 22:27:30 SWITCHBOARD Cleaning Incoming News, 11 entries on stackI 2013/12/24 22:27:30 YACY rulebasedUpdateInfo: not an automatic update selectedW 2013/12/24 22:28:17 BusyThread Thread 'net.yacy.search.Switchboard.surrogateProcess' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:28:18 BusyThread Thread 'net.yacy.peers.Network.peerPing' runs short memory cycle. Free mem: 1024 KB, needed: 2048 KBW 2013/12/24 22:31:10 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: $W 2013/12/24 22:31:16 BusyThread Thread 'net.yacy.crawler.data.CrawlQueues.coreCrawlJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KBW 2013/12/24 22:31:26 BusyThread Thread 'net.yacy.search.Switchboard.dhtTransferJob' runs short memory cycle. Free mem: 1024 KB, needed: 12288 KB



Mir sagt das Log nur so viel, dass offenbar mehr Speicher für die Threads benötigt wird, als da ist.
Der Browser wartet weiter auf eine Antwort von YACY. Aber es kommt nichts mehr. :(

Mit einem anderen YACY gerade mal nachgesehen: Antwortet auch nicht mehr auf andere Peers, denn dort taucht es nicht mehr unter \“Active Peers\” auf.

Sieht also so aus, dass nur nach einem Neustart eine ganze Weile alles nach Plan läuft und sich YACY irgendwann verschluckt.

Allerdings scheint es auch nach einem Neustart für das Netzwerk nicht mehr zur Verfügung zu stehen. Habe heute Mittag mal versucht (als es noch schön brav auf Browseranfragen geantwortet hat) von einem anderen Peer Begriff-Kombinationen zu suchen, die insbesondere in den vorangegangenen Tagen von diesem Peer gecrawlt worden. Ich nehme an, dass man auf der Statusseite des Peers sehen müsste, wenn eine Suchanfrage eines anderen Peers bearbeitet wird. Aber nichts dergleichen. Zig mal versucht. Nur hin und wieder wird angezeigt, dass ein Peer ins Netzwerk gekommen ist oder jemand ein Ping gesendet hat. Aber auch schon deutlich seltener als sonst üblich. - Also scheint der Peer auch ohne crawl in diesem Zustand nutzlos. :(

Statistik: Verfasst von fherb — Di Dez 24, 2013 10:44 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-25 08:30:38

Soll er unbedingt bei Hetzner laufen?
Gibt noch andere Anbieter mit zum Teil 8x so viel Arbeitsspeicher für fast das gleiche Geld da hat man dann auch weniger Probleme oder man nimmt einen größeren bei Hetzner.
Ich habe den Betrieb mit YaCy bei 512-1024 MB nur kurz ausprobiert war aber nicht schön.
Aktuell denke ich sind 2+ GB nur rein praktisch gesehen wirklich das Mindeste was man haben sollte wenn man seinen Peer für längere Zeit laufen lassen möchte.

Statistik: Verfasst von Yududi — Mi Dez 25, 2013 8:30 am


Fragen und Antworten • Signatur im Forum?

Date: 2013-12-25 08:34:56

Hat jemand die Signatur im Forum deaktiviert?
Normalerweise findet man die doch unter jedem Beitrag
und nicht im Profil? So kenn ich es zumindest.

Statistik: Verfasst von Yududi — Mi Dez 25, 2013 8:34 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-25 11:13:25

Nee. Hetzner muss nicht sein. Mir stellt sich nur die Frage, ob man mit mehr RAM am Ende nicht in das gleiche Problem laufen kann. Nur eben einige Wochen später. Wer YACY zu Hause nutzt und noch ein 32 Bit OS hat, wie die vielen WinXP-User, wird sicher auch nicht mehr als die 600MB der Grundeinstellung bereitstellen wollen.

Im Prinzip ist es möglich, dass ich mir das Problem dadurch geschaffen hab, dass ich natürlich auch an der Konfiguration \“gedreht\” habe. Schwer einzuschätzen, auf welchem Weg man YACY da ausser Tritt bringen kann. Habe im Wesentlichen an den busy-Zeiten gespielt und performanceIO hochgestellt, da außer YACY keine andere Software läuft.

Ich werde YACY vielleicht nochmal völlig neu starten (also das gesamte yacy-Verzeichnis initialisieren) und ausschließlich die Einstellung für den Arbeitsspeicher von 600MB auf 400MB verringern.

Wie verhält sich eigentlich die Menge an verfügbarem Arbeitsspeicher zu der maximalen Größe des Index? Ist das linear? Sprich, doppelter RAM ist doppelt so große Menge an indizierten Dokumenten :?:

Statistik: Verfasst von fherb — Mi Dez 25, 2013 11:13 am


Mitmachen • Re: 30C3

Date: 2013-12-26 19:37:26

Hab gestern Nacht noch eine \‘Projektsuche\’ für den 30C3 fertig gemacht (äh, Thomas, hab mir deinen Server kurzfristig \‘ausgeliehen\‘, ich schleppe aber einen Server in die Colocation und migriere das dann dorthin):

http://30c3-conference.yacy.net/index.html

.. und darüber getwittert ..

https://twitter.com/yacy_search/status/ ... 2174757888{.postlink}

... was um fünf Uhr morgends zu einem retweet von \@chaosupdates zu 63.000 Followern geführt hat ...

https://twitter.com/chaosupdates/status ... 5652621312{.postlink}

Seit heute Morgen ist da nun schon ein Suchzugriff pro Minute drauf und es ist noch Tag 0. Mal gucken was das morgen wird!

Statistik: Verfasst von Orbiter — Do Dez 26, 2013 7:37 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-26 22:45:56

ich bin neugierig wie sich die Situation \“wenn Peer nicht reagiert\” geändert hat mit der jetty-Implementierung und Ersetzen des alten httpd. Ich denke es sollte da einen Zusammenhang geben können, bin aber nicht sicher.

Statistik: Verfasst von Orbiter — Do Dez 26, 2013 10:45 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-27 02:11:26

Hallo Orbiter!

[Ist das jetzt schon drin?]{style=“font-weight: bold”} (Deiner Reaktion zu Folge ist Dir das Problem also alt-bekannt. Ist für mich halt schlecht als Neueinsteiger eine inhaltliche Chronologie aus den Forenbeiträgen zu erkennen. Bzw. die wichtigen Foreneinträge zu finden.)

-> [Gibt\’s]{style=“font-weight: bold”} nen Foren-Thread, wo Du das, was Du derzeit prinzipiell an der Software machst kurz kommentierst? Also nicht das Update-Log mit einzelnen Programm-Code-Änderungs-Details, sondern, wo prinzipielle Änderungen kommentiert sind, die sich auf das Verhalten der Software entscheidend auswirken können? Bzw. was Du in nächster Zeit ändern willst.



Hatte den Hetzner gestern mit ner älteren Version neu gestartet. Wollte dann updaten, aber das hat nicht geklappt. Vermutlich war der Updateserver nicht so fix am Reagieren. Oder ich zu ungeduldig. Jetzt hat es geklappt. [yacy_v1.67_20131227_9581]{style=“font-weight: bold”}.tar.gz läuft jetzt. [Parallel auch den CubieTruck geupdatet. (fherb-CubieTruck1)]{style=“font-weight: bold”}

Meinen lahmen[ RaspberryPi]{style=“font-weight: bold”} werde ich die kommenden Tage nochmal neu aufsetzen. Vermutlich hat das WLAN-Interface ne Menge CPU-Performance gefressen. Am Hub ist aber gerade kein Port mehr frei. Muss erst mal die Tage bei Cyberport vorbei.


Den [Hetzner]{style=“font-weight: bold”} hatte ich vor Kurzem eigentlich angemietet, um dort einen [TOR-Exit-Node]{style=“font-weight: bold”} der Community zu spendieren. Hetzner hat prinzipiell nichts dagegen. Deswegen Hetzner. -> Bin jetzt aber durch Zufall auf den Verein [http://www.zwiebelfreunde.de/]{style=“font-weight: bold”} gestoßen. Werde wohl dort finanziell unterstützen und mir dafür vorerst ne eigene Rechtsschutzversicherung sparen können. ;)

Statistik: Verfasst von fherb — Fr Dez 27, 2013 2:11 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-27 02:32:43

... wobei ich heute schon mal überlegt habe, ob man auch schon ne Rechtsschutzversicherung benötigt, wenn man bei YACY zu Hause ein Remote-Crawl zulässt. Nach dem letzten Vorfall mit RedTube... :evil:

Statistik: Verfasst von fherb — Fr Dez 27, 2013 2:32 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-27 03:03:49

fherb hat geschrieben:\ [Ist das jetzt schon drin?]{style="font-weight: bold"} (Deiner Reaktion zu Folge ist Dir das Problem also alt-bekannt. Ist für mich halt schlecht als Neueinsteiger eine inhaltliche Chronologie aus den Forenbeiträgen zu erkennen. Bzw. die wichtigen Foreneinträge zu finden.)\


Das ist drin in den Versionen die es über den auto-updater gibt. Das Problem ist, nun ja, nicht alt-bekannt sondern eine alte Plage. Mal läufts, mal nicht. Es kann dazu mehrere Baustellen geben, sei es dass der User seine Kiste schlicht überfordert oder dass es Deadlocks gibt für die der User nichts kann. Allgemein sollte es keine nicht-Reaktion geben wenn genügend RAM da ist, ansonsten gibts halt GC-Tode die sich aber wieder \‘entkrampfen\’ können. Dann gibts noch memory leaks die ich aber permanent stopfe wenn mir einer begegnet. In diesem Kontext sieht man dass das Thema komplex und chaotisch ist (im Sinne von vielen Freiheitsgraden) und so eine heftige Änderung wie der httpd-Austausch schon eine neue Situation ist.

fherb hat geschrieben:\ -\> [Gibt\'s]{style="font-weight: bold"} nen Foren-Thread, wo Du das, was Du derzeit prinzipiell an der Software machst kurz kommentierst? Also nicht das Update-Log mit einzelnen Programm-Code-Änderungs-Details, sondern, wo prinzipielle Änderungen kommentiert sind, die sich auf das Verhalten der Software entscheidend auswirken können? Bzw. was Du in nächster Zeit ändern willst.\


Nein, es gibt mein kleines schwarzes Buch :) Das ist randvoll mit vielen kleinen Baustellen-Notizen, das protokolliere ich nicht öffentlich. Wenn ich will dass jemand weiss dass es was ganz tolles neues gibt, dann steht das in Twitter: https://twitter.com/yacy_search

Statistik: Verfasst von Orbiter — Fr Dez 27, 2013 3:03 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2013-12-27 03:59:20

[Danke für die Infos!]{style=“font-weight: bold”}

Ja stimmt: [Viele Freiheitsgrade]{style=“font-weight: bold”} sind immer ein großes Problem. Vor allem sind neue Effekte erst mal sehr schlecht auf eine bestimmte Ursache zurückzuführen. Bzw. ist die Analyse zeitraubend. Ich kenne das von Regelungssystemen mit vielen Stellparametern her. Eine Methode ist dann hilfreich: Das Gesamtsystem noch mal in Gedanken feingliedrig auseinander nehmen und [\“mit der Hand\” zusätzliche Beschränkungen einführen]{style=“font-weight: bold”}. Das System wird dadurch zwar nicht mehr in der Lage sein, irgendwann den wirklich optimalen Arbeitspunkt zu finden, den verbaut man sich mit hoher Wahrscheinlichkeit dabei, aber die Analyse Wirkung->Ursache wird deutlich einfacher und man erreicht am Ende trotz allem einen besseren Arbeitspunkt als ohne diese Fesseln.[ Aber: Das ist erst mal nur die Theorie.]{style=“font-weight: bold”} Am besten, man findet ein paar billige Praktikanten (Diplomanden), die Werkzeuge programmieren, mit dem man sein System noch besser erforschen kann. ;)
Ich würde YACY tatsächlich ein Niveau, Schwierigkeitsgrad und einen Umfang zusprechen, wo eine Zusammenarbeit mit ner [Uni oder]{style=“font-weight: bold”} einer Einheit in einem [Forschungszentrum]{style=“font-weight: bold”} viel bringen könnte. War das nicht Karlsruhe oder Jülich, die da ein Cluster für wissenschaftliche Dokumente / Literatur betreiben? Vielleicht lässt sich sowas im Zusammenhang mit dem in der Wissenschaft oft propagierten Open Access initiieren. (Ich weiß, dass um open access meist doch nur viel heiße Luft in Meetings gemacht wird. Das zieht sich nun schon seit Jahren und unsere Bibliotheken zahlen weiter für die teuren Wissenschaftsmagazine.) - War nur so\‘n Gedanke.

[Bin übrigens auf YACY gekommen, weil mir Google mit seinen Suchergebnissen manchmal tüchtig auf die Nerven geht. Der Effekt nach einem Schuhkauf auch bei Suche nach Mützen dauernd nur Schuhe angeboten zu bekommen ist mir jetzt im Bereich Software öfters passiert. Früher hab ich mit den Anfragen Google meist noch überlisten können. Aber diese gute Zeit scheint jetzt oft genug vorbei zu sein.]

Statistik: Verfasst von fherb — Fr Dez 27, 2013 3:59 am


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 00:00:40

Danke, David!

Hab gerade mal Deine Vorschläge durchgesehen. Habe ich auch schon mal angeklickt. Es gibt so viele Statusseiten... Nur ist mir nie vollständig klar, wann welche Informationen erstellt werden und welche Bedeutung sie in welchen inhaltlichen Beziehung haben. Sind z.B. crawled Pages auch schon indiziert oder nur irgendwo im Speicher zwischengespeichert? Wenn robots.txt das indizieren \“nicht mag\“, lädt dann YACY trotzdem die Seiten um neue URLs zu finden? Oder ist da Schluss in dieser Verzweigung?

Rejected URLs ist klar.

Host Browser scheint alles anzuzeigen, was im Index ist. Egal ob über eigenen Crawls oder von anderen Peers an meinen Peer übertragen.

Alles ziemlich diffus. Gerade hab ich lauter Proxy-Index-Zeilen im Terminal. Obwohl ich den Peer gar nicht als http-Proxy für meine Browser benutze. Was soll mir nun das wieder sagen?? Leiten andere Peers ihr Proxy-Crawlings weiter? Das sind teilweise recht kryptische Links! Brauch ich jetzt ne Rechtsschutzversicherung?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Di Dez 31, 2013 12:00 am


Hilfe für Einsteiger und Anwender • Re: Ersteinrichtung YaCy Server

Date: 2013-12-31 00:05:13

Hallo!

SSD\’s sind viel langlebiger, schneller und brauchen weniger Strom als andere elektronisches Speichermedien, von daher sind sie eigentlich bestens geeignet für yacy. Soweit ich weiss, sind SD-Karten, und generell Flash-Speicher, nicht dafür ausgelegt, dass permanent Daten gelesen und geschrieben werden, so wie es mit Yacy (je nach Konfiguration) der Fall ist. Die Karte würde höchstwahrscheinlich nach einigen Wochen oder Monaten das Zeitliche segnen.

Statistik: Verfasst von David — Di Dez 31, 2013 12:05 am


Mitmachen • Re: Raspberry Pi

Date: 2013-12-31 00:38:01

Ausgehend von diesem Image ohne weitere Anpassungen der yacy.conf laufen jetzt [zwei RasPi-Boards]{style=“font-weight: bold”}. Eines mit einer schnellen 8GB-Flash-Karte. Das Zweite mit einer Festplatte über USB.

Und vor allem: Beide Systeme [nicht über WLAN]{style=“font-weight: bold”}. Mein erster Versuch, (in der Konfiguration mit der USB-Festplatte), mit WLAN-Interface endete bei unter 40.000 Dokumenten. Danach fand kaum noch Austausch mit anderen Peers statt. Obwohl der Prozessor weiterhin bei 100% werkelte. Indexing ging auch nicht mehr.

Beide Peers indizierten jetzt bereits über 100.000 Dokumente (aus Crawling und durch Übernahme von anderen Peers) und sie crawlen noch mit wenigen PPM. DHT-Transfer findet derzeit kaum statt. Obwohl im Terminal sehr wenig Indexing angezeigt wird, zeigt yacystats.de immer noch PPM im zweistelligen Bereich an. Die Raten sagen wenig über den Vergleich mit den beiden Speichermedien aus, da die gecrawlten Seiten unterschiedlicher Art sind und vermutlich die Prozessorlast durch Parsing hervorgerufen wird. Zumindest ist immer noch die Prozessorlast der Flaschenhals, der Zugriff auf SD bzw. HDD steigt nun aber anteilig schon etwas.

Die beiden Speichermedien (SD-Karte und HDD) unterscheiden sich wohl eher in der Frage der Alterung. Mir ist nicht bekannt, dass in den Treibern des Wheezy-Images für RasPi eine Optimierung für SD-Karten enthalten ist. Eine Weile mit iotop beobachtet liegen die Schreibraten inzwischen auch manchmal im Bereich von wenigen MByte/s. Ein Zeichen, dass inzwischen mehr an Daten geschrieben wird, als am Anfang.

Trotz allem: Das CubieBoard ist den RasPi\’s um Längen voraus. Jetzt bei knapp 1MIO Documents und 3 Mio DHT Words. (Es parst... , aber indiziert nicht in einem Forum. Dazu jedoch in einem anderen Thread.)

Statistik: Verfasst von fherb — Di Dez 31, 2013 12:38 am


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 00:53:30

[Problem weiter untersucht:]{style=“text-decoration: underline”}

Hab jetzt vor allem die Seite: /[IndexCreateParserErrors_p.html]{style=“font-weight: bold”} beobachtet. Folgende Meldung erscheint:

[[FINAL_PROCESS_CONTEXT denied by document-attached noindexing rule]{style=“font-weight: bold”}]{style=“font-style: italic”}

Im Wiki, wie im Forum von gimpforum.de kommen diese Fehlermeldungen. Hatte eigentlich gehofft, Gimp-Webseiten und Foren global indizieren zu können. Das wichtigste Forum will das aber nicht.

Die Option \”[obeyHtmlRobotsNoindex]{style=“font-weight: bold”}\” in yacy.conf ist übrigens auf false gesetzt. Aber das reicht offenbar in dem Fall nicht.

Jetzt habe ich mehr als 2 Mio URLs in der Queue, lade die Seiten nacheinander alle runter, erzeuge Traffic aber keinen Index. Sehr effektiv!

Statistik: Verfasst von fherb — Di Dez 31, 2013 12:53 am


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 00:57:36

Das Gleiche bei meinem Hetzner-Server. Dort ist es wikibooks, was nicht indiziert werden will. So langsam wird mir klar, dass nicht immer Google Schuld hat, wenn man bestimmte Inhalte nicht findet.

Statistik: Verfasst von fherb — Di Dez 31, 2013 12:57 am


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 01:02:47

Beim DSLR-Forum das Gleiche.

Statistik: Verfasst von fherb — Di Dez 31, 2013 1:02 am


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 01:38:40

... Grad gesehen, dass das bei machen Seiten in den Foren auch Sinn macht.

Ok. Beschwere ich mich mal nicht mehr. ;)

Statistik: Verfasst von fherb — Di Dez 31, 2013 1:38 am


Fragen und Antworten • PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2013-12-31 12:56:02

Hallo,

habe seit gestern vermehrt Proxy-Indexing im Terminal aufgelistet, wie z.B.

Code:
PROXY: Indexed web page:http://www.395jh.com/Service/view/65.html  中州假日酒店-巨美结婚网



Meine Proxy-Einstellungen sind aber

\ localhost,127\\.0\\.0\\.1,192\\.168\\..\*,10\\..\*,0:0:0:0:0:0:0:1.\*\ Keine PROXY-Accounts\



Ich habe auch lokal weder lighttpd noch proftpd so konfiguriert, dass sie über den PROXY laufen könnten.

Ist da was faul?

Viele Grüße

Statistik: Verfasst von fherb — Di Dez 31, 2013 12:56 pm


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2013-12-31 14:20:15

Was steht denn bei Traffic für den Proxy unter
https://yududi.de/Status.html
(URL nur zum Beispiel)
Bei mir: Proxy: 0 Bytes, Crawler: 7,66 GB
Daran seh ich mein Proxy wird nicht genutzt.
Hoffe ist das was du meinst.
Gruß von Peer YuDuDi!

Statistik: Verfasst von Yududi — Di Dez 31, 2013 2:20 pm


Mitmachen • Re: Raspberry Pi

Date: 2013-12-31 14:30:13

Wollte nur sagen ich verfolge deinen Beitrag hier sehr aufmerksam auch wenn ich mich nicht immer zu Wort melde.
Ich überlege auch meinen Peer auf einen Cubietruck zu verlegen.
So wie es ausschaut scheint es damit ja gut zu klappen.
Was den Raspberry Pi angeht: nette Spielerei aber ich glaube für YaCy nicht wirklich geeignet.
Denke sehen viele anders aber die Specs sind einfach zu gering dann lieber was anderes damit machen.

Statistik: Verfasst von Yududi — Di Dez 31, 2013 2:30 pm


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2013-12-31 17:05:49

fherb hat geschrieben:\ Sind z.B. crawled Pages auch schon indiziert oder nur irgendwo im Speicher zwischengespeichert?\


\“Crawled\” bedeutet ja indiziert/indexiert, zumindest im Zusammenhang mit Suchmaschinen. Nachdem eine Seite indexiert wurde, wird danach mit den Daten noch eine Nachbearbeitung (Postprocessing) gemacht, und erfahrungsgemäss kann das manchmal etwas dauern. Im \“Creation Monitor\” kann man unter \“Postprocessing Progress\” nachschauen, ob noch Seiten in der Warteschlange für diese Nachbearbeitung sind. http://localhost:8090/Crawler_p.html

fherb hat geschrieben:\ Wenn robots.txt das indizieren \"nicht mag\", lädt dann YACY trotzdem die Seiten um neue URLs zu finden? Oder ist da Schluss in dieser Verzweigung?\


Soweit ich weiss ist bei einem Crawl die robots.txt immer die erste Datei die geladen wird, und wenn die Seite (vom Yacy-Bot) nicht indexiert werden will, ist es auch die letzte Datei.

fherb hat geschrieben:\ Gerade hab ich lauter Proxy-Index-Zeilen im Terminal. Obwohl ich den Peer gar nicht als http-Proxy für meine Browser benutze.\


Vielleicht hast du eine von den Yacy-Firefox-Erweiterungen installiert?

Statistik: Verfasst von David — Di Dez 31, 2013 5:05 pm


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2014-01-01 19:32:01

Danke für die Infos, David!

-> Proxy-Indexing: Das ist ein virtueller Server bei Hetzner. Da ist eigentlich nichts weiter installiert als
* zum Suchen: YaCy
* für den Seed (principal): lighttpd, proftpd
* und inzwischen noch ein TOR-Relay (die Proxy-Meldungen kamen aber schon vor dessen Installation)

Versuchsweise werde ich mal lighttpd und proftpd beenden und sehen, ob sich was ändert.

-> Die log-Meldung \“denied by document-attached noindexing rule\” deutet aber eher darauf hin, dass an der jeweiligen Webseite eine Info dran ist, dass sie nicht indiziert werden soll. Grad mal im Netz gesucht und ein Meta-Tag in HMTL gefunden, das dafür verantwortlich sein kann: <meta name=\“robots\” .../>. YaCy berücksichtigt dies wahrscheinlich auch dann, wenn robots.txt ignoriert werden soll.

Statistik: Verfasst von fherb — Mi Jan 01, 2014 7:32 pm


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2014-01-01 22:26:53

Ich poste mal einen Verweis in die Buglist.

Statistik: Verfasst von fherb — Mi Jan 01, 2014 10:26 pm


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2014-01-01 22:43:09

Traffic für Proxy und Crawler bleibt konstant 0.
[
Ich gehe im Moment von einem Sicherheitsloch aus.]{style=“font-weight: bold”}

[Folgendes Szenario im Moment:]{style=“text-decoration: underline”}

[Ich habe meine eigenen Crawls vollkommen abgeschaltet.
Remote Crawl ebenso.
Dann habe ich auf der Statusseite auch noch Remote- und Local indexing gestoppt.
Habe im Creation Monitor den Speed auf 1PPM gesetzt.
Die Internet-Dienste sendmail, lighttpd, proftpd und Tor (Relay) sind dabei nicht gestartet.]{style=“font-weight: bold”}

Aber YaCy indiziert fleißig weiter. Und folgende Log-Zeilen zeigen, dass es wahrscheinlich kein besonders seriöser Crawl ist:

Code:
I 2014/01/01 21:53:25 Fulltext indexing: lO5hLL6PW3mQ http://www.nifty.org/nifty/gay/adult-youth/the-pimple-doctor/the-pimple-doctor-2I 2014/01/01 21:53:25 Fulltext indexing: ms3GVL6PW3mQ http://www.nifty.org/nifty/gay/incest/jack-and-the-beast/jack-and-the-beast-6I 2014/01/01 21:53:25 Fulltext indexing: kyh1yL6PW3mQ http://www.nifty.org/nifty/gay/camping/brad-and-alans-canoe-tripI 2014/01/01 21:53:25 Fulltext indexing: krr3TL6PW3mQ http://www.nifty.org/nifty/gay/young-friends/street-kids/street-kids-16.htmlI 2014/01/01 21:53:25 Fulltext indexing: khWOmL6PW3mQ http://www.nifty.org/nifty/gay/beginnings/the-knife-that-twists-within/angels-trumpets-8I 2014/01/01 21:53:25 Fulltext indexing: nOpRRqyq7zVb http://no.thefreedictionary.com/lovlighetI 2014/01/01 21:53:25 Fulltext indexing: mNJ9gL6PW3mQ http://www.nifty.org/nifty/gay/college/mastering-situations/mastering-situations-5I 2014/01/01 21:53:25 Fulltext indexing: nEsobL6PW3mQ http://www.nifty.org/nifty/gay/authoritarian/give-me-some-lovin/give-me-some-lovin-7I 2014/01/01 21:53:25 Fulltext indexing: nOJWrL6PW3mQ http://www.nifty.org/nifty/gay/highschool/my-matt/my-matt-1I 2014/01/01 21:53:25 Fulltext indexing: lHid-L6PW3mQ http://www.nifty.org/nifty/gay/urination/boys-in-a-windowI 2014/01/01 21:53:25 Fulltext indexing: nr-aqL6PW3mQ http://www.nifty.org/nifty/gay/incest/big-brothers-cum-dump/big-brothers-cum-dump-6I 2014/01/01 21:53:25 Fulltext indexing: nRL5DL6PW3mQ http://www.nifty.org/nifty/gay/interracial/sailing-in-bahia/sailing-in-bahia-1I 2014/01/01 21:53:25 Fulltext indexing: mARqSL6PW3mQ http://www.nifty.org/nifty/lesbian/adult-friends/a-new-life/a-new-life-2I 2014/01/01 21:53:25 Fulltext indexing: nOYeLL6PW3mQ http://www.nifty.org/nifty/gay/highschool/lil-bros/lil-bros-10I 2014/01/01 21:53:25 Fulltext indexing: nJGsvqyq7zVb http://no.thefreedictionary.com/%C3%B8nskelighetI 2014/01/01 21:53:25 Fulltext indexing: ks8xDqyq7zVb http://no.thefreedictionary.com/plutselig%2BprisfallI 2014/01/01 21:53:25 Fulltext indexing: mbs25JopPzIE http://thelinuxgames.blogspot.com.ar/2013/03/obsidian-is-open-source-3d-virtual.htmlI 2014/01/01 21:53:25 Fulltext indexing: naCLQqyq7zVb http://no.thefreedictionary.com/gardI 2014/01/01 21:53:25 Fulltext indexing: lhjR7P93VMNB http://www.amac-buch.de/WebRoot/Store2/Shops/15188806/5239/B509/3E75/8559/FC16/C0A8/28BC/7B82/iPhone-5s_850px_h.pngI 2014/01/01 21:53:25 Fulltext indexing: lQTY6L6PW3mQ http://www.nifty.org/nifty/gay/adult-youth/jomel/jomel-7I 2014/01/01 21:53:25 Fulltext indexing: lFjzGr8-uccZ http://allikerr.wordpress.com/iron-eagle-bodybuilding-figure-classic/I 2014/01/01 21:53:25 Fulltext indexing: meehCL6PW3mQ http://www.nifty.org/nifty/gay/highschool/the-farm-hand/the-farm-hand-16I 2014/01/01 21:53:25 Fulltext indexing: lLJB3L6PW3mQ http://www.nifty.org/nifty/gay/adult-youth/homeless-waif/homeless-waif-4I 2014/01/01 21:53:25 Fulltext indexing: kIl0nqyq7zVb http://no.thefreedictionary.com/plutselig%2Buventet%2BhendelseI 2014/01/01 21:53:25 Fulltext indexing: mJBQCL6PW3mQ http://www.nifty.org/nifty/gay/athletics/wrestling-with-mikeI 2014/01/01 21:53:25 Fulltext indexing: kwd-uqyq7zVb http://no.thefreedictionary.com/prudepikeI 2014/01/01 21:53:25 Fulltext indexing: mK-eA94yM-aQ http://tuxtor.shekalug.org/mitos-y-realidades-de-la-server-jre/I 2014/01/01 21:53:25 Fulltext indexing: lGeHgL6PW3mQ http://www.nifty.org/nifty/gay/highschool/pieces-of-destiny/pieces-of-destiny-11.htmlI 2014/01/01 21:53:25 Fulltext indexing: lFot5L6PW3mQ http://www.nifty.org/nifty/gay/adult-youth/after-school-special/after-school-special-5I 2014/01/01 21:53:25 Fulltext indexing: kGORwL6PW3mQ http://www.nifty.org/nifty/gay/beginnings/jack-and-steve/jack-and-steve-1I 2014/01/01 21:53:25 Fulltext indexing: nbm7NL6PW3mQ http://www.nifty.org/nifty/gay/celebrity/zeke-and-ringo/zeke-and-ringo-5I 2014/01/01 21:53:25 Fulltext indexing: nEj7PL6PW3mQ http://www.nifty.org/nifty/gay/highschool/in-pain/in-pain-18.htmlI 2014/01/01 21:53:25 Fulltext indexing: lms7sL6PW3mQ http://www.nifty.org/nifty/gay/camping/passen-through/passen-through-4I 2014/01/01 21:53:25 Fulltext indexing: nBuy5qyq7zVb http://no.thefreedictionary.com/bridgeI 2014/01/01 21:53:25 YACY Received 207 URLs from peer rR-fsVV2FmsN:_anonufe-19772999-21/1.63009183 in 1275 ms, blocked 0 URLsD 2014/01/01 21:53:25 SWITCHBOARD Processing 137 bytes / 1 words / 1 entries from GQZYz3iwTw-G:_anonufe-56485120-101/1.64009201I 2014/01/01 21:53:25 SWITCHBOARD Received 1 RWIs, 1 Words [Qj7lfto8KGDK .. Qj7lfto8KGDK], processed in 3 milliseconds, 3814326708828401408, blocked 0, requesting 0/1 URLs from GQZYz3iwTw-G:_anonufe-56485120-101/1.64009201




Oder noch ein Ausschnitt:

Code:
I 2014/01/01 22:16:23 Fulltext indexing: Jusp5ZvU1QsA http://ordenden.hoestpastilles.nyborjarplatser.sundays.nkat.forum.mythem.es/overkookte/licuefa$I 2014/01/01 22:16:23 HTCACHE storing content of url http://ordenden.hoestpastilles.nyborjarplatser.sundays.nkat.forum.mythem.es/drenzen/voorpoor/ca$D 2014/01/01 22:16:23 SWITCHBOARD processResourceStack processCase=PROXY_LOAD, depth=0, maxDepth=0, must-match=.*, must-not-match=, initiatorHash=nu$I 2014/01/01 22:16:23 SWITCHBOARD Excluded 0 words in URL http://ordenden.hoestpastilles.nyborjarplatser.sundays.nkat.forum.mythem.es/drenzen/voorpo$I 2014/01/01 22:16:23 SWITCHBOARD *Indexed 29 words in URL http://ordenden.hoestpastilles.nyborjarplatser.sundays.nkat.forum.mythem.es/drenzen/voorp$        Description:        MimeType: text/plain | Charset: UTF-8 | Size: 99 bytes |        LinkStorageTime: 0 ms | indexStorageTime: 0 msI 2014/01/01 22:16:23 Fulltext indexing: AaXBHLvU1QsA http://ordenden.hoestpastilles.nyborjarplatser.sundays.nkat.forum.mythem.es/drenzen/voorpoor/c$I 2014/01/01 22:16:23 HTCACHE storing content of url http://imgallery.net/And-3D-mapping-efforts-Microsoft-then-improved-upon-the-camera-that-Vexcel$D 2014/01/01 22:16:23 SWITCHBOARD processResourceStack processCase=PROXY_LOAD, depth=0, maxDepth=0, must-match=.*, must-not-match=, initiatorHash=nu$I 2014/01/01 22:16:23 SWITCHBOARD Excluded 0 words in URL http://imgallery.net/And-3D-mapping-efforts-Microsoft-then-improved-upon-the-camera-that-V$I 2014/01/01 22:16:23 SWITCHBOARD *Indexed 52 words in URL http://imgallery.net/And-3D-mapping-efforts-Microsoft-then-improved-upon-the-camera-that-$        Description:  imgallery.net        MimeType: text/html | Charset: UTF-8 | Size: 141 bytes |        LinkStorageTime: 10 ms | indexStorageTime: 0 msI 2014/01/01 22:16:23 Fulltext indexing: pXuMg75CFUDR http://imgallery.net/And-3D-mapping-efforts-Microsoft-then-improved-upon-the-camera-that-Vexce$I 2014/01/01 22:16:23 HTCACHE storing content of url http://imgallery.net/A-spectator-sport-But-if-all-goes-well-it-looks-like-he-ll-have-an-opportu$D 2014/01/01 22:16:23 SWITCHBOARD processResourceStack processCase=PROXY_LOAD, depth=0, maxDepth=0, must-match=.*, must-not-match=, initiatorHash=nu$I 2014/01/01 22:16:23 SWITCHBOARD Excluded 0 words in URL http://imgallery.net/A-spectator-sport-But-if-all-goes-well-it-looks-like-he-ll-have-an-op$I 2014/01/01 22:16:23 SWITCHBOARD *Indexed 56 words in URL http://imgallery.net/A-spectator-sport-But-if-all-goes-well-it-looks-like-he-ll-have-an-o$        Description:  imgallery.net        MimeType: text/html | Charset: UTF-8 | Size: 141 bytes |        LinkStorageTime: 19 ms | indexStorageTime: 0 msI 2014/01/01 22:16:23 Fulltext indexing: ZAxvb75CFUDR http://imgallery.net/A-spectator-sport-But-if-all-goes-well-it-looks-like-he-ll-have-an-opport$I 2014/01/01 22:16:23 HTCACHE storing content of url http://www.teampepka.com/find-real-estate/fl/33953/, 181942 bytesI 2014/01/01 22:16:23 REJECTED http://www.teampepka.com/find-real-estate/fl/33953/ - Stale_(denied_by_cache-control=PRIVATE)I 2014/01/01 22:16:23 HTCACHE storing content of url http://imgallery.net/Of-an-anime-that-makes-viewers-say-holy-shit-this-show-is-a-memorable-post$D 2014/01/01 22:16:23 SWITCHBOARD processResourceStack processCase=PROXY_LOAD, depth=0, maxDepth=0, must-match=.*, must-not-match=, initiatorHash=nu$I 2014/01/01 22:16:23 SWITCHBOARD Excluded 0 words in URL http://imgallery.net/Of-an-anime-that-makes-viewers-say-holy-shit-this-show-is-a-memorable$I 2014/01/01 22:16:23 SWITCHBOARD *Indexed 51 words in URL http://imgallery.net/Of-an-anime-that-makes-viewers-say-holy-shit-this-show-is-a-memorabl$        Description:  imgallery.net        MimeType: text/html | Charset: UTF-8 | Size: 141 bytes |        LinkStorageTime: 12 ms | indexStorageTime: 1 ms



Die Zielserver wechseln stark, haben aber meist ziemlich kryptische Namen oder sehr lange Namen. Teilweise tauchen auch asiatische Zeichen auf.

Ich fahr den jetzt erst mal runter. Sicher ist sicher.

Statistik: Verfasst von fherb — Mi Jan 01, 2014 10:26 pm


Fragen und Antworten • Re: YACY indiziert, aber Zahl der Dokumente konstant

Date: 2014-01-01 22:45:48

-> Proxy-Indexing:
Habe einen anderen Thread aufgemacht. Das scheint ein völlig anderes Problem zu sein. (viewtopic.php?f=5&t=5064&p=29328#p29328{.postlink-local})

Statistik: Verfasst von fherb — Mi Jan 01, 2014 10:45 pm


Mitmachen • Security problem with YaCy dev rel. 1.67

Date: 2014-01-01 23:20:38

From the yacy twitter page:

\ because of a security problem with the current YaCy dev rel. 1.67 we ask everyone to migrate back to a dev rel. before 18.12. or stable 1.66\


https://twitter.com/yacy_search

The latest stable version can be downloaded from the yacy.net front page:
http://www.yacy.net/

Statistik: Verfasst von David — Mi Jan 01, 2014 11:20 pm


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2014-01-02 04:53:45

Hallo,

fherb hat geschrieben:\ Hallo,\ \ habe seit gestern vermehrt Proxy-Indexing im Terminal aufgelistet, wie z.B.\ \ Ist da was faul?\



ja, da war etwas faul in den Development Versionen,
was bei der kürzlichen Umstellung des http Servers hinein geraten ist.
Ab v1.679629 ist ein Fix bzgl. Proxy-Security vorhanden.

cu

Statistik: Verfasst von reger — Do Jan 02, 2014 4:53 am


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-02 05:00:03

fyi:
in development release 1.679629 is a the first hot-fix regaring this security (proxy) issue implemented.

Statistik: Verfasst von reger — Do Jan 02, 2014 5:00 am


Wunschliste • Re: Yacy auf OpenWRT

Date: 2014-01-02 12:06:03

Ups,

das ist können die Router natürlich nicht. Ein Router hat vielleicht 32MB Ram.
Die Frage wäre jetzt nach einer Lösung für solch einen Router.
Im Grunde kann ein Router eine kleine Webeite beherbergen, welche vielleicht Werbung für einen Friseursalon entält.
2 MB maximal.

Ich suche gerade nach einer Lösung für eine dezentrahle Suchmaschine im Rahmen von Batman oder OLSR.
Hättet Ihr etwas dagegen, euch mit mir über dieses Problem, auch wenn yaci nicht auf einem Router laufen wird, ein Paar Gedanken zu machen? Weil ich bin noch etwas Naiv in dieser Sache und könnte etwas Hilfe gebrauchen.


Grundsätzlich stelle ich mir die Situation folgendermaßen vor.
1. Die Webseite muß von HTML nach TXT gewandelt werden.
2. Der TXT muß indiziert werden. Das Heißt es wird eine Datenbank angelegt, welche alle Wörter enthält, die im Text enthalten sind.
3. Die Datenbank enthält die Positionen zu jedem Wort.
4. Dateinamen der Bilder werden wie Wörter gespeichert, jedoch als Bild deklariert.

5. Und jetzt weis ich im Grunde nicht weiter.

Vielleicht müssen die Indexfiles zu den eigenlichen Suchmaschinen gelangen.
Oder der Befehl der Suche (so ähnlich wie locate) wird tatsächlich auf jedem Router selbst ausgeführt, und per Broadcast verbreitet.

Vielleicht könnt Ihr mir etwas helfen?

Statistik: Verfasst von smilebef — Do Jan 02, 2014 12:06 pm


Off-Topic • Bundeszentrale für politische Bildung

Date: 2014-01-02 14:56:42

Ich vergesse immer wieder, dass die Bundeszentrale für politische Bildung manchmal ganz nette Dinge im Programm hat, die in zugegebenermaßen etwas hübscherer Ausstattung sonst deutlich teurer sind.

Letztens entdeckt:
Deep Search - Politik des Suchens jenseits von Google von Konrad Becker und Felix Stalder (1 Euro statt fast 30 als gebundene Ausgabe über den Buchhandel) (http://www.bpb.de/shop/buecher/schrifte ... eep-search{.postlink})
Überwachtes Deutschland von Josef Foschepoth (4,50 Euro statt fast 35 als gebundene Ausgabe) (http://www.bpb.de/shop/buecher/schrifte ... eutschland{.postlink})

Habe ich beides noch nicht gelesen, aber eben bestellt.

Außerdem gibt es den (fast schon ;)) Klassiker kostenlos:
Freie Software von Volker Grassmuck (http://www.bpb.de/shop/buecher/schrifte ... ineigentum{.postlink})

Statistik: Verfasst von Low012 — Do Jan 02, 2014 2:56 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-02 18:11:34

Nach dem Update auf die neueste Version über den Debian Paketmanager bekomme ich unter Verwendung von stunnel keinen Zugriff auf meinen Peer über die Domain mehr.
Ich muss manuell über die IP und den Standardport gehen dann klappts noch.
Mit stunnel leite ich Anfragen von Port 443 auf 8090 weiter.
Ich denke mal das hängt mit dem Fix zusammen.
Bildschirmfoto 2014-01-02 um 18.07.12.png

Statistik: Verfasst von Yududi — Do Jan 02, 2014 6:11 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-02 18:51:46

sorry for the late explanation of this bug:
during the migration from the old self-made httpd to jetty the httpd proxy was migrated as well, but the security checks had been omitted. As a first emergency-activity I twittered to migrate back, removed all the development versions including all th jetty-updates and added a first (but not sufficient) bugfix. Because my debian-deploymentserver was still in the bag where I transported it for 30c3 and the bag was not at the same place as I was at that time, it was not possible to make a debian release with a bugfix. A standard tarball was created automatically by the lulabad-release-script.

At this time, two emergency-bugfixes should work which prevent unwanted usage of the proxy. The debian version has been updated as well. The dev-release update-servers should serve these bugfixes.

I believe that the stunnel-problem is not related to the security problem, but we will try to sort this out completely.

Statistik: Verfasst von Orbiter — Do Jan 02, 2014 6:51 pm


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2014-01-02 18:55:28

hier gehts dazu weiter: viewtopic.php?f=15&t=5065{.postlink-local}

Statistik: Verfasst von Orbiter — Do Jan 02, 2014 6:55 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-02 19:26:09

I have changed back to 1.669294.
With this version stunnel works.

Statistik: Verfasst von Yududi — Do Jan 02, 2014 7:26 pm


Mitmachen • Re: 30C3

Date: 2014-01-02 20:22:46

fkp hat geschrieben:\ ich habe auch mal eine App geschrieben.\



...und die ist richtig schnell! Ich habe die Daten als XML abgerufen und die maximale Anzahl der Ergebnisse auf 3000 gesetzt. Bei dir mit JSON und 20 Ergebnissen (?) merkt man kaum eine Verzögerung zwischen Bestätigung der Eingabe und Anzeige der Ergebnisse. Bei einer guten Anbindung und einem nicht übertrieben großen Index könnte man mit YaCy wahrscheinlich eine nette \“endlos\” scrollende Liste basteln.

Naja, wenn ich mal Zeit habe (Hö! Hö!) mache ich meine App nochmal in Schön und mit einstellbarer YaCy-URL.

Statistik: Verfasst von Low012 — Do Jan 02, 2014 8:22 pm


Mitmachen • Re: 30C3

Date: 2014-01-02 20:23:58

Orbiter hat geschrieben:\ hab heute ein YaCy Vorstellungsvideo bei gemacht ![:o](http://forum.yacy-websuche.de/images/smilies/icon_e_surprised.gif "Surprised") ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy")\



Uhuhuhu! :o :o :o :o :o :o :o :lol:
Gibt es das irgendwo zu sehen?

Statistik: Verfasst von Low012 — Do Jan 02, 2014 8:23 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-02 21:57:50

uhuhu, YaCy auf 4chan!
http://boards.4chan.org/g/res/39256830

Statistik: Verfasst von Orbiter — Do Jan 02, 2014 9:57 pm


Mitmachen • Re: 30C3

Date: 2014-01-02 22:03:06

Low012 hat geschrieben:\ >
> > fkp hat geschrieben:ich habe auch mal eine App geschrieben.\ > >



...und die ist richtig schnell! Ich habe die Daten als XML abgerufen und die maximale Anzahl der Ergebnisse auf 3000 gesetzt. Bei dir mit JSON und 20 Ergebnissen (?) merkt man kaum eine Verzögerung zwischen Bestätigung der Eingabe und Anzeige der Ergebnisse.


Dafür gibts in deiner App completions! Kommen die aus Android oder greifst du auf YaCys completion-API zu? Am besten würde man eure beiden Apps miteinander kombinieren und was generisches draus machen.

Low012 hat geschrieben:\ >
> > Orbiter hat geschrieben:hab heute ein YaCy Vorstellungsvideo bei > gemacht > ![:o](http://forum.yacy-websuche.de/images/smilies/icon_e_surprised.gif "Surprised") > ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy")\ > >



Uhuhuhu! :o :o :o :o :o :o :o :lol:
Gibt es das irgendwo zu sehen?


nein noch nicht, das wird wahrscheinlich redaktionell überarbeitet (hatte üblen Hänger drin). Oh je dachte ich nachher, wo hab ich da gesessen? Das war so eine Videobild-Ecke mit Köpfe-Muster hinten dran, als Hintergrund diente da Wau, Snowden und Mannings. Oh je! Ich bekomme bestimmt ne mail wenn das online gehen sollte und ihr werdet das dann auch erfahren...

Also die Zeit verging sehr schnell dort, es gab auch ein paar Tweets in Richtung YaCy-Suchserver von anderen und es gab auch Traffic auf dem Suchserver. Beide Server (für Wiki und FTP) sind konstant durchgelaufen und sind ohne restart-Tricks weder hängen geblieben noch gecrasht. Das ist schon mal gut.

Ich hab dann noch einige \‘stategische Kontakte\’ in meiner \‘Checklist\’ zum 30c3 gehabt und alle getroffen und was vereinbart. Eigentlich richtig gute Sachen. Nicht nur YaCy, sondern auch verwandte Themen (ggf. mit loopback zu YaCy). Ein Vortrag ist dabei und auch Dinge über die ich noch nicht reden kann. Dazu bald mehr...

Statistik: Verfasst von Orbiter — Do Jan 02, 2014 10:03 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-02 23:28:26

Also ich muss wohl dieser Tage Asche (abgefackelter Feuerwerkskörper) auf mein Haupt streuen:

Seit RaspberryPi nicht mehr per Wlan am Netz hängt, läuft es überraschend gut. RasPi2, der die Usb-Festplatte für YaCy nutzt, ist die Tage mit Crawln über 500.000 Urls gekommen. Der RasPi1, alles auf SD-Karte, ist bei über 200.000 Urls. Das hat im Vergleich aber nichts zu sagen, da die Crawling-Aufgaben unterschiedlich waren und vom Inhalt abhängig sind.

Inzwischen hab ich die Crawls alle abgeschaltet und es läuft nur der DHT-Transfer. Dessen Rate ist aber nicht zu verachten. Darüber müssen die URLs ja nur einsortiert werden. Das scheint wenig Prozessorlast zu benötigen.

Da ich zwischenzeitlich immer versucht habe, die Versionen auf den aktuellsten Entwicklungsversionen zu halten, können die Fortschritte auch mit den Änderungen dort zusammenhängen. Weiß ich nicht. Aber irgendwann früher war mir auch schon mal aufgefallen, dass Wlan beim RasPi sehr an der Performance zehrt.

Mein Hetzner VServer ist für die Tests ein interessantes Vergleichsobjekt, da mir dort genau so wenig Ram zurVerfügung steht, wie beim RasPi. Die Festplattensschnittstelle und der eine Prozessorkern sind leistungsfähiger, sodass die Crawl- und URL-Zuwachsraten steiler sind und vielleicht auch bei etwas Swappen die Performance sicher besser ist. Aber die Index-Grenzen sollten vergleichbar sein. Folgender Wert wird also auch für die beiden RasPis interessant: Ab um die 3Mio URLs wurde mir das Hetznersystem instabil. Startet man den Crawl mit der Hand mehrfach wieder, ist dann irgendwann der Speicher zu klein und es crasht oder die Webschnittstelle reagiert nicht mehr. Durch den Proxy-Fehler der letzten Dev-Versionen ist mir der Index recht schnell angestiegen, ohne dass ich das anhalten konnte. Das Sicherheitsloch soll inzwischen geschlossen wurden sein.

Alles in allem müssten die RasPi also auch bis in die 2Mio URLs kommen. Mal sehen. Ich bin gespannt.

Ein Problem am Rande: Die Konfiguration des der Java-Engine zu Verfügung stehenden Ram ist ne schwierige Sache. Für xmx wird nur der Heap in seinem Maximum festgelegt. Java nutzt aber auch Ram, der nicht über den Heap verwaltet wird. Und dessen Wert kommt auf den Gesamtspeicherbedarf dazu. Für YaCy sind aus meinen Beobachtungen heraus wenigstens 150MByte zum Heap dazuzurechnen. Mir ist unklar, ob das unabhängig von der Größe des Index bzw. DHT ist.

Soweit für heute bzgl. RasPi.

Den CubieTruck hab ich bei gut 1Mio URLs angehalten. Ab jetzt soll er sich über DHT-Transfer mit Daten füllen. Wie die beiden RasPis auch. Die Vorgabe für den Heap habe ich trotz der zur Verfügung stehenden 2GByte Ram vorerst auf 600MByte festgelegt. Ich will sehen, wie viel Ram nach längerer Laufzeit tatsächlich verwendet wird und wie er auf die Grenze reagiert. Danach schraub ich das dann langsam hoch, bis die 2 Gbyte umfassend genutzt werden.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Do Jan 02, 2014 11:28 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-03 09:08:54

Oh nein! 404! Hast du einen Screenshot? Und wieso blockiert der doofe URL-Filter bei mir im Büro nützliche Programmierer-Blogs, lässt aber 4chan problemlos zu? :lol:

Statistik: Verfasst von Low012 — Fr Jan 03, 2014 9:08 am


Mitmachen • Re: 30C3

Date: 2014-01-03 10:38:19

Orbiter hat geschrieben:\ Dafür gibts in deiner App completions! Kommen die aus Android oder greifst du auf YaCys completion-API zu?\



Ich habe nur definiert, dass das Eingabefeld eine Sucheingabe ist und auf der Bildschirm-Tastatur statt \“Fertig\” bitte eine Lupe zu sehen sein soll. Den Rest hat Android dann dazu gezaubert. http://developer.android.com/reference/ ... imeOptions{.postlink}

Ich hatte auch schon mal überlegt, eine Java-Yacy-Client-Library zu bauen, die die gesamte HTTP-Kommunikation mit YaCy kapselt. Ich hatte sowas ja vor Urzeiten mal in Perl gemacht. Damals musste ich aber noch HTML-Seiten parsen, um feststellen zu können, ob ein Aufruf funktioniert hat oder nicht. Das hat wenig Spaß gemacht und Perl benutzt scheinbar auch niemand mehr, weshalb das Ganze dann irgendwann eingeschlafen ist. Mit der XML/JSON-API sollte das ja aber viel netter zu machen ein.

Mit der Library wäre es dann recht komfortabel möglich, Software zum Fernsteuern von YaCy zu schreiben, ohne sich groß mit der HTTP-API auseinandersetzen zu müssen.

An Apps würde ich mir wünschen:


Leider habe ich ja nie genug Zeit...

Statistik: Verfasst von Low012 — Fr Jan 03, 2014 10:38 am


Fragen und Antworten • Re: Signatur im Forum?

Date: 2014-01-03 10:48:39

Ja, die Funktion ist tatsächlich abgeschaltet. Wenn ich mich richtig erinnere, gab es beim Vorgänger-Forum zu diesem Forum dazu mal eine Diskussion, ob Signaturen zugelassen werden sollten oder nicht und damals™ wurde sich gegen Signaturen entschieden, weil dann die Lesbarkeit der Threads besser sei.

Statistik: Verfasst von Low012 — Fr Jan 03, 2014 10:48 am


Off-Topic • Big Data bei Google

Date: 2014-01-03 11:37:46

Ich habe gerade mal ein Experiment gemacht und überprüft ob das was ich bei Google in die Suche eingebe auch anderweitig als für meine Suche verwendet wird.

Testumgebung:
Android Smartphone mit zurückgesetztem Browser
(Keine Cookies)

Testablauf:
(google.de)
- Eingabe eines Suchbegriffes bzw. einer Suchphrase wie \“Katzenfutter kaufen\“, \“Kaminöfen\” oder \“Server\” in die Suche bei Google.
- Anklicken einiger der Ergebnislinks die zu der Suchphrase passen
(Ein Blog mit Google Adsense)
- Aufruf eines Artikels in dem sich ein Google Adsense-Block befindet

Ergebnis:
- Nach durchschnittlich 15 Minuten zeigte mir der Google Adsense-Block in dem Blog Werbung für Katzenfutter, Kaminöfen und Server an.

Ich weiß noch nicht genau ob nur die Suche oder die Suche + Anklicken eines Ergebnislinks dazu führt.
Ich weiß aber zu keinem Zeitpunkt meine Einwilligung dazu gegeben zu haben.

-> Wenn Frauen wissen wollen was Ihr Mann bei Google so schönes sucht in Abwesenheit. Einfach mal einen Blog mit Google Adsense aufrufen.

Statistik: Verfasst von Yududi — Fr Jan 03, 2014 11:37 am


Mitmachen • Re: 30C3

Date: 2014-01-03 12:22:17

Low012 hat geschrieben:\ Ich hatte auch schon mal überlegt, eine Java-Yacy-Client-Library zu bauen, die die gesamte HTTP-Kommunikation mit YaCy kapselt.\


Irgendwie dafür war das cora-package mal gedacht, deswegen hat das cora-Package auch eine andere Lizenz (LGPL) und genau deswegen kann man auch nicht einfach alles rüberkopieren. Aber vieles sollte da schon drin sein, vor allem Solr-Suche.

in einer Android-App würde ich mir wünschen:

Statistik: Verfasst von Orbiter — Fr Jan 03, 2014 12:22 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-03 12:49:14

AAA! nein, kein screenshot. Mist, ist weg. War ein langer thread, thematisch so wie man es erwartet: (OP) vertritt die These dass YaCy genau wie Tor etc. alles NSA-Verseuchtes Zeug sei und bitte um Meinung. Dann übles bis idiotisches Getrolle und am Ende OT Irrsinn. Hat aber in meinem Piwik für einiges an Besuch gesorgt.

Statistik: Verfasst von Orbiter — Fr Jan 03, 2014 12:49 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-01-03 13:05:30

http://www.shodanhq.com/search?q=8090
sucht Dienste nach Port, hier unser 8090

Statistik: Verfasst von Orbiter — Fr Jan 03, 2014 1:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-03 13:53:21

Orbiter hat geschrieben:\ AAA! nein, kein screenshot. Mist, ist weg. War ein langer thread, thematisch so wie man es erwartet: (OP) vertritt die These dass YaCy genau wie Tor etc. alles NSA-Verseuchtes Zeug sei und bitte um Meinung. Dann übles bis idiotisches Getrolle und am Ende OT Irrsinn. Hat aber in meinem Piwik für einiges an Besuch gesorgt.\



Gibt viele Dinge um die man sich streiten kann. Aber hier ist es denke einfach. Jeder der YaCy verwenden möchte kann den kompletten Sourcecode downloaden und Zeile für Zeile selbst überprüfen. Wenn er/sie ein Fehler findet kann er/sie den Fehler ausmerzen und das Ergebnis entweder mit YaCy mergen oder unter eigenem Namen fortentwickeln und verteilen. Frage mich wie es zu der Meinungsbildung kam. Also wo jetzt genau der Auslöser dafür sein soll.
In dem Zusammenhang aber mal was anderes: wie genau hat der OP denn da seine Frage bei 4Chan veröffentlicht? Also welche Technik hat er verwendet (Hardware/Software) und ob die von der NSA verseucht ist und wenn ja warum er die verwendet und dann aber gegen andere Technik wettert.
Klingt eher nach \“ich will mal im Mittelpunkt stehen\“.

Statistik: Verfasst von Yududi — Fr Jan 03, 2014 1:53 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-03 15:40:32

Yududi hat geschrieben:\ Mit stunnel leite ich Anfragen von Port 443 auf 8090 weiter um damit HTTPS zu ermöglichen.\



Regarding the described https forwarding issue I found 2 answers,

One: Domain names were not resolved to a local IP\‘, what would cause this error (this was improved/fixed https://gitorious.org/yacy/rc1/commit/e6b9643fd69e18ccd479128f8682312a4e35766e)

Two: with the use of Jetty also the https implementation has changed
- https will not longer available on the Standard port (e.g. 8090) but is accessible via port 8443 (port number currently hardcoded).

Statistik: Verfasst von reger — Fr Jan 03, 2014 3:40 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-03 16:08:45

\“One\” may can help will test it with the next YaCy-Update for Debian when its included thank you.
\“Two\” probably won\’t help in that case because stunnel takes the request at Port 443 and delivers it to the standard HTTP-Port thats in that case 8090. I don\’t use the ssl-functionality thats build right into yacy itself.

Statistik: Verfasst von Yududi — Fr Jan 03, 2014 4:08 pm


Fragen und Antworten • Re: Signatur im Forum?

Date: 2014-01-04 10:34:09

Ja, dem kann ich mich nur anschließen. Ohne Signatur ist die Lesbarkeit einfach besser.

Gruß
lux

Statistik: Verfasst von lux — Sa Jan 04, 2014 10:34 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-01-04 10:42:20

... und hier noch ein kleine Ergänzung dazu
viewtopic.php?f=7&t=4790{.postlink-local}

Gruß
lux

Statistik: Verfasst von lux — Sa Jan 04, 2014 10:42 am


Mitmachen • Android apk-Download Repositories + \‘old versions\’

Date: 2014-01-04 13:40:27

ich suche Android-App Download-Repositories, die ausserhalb vom Play Store sind und nicht dort hin verlinken sondern die apk-Datei direkt zum Download anbietet. Das brauche ich für zwei Dinge:
- wäre gut wenn YaCy apk-Metadaten parsen könnte, will da einen Parser schreiben
- ein anderes sehr spannendes Projekt, kann ich noch nicht verraten, aber den dabei entstehenden Code gibts als freie Software

Was dabei sehr wichtig ist: man soll in der Lage sein, auch alte Versionen einer Programmdatei laden zu können. Meine Frage an euch:
[- kennt ihr (legale!) apk-Repositories (webseiten)]{style=“font-weight: bold”}
[- ggf. etwas versteckte, aber legale Ablagen wie ftp-Archive? ]{style=“font-weight: bold”}

Ich habe selber schon mal geguckt und dabei folgende Webseiten ausfindig gemacht:

http://www.freewarelovers.com/android
hat sitemap, scheint sehr einfach zu crawlen sein, hat \‘old versions\’

https://f-droid.org/repository/browse/
sehr einfach zu crawlen, keine sitemap, hat \‘old versions\’

http://www.androiddrawer.com
hat sitemap und \‘old versions\’

http://www.apktops.com/
hat sitemap, kleiner hack für Download benötigt

http://www.aptoide.com/more/toprepos
wertlose sitemap, komplex, muss über die Stores gehen und dort apps aufsammeln, hat nur je eine Version, verschiedene Versionen ergeben sich ggf. über die verschiedenen stores

Am liebsten wäre mir aber ein FTP-Archiv wo man einfach das Zeug runter laden kann. Kennt jemand so was?

Statistik: Verfasst von Orbiter — Sa Jan 04, 2014 1:40 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-04 14:16:41

Aktueller Wert: \“rund 200MByte hinzurechnen\“. Also zur Heap-Konfiguration. Wenn sonst nichts weiter läuft, wäre damit xmx mit 250MByte zu konfigurieren, um kurz vorm Überlauf in das Swapfile zu landen. Mal sehen, ob es dabei bleibt.

Statistik: Verfasst von fherb — Sa Jan 04, 2014 2:16 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-04 23:42:40

Hi, sorry dass ich noch nicht dazu gekommen bin deine Experimente zu kommentieren, aber ich finde das ist super was du inzwischen für Zahlen herausbekommen hast! Ich werde das auch mal mit deinem Image probieren und schauen wie es bei mir läuft, ich habe ja so eine extra-schnelle SD-Karte besorgt.

Statistik: Verfasst von Orbiter — Sa Jan 04, 2014 11:42 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-05 02:52:03

http://www.butonic.de/2013/12/17/why-i- ... -owncloud/{.postlink}

Statistik: Verfasst von Orbiter — So Jan 05, 2014 2:52 am


Fragen und Antworten • Re: How can I set a virtual server option?

Date: 2014-01-05 03:24:42

Assuming you are on Windows.
You may find your router here http://portforward.com/english/routers/port_forwarding/
Choose your brand then close the advert.

You then see a list of models to click on, if yours is not listed then have a look at a few examples to see what to do.

When you click on a model it gives a list of games choose Age of Empires but change port numbers to 8090 on just one entry, you may have to know the IP of your PC so use the run command and type in CMD then in the window type IPCONFIG then look at the IP of Ethernet adapter Local Area Connection or the Ethernet adapter Wireless Network Connection, note down the numbers after IP Address to use in the router virtual server config.
Hope you can follow this.

Statistik: Verfasst von smokingwheels — So Jan 05, 2014 3:24 am


Mitmachen • Re: Android apk-Download Repositories + \‘old versions\’

Date: 2014-01-05 10:34:35

wie sieht\’s damit aus?
https://guardianproject.info/apps/

Gruß
lux

Statistik: Verfasst von lux — So Jan 05, 2014 10:34 am


Mitmachen • Re: Android apk-Download Repositories + \‘old versions\’

Date: 2014-01-05 10:44:49

ah, direkte Downloads in https://guardianproject.info/releases/, ja gut!

Statistik: Verfasst von Orbiter — So Jan 05, 2014 10:44 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-05 22:29:01

:) Prima. Ich vermute aber nach meinen Experimenten, die Geschwindigkeit der Karte wird nur wenig Einfluss haben. (Bei ner billigeren Karte ist es aber nicht so Schlimm, wenn sie \“durchbrennt\“. :D )

Beim Crawlen ist der Prozessor die Bremse und beim Austausch von DHT/URLs mit anderen Peers spielt die Zugriffszeit wahrscheinlich auch gar keine so große Rolle. Eher die Response-Zeiten zwischen den Peers. Bei ner schnellen Karte habe ich auch schon überlegt, ob dann ein wenig Swappen Sinn macht, um etwas mehr \“virtuellen\” RAM zu haben. Sieht aber nicht aus, dass das der RasPi vernünftig schafft.

Im Moment schafft meine Karte etwa 20MByte/s beim Schreiben. Lesen soll noch schneller sein (30MByte/s steht drauf). Mit iotop sehe ich aber so hohe Zahlen nicht. Sind eher viele kurze, kleine Zugriffe. ...

... Irgendwie scheint der RaspPi zum Crawlen zu schwach und für nen großen Index zu klein (Ram). Zumindest, wenn er allein vor sich hinwurschtelt. Aber irgendwie reizt er mich doch. Man kann schön beobachten, was ein Flaschenhals bewirkt. (Mache ich bei meiner Software auf Arbeit auch immer. Da nehme ich die schwachbrüstisgte Hardware zum Testen und freue mich, wenn der Anwender über die fixen Reaktionen auf dem fetten Rechner staunt. :D )

--------

Ich lasse die zwei RasPis und den Cubietruck noch ne Weile so laufen. Mal sehen, wann wo was klemmt. Die beiden RasPis sind letzte Nacht ausgestiegen (Memory-Probleme). Aber nach einem Neustart laufen sie wieder seit über 12 Stunden und reagieren zügig am Webfrontend. Beide scheinen jetzt auch mal wieder URLs und DHTs abzugeben, um nicht weiter vollzulaufen.

Als nächstes Ziel steht bei mir, mal eine Energiebilanz zu messen. Zwischen RasPi, CubieTruck und meinem Desktop. Wenn beim RasPi mit SD-Karte diese Karte keine Probleme bekommt, würde ich das mal am CubieTruck mit Karte statt Festplatte probieren. Die Platte frisst das Meiste an Strom.

Schade, dass es für Linux keinen Treiber spezielle für SD-Karten gibt, der wie die Firmware von SSDs die Zugriffe optimiert und die Karte \“schonend\” verbraucht. Oder hat schon mal jemand etwas davon gehört, dass es das doch gibt?

Statistik: Verfasst von fherb — So Jan 05, 2014 10:29 pm


Fragen und Antworten • Re: Gemeinsamer Index von Raspberry Pi + Tower

Date: 2014-01-05 23:31:47

Also ich habe das gerade mal probiert. Entweder ich habe etwas falsch gemacht oder die geparsten Webseiten werden nicht an solr des anderen YaCy-Peers weitergegeben.

Bei dem crawlenden Peer werden aber auch keine gesammelten URLs angezeigt. Kann man das irgendwo beobachten, ob der Datenaustausch mit dem entfernten YaCy funktioniert, an dessen solr die URLs und DHTs gehen sollen? Dort wird die Anzahl der URL\’s für die gecrawlte Domain nämlich nicht größer.

Statistik: Verfasst von fherb — So Jan 05, 2014 11:31 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-06 00:11:01

Naja. Eben ist einer der RasPis (mit den derzeit weniger URLs) wieder hängen geblieben:

java.lang.OutOfMemoryError: Java heap space

Das sollte eigentlich nicht passieren. Der RasPi hat über 250MByte Heap zur Verfügung. Den Hetzner-VServer habe ich mit 150MByte statt 250MByte Heap in Verwendung und der hat inzwischen die doppelte Menge an Dokumenten im Index. Da ist sicher nicht die Schuld bei der geringen Performance zu suchen. Speicher sollte nie überlaufen und zum Crash führen. Die Software hat vorher ihr Verhalten anzupassen. (Ist meine theoretische Meinung.)

----------------

Kurze Fragen an Orbiter:

Mit der Integration von Solr, so habe ich es für mich verstanden, hast Du kaum Einfluss mehr auf die Art und Weise, wie der Index und die DHT in RAM und auf Festplatte gemananged werden. Richtig?

Oder ist die DHT kein Bestandteil von Solr und wird von Dir programmiert? Was ich bei Apache Solr gefunden habe sieht nicht nach einer \“massiv distributed-Lösung\” aus, wie YaCy ja im Ursprung sein soll. Sondern nur nach der lokalen Indizier-Maschine und der \“distributed\“-Teil ist dann der Anteil, den YaCy beibringt.

Eigentlich beeindruckt mich die langjährige Entwicklung von YaCy ungemein! Schließlich haben sich die Randbedingungen der Rechentechnik immer wieder geändert. Erst war das Netz langsam, die Festplatten immer zu klein, der Prozessor immer zu langsam, dann wurde dies besser, dann wieder das...

... Im Moment scheint alles ausreichend zu sein, nur nicht der Arbeitsspeicher. ... Und auf einmal gibt es Festplatten mit super-Zugriffsraten vom 10-Fachen des vorher Üblichen. ... Und dann kommt jemand mit dem RasPi, der alles wieder \“Auf Anfang\” setzt. :)

Statistik: Verfasst von fherb — Mo Jan 06, 2014 12:11 am


Mitmachen • Re: Android apk-Download Repositories + \‘old versions\’

Date: 2014-01-06 08:48:17

Bei Google Code gibt es auch Projekte mit apks zum Download. Leider habe ich noch keinen Weg gefunden, die systematisch zu suchen.

Hier ein Beispiel: http://code.google.com/p/connectbot/downloads/list

Leider liegt zwischen der Übersicht und den einzelnen Dateien noch eine HTML-Seite.

Statistik: Verfasst von Low012 — Mo Jan 06, 2014 8:48 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-06 12:20:32

Hi, zu deinen Fragen:

durch Solr geht tatsächlich etwas an Kontrolle verloren, aber nicht im Bezug zur DHT-Konstruktion, denn dies wird nicht durch Solr ersetzt. Im Sinne der P2P-Suche im Netz wird weiterhin die DHT und die damit geschaffenen Datenstrukturen genutzt, in diesem Bezug dient Solr nur als Metadaten-Archiv. Da aber die Suche in Solr eine wesentliche Erweiterung der Such-Möglichkeiten bedeutet, wird dies in YaCy evenfalls genutzt, aber nur lokal und im Netz ebenfalls, aber nur als \‘Robinson-Beimischung\‘, nicht nach DHT-Regeln.

Solr nutzt einen RAM-Zugriff ausserhalb der in der jvm zugewiesenen Werte durch -Xmx Startup-Attribute. Das macht es insbesondere bei knappen Speicher schwierig, abzuschätzen wieviel man YaCy zuweisen soll. Man darf den verfügbaren Speicher eben nicht auch komplett YaCy zuweisen.

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 12:20 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-06 12:23:29

Hier kommt was spannendes: Ein YaCy Kickstarter-Projekt für den RPi! Ich denke die dort eingesetze Architektur sollten wir auch genau im Auge behalten, der Projektanbieter hat offenbar schon Erfahrung mit effizienten RPi Spezialanwendungen:
http://www.kickstarter.com/projects/145 ... net-search{.postlink}

Für die 10.000\$ müssen die rund 400 RPi-Images auf SD-Karten raushauen. Ich finde das ganz ok und uns hilft es.

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 12:23 pm


Fragen und Antworten • Re: YaCy + SSL

Date: 2014-01-06 12:27:18

Wahrscheinlich hat dein Android Handy das StartSSL RootCA Zertifikat noch nicht.

Statistik: Verfasst von CaptainPsycho — Mo Jan 06, 2014 12:27 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-06 12:53:54

Thailändischer YaCyPi Supporter! http://www.raspberrypithai.com/2014/01/ ... ch-engine/{.postlink}

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 12:53 pm


Mitmachen • Re: Campus Party 2012 Berlin

Date: 2014-01-06 14:46:38

Das Video wurde mittlerweile über 15000 mal abgespielt!

Statistik: Verfasst von Low012 — Mo Jan 06, 2014 2:46 pm


Fragen und Antworten • Re: YaCy + SSL

Date: 2014-01-06 16:52:01

CaptainPsycho hat geschrieben:\ Wahrscheinlich hat dein Android Handy das StartSSL RootCA Zertifikat noch nicht.\



Mit stunnel klappt es bei mir unter Android mit dem in YaCy integrierten SSL allerdings nicht.
Problem wird das korrekte Ausliefern der SSL Keychain sein.
Nachdem es mit stunnel geklappt hat habe ich das Thema nicht weiter verfolgt.

Statistik: Verfasst von Yududi — Mo Jan 06, 2014 4:52 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-06 19:20:07

YacyPi wird in diesem Video bei ca. 36 Minuten und 10 Sekunden erwähnt: http://www.youtube.com/watch?v=WMTwVsIWu6Q

Statistik: Verfasst von Low012 — Mo Jan 06, 2014 7:20 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-06 20:47:44

Die wollen dafür PuppyLinux verwenden und dafür gibts auch ein Java Package: http://www.puppylinux.org/wikka/JavaRuntimeEnvironment
Im Dezember haben die ein RPi image für OwnCloud rausgebracht: http://murga-linux.com/puppy/viewtopic.php?t=90788
Das sieht alles ganz anständig aus. Ich hätte ja dann gleich auch ganz gerne OwnCloud mit dabei :)

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 8:47 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-06 20:58:50

das ist irgendwie krass, die haben das vlog an dem Tag veröffentlich, wo das YaCyPi Kickstarter-Projekt gestartet ist. Am gleichen Tag. Das müssen die miteinander abgemacht haben. Das spricht eigentlich für das Projekt, die haben offensichtlich gute Kontakte.

Hier: eine stunnel-Anleitung für YaCy...
http://idienstler.de/2915/tutorial-yacy ... inrichten/{.postlink}

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 8:58 pm


Hilfe für Einsteiger und Anwender • Bildersuchmaschine

Date: 2014-01-06 22:08:14

Ich hätte mal eine Frage: Wenn man mit Yacy eine Bildersuchmaschine realisieren möchte und nicht will, dass sich die Benutzer für die Ergebnisseite die Bilder direkt von den ursprünglichen Webseiten holen, sondern von dem Server auf dem Yacy läuft, könnte für diesen Zweck ein Reverse Proxy genutzt werden, oder vielleicht sogar der Yacy-interne Cache, und wie kompliziert/aufwendig wäre die Konfiguration?

Statistik: Verfasst von David — Mo Jan 06, 2014 10:08 pm


Off-Topic • Re: Web hosting using bittorrent technology

Date: 2014-01-06 22:17:42

Some more informations about this issue were released yesterday on the torrentfreak site:

\ The goal is to create a browser-like client to circumvent censorship, including domain blocking, domain confiscation, IP-blocking. This will be accomplished by sharing all of a site's indexed data as P2P downloadable packages, that are then browsed/rendered locally.\

\ Another important change is that the new software will not use standard domain names. Instead, it will use its own fake DNS system that will link the site's name to a unique and verified public key. For example, within the application [bt://mysite.p2p/](bt://mysite.p2p/){.postlink} will load 929548249111abadfjab29347282374.p2p\


http://torrentfreak.com/how-the-pirate- ... od-140105/{.postlink}

Statistik: Verfasst von David — Mo Jan 06, 2014 10:17 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-06 23:22:21

an diesem Problem hängt eine Urheberrechtsfrage und eine Darstellung aus dem YaCy Cache wäre zwar nicht schwierig zu machen, aber nicht geignet für freien Zugriff aus dem Internet. Für eine Intranet-Abfrage aber ok.

Statistik: Verfasst von Orbiter — Mo Jan 06, 2014 11:22 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 00:00:27

[Danke für die Info\’s, Orbiter!]{style=“font-weight: bold”} Jetzt wird mir klar, warum der tatsächliche RAM-Verbrauch eine so \“schwammige\” Größe ist.

Bei dem Kick-Starter-Projekt bin ich, mit Verlaub, vorsichtig. Die schreiben

\ Currently the Core Raspberry Pi image is almost complete. Further refinement needs to take place for maximum efficiency. Once the core image is fine tuned, integration of the YaCy Software Stack will begin, \...\



:ugeek: So ein Image habe ich auch \“hinbekommen\“. Damit es überhaupt läuft, ist das doch alles noch Spielerei. Das sagt noch nichts drüber aus, ob es wirklich optimal ist. (Und nicht, wie bei mir aller 1..2 Tage neu gebootet werden muss.) Eigentlich müssten die Kollegen dort mit Dir in Kontakt sein, wenn es um\’s Feintuning geht. Oder? Sehen die denn in dem Quellcode so vollkommen durch? Und wenn ja: warum? Weil\’s der Chef gesagt hat? :D Wenn die eine Sicherheitsfirma sind, müssten die sich mit anderen Dingen befassen, als der freien Welt freie Suchtools zu entwickeln und das mit Snowden begründen. ... Ganz ehrlich: Worin soll die Geschäftsidee liegen? Beim Verkauf von SD-Karten? Der Raspberry ist doch viel zu schwach, um damit allein den Traum einer alternativen Suchmaschine zu verwirklichen. Wenn\’s ein Student wäre, der damit ein Kickstarter aufsetzt... Aber hier ist offenbar eine Firma im Spiel. ... Ich bin sehr misstrauisch. Es könnte YaCy auch schaden, wenn es zu Negativ-Publicity käme.

Ich weiß, ich bin immer ziemlich kritisch und paranoid. Am Ende geht\’s bei dem Projekt nur darum, Trittbrett zu fahren und Kasse zu machen.

Meine rein private Idee basiert eher auf der Leistungsfähigkeit eines CubieTruck (der ruhig zwei weitere Kerne haben könnte, wie mein Google-Nexus). Dort sind auch alle Quellen, insbesondere die Schaltpläne offen. Einen großen Nutzeffekt hätte man mit einem auf diese Art wirklich billigen Server, der folgende Aufgaben erledigen könnte: Klassischer NAS für Datanablage und Backup + Privater Cloud. Dazu eine Tor-Bridge und ein eigenes WLAN-Torinterface, bei dem man ähnlich dem Modell von Adafruit und Spiegel-Online mit dem RasPi (Onion Pi) den gesamten Traffic durch TOR sendet. Dazu arbeitet dann das Teil noch als YACY-Peer (nicht über Tor) + Private Webseite und (S)FTP-Server. Und natürlich OpenVPN -- Man könnte das auch mit einem NAS von Synology. Die sind gut kommentiert und haben eine große Community. Habe selbst zwei solcher Geräte. Aber die Hardware ist proprietär und auch die Oberfläche. Man bleibt von der Firma (und eventuellen Backdoors sowie Hardwareänderungen) abhängig. Auf Hardwarebasis eines CubieTrucks wäre das als offenes System machbar. Auch, wenn vom eigentlichen Hersteller nicht mehr supportet, ließe sich das durch die offenen Schaltplan-Design-Quellen weiterführen. Zumindest theoretisch.

Zumindest so \‘ne Träumerei von mir. ;)
Das Leiterplatendesign vom Cubietruck scheint keine \“schwarze Kunst\“. Für die hochfrequenz-kritischen Schaltungsteile gibt es immer Design-Vorschläge der Hersteller (LAN, USB, Monitor, WLAN...) Und es sieht mir nicht danach aus, dass der ARM bereits so schnell ist, dass die Leitungen zum RAM und zur Peripherie speziell auf Signallaufzeiten designt werden müssen. Sprich: Für das Design sind keine teuren Simulationstools notwendig und es kann jede normale \“Elektronik-Bude\” reproduzieren. Und auf EMV haben weder die Chinesen bei den Cubieboards noch die Entwickler des RaspberryPi geachtet. Dazu müsste es ein Gesamtdesign unter Einbeziehung eines abschirmenden Gehäuses geben. -- Das macht eben den Unterschied zwischen den Bastlerboards und den professionellen Motherboards aus. Ich hoffe, ich störe mit meinen 3 RasPis und einem CubieTruck den Fernsehempfang der Nachbar nicht. :o Ich selbst habe ja keinen Fernseher. ... Aber die können ja hier über Kabel gucken. Das ist geschirmt. :D

Statistik: Verfasst von fherb — Di Jan 07, 2014 12:00 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 00:17:28

Apropos RasPi:

Habe den [RasPi1 (mit SD-Karte) heute 2-mal booten]{style=“font-weight: bold”} müssen. *nerv*

Auf dem ist deutlich mehr freier Ram, als auf dem Hetzner62, da der Hetzner noch 80MB für das Tor-Relais braucht und von mir statt 250MB für den Heap (auf dem RasPi) nur 150MB bekommen hat. Hetzner läuft mit dieser Konfiguration seit einigen Tagen ohne Probleme. Warum nur, macht der RasPi immer Java-Heap-Memory-Fehler?

Meine aktuelle Annahme: Wegen des schwächeren Prozessors kommt der Garbage-Collector auf dem RasPi nicht so zum Zug, wie er sollte.

Ich muss zugeben: Ich habe vor wenigen Jahren mal einen Java-Grundkurs besucht, aber danach doch nicht die Gelegenheit gehabt, in Java zu programmieren. Ich verstehe das alles also leider nur ansatzweise. (Und YaCy als Entwicklungsergebnis von rund gut 10 Jahren scheint mir nicht geeignet, mich in Java einzuarbeiten. :( )

[Was sagt ein Java-Programmierer? : ]{style=“font-weight: bold”}Macht es Sinn, bei einem schwachen Prozessor den Heap kleiner zu dimensionieren, als der RAM eigentlich her gibt, damit der GC besser zum Zug kommt? Oder kann man anders tricksen?

Statistik: Verfasst von fherb — Di Jan 07, 2014 12:17 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 00:31:01

Aktueller Stand des Vergleichsservers bei Hetzner (512MB RAM, 1 Core):

Mit nur 150MByte Zuteilung für den Java-Heap, arbeitet der Server derzeit stabil. Knapp 2Mio Dokumente und 373 Tausend DHT-Wörter. Ich hatte einen Crawl mit maximal möglichen PPM laufen gehabt, der mir gestern das System zum Abschalten des Crawls und des DHT-Transfers geführt hatte. Neu gestartet und den Crawl auf 5 PPM beschränkt (niedrige Prozessorlast für Crawling), läuft er jetzt prima. Das Profil steht auf \“prefere DHT\” und \“use 200%\“.

Jetzt hoffe ich, dass dieser Server irgendwann ein Gleichgewicht schafft. Zwischen der Menge an gesammelten URLs und DHT-Wörtern und dem Speicher. Im Moment steigt die Zahl der URLs und sinkt die Zahl der DHT-Wörter seit mehreren Stunden.

Statistik: Verfasst von fherb — Di Jan 07, 2014 12:31 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-07 00:31:28

http://www.kommunauty.fr/alternatives-google/search/

Statistik: Verfasst von Orbiter — Di Jan 07, 2014 12:31 am


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-07 03:02:25

A Little Status update on the Proxy issue.

Status:
- [transparent Proxy]{style=“font-weight: bold”} - should work with


- same for the [URL Proxy ]{style=“font-weight: bold”}(/Proxy.html?url=...)

- the [remote Proxy]{style=“font-weight: bold”} function has not been worked on (so won\’t work)

Statistik: Verfasst von reger — Di Jan 07, 2014 3:02 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 09:12:30

fherb hat geschrieben:\ [Danke für die Info\'s, Orbiter!]{style="font-weight: bold"} Jetzt wird mir klar, warum der tatsächliche RAM-Verbrauch eine so \"schwammige\" Größe ist.\ \ Bei dem Kick-Starter-Projekt bin ich, mit Verlaub, vorsichtig. Die schreiben\ \ >
> > Currently the Core Raspberry Pi image is almost complete. Further > refinement needs to take place for maximum efficiency. Once the core > image is fine tuned, integration of the YaCy Software Stack will > begin, \...\ > >




Bin auch skeptisch was das angeht.
\“Die\” (scheint aber nur einer zu sein wenn man mal genau hinschaut) werden vielleicht einen guten Willen haben aber wie fherb hier schon des öfteren berichtet hat der Raspberry Pi stößt dabei an vielen Punkten einfach an seine Grenzen. Das Projekt würde meiner Meinung nach viel mehr Sinn machen wenn es auf dem Cubietruck basieren würde.

Statistik: Verfasst von Yududi — Di Jan 07, 2014 9:12 am


YaCy Coding & Architektur • Re: Jetty HTTP Server in YaCy

Date: 2014-01-07 09:30:06

Mein o.g. Problem hat sich übrigens mittlerweile erledigt.

Statistik: Verfasst von Low012 — Di Jan 07, 2014 9:30 am


Mitmachen • YaCy bei telefoniert-nach-hause.de

Date: 2014-01-07 11:13:48

Bei telefoniert-nach-hause.de{.postlink} wurde YaCy als Positivbeispiel (wie auch MetaGer{.postlink}) eingetargen, aber es gibt noch keinen richtigen Artikel. Ich habe im Moment leider keine Zeit dafür, aber vielleicht fühlt sich ja jemand berufen, dort einen Artikel zu schreiben oder zumindest einen Anfang zu machen.

http://www.telefoniert-nach-hause.de/index.php/Hauptseite#Suchmaschinenbetreiber

Statistik: Verfasst von Low012 — Di Jan 07, 2014 11:13 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 12:26:29

Ich habe beim YaCyPi auch Bedenken ob das so konfiguriert wird dass es nicht gleich aussteigt. Man muss vorsichtig Resourcengrenzen setzen und ggf. auch Funktionalitäten auslassen. Die haben da ja ein auf 25 Stück limitiertes 200\$-Angebot, bei dem man 2 fertig konfigurierte RPi bekommt, wobei der eine Crawlen soll und der \‘normale\’ YaCyPi das nicht macht. Insofern haben die schon gemerkt dass da die Luft sehr dünn ist.

Ich finde es schon mal prinzipiell gut, dass es dieses und vielleicht noch mehr Projekte von nicht- YaCy-Core-devs gibt. Es gibt keinen Grund für Neid auf kommerziellen Erfolg dort, jeder kommerzielle Erfolg würde wieder auf uns zurückfallen und die Türen noch weiter aufmachen. Wenn die durchkakluliert haben dass es sich für sie lohnt, in einem 4-Monatsprojekt für 10.000\$ rund 400 SD-Karten zu produzieren und es dafür Kunden gibt ist das gut. Die werden schon nicht irgendeinen Mist machen zum Abkassieren, dann dafür ist die Marge bei denen zu klein. Und wenn es dann nix wird fällt es nicht auf uns hier sondern auf das Kickstarter-Projekt zurück. Die wollen sich auch einen Namen machen und sich den nicht verderben. Ich bin auch durchaus weiter daran interessiert, einen YaCy-RPi selber hinzubekommen und da Arbeit rein zu investieren auch wenn es dann einem \‘anderen\’ kommerziellen Projekt hilft: ich verdiene ja auch Geld mit YaCy als Berater; jeder Erfolg und Vorzeigeprojekt mit YaCy bringt mir potentiell mehr Kunden.

Ich denke wir sollten die Gelegenheit nutzen diese YaCyPi-Leute zu unterstützen im Hinblick auf ein Peer-Wachstum; wenn diese 400 Peers permanent hinzukommen würden _und_ wir es schaffen dass die als (ggf. minimale) remote DHT Targets funktionieren, dann ist uns auch schon sehr geholfen! Hier fehlen zwei besondere Feature: Mentor+Mentee-Peers und Suchtarget-Bestimmung im Hinblick auf rapides Netz-Wachstum (nicht die neuen fragen, die haben noch nichts).

Statistik: Verfasst von Orbiter — Di Jan 07, 2014 12:26 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-07 16:55:24

Ich habe ihn mal gefragt und seine Antwort

\ Current tests show that 512MB is completely sufficient for running YaCy, as long as crawling and searching are not done on the same unit.\

Statistik: Verfasst von Yududi — Di Jan 07, 2014 4:55 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-07 17:01:58

Orbiter hat geschrieben:\ an diesem Problem hängt eine Urheberrechtsfrage\...\

Abgesehen von Yacy, machen das doch alle Suchmaschinen so, dass zumindest die Vorschaubilder auf den eigenen Servern gehostet werden. Und Hotlinking, so wie es Yacy im Moment macht, ist ja eigentlich auch nicht gerade die feine Art, oder?

Orbiter hat geschrieben:\ \...eine Darstellung aus dem YaCy Cache wäre zwar nicht schwierig zu machen, aber nicht geignet für freien Zugriff aus dem Internet.\

Warum nicht?

Statistik: Verfasst von David — Di Jan 07, 2014 5:01 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-07 17:09:20

David hat geschrieben:\ >
> > Orbiter hat geschrieben:an diesem Problem hängt eine > Urheberrechtsfrage\...\ > >

Abgesehen von Yacy, machen das doch alle Suchmaschinen so, dass zumindest die Vorschaubilder auf den eigenen Servern gehostet werden. Und Hotlinking, so wie es Yacy im Moment macht, ist ja eigentlich auch nicht gerade die feine Art, oder?

Orbiter hat geschrieben:\ \...eine Darstellung aus dem YaCy Cache wäre zwar nicht schwierig zu machen, aber nicht geignet für freien Zugriff aus dem Internet.\

Warum nicht?



Frage ist nur wo die ihren Sitz haben und wie groß deren Rechtsabteilung ist. Orbiter hat Recht in Deutschland macht einem das Urheberrecht da einen Strich durch die Rechnung. Ich dächte sogar die Regelung ist schärfer und auch das Einbinden von Bildern aus fremden Quellen ist nicht erlaubt weshalb ich die Bildersuche bei mir auch deaktiviert habe.

Statistik: Verfasst von Yududi — Di Jan 07, 2014 5:09 pm


Off-Topic • Look At Kung Fu Panda Two On The Internet For Absolutely Fre

Date: 2014-01-07 17:53:39

When the Nintendo Amusement Program was released to an American viewers in 1985, it arrived on the scene with eighteen launch titles. These cartridges basically delivered a outstanding assortment of gameplay choices having said that, they also furnished a noteworthy variance in excellent, with some being outright clunkers and others getting prompt classics.

The Dragon Claw is pretty well identified, with the Chinese believing that this design comes directly from the historical dragon. This style employs an open hand system that is applied for controlling the opponent by way of grabbing and throwing. Applying an open hand procedure, stylists could also use the fingers to poke as perfectly. Dragon Claw is pretty rapidly, incredibly tricky to protect versus - and practically not possible to forecast.

Purchasing in Hong Kong is an encounter that should not be missed by any person on a getaway hiking in China. Learn kung fu in china{.postlink}. Souvenir purchasing is taken to a complete diverse degree in this wonderful metropolis.

Kung fu Panda: The Match has 13 diverse concentrations that you can combat your way through with various playable people from the film. Kung fu{.postlink}. The match also has multiplayer mini-games for up to four players.

The video game progressed via five concentrations, each individual showcasing the very simple purpose of walking from a single close to the other, wherever the manager would be satisfied. Learn kung fu in china{.postlink}. In amongst, there have been enemies that ranged from senseless dozens of functioning foes to midgets, pot-birthed fire-breathing dragons, killer moths, and other oddities. The bosses every single needed more than 1 hit to eliminate, compared with most of the other enemies, with the exception of knife throwers that involves two.

I discovered previously this week that Samuel L. Jackson created some form of rally video for the Atlanta Falcons. I didn\’t trouble to watch it due to the fact, frankly, the Atlanta Falcons suck and so does Samuel L. Jackson.

Regretably, Pat Morita died in 2005, but he will without end be remembered by us 80s young children as Mr. The Nintendo Wii has totally revolutionised gaming platforms.
learn kung fu{.postlink}

Statistik: Verfasst von ErnestMr — Di Jan 07, 2014 5:53 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-07 18:49:36

\ Der u.a. für das Urheberrecht zuständige I. Zivilsenat des Bundesgerichtshofs hat erneut entschieden, dass Google nicht wegen Urheberrechtsverletzung in Anspruch genommen werden kann, wenn urheberrechtlich geschützte Werke in Vorschaubildern ihrer Suchmaschine wiedergegeben werden.\


Quelle: http://www.juraforum.de/recht-gesetz/bi ... den-375950{.postlink}

Statistik: Verfasst von David — Di Jan 07, 2014 6:49 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-07 19:48:45

Theorie Vs. Praxis
16:49 Uhr: YaCy indiziert Bilder auf der Webseite eines Fotografen wo die robots.txt es nicht verbietet
16:50 Uhr: Der Fotograf verbietet das Indexieren in seiner robots.txt
16:51 Uhr: Der Fotograf findet in der YaCy Suchmaschine sein Bild wieder wofür er zum jetzigen Zeitpunkt aber keine Erlaubnis erteilt hat denn die galt seiner Meinung nach nur solange wie es in der robots.txt nicht verboten war also bis 16:50 Uhr.

Frage mich hier wie man sich da verteidigen soll.

Statistik: Verfasst von Yududi — Di Jan 07, 2014 7:48 pm


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-07 21:14:41

die robots.txt ist irrelevant, die Rechtsprechung ist bei der Wiedergabe von Bildern ganz eindeutig: egal wie die Bilder erfasst, gespeichert, verändert, verfremdet, verzerrt, verkleinert oder vergrößert werden: wenn sie wieder publiziert werden ist es eine Urheberrechtsverletzung.
Meine Quelle dafür: ein Vortrag beim SuMa-eV Forum, da wurde das so dargestellt.

So weit ich weiss hat die robots.txt keine Rechtsbindung an irgendwas sondern ist nur ein \‘Anstandsmaß\’ an das man sich halten sollte.

Die einzige Ausnahme: Suchergebnisse mit Image-\‘Thumbnails\‘. Auch hier gibt es immer wieder die Frage, ob Google etc. nicht eine Urheberrechtsverletzung begeht, wenn die Bilder vom Server der Suchmaschine aus ausgeliefert werden. Nach nun über 15 Jahren Praxis mit Suchmaschinen-Thumbs ohne Verurteilung sollte eine Strafbarkeit dafür vom Tisch sein.

Statistik: Verfasst von Orbiter — Di Jan 07, 2014 9:14 pm


Fragen und Antworten • Remote Crawl -> Initiator bannen

Date: 2014-01-07 22:07:58

Servus zusammen,
der lokale Crawler \“meiner Seiten\” läuft; dachte aber so bei mir, andere Menschen andere Vorlieben und so habe ich den Remote-Crawler angemacht.

Irgendwie ist es ja interessant, was andere so crawlen; also den Abend über mal ab und zu geschaut:
Darunter ist ein Initiator, der halb-ilegale und ilegale Seiten indiziert, den möchte ich entfernen.

==> [Wie]{style=“font-weight: bold”} (absolut keine Lust einzelne Seite auf die Blacklist zu setzten) [\“blackliste\” ich einen Initiator, der bei mir \“remote-crawled\“?]{style=“font-weight: bold”}


P.S.: Och weiß, sehr viel [Denglish]{style=“font-style: italic”}, :ugeek:

Statistik: Verfasst von Bbig — Di Jan 07, 2014 10:07 pm


Mitmachen • Bitcoin wallet in YaCy?

Date: 2014-01-08 10:42:42

per twitter schreibt jemand:

https://twitter.com/Wolverineks/status/420227745436536832 hat geschrieben:\ \@yacy\_search integrate an easy way to tip the node with \#bitcoin and I\'m in!\



irgendwie glaube ich nicht dass genau das viel Netzwachstum bringt, finde die Idee aber irgendwie weder schädlich noch unspannend. Wer weiss was sich daraus entwickelt. Ich hab ja zurückgetwittert und nach Know-How zu https://code.google.com/p/bitcoinj/ gefragt, kennt das jemand?

Wie seht ihr das?

Statistik: Verfasst von Orbiter — Mi Jan 08, 2014 10:42 am


Mitmachen • Re: Bitcoin wallet in YaCy?

Date: 2014-01-08 10:54:45

Hahah! Coole Idee!

Ich denke nur, dass sich damit auch der Anreiz erhöht, Peers zu hacken. Ich bin beim Thema Bitcoin relativ unwissend, habe aber einen Kollegen, der schon recht lange dabei ist und wahrscheinlich entsprechende Werte angehäuft hat und der ist (möglicherweise zu Recht) ziemlich paranoid was das Ganze angeht.

<mode=\“Spinnerei\”>Damit wäre auch automatisches (freiwilliges) Micropayment für Suchergebnisse möglich. Ich könnte meinem Peer z.B. eine bestimmte Anzahl Bitcoins gutschreiben, um das Netzwerk als Ganzes zu unterstützen. Der Peer merkt sich dann, wie viele Ergebnisse er woher bekommen hat und schüttet anhand dieser Daten dann den Betrag aus.<mode>

Und gleich das Gegenargument: Dann würde aber natürlich jeder versuchen, möglichst viele Ergebnisse zu liefern, egal ob die nun gut sind oder nicht und versuchen, andere Peers so weit auszulasten, dass diese weniger oft/gut antworten können. Außerdem müssten Peers dann auch wirklich eindeutig identifizierbar sein.

Statistik: Verfasst von Low012 — Mi Jan 08, 2014 10:54 am


Mitmachen • Re: Bitcoin wallet in YaCy?

Date: 2014-01-08 11:03:59

Moment mal was ist damit eigentlich gemeint?
Ich kenne \“tip\” als Trinkgeld.
... Ein einfacher Weg also um den Knoten (wird wohl Peer gemeint sein) ein Trinkgeld zukommen zu lassen...
Gesetz dem Fall reicht es doch seine eigene Wallet-Adresse mit anzugeben in dem Support-YaCy Bereich den es heute schon gibt.
Man muss doch nicht 247 online sein um Kryptowährung zu empfangen.
Warum sollte man daher ein Wallet in YaCy integrieren?
Das ist auf meinem Heimcomputer doch viel sicherer.
Mir scheint er möchte eine Out-of-the-box-Lösung um YaCy zu monetarisieren.

Statistik: Verfasst von Yududi — Mi Jan 08, 2014 11:03 am


Fragen und Antworten • Stable YaCy

Date: 2014-01-08 14:54:31

Hi

I wonder if anyone have got YaCy to run stable? With stable I mean days / weeks without problems, and that YaCy are down only when it is shut down. If so, what kind of environment have it run in? Linux, Mac or Windows? What version of java (eg Open JDK / Java SE). Is it a dedicated machine? What kind of memory specs on the machine? And what kind of memory changes from the default setup have you done to java? (changes in javastart_Xmx and other tuning in the GUI)

---

Ich frage mich, ob jemand haben YaCy bekam stabil zu laufen? Mit stabiler ich meine Tage / Wochen ohne Probleme, und dass YaCy unten sind nur, wenn es heruntergefahren wird. Wenn ja, welche Art von Umgebung habe es in laufen? Linux, Mac oder Windows? Welche Version von Java (zB Open JDK / Java SE). Ist es eine spezielle Maschine? Welche Art von Speicherdaten auf der Maschine? Und welche Art von Speicher Änderungen aus dem Standard-Setup haben Sie getan, um Java? (Änderungen in javastart_Xmx und anderen Tuning in der GUI)

// David

Statistik: Verfasst von davidk — Mi Jan 08, 2014 2:54 pm


Mitmachen • Re: Bitcoin wallet in YaCy?

Date: 2014-01-08 15:46:40

Low012 hat geschrieben:\ Ich denke nur, dass sich damit auch der Anreiz erhöht, Peers zu hacken. Ich bin beim Thema Bitcoin relativ unwissend, habe aber einen Kollegen, der schon recht lange dabei ist und wahrscheinlich entsprechende Werte angehäuft hat und der ist (möglicherweise zu Recht) ziemlich paranoid was das Ganze angeht.\


Stimmt, es gibt da dann zusätzliche Gefahren. Kann man eigentlich mehrere \‘Wallets\’ haben und die Bitcoins umfüllen? Ich hab ja auch mein Gutaben auf einem Konto und nicht komplett in der Tasche

Low012 hat geschrieben:\ \Damit wäre auch automatisches (freiwilliges) Micropayment für Suchergebnisse möglich. Ich könnte meinem Peer z.B. eine bestimmte Anzahl Bitcoins gutschreiben, um das Netzwerk als Ganzes zu unterstützen. Der Peer merkt sich dann, wie viele Ergebnisse er woher bekommen hat und schüttet anhand dieser Daten dann den Betrag aus.\\


Dieses Modell ist wohl schon vor längerer Zeit gescheitert.

Low012 hat geschrieben:\ Und gleich das Gegenargument: Dann würde aber natürlich jeder versuchen, möglichst viele Ergebnisse zu liefern, egal ob die nun gut sind oder nicht und versuchen, andere Peers so weit auszulasten, dass diese weniger oft/gut antworten können. Außerdem müssten Peers dann auch wirklich eindeutig identifizierbar sein.\


Nee es handelt sich ja nicht um eine Bezahlung die \‘von oben regnet\’ wozu man eine Metrik für die Verteilung braucht, sondern die Idee des Twitterers war ja, das er selber dort für seine Tasche Spenden einsammeln kann. Das ist im Prinzip auch ok, das steht ja sogar im Default-Spendenbanner dran dass man das ruhig mit seinem eigenen austauschen kann.

Yududi hat geschrieben:\ Moment mal was ist damit eigentlich gemeint?\ Ich kenne \"tip\" als Trinkgeld.\


genau.

Yududi hat geschrieben:\ \... Ein einfacher Weg also um den Knoten (wird wohl Peer gemeint sein) ein Trinkgeld zukommen zu lassen\...\ Gesetz dem Fall reicht es doch seine eigene Wallet-Adresse mit anzugeben in dem Support-YaCy Bereich den es heute schon gibt.\ Man muss doch nicht 24/7 online sein um Kryptowährung zu empfangen.\


ja das stimmt eigentlich. Ist aber irgendwie nicht bequem. Nur zu schreiben: kann man ja seine Bitcoin Wallet-Adresse angeben wird nicht dazu führen dass das alle machen. Wenns drin ist, kann man damit leichter arbeiten.

Yududi hat geschrieben:\ Warum sollte man daher ein Wallet in YaCy integrieren?\ Das ist auf meinem Heimcomputer doch viel sicherer.\ Mir scheint er möchte eine Out-of-the-box-Lösung um YaCy zu monetarisieren.\


Ja genau, hab ich aber nichts dagegen.

Man könnte sogar einen Spendenknopf auf yacy.net machen, der automatisch die Bitcoin-Spende zu 1/<peerzahl> auf alle online-Peers verteilt? Aber dann sind wir wieder in der Nähe von Marcs <mode=\“Spinnerei\”> - Gedanke, wo man sich überlegen muss ob das so fair ist oder nicht. Aber irgendwie finde ich die Idee doch prickelnd. Aber auf jeden Fall muss das \‘ein anderer\’ einbauen, mit dem Bitcoinzeug will ich mich nicht zeitlich überwerfen.

Statistik: Verfasst von Orbiter — Mi Jan 08, 2014 3:46 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-08 23:37:12

I read this thread with translate.google.com, but sadly I cant speak German so my post will be in english (my school taught French). I apologize, but I hope you will be able to understand me. (Mods if you want to move this post, I understand)

I got an email from Michael, and have exchanged a few emails with him back and forth. He suggested I post here to get feedback from you.

As was mentioned in the Kickstarter campaign, I am a puppy linux developer. The ARM image that I am using is a custom Puppy Linux ARM build specifically for this task.
Here is a quick comparison between the OS resource usage between Rasbian and the Puppy Linux ARM image I\’m using.

http://q5sys.info/yacy/core-image-top.png
http://q5sys.info/yacy/core-image-df.png
vs
http://q5sys.info/yacy/raspbian-image-top.png
http://q5sys.info/yacy/raspbian-image-df.png

I will upload the base SD image this weekend, so you guys can start testing with it. Couple questions for you all. Which Java versions have you tried? There are five that Im aware of are, JDK6, JDK7, SE6, SE7, and EA8. I currently have tested the SE6 release, but I\’m going to try SE7 and EA8 this weekend.

I also wanted to be clear on one thing. [[I am not at any point planning on selling these commercially.]{style=“text-decoration: underline”}]{style=“font-style: italic”} The Kickstarter is only to defer the cost of the development time being spent on it instead of work + the cost of the reward level items. Once that is done and the supporter rewards ship, the image will be available for free download. If the YaCy group (that\’s you guys), want to sell SD cards with that image on it, you are more than welcome to. I might even be able to hook you up with a vendor if you choose to go that route. My goal is to help promote YaCy and get more people involved. Last night on Linux Unplugged, [ https://www.youtube.com/watch?v=XgZHSbfCGHA#t=1474 ] I said that even if my campaign fails, as long as it gets the word out about YaCy and it gets people interested and involved; I\’ll be happy.

If any of you have other ideas or suggestions, I would love to hear them. YaCy is a great product and I hope that it grows and becomes more popular.

fherb,
I\’d be interested to see what results you get with the base image I have. Would you be willing to test it on your end?

Statistik: Verfasst von q5sys — Mi Jan 08, 2014 11:37 pm


Mitmachen • Re: Android apk-Download Repositories + \‘old versions\’

Date: 2014-01-09 10:53:11

Erinnert mich an www.quixey.com{.postlink}

Statistik: Verfasst von Yududi — Do Jan 09, 2014 10:53 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-09 13:36:26

#YaCyPi geht jetzt mal um den Globus:
http://www.spidersweb.pl/2014/01/anonim ... terze.html{.postlink}
http://www.raspberrypithai.com/2014/01/ ... ch-engine/{.postlink}

Statistik: Verfasst von Orbiter — Do Jan 09, 2014 1:36 pm


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-09 20:22:09

Hi!

davidk hat geschrieben:\ I wonder if anyone have got YaCy to run stable? With stable I mean days / weeks without problems, and that YaCy are down only when it is shut down.\


If you have yacy up and running, you can browse to: Administration / Yacy Network / Active peers{.postlink} and then look at the uptime column to find out for how long the active peers are running. One seems to be online since 163 days. I think there was once a peer up for over a year, without downtime.

davidk hat geschrieben:\ If so, what kind of environment have it run in? Linux, Mac or Windows?\


In my opinion, it runs very well under linux. I\’m using the mint distro for my own yacy. http://www.linuxmint.com/

davidk hat geschrieben:\ What version of java (eg Open JDK / Java SE).\


I don\’t know. Some people say Java SE is faster, but I\’m using Openjdk, because it\’s open source and it\’s preinstalled in linux mint.

davidk hat geschrieben:\ What kind of memory specs on the machine? And what kind of memory changes from the default setup have you done to java?\


16 GB RAM installed in my computer, and in the performance settings of yacy I have set 8 GB. (The bigger your index gets, the more RAM it needs. As far as I know, with 15 GB of RAM you should be able to maintain an index with around 50 millions of links, but it also depends on other factors. However, If yacy runs out of RAM, it will crash and you probably wont be able to start it up anymore.)

Statistik: Verfasst von David — Do Jan 09, 2014 8:22 pm


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-09 20:52:15

Hallo!

So weit ich weiss, gibt es in Yacy keine Funktion, mit der man andere Peers blockieren kann. Dafür könntest du aber rein theoretisch eine Firewall bzw. IP-Blocker benutzten. Nur solltest du beachten, dass nicht nur via \“Remote Crawling\” potenziell unerwünschte Webseiten in deinen Index geraten können, sondern auch via DHT, sofern du dass in den Yacy-Netzwerkeinstellungen eingeschaltet hast. http://localhost:8090/ConfigNetwork_p.html

Statistik: Verfasst von David — Do Jan 09, 2014 8:52 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-09 23:43:21

Hi,
of course, we can also write in English here. translate.google.de is not the shortest way for communication. :)
Thanks for making of this contact, Yududi! Regards to q5sys!

When I shut down YaCy on RasPi, my Raspi shows only about 36kByte in RAM inclusive Swap file. Not more. But without WLAN.

State: Both RasPis doesn\’t work stable current (since 2 days). But I had no time to check the log\’s. Maybe the next days.

Both RasPis worked without crawling. Only DHT-Transfer. And I saw the last days that no more so much moving of URLs and words takes place. The correct numbers of URLs and Words will come the next days, when I have time to evaluate the current state.

Maybe some fine tuning is possible. But I can not real estimate the effects of the many parameters. The main problem seems the 100% load of the processor. I tried to reduce this by increasing the two DHT-times (20_dhtdistribution_busysleep and 20_dhtdistribution_idlesleep) by factor 10. Only, in order to see if this has some effects in load. But no.

Maybe Orbiter has some suggestions for such tuning points.

We could think about to share the tasks to more than one RasPi. Solr with the first one. YaCy crawling with the second one. Searching by the third... It\’s really an academic test. Since only 2 RasPis has about the costs of one CubieTruck. And this CubieTruck would have a SATA2 Interface. But this academic test with RasPi is despite interesting. It could be that we come into the same problems by using of a CubieTruck or similar boards. Only later. And later means that the tests for this would need much more time. I think, when we know how we have to tune YaCy on RasPi, so it will work with all kind of ARM boards.

And yes, of course, we can also take my RasPi\’s or the CubieTruck for some tests of other images. But I know too less of the inner part of YaCy to can evaluate the software deep enough.

Statistik: Verfasst von fherb — Do Jan 09, 2014 11:43 pm


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-10 00:08:41

Hallo David, danke für deine Antwort.

Irgendwie hatte ich gehofft, dass ich die Funktion, einen Peer zu blocken, übersehen hatte.
Es gibt so viele Einstellmöglichkeiten, aber daran hat keiner gedacht? Schade, :cry:.

[Prinzipiell geht es mir nicht darum, was schon im Index ist, sondern was von meiner IP aus gecrawled wird.]{style=“font-weight: bold”}
Warez && P0rn sind auch Internetseiten, und wer diese will, kann sie auch (einfach) finden. Aber bitte [ohne [meine]{style=“font-weight: bold”} (feste) IP]{style=“text-decoration: underline”}; traurig aber wahr, in der Internetära nach Snowden{.postlink} sollte sich jeder bewusst sein, das alles, wirklich alles im Internet auf den Inhaber zurückfällt und gespeichert wird. (Gerade auch mit einer festen IP).

IP-Blacklistung würde zwar gehen, könnte man auch mit sowas wie PeerGuardian / eventuell Easylist verbinden, aber ehrlich, ein einfacher Blacklist eines Peers wäre mir viel lieber. Klar, auch einfacher für mich.
Der Index soll ja ruhig viel vom Internet abdecken, nur ich mag nicht [diese]{style=“font-style: italic”} Seiten durchsuchen.

So bleibt für mich das Remote Crawlen erstmal aus und jeder, der es an hat, sollte sich gut überlegen, ob ihm das [recht ist]{style=“font-style: italic”}.
Gruß Bbig

Statistik: Verfasst von Bbig — Fr Jan 10, 2014 12:08 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-10 08:59:04

q5sys hat geschrieben:\ I also wanted to be clear on one thing. [[I am not at any point planning on selling these commercially.]{style="text-decoration: underline"}]{style="font-style: italic"} The Kickstarter is only to defer the cost of the development time being spent on it instead of work + the cost of the reward level items. Once that is done and the supporter rewards ship, the image will be available for free download.\



Just taking your remark as an opportunity:

I don\’t think anybody around here would have a problem with you exploiting YaCy commercially. As long as you (or anybody else) comply with the GPL there should be no problem. At least among the YaCy contributors I talked to, there seems to be a consensus that everything which helps to spread YaCy helps the project. Even if there is no direct monetary return flow it still increases the chance to improve the software due to increased feedback by third party developers and a growing user base as well as the chance to earn money and/or reputation for YaCy developers due to increased publicity caused by third parties using YaCy for their \“products\“.

Statistik: Verfasst von Low012 — Fr Jan 10, 2014 8:59 am


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-10 09:22:35

Ich weiß nicht, wie nützlich es wäre, Peers sperren zu können, weil man ja die Identität des eigenen Peers relativ einfach ändern kann. Wenn man will, sollte das mit wenig Aufwand (ein kleines Shell-Skript und cron sollten reichen) sogar automatisch möglich sein. Man muss ja eigentlich nur den Peer-Hash und den Namen regelmäßig ändern und die Blacklist-Maßnahme würde ins Leere laufen.

Ich habe letztens mal (aus einem anderen Grund) eine Abuse-Meldung meines Hosters bekommen, die ursprünglich von einem Honeypot-Betreiber kam. Um bei diesem Betreiber aus der Blacklist zu kommen, konnte man als Begründung auch angeben, dass der eigene Server ein Tor-Exit-Node ist. Es wäre schön, wenn das mit YaCy irgendwann genauso einfach wäre (und außerdem auch Rechtssicherheit gegeben wäre).

Statistik: Verfasst von Low012 — Fr Jan 10, 2014 9:22 am


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-10 10:28:30

Low012 hat geschrieben:\ \...die Identität des eigenen Peers relativ einfach ändern kann.\


ich hatte beim 30c3 ein langes Gespräch mit, ich sage mal einem (auch) Krypto-Guru (zur Zeit darf ich nicht sagen wer), der die Idee hatte, die YaCy Peer-hashes ähnlich wie bitcoins zu berechnen und damit etwas zu schaffen das nicht so einfach austauschbar ist. Damit neue Peers nicht ewig herumrechnen müssen, bekommen diese die Hashes von einem anderen Peer, der das schon auf Vorrat gemacht hat. Damit würde so etwas wie eine \‘Abstammung\’ und somit ein Vertrauensnetz aufgebaut werden. Das würde zumindest eine Metrik vorgeben, wie sehr ich einer Identität vertrauen kann.

Aber das nur am Rand. Ich kann schon verstehen dass Bbig \‘was einfaches\’ genügen würde. Meist spammen die Peers ja nicht derart agressiv herum sondern sind ggf. einfach nur \‘skurril\’ in ihrer Auswahl des Crawls. Da würde eine ganz einfache Peer-Hash-Liste (ein csv-Eintrag im config) reichen, um das zu filtern. Ist einfach, hat nur noch keiner gemacht...

Statistik: Verfasst von Orbiter — Fr Jan 10, 2014 10:28 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-10 11:10:42

I fully support what Low012 just wrote. I earn money with consultancy, now mostly about YaCy. I constantly meet new customers who are afraid that the \‘product\’ is not \‘enterprise-ready\‘, because it\’s not visible enough that there are many professional users. The more people are able to find customers for their work about YaCy, the better it is for everybody.

Let me give another example about kickstarter and free software development: I know the developer of the piratebox{.postlink} in person and when I discovered that there was as very successful LibraryBox Kickstarter Project{.postlink} (which is a great idea but just gives the piratebox a new branding) and fundet >1000% I was afraid that the money goes into the wrong hands. But what happend was, that the kickstarter project starter paid money to the piratebox maintainer for further development of the piratebox and thus that was all fine and good for everybody.

So lets turn back to the RPi: I strongly suggest to use fast SD cards with enough space, at least a 8GB class-10 card. There are such cards for only \$8.95{.postlink} and even beyond class-10 there are 30mb/s 8GB sd cards{.postlink} available for \$10.95. The pledge of \$25 for a fully configured card leaves enough profit to use such cards.

Has anyone experience with the full write speed to/from the SD card on the RPi? I made some tests on my RPi (see above{.postlink}) and the maxmimum speed was
8GB SanDisk Extreme Pro 95 MB/s SD HC Class 10:
1.5255Mb/sec, 97.63 Requests/sec

\@q5sys: please test your prototype with

Code:
sysbench --test=fileio --file-total-size=2G preparesysbench --test=fileio --file-total-size=2G --file-test-mode=rndrw --init-rng=on --max-time=300 --max-requests=0 runsysbench --test=fileio cleanup


and compare

Statistik: Verfasst von Orbiter — Fr Jan 10, 2014 11:10 am


Mitmachen • YaCy iOS App

Date: 2014-01-10 11:37:49

Wenn ich richtig tippe dann ist
https://github.com/duckduckgo/ios/archive/master.zip
die iOS App von DuckDuckGo.
Siehe: https://itunes.apple.com/de/app/duckduc ... 92361?mt=8{.postlink}
Falls mal jemand Zeit übrig hat kann man sich die mal vornehmen, etwas entschlacken und dann die Anfrage an DuckDuckGo gegen eine Anfrage an YaCy austauschen.
Vielleicht mach ichs auch selbst aber im Moment wenig Zeit.

Statistik: Verfasst von Yududi — Fr Jan 10, 2014 11:37 am


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-10 11:44:26

\@Orbiter
das ist ja genial mit der neuen Methodik der Hash-Kalkulation. Baut ihr das bald ein?

\@Bbig
Empfehlenswert wäre hier ein VPN-Provider (z. B. BTGuard oder ExpressVPN), dann braucht man sich auch keine Sorgen machen, was (remote) gecrawlt wird.

Statistik: Verfasst von LA_FORGE — Fr Jan 10, 2014 11:44 am


Fragen und Antworten • Frage Ex- und Import

Date: 2014-01-10 11:46:46

Hi,

ich habe bei einem meiner Peers den Index über die Seite IndexControlURLs_p.html exportiert (HTML, URLs with title). Wie importiere ich die jetzt am günstigsten bei einem anderen Peer?


Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Fr Jan 10, 2014 11:46 am


Fragen und Antworten • Re: Remote Crawl -> Initiator bannen

Date: 2014-01-10 12:42:12

LA\_FORGE hat geschrieben:\ das ist ja genial mit der neuen Methodik der Hash-Kalkulation. Baut ihr das bald ein?\


Das ist ein Unterthema eines Topics, das ich gerade aufbereite und hier bald zur Diskussion stelle.

LA\_FORGE hat geschrieben:\ Empfehlenswert wäre hier ein VPN-Provider (z. B. BTGuard oder ExpressVPN), dann braucht man sich auch keine Sorgen machen, was (remote) gecrawlt wird.\


..oder mullvad.net :mrgreen:

Übrigens kann man in YaCy ja auch einen remote Proxy definieren, das kann dann der vidalia tor-Proxy (lokal) sein. Besser noch: tor-über-vpn :twisted:

Statistik: Verfasst von Orbiter — Fr Jan 10, 2014 12:42 pm


Mitmachen • Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-10 12:52:51

..heisst nicht dass da aus meiner Sicht was bald kommt, aber, hm, sagen wir mal, es kann ja immer mal so was geben. Wie damals als YaCy 1.0 zu 8000 Peers geführt hat. Da war dann der Effekt da, dass diese Netz total leer war und remote suche nicht so toll funktionierte. Wir sollten uns wappnen für so einen Fall, damit die Suchergebnisse da dann auch funktionieren.

Dazu bitte hier eure Ideen. Ein Punkt von mir wäre:

- Alter eines Peers zur Peer-Auswahl hinzuziehen, ganz neue in der DHT-Auswahl nicht berücksichtigen, da diese ja noch nichts haben können

fallen euch dazu Metriken zur Bewertung ein? Ein Maß oder eine Heuristik die aussagt ob es sich lohnt einen remote Peer bei der Suche zu fragen?

Statistik: Verfasst von Orbiter — Fr Jan 10, 2014 12:52 pm


Fragen und Antworten • Re: Gemeinsamer Index von Raspberry Pi + Tower

Date: 2014-01-10 12:55:25

bitte gucke mal ins log, ob da was drin steht, und zwar bei YaCy und beim remote Solr

Statistik: Verfasst von Orbiter — Fr Jan 10, 2014 12:55 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-10 16:25:18

Haben wir in Solr-Anfragen schon einen Schutz gegen Massenanfragen?
Ich hab da länger nicht reingeschaut - mir war aber so als wäre das nicht eingebaut.
(ich meine das analog zu den \‘klassischen\’ remote-Anfragen)

Statistik: Verfasst von sixcooler — Fr Jan 10, 2014 4:25 pm


Mitmachen • Sysbenchmark

Date: 2014-01-10 20:10:57

I would also do some benchmarks. CPU performance and RAM access performance are finished, but I have a problem with SD-card and HDD:

I have mixed systems with OS on SD-card and YaCy on the same SD-Card or on a separate Hard Disk:

How can I say sysbench, which disk I wish to test? My OS is always on the SD-card. But the YaCy-Folder can be on a HDD (USB or SATA).

Frank

Statistik: Verfasst von fherb — Fr Jan 10, 2014 8:10 pm


Mitmachen • Planning for a good test environment

Date: 2014-01-10 20:38:43

Planning:

Since yesterday, I think about a better [test environment]{style=“font-weight: bold”} for reproduce-able results:

At work ( I work in a government research centre of Germany) I would have a Workstation what can simulate some web servers. This PC has a second Ethernet interface. So I could prepare a small closed network together with CubieTrucks and RasPis. With no other network traffic as that what YaCy produces.

But to prepare my workstation I need big test-web-sites with a lot of content what YaCy can crawl. [Do anybody know if such test-web-sites are prepared for downloading?]{style=“font-weight: bold”} I could crawl and download some web sites like wikibooks.org or wikipedia.org. But, at first It would produce senseless traffic for this sites and this is not really effective as a download of a prepared web-site for such test purposes.

[The second way: We would find YaCy users which operate with an own web site and YaCy as search engine. Maybe such an user could pack an image of his web site for such tests.]{style=“font-weight: bold”}

Do anybody can help or do anybody knows persons which can help to give an image of such a big test-web-site?

Best regards, Frank!

Statistik: Verfasst von fherb — Fr Jan 10, 2014 8:38 pm


Mitmachen • Help: We need a big web-site for test purposes!

Date: 2014-01-10 20:57:59

Dear colleagues!

I plan a test of YaCy on ARM hardware in a special test environment. The aim is to get reproducible results independing on provider and server load. YaCy on ARM boards should show time performance and critical situations.

What I need is the content of some big web-sites. In order to hold this simple, these web sites should not come from a content management system or similar dynamic systems. It should be consist of [static content]{style=“text-decoration: underline”}.

The second way is to crawl a dynamic content system in order to produce a static mirror content for these test purposes.

[Can anybody help?]{style=“font-weight: bold”}

Either with an image of some static content or with some acceptance to crawl his content via Internet for one time to get such an image.

Best regards, Frank.

Reason for this: Read this: http://forum.yacy-websuche.de/viewtopic.php?f=15&t=3363&start=50#p29424

Statistik: Verfasst von fherb — Fr Jan 10, 2014 8:57 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-10 22:29:53

Orbiter hat geschrieben:\ - Alter eines Peers zur Peer-Auswahl hinzuziehen, ganz neue in der DHT-Auswahl nicht berücksichtigen, da diese ja noch nichts haben können\ \ fallen euch dazu Metriken zur Bewertung ein? Ein Maß oder eine Heuristik die aussagt ob es sich lohnt einen remote Peer bei der Suche zu fragen?\



Mal angenommen es wird eine Metrik dergleichen eingeführt.
Wir legen also eine Ordnung auf alle Peers auf Grund des Alters.
Dann greifen im besten Fall alle circa 8.000 genannten Peers auf immer den/die gleichen zu.
Stellt das hier kein Problem in genau dem Sinne dar wie man es umgehen möchte oder was ist damals genau mit den 8.000 Peers passiert?
Evtl. kannst Du mal kurz den Flaschenhals genauer beschreiben an dem es gehakt hat.

Statistik: Verfasst von Yududi — Fr Jan 10, 2014 10:29 pm


Mitmachen • Re: Help: We need a big web-site for test purposes!

Date: 2014-01-10 22:37:12

1 HTML page with a lot of content or several pages with a lot of content?
Maybe just create a textfile based on random words.

Statistik: Verfasst von Yududi — Fr Jan 10, 2014 10:37 pm


Mitmachen • Re: Help: We need a big web-site for test purposes!

Date: 2014-01-10 22:58:16

:D
Thanks! Yes. This is a cheap possibility. ;)
But this would not be a copy of a typical search, parse and index process.

At first, we need not only documents of sensless content, we need also links between this content. So the program to produce this must have more intelligence in order to produce typical links as in blogs or forums. The test should use typical content with typical content structures. Not a structure by accident.

And, I hope, that the search result of a modern search machine is not only a cheap statistic result of words in an ocean of words in an ocean of pages. (1)

I think, we should test with human content. :ugeek:

(1) Maybe YaCy is not more in the moment. So we should optimize the indexing, the kind of distribution between Peers and the kind of interpretation of human search strategy and what kind of result the human user expects.

Statistik: Verfasst von fherb — Fr Jan 10, 2014 10:58 pm


Mitmachen • Re: Help: We need a big web-site for test purposes!

Date: 2014-01-10 23:06:24

An additional thought to (1): What I know about YacY is, that YaCy collects an index of words of pages. But not yet an [index of relevance]{style=“font-weight: bold”}. Or? This is a big difference to Google. And I think: This is the most difficult part of a modern search engine.

Statistik: Verfasst von fherb — Fr Jan 10, 2014 11:06 pm


Off-Topic • Re: Bundeszentrale für politische Bildung

Date: 2014-01-11 17:06:14

Schon, aber was wird da wohl schon Großartiges drin stehen. Alles zensiert :D

Statistik: Verfasst von Yes — Sa Jan 11, 2014 5:06 pm


Off-Topic • Re: Big Data bei Google

Date: 2014-01-11 17:07:42

Solche Pisser, ist doch krass!

Statistik: Verfasst von Yes — Sa Jan 11, 2014 5:07 pm


Off-Topic • Re: Spam

Date: 2014-01-11 20:36:53

Ich habe zufällig genialen Spam hier im Forum gefunden.

viewtopic.php?f=6&t=3063&p=21296{.postlink-local}

Da wird ein normaler Beitrag gepostet, und 1 Jahr später zu Spam editiert! Sowas fliegt wahrscheinlich sehr selten auf.

Statistik: Verfasst von Lotus — Sa Jan 11, 2014 8:36 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-11 20:51:53

Man könnte einen Selektor bauen, der aktiv wird, sobald das Median-Alter der Peers gleich oder nur wenige Tage älter ist als das Median-Alter der Peers in der unteren Hälfte.

Ob es sich lohnt, einen Peer anzufragen, könnte man auch aus dem Wert er empfangenen Links/Wörter generieren. Die zählt ja jeder Peer für sich. Wenn ein Mindestmaß empfangen wurde, lohnt es sich, ihn abzufragen.

Statistik: Verfasst von Lotus — Sa Jan 11, 2014 8:51 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-12 00:23:33

https://plus.google.com/+DavidInglehart ... VFNPzDjHAE{.postlink} (achtung: G+ :o )

Statistik: Verfasst von Orbiter — So Jan 12, 2014 12:23 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-12 00:43:30

[I\’m completely confused:]{style=“font-weight: bold”}

Today in the afternoon I started YaCy on both RasPis again in the state of the last days (no reset of DATA-directory!). Both RasPis made problems last days. Today, RasPi1 was working only for 3 hours. After this time no more reaction via web front end. (But YaCy was running as \“top\” shows.) The RasPi2 is working since this start without any problems.

Now, at midnight, I would prepare a documentation about these RasPis. But during I visited the working of the ARM via htop and via web front end: Suprise! Suprise!

It seems, that RasPi 1 made a automatic restart in this moment: Not the operating system was restarted. And not YaCy by me. But: the web front end is working now. And the status shows a diagram what looks like a restart. It is not really a restart. But now I get answers via web! Hours after the last reaction via web! The state information of the web front end: DHT-Transfer was stopped from RasPi1.

But it\’s not the best state, how the log of RasPi1 shows:

Code:
java.lang.IllegalStateException: STREAM



or

Code:
java.lang.NullPointerException



And RasPi2 shows similar problems:

Code:
java.lang.IllegalStateException: STREAM



And now I get no response from RasPi2 via web front end! But RasPi1 get response.

RasPi1 uses 310Mbyte RAM and RasPi2 353MByte. There is some space free. CPU load is around 100% in the last minutes. But 10 minutes ago it was very changing between 20% and 90%.

Ok: I will let both RasPis in this running state. We will see what will happens next time.

Regards!

Statistik: Verfasst von fherb — So Jan 12, 2014 12:43 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-12 01:53:42

Here is the base image link: http://q5sys.info/yacy/yacypi-base.4gb.img.xz
ssh password: [woofwoof]{style=“font-style: italic”}
Simply unxz it to a directory and then use dd to burn it to an SD card. I used the default dd block size. After you\’re done make sure you run \‘sync\‘.
If you find you need something installed that is not, find the package link on your computer with the debian armel repo. ssh into the RPi and wget the package address. Then use \”[dpkg-deb -x packagename.deb /]{style=“font-style: italic”}\” to install the package, you can then delete the package.

I dont think disk IO is the biggest issue. You can technially run YaCy completely off a USB device attached to the Pi. So if we find that writing to a SD card is to slow to properly work with YaCy, we can simply offload the YaCy install to /dev/sda. Of course if we are doing that, we can go even further and load the entire OS off a USB. This also completely renders the issue of SD card size as irrelevant.
It\’s actually quite simple. Once you burn your SD card with the above image, burn it again to a USB device. (size doesnt matter). Open the USB drive in gparted and expand the 2nd partition to fill the drive. Since we are using a USB with higher IO we can also add a Swap partition as well.
Once the SD card image is burned to the USB stick and its properly expanded with gparted, go back to your SD card, and edit the cmdline.txt so that \”[root=/dev/mmcblk0p2]{style=“font-style: italic”}\” now reads \”[root=/dev/sda2]{style=“font-style: italic”}\“. Plug both into your RPi and reboot. The system will read the boot info off the SD card and then load the root FS off the usb drive.
So SD card IO limits should be able to be side stepped if we run into a problem with them.

That is not however where I feel the problem is.
Here are four screen caps of a sample test of a single search:
System before the search @ 21:07:23 : http://q5sys.info/yacy/11jan14-pre.png
System during the search while the page is rendering @ 21:07:55 : http://q5sys.info/yacy/11jan15-during.png
System after the results page has finished rendering @ 21:08:08 : http://q5sys.info/yacy/11jan16-during2.png
System after CPU has dropped back down @ 21:10:20 : http://q5sys.info/yacy/11jan16-post.png

The search itself didnt take very long, in total around 20~30 seconds. However there was a large window of time after the system had presented the results till the system went back to idle status.
If we look at the load levels, we can see that the RPi is loading up initially and that\’s bogging down the system.
Load averages are at - 1min, 5min, 15min.
During search @ 21:07:55 - 2.39, 0.70, 0.34
After search @ 21:08:08 - 6.33, 1.70, 0.68

So the biggest performance hit is coming after the search has completed. Also if you look at the memory ranges, its not due to low RAM. And mpstat would suggest it\’s not due to the system waiting for data IO. Whatever YaCy is doing in the background after a search has been completed is whats causing the performance to be low overall.
Not knowing exactly what YaCy is doing at this point, I guessing this is where we need to focus on improving performance. It may require us to lower certain levels from where they are currently at, specifically (and only) for use on a RPi. I myself never browse beyond the first three pages of results when I\’m searching the internet. If I cant find what I\’m looking for in those pages, I go back and refine my search.
How would everyone feel about lowering the number of results down from 300 to say 60 or 100? I am suggesting this [only]{style=“font-weight: bold”} for using YaCy on a RPi.

fherb,
You are not getting you\’re RPi to run for more than a few hours? In those photos above you can see mine have been running for almost 4 days without issue. Sometimes if I try to search too often they will go unresponsive, but if I just let them sit, they will eventually work through the processes and then be ready to search again. I prefer htop for overall system performance monitoring, but top is better for diagnosing because of the multiple load averages it gives. It gives you a better idea of what\’s going on overall.

All,
This week I will try to test multiple Java implementations to see which preforms the best on the RPi base image.

Statistik: Verfasst von q5sys — So Jan 12, 2014 1:53 am


Fragen und Antworten • Re: A Few Tips for Windows Peers/Servers +

Date: 2014-01-12 13:05:03

[If you have just a Windows box just for yacy]{style=“font-weight: bold”}, compress the hdd in advanced properites.
I did it to my disposable one and the gain on the YaCy home page external load time was about 20% boost.

Do a before and after test at http://www.webpagetest.org/ make sure to choose your location correctly. it will give some idea of how well your system is performing.

On My old P4 3 G as a Base Line for everyone to go by, no I am not going to put yacy on old P2.
I will say that on normal hdd space I had a load time of 8.1 seconds
When using compression on hdd space it was approx 6.1 seconds.

Will continue further testing with Java VM of 1200 mb.

Statistik: Verfasst von smokingwheels — So Jan 12, 2014 1:05 pm


Fragen und Antworten • YaCy in BOINC environment

Date: 2014-01-12 14:53:46

Hi,

I\’m currently involved in few BOINC based projects and would like to use YaCy as client application for one of it, but there is few problems.
I would like to create virtual machine with (let\’s say) 5GB of space and distribute it to min. 500-800 users and more than 1000 computers. Unfortunately, YaCy require port forwarded to it.
I know, that I can use proxy for it - but how to do it?
Also, 5GB is not a large space for index - so the question is if it will be useful for YaCy network?
Other solution possible is to fork YaCy as BOINC client application, but I don\’t have enough knowledge to do it...

Anyway. It will be very helpfully to create English section on forum, as most users don\’t speak German...

Statistik: Verfasst von krzyszp — So Jan 12, 2014 2:53 pm


Mitmachen • How to beat Google?

Date: 2014-01-12 17:51:05

Hi,

would like to use this thread to collect all your ideas on:
\“How to beat Google?\”

Surely not physical but the quality of a search result.
YaCy is a P2P search engine that causes some limitations and the results of a search could still be improved.

I don\’t care if your ideas sounds crazy for yourself or not.
Think about it and share your ideas here.

Regards

Statistik: Verfasst von Yududi — So Jan 12, 2014 5:51 pm


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-12 18:24:48

Is this question related to YaCy or to BOINC?
I just know how distributed computing works but dont know how the tool BOINC was created by their developers.

Statistik: Verfasst von Yududi — So Jan 12, 2014 6:24 pm


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-12 18:48:29

Is related to both ;)
I would like just to get answer from YaCy developers how to solve lack of static IP\’s on client computers (through proxy? other way?) and get feedback if this have any sense to create loads of peers with limited space on their hdd\’s.

Statistik: Verfasst von krzyszp — So Jan 12, 2014 6:48 pm


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-12 23:27:08

Hi krzyszp,
The usage of BOINC is a very good idea in principle, but there is a difference in between what BOINC is (as far as I know) an what YaCy does: BOINC is distributed computation and YaCy is about distributed storage. From your post I learn that BOINC has storage limitations for their projects? If yes, then we would need to plan what is the right way to handle that situation, it would be very similar to the YaCyPi project where there is just limited space on a SD card.

The other problem you address is the port forwarding task the user has to do. We have a uPNP component in YaCy but I believe in most cases it does not work. There should be a development team around that problem to solve it: is there anybody who has experience with uPNP?

Statistik: Verfasst von Orbiter — So Jan 12, 2014 11:27 pm


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-12 23:50:11

BOINC haven\’t storage limitations itself but as BOINC project maintainer I would like to keep users save from unexpected computers behaviour (e.g. fill system drive with only YaCy data). Also because YaCy isn\’t simple application and need to be installed I found that simplest way is to provide Virtualbox machine with YaCy preinstalled and with space limit (5GB in this example, but of course I\’m opened for discussion).
There is two main problems IMHO:
1. Opening 8090 (or other) port in network - also, some users can setup few computers in their network, so YaCy should find other instances in local network. UPNP doesn\’t work in my home network, so I found this service as unreliable. Possible solution will be make YaCy independent from port forwarding and truly P2P - but I don\’t have knowledge how to do this.
2. Reliability and stability. Unfortunately, on virtual machine created by me, YaCy not always start correctly... Is any chance that YaCy developers will try to play with Virtualbox to create reliable YaCy server?

Keep in mind, that in this circumstances we not require any front or back-end for it - all parameters can be hard coded in virtual machine or (better) will be downloaded from our (my) server and YaCy will be prepared only as remote crawler. I hope this can simplify developers work...

Statistik: Verfasst von krzyszp — So Jan 12, 2014 11:50 pm


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-13 00:19:32

krzyszp hat geschrieben:\ BOINC haven\'t storage limitations itself but as BOINC project maintainer I would like to keep users save from unexpected computers behaviour (e.g. fill system drive with only YaCy data). Also because YaCy isn\'t simple application and need to be installed I found that simplest way is to provide Virtualbox machine with YaCy preinstalled and with space limit (5GB in this example, but of course I\'m opened for discussion).\


Thats a good way to handle that.

krzyszp hat geschrieben:\ There is two main problems IMHO:\ 1. Opening 8090 (or other) port in network - also, some users can setup few computers in their network, so YaCy should find other instances in local network. UPNP doesn\'t work in my home network, so I found this service as unreliable. Possible solution will be make YaCy independent from port forwarding and truly P2P - but I don\'t have knowledge how to do this.\


\“truly P2P\” is always a \‘hack\’ to tunnel \‘somewhere\‘. We have a concept to use other YaCy peers as gateways for this (the Mentor and Mentee concept) but there was no time yet to implement that. However, this would also rely on \‘true\’ senior peers.

krzyszp hat geschrieben:\ 2. Reliability and stability. Unfortunately, on virtual machine created by me, YaCy not always start correctly\... Is any chance that YaCy developers will try to play with Virtualbox to create reliable YaCy server?\


I tried that for some time, but the main problem is here not stability but the size of the VM image; I did not succeed in making images below 500MB. I know that this is not a big problem to download that, but it is a big problem for me to upload this to a download location ... :x

krzyszp hat geschrieben:\ Keep in mind, that in this circumstances we not require any front or back-end for it - all parameters can be hard coded in virtual machine or (better) will be downloaded from our (my) server and YaCy will be prepared only as remote crawler. I hope this can simplify developers work\...\


Yes, it\’s a good concept.

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 12:19 am


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-13 00:28:33

Sehr gute Ideen! fasse kurz zusammen:
- solr DOS-Schutz
- Vermeidung dass eine Alters-Regel sich als ein DOS auf \‘alte\’ Peers auswirkt
- Erkennung dass ein agressives Peer-Wachstum stattfindet anhand einer Median-Heuristik
- erweiterte geschätzte Kosten/Nutzen-Heuristik bei der Anfrage eines Remote Peers anhand Indexgröße.

Apropos agressives Wachstum: was ist denn heute Abend passiert? lt. http://www.yacystats.de/network,location48.html sind da ausschliesslich aus dem Bereich GMT+08:00 viele Peers dazugekommen. Und es sind alles \‘frische\’ compiles, und alle die gleichen. Und mein piwik meldet keine Besonderheit. Das ist merkwürdig. NSA?

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 12:28 am


Fragen und Antworten • Re: YaCy in BOINC environment

Date: 2014-01-13 00:30:27

So, then we are on point where we approve, that (maybe) good solution will be a tunnel to my \‘main\’ YaCy server?
Also, as I seed - target vm will be 5GB file at the start and will be same for all clients.

I will really appreciate if YaCy developers helps to create this vm image. Also I have space on my ftp to keep it (always you can use torrent to upload it, as it is not a commercial/closed software).

Statistik: Verfasst von krzyszp — Mo Jan 13, 2014 12:30 am


Hilfe für Einsteiger und Anwender • Anfänger-Frage zum Betrieb / Crawlen / Recht

Date: 2014-01-13 09:00:15

Ich bin seit dem Wochenende Anwender von Yacy, und hab zu folgenden Fragen keine bzw. keine eindeutige Antwort im Wiki gefunden:

Ist es zwingend notwendig, unter http://localhost:8090/CrawlStartSite_p.html eine Start-URL einzugeben?
- Was ist der Vorteil?
- Sollte man mehrere URL eigeben?
- Was habt ihr dort eingetragen?

Wenn man nichts einträgt, beginnt Yacy trotzdem mit dem crawlen?
- oder berücksichtigt Yacy \“beim surfen\” automatisch welche Seiten ich besuche, um diese in den Index aufzunehmen?
- muss ich dazu was einstellen?

Rechtliches:
- Wenn der Peer nicht von aussen erreichbar ist, kann es im Extremfall rechtliche Probleme geben, wenn ich den Crawler auf Reise schicke?
- Wenn der Peer von aussen erreichbar ist, wie sieht es dann aus? Könnte man urheberrechtliche Probleme bekommen? Der Webmaster kann zwar mit robots.txt bestimmen was gecrawlt werden dard, aber man weis - vor allem in Deutschland - ja nie ...
- gibt es hierzu Literatur oder sonstige Hinweise, wo man sich einlesen kann?

Viele Grüße
Dino

Statistik: Verfasst von dino — Mo Jan 13, 2014 9:00 am


YaCy Coding & Architektur • YaCy im Anti-Virus Alert?

Date: 2014-01-13 10:00:42

Hab eben eine Mail bekommen, dass in der YaCy.exe ein Virus sei. Ich habe die exe unter debian mit \“ant clean all distWinInstaller\” compiliert und halte das daher für virenfrei.
Screenshot_2.jpg
so sieht das aus. Dieses Aler kommt offenbar vom \“DELL/Sonicwall Gateway-Antivirus\“, auf deren Homepage schreiben sie auch noch was vom \“Dell SonicWALL Server Anti-Virus McAfee\“, aha, da ist nun der MacAfee gelandet.

Was nun? Sind wir jetzt auf der NSA-Watchlist oder warum bekommen wir das nun aus heiterem Himmel? Ideen?

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 10:00 am


Hilfe für Einsteiger und Anwender • Re: Anfänger-Frage zum Betrieb / Crawlen / Recht

Date: 2014-01-13 10:31:25

Hallo Dino, willkommen!

Deine Fragen:

- Ist es zwingend notwendig, unter http://localhost:8090/CrawlStartSite_p.html eine Start-URL einzugeben?
nein. Aber das ist die Quelle dessen was du und alle anderen finden können. Würde das niemand machen, gäbe es keine Inhalte. Du kannst hier mitbestimmen was im Index ist. Genau da. Wir können dir nicht vorgeben welche Inhalte du da eintragen sollst, das soll ja mit Absicht nicht durch uns gelenkt werden. Du bist derjenige der den Inhalt lenkt!

- Wenn man nichts einträgt, beginnt Yacy trotzdem mit dem crawlen?
nein

- oder berücksichtigt Yacy \“beim surfen\” automatisch welche Seiten ich besuche, um diese in den Index aufzunehmen?
nein, nur wenn du YaCy als proxy im Browser konfigurierst. Aber auch das musst du nicht machen.

- Wenn der Peer nicht von aussen erreichbar ist, kann es im Extremfall rechtliche Probleme geben, wenn ich den Crawler auf Reise schicke?
Wir können dir hier keine Rechtsberatung geben, nur eine Meinung. Das hat erst mal nichts mit \‘von aussen erreichbar\’ zu tun. Meine Meinung: bislang gibt es in Deutschland keinen mir bekannten Fall, wo das \‘surfen\‘, also Herunterladen von Webseiten ein Rechtsverstoss entstehen kann. Allerdings ist dieser Zustand nun durch diesen RedTube-Fall ein wenig in Schieflage geraten; wenn der Gesetzgeber hier nicht bald mal Klartext redet ist es kein Wunder dass alle verunsichert sind. Auch das Thema Vorratsdtenspeichung und Websperren wären \‘Makel\’ an dieser Situation. Mit anderen Worten: ich weiss es nicht. Oder anders ausgedrückt: wenn das, was Google macht nicht jeder Mensch auch darf, dann ist hier was falsch.

- Wenn der Peer von aussen erreichbar ist, wie sieht es dann aus? Könnte man urheberrechtliche Probleme bekommen? Der Webmaster kann zwar mit robots.txt bestimmen was gecrawlt werden darf, aber man weis - vor allem in Deutschland - ja nie ...
Es gibt m.E. nach keinen Zusammenhang zwischen robots.txt und Urheberrecht. Es ist sogar so, dass natürlich jede Webseite dem Urheberrecht des Urhebers unterliegt, so definiert sich das so. Du darfst nie das, was jemand publiziert, einfach unter eigenen Namen wieder-Publizieren, es sei denn, der räumt dir das Recht dazu ein. Das macht aber die robots.txt nicht. Eine Ausnahme zum Urheberrecht stellen die \‘Snippets\’ (Suchtrefferanzeige) dar, die rechtlich gesehen Kleinzitate{.postlink} sind.

- gibt es hierzu Literatur oder sonstige Hinweise, wo man sich einlesen kann?
Zum Urheberrecht im Umfeld von Suchmaschinen? Das wüsste ich auch gerne. Wer weiss mehr?

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 10:31 am


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-13 10:37:41

Orbiter hat geschrieben:\ Apropos agressives Wachstum: was ist denn heute Abend passiert? lt. sind da ausschliesslich aus dem Bereich GMT+08:00 viele Peers dazugekommen. Und es sind alles \'frische\' compiles, und alle die gleichen. Und mein piwik meldet keine Besonderheit. Das ist merkwürdig. NSA?\



Ich würde das nicht GMT+08:00 zuordnen.

Bildschirmfoto 2014-01-13 um 10.30.23.png

Ich muss sagen ganz genau kann ich es auch nicht bestimmen. Ich habe es gerade mit einer Farbsonde probiert aber finde die Farbe des Bereichs mit der Flanke nicht exakt in der Legende wieder. Ich würde an der Stelle raten und auf Europe/es tippen.

In meinen Logs sehe ich sehr viele Domengo-Server zum Teil mit der Nummer 109 (höchste). Gut möglich Domengo hat aufgestockt zumal unter https://www.domengo.de/fragen.asp jetzt was von 52 steht waren das nichtmal um die 30-34? Kann sein die Zahl ist auch nicht mehr aktuell und jetzt doppelt so groß.

Statistik: Verfasst von Yududi — Mo Jan 13, 2014 10:37 am


Hilfe für Einsteiger und Anwender • Re: Anfänger-Frage zum Betrieb / Crawlen / Recht

Date: 2014-01-13 10:44:56

Mal ein Vorschlag weils passt:
Man könnte sich doch mit Suma e.V. zusammentun und einen Fond gründen wenn es rechtlich möglich ist in dem YaCy Betreiber und Freiwillige etwas einzahlen können vielleicht sogar jedes Jahr mit Dauerauftrag einen kleinen Betrag. Sollte dann irgendwann irgendein YaCy Mitglied einmal rechtlich belangt werden könnte der Fond benutzt werden. Und wenn es dann noch eine stillschweigende Vereinbarung gibt wo sich alle YaCy Betreiber in dem Fall gegenseitig helfen das wäre prima.

Statistik: Verfasst von Yududi — Mo Jan 13, 2014 10:44 am


YaCy Coding & Architektur • Re: YaCy im Anti-Virus Alert?

Date: 2014-01-13 11:09:14

Ich habe die Datei mit Avira Mac Security gescannt und bekomme angezeigt: \“Keine Gefahr\“.
Bitte zu dem Ergebnis aber unbedingt die Checksumme hinzuziehen damit man relativ sicher gehen kann es ist die gleiche Datei (Stichwort: Quantum Insert)
shasum -a 256: 08323ffb30d225f8479641ae26a4cc72f5876975911a5489c72b9c39e5aacd0c

Vielleicht hat jemand grad noch Kaspersky und/oder Bitdefender installiert und kann das bei sich mal testen und dann bitte auch die Checksumme vergleichen. Was die NSA angeht ist man mit östlichen Virenscannern da bestimmt nicht schlecht beraten und je mehr Virenscanner Entwarnung geben umso besser.

Kann sein der Virenscanner mit der Meldung YaCy.exe ist ein Virus irrt sich. Für viele Viren gibt es nur ein Erkennungsmuster und wenn das auch in normalem Code enthalten ist dann \“Alarm\“.
Vor ein paar Tagen: http://www.heise.de/security/meldung/Fa ... 78962.html{.postlink}

Zu McAfee sag ich lieber nichts.
Der Firmengründer selbst bezeichnet McAfee als die schlechteste Software auf dem ganzen Planeten
http://www.onlinekosten.de/news/artikel ... ogo-bleibt{.postlink}
und mir war so auch mal was mit McAfee in Verbindung mit Snowden gelesen zu haben.

Statistik: Verfasst von Yududi — Mo Jan 13, 2014 11:09 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-01-13 11:18:55

https://searx.0x2a.tk/

metasuche mit netten Quellen (piratebay,soundcloud,twitter,vimeo,youtube,urbandictionary,deviantart,flickr,dailymotion,github,stackoverflow,startpage,duckduckgo) :D

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 11:18 am


YaCy Coding & Architektur • Meta-Such plugins für YaCy Heuristiken

Date: 2014-01-13 11:26:20

#searx{.postlink} hat seinen Source Code auf github und macht somit vor, wie man eine nette Metasuche auf verschiedensten Quellen machen kann:
https://github.com/asciimoo/searx/tree/ ... rx/engines{.postlink}

Das wäre die Gelegenheit, diese Quellen in YaCy als Heuristiken einzubauen. Dazu muss man pro Quelle
- in htroot/ConfigHeuristics_p.java erweitern
- in htroot/yacysearch.ja ab Zeile 725 eine weitere Heuristik einbinden
- eine Methode ähnlich zu Switchboard.heuristicRSS bauen

wer machts? wäre eine ziemlich gute Sache. Hab gerade mit der SolrCloud{.postlink} zu tun und kann nicht :(

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 11:26 am


Mitmachen • Spellchecker von Faroo

Date: 2014-01-13 12:32:11

Ist das was für die yacy-Engine? http://www.linux-magazin.de/NEWS/Faroo- ... unter-LGPL{.postlink}

Statistik: Verfasst von click42 — Mo Jan 13, 2014 12:32 pm


YaCy Coding & Architektur • Re: YaCy im Anti-Virus Alert?

Date: 2014-01-13 12:39:35

Ich wollte die .exe mal mit Trend Micro scannen, aber leider kann ich die Datei in der Firma nicht herunterladen (Screenshot 1).

Wenn man dann den entsprechenden Link auf der Trend Micro Website überprüft, bestätigt er einem, dass mit der Datei alles OK ist, es sich aber um böse, böse P2P-Software handelt.

Statistik: Verfasst von Low012 — Mo Jan 13, 2014 12:39 pm


YaCy Coding & Architektur • Re: YaCy im Anti-Virus Alert?

Date: 2014-01-13 12:48:11

Wenn ich bei Google nach \“MalUAgent.MIP\” suche, bekomme ich hauptsächlich Meldungen zu false positives. :-/

Statistik: Verfasst von Low012 — Mo Jan 13, 2014 12:48 pm


Mitmachen • Re: Spellchecker von Faroo

Date: 2014-01-13 14:50:51

\“powered by 2.5 million peers\” und es gibt noch nicht mal einen Downloadknopf. (und open source ist das sowieso nicht)
Der tolle Source Code macht nichts anderes als System.Linq (MS C#) Aufrufe.
Wenn die 2.5 millionen peers haben, dann müssen die nun schon Jahre lang [jeden Tag ]{style=“font-style: italic”}mehr als 1000 Leute haben, die den nicht-existierenden Download finden und dann noch mindestens 5 Jahre online bleiben.

Zum Topic: wir haben eine Suchwortvorschlagfunktion, die recht geschickt aus Eingabe mögliche Wörter errechnet, die \‘besser\’ sind. Das funktioniert so: 5 verschiedene Arten des falsch-Schreibens (buchstaben fehlen, sind zu viel, sind vertauscht, sind abgeschnitten vorne und hinten am Wort) werden zu hunderten Test-Exemplaren errechnet, die auf Vorkommen im Index getestet werden, und die häfigsten sind dann Vorschläge. Das funktioniert in jeder Sprache und mit jedem Zeichensatz.

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 2:50 pm


Mitmachen • Re: Spellchecker von Faroo

Date: 2014-01-13 16:26:23

Orbiter hat geschrieben:\ und es gibt noch nicht mal einen Downloadknopf. (und open source ist das sowieso nicht)\



Wird ggf. browserabhängig sein bei mir zeigt er das an

Bildschirmfoto 2014-01-13 um 16.23.11.png

Statistik: Verfasst von Yududi — Mo Jan 13, 2014 4:26 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-13 18:49:46

Code:
unxz yacypi-base.4gb.img.xz unxz: yacypi-base.4gb.img.xz: Unexpected end of input


:(
I tried this on debian and on mac, both with individual download with the same file as result
Can you please upload a new version?

Statistik: Verfasst von Orbiter — Mo Jan 13, 2014 6:49 pm


Hilfe für Einsteiger und Anwender • How to get better results

Date: 2014-01-13 21:24:27

I was pretty disapointed when I searched for things like \‘ubuntu\‘, \‘debian\‘, \‘apple\‘, (...) and the main site doesn\’t even show up in the first page.
So I went to RWI Ranking Configuration page and started to mess with it to see what happens.
This is what I end up with:

Code:
Pre-RankingAppearance In Emphasized Text  6Appearance In URL  12Appearance In Author  1Appearance In Reference/Anchor Name  10Appearance In Tags  2Appearance In Title  14Authority of Domain  5Category App, Appearance  0Category Audio Appearance  0Category Image Appearance  0Category Video Appearance  0Category Index Page  0Date  7Domain Length  15Hit Count  3Preferred Language  6Links To Local Domain  0Links To Other Domain  7Phrases In Text  0Position In Phrase  0Position In Text  4Position Of Phrase  0Term Frequency  8URL Components  10URL Length  7Word Distance  12Words In Text  3Words In Title  2Post-Rankin[code][/code]URL Component Appears In Toplist 2Description Comp. Appears In Toplist 2Application Of Prefer Pattern 0Citation Rank 15



Now when I search for \‘ubuntu\‘, ubuntu.com is the #5 result and debian.org is the #4 result when searching for \‘debian\‘. :D What else we can do in order to get better results?

PS1: I wasn\’t able to find a thread about it, but I don\’t speak german so, sorry if the topic already exists.
PS2: I hope it\’s ok post in english here. :)

Statistik: Verfasst von nicolas — Mo Jan 13, 2014 9:24 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-13 21:38:41

Orbiter hat geschrieben:\ - Erkennung dass ein agressives Peer-Wachstum stattfindet anhand einer Median-Heuristik\


Ich habe das gerade noch einmal gelesen, und das sollte noch erweitert werden.
Wenn die Heuristik so aktiv wird, und die Peers online bleiben, bleibt die Situation für lange Zeit erhalten, weil es viele Peers mit gleichem Alter gibt.
Deshalb sollte da noch eine absolute Komponente eingebaut werden, dann klappt es zumindest einmal.
Neuer Versuch: Wenn das Durchschnittsalter der Peers mit Alter < 15 Tagen, < 5 Tage ist, dann ist das Netz stärker am Wachsen als vorher. Wenn das Netz aber 10 Tage (Schätzung) mit der gleichen Geschwindigkeit wächst, liefert das Kriterium, alles sei normal.

Statistik: Verfasst von Lotus — Mo Jan 13, 2014 9:38 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-13 22:03:43

Orbiter hat geschrieben:\ Code: : `unxz yacypi-base.4gb.img.xz unxz: yacypi-base.4gb.img.xz: Unexpected end of input` \ ![:(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad")\ I tried this on debian and on mac, both with individual download with the same file as result\ Can you please upload a new version?\




Can you check the MD5 on those? I\’m not sure where it might have gotten corrupted.
e5d43e42fe4a6c08cff77b4c292b6d13

Statistik: Verfasst von q5sys — Mo Jan 13, 2014 10:03 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-13 22:37:58

\ the idea was born that for every language there could be an extra forum with it\'s own domains and people operating the forums who are not from the YaCy dev team. (Keeping it decentralized\...)\



I get your point.
But IMHO this is a pretty bad decision.
I say that because having multiple forums can segregate the community.
Other downside for the \‘multiple forums\’ idea is that you can end up with a half dead forum, and that can scare away new users.
So, at the end of the day, I really don\’t see the reason to not have an international section here.

Statistik: Verfasst von nicolas — Mo Jan 13, 2014 10:37 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-13 23:20:51

melonius hat geschrieben:\ Is it possible to open an Spanish corner in the forum?\ \ I have started to translate the interface in Spanish, and I think this is the best place to communicate with potential partners\


I have started translation to Polish :) (Just for information if somebody else doing it)...

Statistik: Verfasst von krzyszp — Mo Jan 13, 2014 11:20 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-13 23:30:35

krzyszp hat geschrieben:\ I have started translation to Polish ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ (Just for information if somebody else doing it)\...\



Put your work in Gitorious[1] and this kind of thing probably will not happen.

[1] - https://gitorious.org/yacy

Statistik: Verfasst von nicolas — Mo Jan 13, 2014 11:30 pm


Fragen und Antworten • Yacy startet nicht mehr ...

Date: 2014-01-14 08:24:01

Ich habe Yacy auf unserem Windows 2003 Server neu installiert, vorher über das Script Yacy beendet.

Yacy startet nicht, im Log steht:

[S 2014/01/14 08:03:23 STARTUP YaCy version: 1.669294
S 2014/01/14 08:03:23 STARTUP Java version: 1.7.0_45
S 2014/01/14 08:03:23 STARTUP Operation system: Windows 2003
S 2014/01/14 08:03:23 STARTUP Application root-path: C:\Dokumente und Einstellungen\Administrator.FESTL\YaCy
S 2014/01/14 08:03:23 STARTUP Data root-path: C:\Dokumente und Einstellungen\Administrator.FESTL\YaCy
S 2014/01/14 08:03:23 STARTUP Time zone: UTC+0100; UTC+0000 is 1389683003595
S 2014/01/14 08:03:23 STARTUP Maximum file system path length: 255
E 2014/01/14 08:03:23 STARTUP YaCy cannot start: a server is already running on the YaCy port 8090; possibly another YaCy process has not terminated yet. Please stop YaCy before running a new instance.
java.lang.RuntimeException: a server is already running on the YaCy port 8090; possibly another YaCy process has not terminated yet. Please stop YaCy before running a new instance.
at net.yacy.search.Switchboard.<init>(Switchboard.java:299)
at net.yacy.yacy.startup(yacy.java:228)
at net.yacy.yacy.main(yacy.java:671)]{style=“color: #FF0000”}

Was ich versucht habe:

- Windows (mehrfach) neu gestartet
- Yacy (mehrfach) deinstalliert, und neu installiert, dabei jeweils darauf geachtet, das das Yacy-Verzeichnis entfernt wurde

Leider erfolglos :-(

Kurios: Starte ich Yacy über das Script im Debug-Modus, läuft Yacy !? Somit möchte ich ausschliessen, das die vorherige Meldung über den belegten Port zutrifft ...

Any Ideas?

Viele Grüße
Dino

Statistik: Verfasst von dino — Di Jan 14, 2014 8:24 am


YaCy Coding & Architektur • Re: YaCy im Anti-Virus Alert?

Date: 2014-01-14 08:39:40

Eset Endpoint AntiVirus 5.0.2214.5 meldet beim runterladen der yacy_v1.66_20131205_9294.exe \“Blocked Object, verdächtige Datei\” ohne weitere Infos. Nach dem runterladen und erneuter prüfung, wird die Datei \“als sauber\” angesehen. Ich hab Eset das Protokoll mit der bitte um Stellungnahme geschickt.

Statistik: Verfasst von dino — Di Jan 14, 2014 8:39 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 09:45:08

die Meldung \“a server is already running on the YaCy port 8090\” kommt nur, wenn auf Port 8090 zu diesem Zeitpunkt tatsächlich ein Dienst läuft:

Code:
if ( TimeoutRequest.ping(Domains.LOCALHOST, port, 500) ) {                throw new RuntimeException(                    "a server is already running on the YaCy port "                        + port                        + "; possibly another YaCy process has not terminated yet. Please stop YaCy before running a new instance.");            }


Was kommt denn wenn du http://localhost:8090 aufmachst, direkt nach der Meldung? Vieleicht läuft bei dir ja ein anderer Dienst unter dem port 8090

Statistik: Verfasst von Orbiter — Di Jan 14, 2014 9:45 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 10:18:19

\ die Meldung \"a server is already running on the YaCy port 8090\" kommt nur, wenn auf Port 8090 zu diesem Zeitpunkt tatsächlich ein Dienst läuft\



Leider nicht, dies kann ich ausschliessen. Siehe auch mein Beitrag oben: Wenn ich Yacy im Debug-Modus starte, funktioniert alles prima. [Auf Port 8090.]{style=“font-weight: bold”} Wenn ich Yacy dann über die Admin-Konsole beende, und \“normal\” starten möchte, funktioniert es nicht.

\ Was kommt denn wenn du aufmachst, direkt nach der Meldung?\



Eine leere Seite ...

Statistik: Verfasst von dino — Di Jan 14, 2014 10:18 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 10:48:35

Was sagt denn

\ netstat -a\

Statistik: Verfasst von Yududi — Di Jan 14, 2014 10:48 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 10:56:48

\ Was sagt denn -netstat -a\



... keinerlei Einträge zu Port 8090 :?

Statistik: Verfasst von dino — Di Jan 14, 2014 10:56 am


Off-Topic • Re: Spanish corner?

Date: 2014-01-14 11:16:45

Hi nicolas, I would be really happy to being able to join/create international YaCy communities.

nicolas hat geschrieben:\ But IMHO this is a pretty bad decision.\


Well, it\’s less an \‘academic\’ decision but just a simple confession that we are not able to do this. Check the necessities:
- the forum owner (I) must be able to understand whats written inside the forum (at least for legal reasons), therefore beeing able to understand the languag
- otherwise the forum owner must assign a language-specific administrator to care for the content, quality, kindness and spam which he can trust
- the forum owner must administrate the forum-specific administration rights and supervise if the forum moderator is doing something at all

At this time, there is not someone who shouts \‘I want to be the spanish forums moderator\‘. Furthermore, if that moderator disappears, the forum must be closed ( :o )
That means: if there is somewhone who wants to commit him/herself that much he/she might be able to run the forum for themself.

nicolas hat geschrieben:\ I say that because having multiple forums can segregate the community.\


Yes! Thats actually really bad but that is is all about: distribution! Take away the work from the core devs so they can care about development, not community communication moderation. Go for it!

nicolas hat geschrieben:\ Other downside for the \'multiple forums\' idea is that you can end up with a half dead forum, and that can scare away new users\


Yes! And that will be also the case if the language-specific forum is _inside_ ours here, which will make it even worse.

nicolas hat geschrieben:\ So, at the end of the day, I really don\'t see the reason to not have an international section here.\


Maybe you are a candidate to run a spanish forum? please!

Statistik: Verfasst von Orbiter — Di Jan 14, 2014 11:16 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 11:50:32

Die Codestelle mit der Bedingung wann der Fehler geworfen wird
https://gitorious.org/yacy/rc1/source/6 ... .java#L299{.postlink}

Code:
        final int port = getConfigInt("port", 8090);        try {            if ( TimeoutRequest.ping(Domains.LOCALHOST, port, 500) ) {                throw new RuntimeException(                    "a server is already running on the YaCy port "                        + port                        + "; possibly another YaCy process has not terminated yet. Please stop YaCy before running a new instance.");            }        } catch (final ExecutionException e1 ) {        }



Domains.LOCALHOST sollte denke 127.0.0.1 sein
port auf 8090

Wenn nein, gibts da nen Fehler.
Wenn ja, TimeoutRequest.ping anschauen.

Zum Debuggen würde ich erstmal schauen welchen Wert Domains.LOCALHOST hat an der Debugmeldung sehe ich nur der Port stimmt soweit.
Aber evtl. kann da jemand anderes was dazu sagen.

[Edit:]{style=“font-weight: bold”}
Das aktuelle Build http://yacy.net/release/yacy_v1.66_20131205_9294.exe gerade unter Windows Server 2012 in einer virtuellen Maschine getestet da läuft es.

Statistik: Verfasst von Yududi — Di Jan 14, 2014 11:50 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 12:02:16

Was ich kurios bzw. lustig finde ist, das Yacy im Debug-Modus ohne Murren auf Port 8090 läuft ...

Statistik: Verfasst von dino — Di Jan 14, 2014 12:02 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-14 12:04:35

nicolas hat geschrieben:\ >
> > krzyszp hat geschrieben:I have started translation to Polish > ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ > (Just for information if somebody else doing it)\...\ > >



Put your work in Gitorious[1] and this kind of thing probably will not happen.

[1] - https://gitorious.org/yacy


I will do when I finish more then 30%. At the moment I have translated 200 of 3200 (about) phrases - I\’m doing it in my spare time.

Statistik: Verfasst von krzyszp — Di Jan 14, 2014 12:04 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 12:53:48

wie startest du den YaCy im Debug Modus?

Statistik: Verfasst von Orbiter — Di Jan 14, 2014 12:53 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 13:27:41

\ wie startest du den YaCy im Debug Modus?\



Über die startYACY_debug.bat

Statistik: Verfasst von dino — Di Jan 14, 2014 1:27 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-14 14:01:02

Maybe you misinterpreted me.
And maybe it\’s my fault, I didn\’t think that creating a new topic on a related subject was worth so I just replied here. :? I didn\’t say \‘Create a spanish section\’ (although I am not against it) what I did say was \‘Create an international section\‘.
And what you said about the need to have someone that can understand what is being said is absotutely correct!

When I say international, I mean english-based section.
I don\’t think that we have people enough to a spanish section.
But an english section seems to be missing (see http://www.yacy-forum.org/viewtopic.php?f=9&t=755)

Statistik: Verfasst von nicolas — Di Jan 14, 2014 2:01 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 14:17:48

I have had error message too.
A possible solution.
You must give YaCy time to shutdown.
Look at status window after shutdown and wait till there is no updates then start YaCy Again.

Statistik: Verfasst von smokingwheels — Di Jan 14, 2014 2:17 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-14 14:21:45

smokingwheels hat geschrieben:\ I have had error message too.\ A possible solution.\ You must give YaCy time to shutdown.\ Look at status window after shutdown and wait till there is no updates then start YaCy Again.\



He said in german this also happens after a restart of the system and the port is closed.
And he can start YaCy in debug mode.

Will have a look at the content of startYACY_debug.bat later.

Statistik: Verfasst von Yududi — Di Jan 14, 2014 2:21 pm


YaCy Coding & Architektur • Can a YaCy-owned IPv6 subnet solve the port forwading issue?

Date: 2014-01-14 15:18:59

Because this topic may influence the VM-Image-with-YaCy and YaCyPi project I post this in english:

You can have a (large!) IPv6 subnet at https://www.sixxs.net. This means: when you sign up there, you become a network operator with a very large IP range and you can assign fixed IPv6 numbers to your devices. Because such devices are tunneled through your router (or whatever) they become directly visible in the IPv6 internet and all your open ports on your server as well.

This is the easiest solution to the router-port-forwarding problem when we need to forward ports from peers which shall be easy-to-set-up.

But: each VM or device must get assigned a single IP within that IP range that you get from sixxs.

Statistik: Verfasst von Orbiter — Di Jan 14, 2014 3:18 pm


Fragen und Antworten • Бесплатные купоны

Date: 2014-01-14 20:02:38

Здравствуйте!
(администрация, перенесите плз в другой раздел, нет прав на создание топика в нужной теме ... :( )
А информация думаю интересная...

Хотелось бы показать новый сайт:
Сайт скидок Дарим Скидки{.postlink} - купоны от ведущих купонаторов.

Скидки Санкт-Петербург{.postlink} - Сайт скидок по купонам.
Уже давно пользуюсь скидочными купонами на покупку различных предложений от организаций.
Раньше, довольно много времени уходило на поиск сайт-купонаторов.
Теперь, благодаря знакомому для поиска купонов на сайте «Скидки Даром», я экономлю деньги и время, что не маловажно.
На сайте реализована фильтрация купонов, позволяющая вести поиск купонов по различным рубрикам товаров и услуг с фильтрацией к выбранному городу.
На сайте ежедневно публикуются новые предложения по купонам!

Statistik: Verfasst von travenorelono — Di Jan 14, 2014 8:02 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-14 20:46:18

Congratulations for your first 100 backers! I check the Kickstarter website several times per day and I\’m quite excited about the success of the campaign so far.

Statistik: Verfasst von Low012 — Di Jan 14, 2014 8:46 pm


Mitmachen • Re: Security problem with YaCy dev rel. 1.67

Date: 2014-01-14 23:46:07

https forwarding works again now with the debian package thx

Statistik: Verfasst von Yududi — Di Jan 14, 2014 11:46 pm


Fragen und Antworten • API search conditions

Date: 2014-01-15 01:57:27

Is any way, how to get through api only html documents?
Currently I use cURL to get a list of sites with given word, but YaCy reply sometimes links to e.g. \‘webm\’ or swf video files...

Statistik: Verfasst von krzyszp — Mi Jan 15, 2014 1:57 am


Hilfe für Einsteiger und Anwender • RAM-Bedarf?

Date: 2014-01-15 11:57:00

Finde Euer Projekt sehr interessant und habe mir gerade den Client installiert. Nach dem ersten Starten in Win7 braucht die JAVA Runtime 300MB + 500MB zugesichert. So viel?

Statistik: Verfasst von needfulthing — Mi Jan 15, 2014 11:57 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-15 22:50:24

ich würde empfehlen das -Djava.net.preferIPv4Stack=true
in die Startoptionen der startYaCy.bat mit aufzunehmen.
Da sich sonst unter Windows localhost mit ipv6 als 0:0:0:0:0:1 falls nicht via http://localhost:8090 sondern mit http://servername:8090 sogar mit Netzwerkkartenadresse also FE:xxxxxx.…. zu erkennen gibt. Eigentlich ist das zwar berücksichtigt, aber kann ggf. dennoch ein Haken sein.


suggest try to use -Djava.net.preferIPv4Stack=true as Java start Option (in the startYaCy.bat

Statistik: Verfasst von reger — Mi Jan 15, 2014 10:50 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-15 23:31:31

an IPv4 hack is not a long-term solution, I prefer to make YaCy IPv6-ready as good as possible. To prevent that \‘localhost\’ is rewritten to 0:0:0:0:0:1 a different hack can be used: replace \‘localhost\’ by \‘127.0.0.1\‘.

Statistik: Verfasst von Orbiter — Mi Jan 15, 2014 11:31 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-16 00:29:49

Sorry, sorry, that I\’m not so fast!

In order to get better information from the running YaCys I was thinking about my test environment. In the moment my two RasPis, my CubieTruck, a Desktop, my Laptop (additional services like TOR are also running) and my Spotify music, ... and a Tablet... and the Backup of my NAS to a friend... and my Smart phone ... all use the same Internet connection, the same router! It was enough for first experiences. But when we now test and compare together, I would like make this environment better.

I will use my Workstation at work in order to simulate some web servers. This device should have enough power in comparison to ARM boards. And a second Ethernet card. What I have to buy is a Gig-Ethernet switch and some cables. Maybe I find a bit equipment by other colleagues. My equipment is working for other tasks in the moment. That\’s the first thing.

The second one is to have some possibilities to observe the YaCy boards. The first is, to collect the log-information together with the state of collecting of URLs and DHT words. The second is a post processing (maybe also in real-time) to analyse this information. And the third, to check the response for http questions.

I wouldn\’t like to sit next to the boards for days. We should have a data acquisition system as observer. Only by this way we will get comparable information.

Please, let me time for this for two weeks.

\@Orbiter: Do you have any software tool in order to observe YaCy? Or a script which processes the log files? I plan to write a small tool what can process this information and can calculate summary statistic information or graphs.

\@all: I\’m not so familiar with development under Linux (I\’m a system integrator for special measurement and control equipment for research facilities. The most software, which I can use is only available in Windows.): Is there a simple possibility to send the YaCy log file to a TCP port in real-time? Similar like \“tail\” send this to the terminal? (But I saw that \“tail\” can hang up by itself, sometimes.)

Statistik: Verfasst von fherb — Do Jan 16, 2014 12:29 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-16 02:58:27

fherb hat geschrieben:\ \@all: I\'m not so familiar with development under Linux (I\'m a system integrator for special measurement and control equipment for research facilities. The most software, which I can use is only available in Windows.): Is there a simple possibility to send the YaCy log file to a TCP port in real-time? Similar like \"tail\" send this to the terminal? (But I saw that \"tail\" can hang up by itself, sometimes.)\



You can use netcat if you just want to send the log file to another system. You then on that system use netcat to receive the file and then write it to a file or pipe it to something else like grep, more, etc. But as soon as the sending system reaches the EOF, it\’ll stop, and you\’ll have to restart netcat to do it again.
Or are you looking for something to constantly \‘stream\’ the log file to another system?


I see that Oracle just released a newer version of Java recently, so I\’ll throw it on the testing list. I\’d REALLY like to be able to use Java ME, but I have a feeling YaCy uses certain java features that are not included in ME. The new version does have more capabilities than the older version, so I\’ll go ahead and take a shot at it. JDK 8 will be final in March; I\’m hoping Oracle can pull of some serious performance improvements, I\’ve heard good things so far... but since its not final... Oracle will still probably find a way to screw it up. lol

Statistik: Verfasst von q5sys — Do Jan 16, 2014 2:58 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-16 08:49:21

Even though it does not concern YaCyPi I keep posting in English for consistency. ;)
Articles about low cost ARM boards in c\’t 314 (German computer magazine): http://www.heise.de/ct/heft/2014-3-ARM-Boards-fuer-unter-100-Euro-2085405.html

Statistik: Verfasst von Low012 — Do Jan 16, 2014 8:49 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-01-16 09:10:34

https://www.blippex.org/

\“A search engine made by the people, for the people.\” :o

Das Ranking wird beeinflusst von der Zeit, die Benutzer auf den Websites bleiben. gemessen wird das über ein Browser-Plugin.

Statistik: Verfasst von Low012 — Do Jan 16, 2014 9:10 am


Off-Topic • Re: Spanish corner?

Date: 2014-01-16 09:24:41

Concerning the English forum: It has been set up by a person who lost interest in YaCy some time ago but kept running the forum anyway. I am a/the moderator of the English forum and I try to keep it clean from spam and illegal content, but I don\’t have the time to contribute much content-wise.

To allow me to have more control on the forum (updates, plugins, ...) the person who runs the forum at the moment and I agreed to move the forum to my webspace and to transfer the domain to me. Currently I am trying to create a running copy of the forum to be able to make a smooth transition later. Unfortunately the lack of time on my side is the limiting factor at the moment. I hope we get the transition done in January though.

I was thinking about giving away subdomains for free (for example fr.yacy-forum.org, es.yacy-forum.org), but I am still hesitating for the legal reasons Orbiter mentioned.

Statistik: Verfasst von Low012 — Do Jan 16, 2014 9:24 am


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-16 10:00:47

Noch eine Rückmeldung.
Ich habe mir einfach mal am Montag Abend das Alter aus der Peer-Liste genommen, und statistisch ausgewertet.
Das Ergebnis ist, dass das Alter, wie von mir vorgeschlagen, nicht zur \“aktivierung\” genutzt werden kann, weil die Verteilung dazu nicht passt.

Aus einer Liste von gut 200 Peers ist das Median 12 Tage, und der Mittelwert 156 Tage.
Von den unteren 100 ist das Median 2 Tage und der Mittelwert 3.7 Tage.

Die Mehrzahl der Peers ist also relativ jung. Man könnte spitz behaupten, nach 2 Wochen Einsatz wird YaCy nicht mehr gestartet.

Nach meiner Meinung wäre das einzig sinnvolle Kriterium die Anzahl der empfangenen Links/Wörter eines Peers. Daraus kann man abschätzen, ob auf dem Peer an der richtigen DHT-Position schon was liegt.

Statistik: Verfasst von Lotus — Do Jan 16, 2014 10:00 am


Fragen und Antworten • Re: API search conditions

Date: 2014-01-16 11:12:38

You could add a filetype to your Query:

http://yacy.allesehersonerdshier.net/yacysearch.rss?query=test+filetype:htm&Enter=Search&contentdom=text

This should remove all URLs which don\’t end with an extension which starts with \“htm\“. Unfortunately this also removes all URLs like http://examlpe.org/ even if they contain HTML content.

Statistik: Verfasst von Low012 — Do Jan 16, 2014 11:12 am


Fragen und Antworten • Re: API search conditions

Date: 2014-01-16 13:08:14

Thank you, but this not resolve my problem...
I need to get all links to documents which can be parsed (txt, html, etc), excluding media files.
I will try to remove media on next step - parsing process...

Statistik: Verfasst von krzyszp — Do Jan 16, 2014 1:08 pm


Fragen und Antworten • Sitemaps und API

Date: 2014-01-16 17:10:36

1. Werden XML-Sitemaps unterstützt? So wie bei http://sitemaps.org/ ? Bei CrawlStartExpert kann man Sitemaps nicht auswählen, wird das erst klickbar, wenn man eine Seite mit einer Sitemap eingiebt, die auch in der robots.txt verlinkt ist?

2. Welche API nimm ich her um YaCy-Suchergebnisse+Snippets von Typo3 abzufragen? Ich hab irgendetwas von Google Search Appliance API gelesen, da hab ich Typo3-Plugins gefunden. Opensearch gibt es glaub ich ja auch, da gibt es ebenso ein Typo3-Plugin.

3. Werden Snippets im Search-Portal-Modus gecached, oder muss YaCy da auch alle in Frage kommenden Dokumente neu aufrufen (wie im DHT-Modus)

4. Die Forum-Suche geht hier nicht.

5. YaCy wird vermutlich bald in der Fachschaft Maschinenbau München eingesetzt.

Statistik: Verfasst von kilian — Do Jan 16, 2014 5:10 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-01-16 17:50:02

schöne Statistiken!

Lotus hat geschrieben:\ Die Mehrzahl der Peers ist also relativ jung. Man könnte spitz behaupten, nach 2 Wochen Einsatz wird YaCy nicht mehr gestartet.\


das ist ja gleichzeitig dramatisch und phantastisch. Jetzt müssen wir \‘nur\’ noch hinbekommen, dass die Dinger länger laufen...

Ich habe eben ein commit zur Auswahl der remote DHT targets eingebaut, darin ist nun ein Blocker der zu junge Peers < 3 Tage aus der DHT-Suche ausschliesst, wogegen genau diese ausgeschlossenen Peers aber zu einer gewissen Wahrscheinlichkeit (ja da ist ein random drin) wieder in die Liste der \‘extra\‘-Peers (vormals robinson/node) aufgenommen werden, welche nicht über die DHT-API gesucht werden sondern über die Solr-API.

Statistik: Verfasst von Orbiter — Do Jan 16, 2014 5:50 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-17 00:19:45

fherb hat geschrieben:\ \@Orbiter: Do you have any software tool in order to observe YaCy? Or a script which processes the log files? I plan to write a small tool what can process this information and can calculate summary statistic information or graphs.\



To get the latest thread dump before a peer dies I sometimes run the following script:

Code:
#!/bin/sh                                                                                                                                                                                           # nohup ./grab.sh > /dev/null &echo $$ > grab.pidwhile [ -f grab.pid ]; do  wget -t 3 -O threaddump_`date +%Y%m%d%H%M%S`.txt "http://localhost:8090/Threaddump_p.html?plain=true"  sleep 15done


q5sys hat geschrieben:\ I see that Oracle just released a newer version of Java recently, so I\'ll throw it on the testing list. I\'d REALLY like to be able to use Java ME, but I have a feeling YaCy uses certain java features that are not included in ME. The new version does have more capabilities than the older version, so I\'ll go ahead and take a shot at it. JDK 8 will be final in March; I\'m hoping Oracle can pull of some serious performance improvements, I\'ve heard good things so far\... but since its not final\... Oracle will still probably find a way to screw it up. lol\



I still use Java 6 for my test environments, especially on my 8-year old MacBook which still works fine. Thats also the computer I use to create the Mac Release of YaCy. When I do the Mac Release on a much younger Mac I am not able to run it on my old MacBook...

I have some important news about the search performance and performance adaption on the RPi: today I commited a feature which reduces the number of remote search tasks when the computer resources are low. This is what I measure:

- solr indexing Queue buffer size (if not empty thats a sign that the computer has an IO issue/ is too slow writing things to disk
- CPU load (signal is: load > 2)
- number of CPU cores (reduces search threads by less than 4 cores and furthermore if only one core present)
- short memory status (if assigned memory is almost taken)

Please try this on a RPi to check if search can overload that. You can run the threaddump-script as shown above during that to catch a deadlock ;)

Statistik: Verfasst von Orbiter — Fr Jan 17, 2014 12:19 am


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-17 09:12:41

Eher Anmerkungen als Antworten:

zu 1: Man müsste auch die Sitemap direkt als URL angeben können. Allerdings muss man halt irgendwoher wissen, wo die liegt.

zu 2: Meinst du mit dem Opensearch-Plugin http://typo3.org/extensions/repository/view/opensearch? Das stammt von jemandem aus der YaCy-Community, wir aber wohl nicht mehr gepflegt. Keine Ahnung, ob es noch korrekt funktioniert.

zu 4: Ich glaube, die läuft auf einem Peer, den Orbiter verwaltet. Ich benutze nicht das Standard-Theme des Forums und da ist der Link zur Suche nicht durch die YaCy-Suche ersetzt, sondern zeigt noch auf die phpBB-Suche: http://forum.yacy-websuche.de/search.php (Keine Ahnung, ob das auch mit dem Standard-Theme funktioniert.)

zu 5: Yaaaay!

Statistik: Verfasst von Low012 — Fr Jan 17, 2014 9:12 am


Suchmaschinen • Re: DOMENGO

Date: 2014-01-17 22:25:31

ich find es grundsätzlich prima, wenn ein deutscher Suchmaschinenanbieter auf YaCy setzt - dass er für den Peer-Betrieb auch eine Gegenfinanzierung durch Werbung nimmt ist soweit OK und nachvollziehbar - solange das technische Fundament bei YaCy offen und für jeden frei zugänglich bleibt, kann es nur begrüßenswert sein, wenn die YaCy-Peers hierüber genutzt werden

Statistik: Verfasst von JanOnymous — Fr Jan 17, 2014 10:25 pm


Fragen und Antworten • Peer: esbek-iv-net-pl - Wer ist das?

Date: 2014-01-17 22:41:11

Hallo an alle Yacy-Peers!

Weiß jemand, wer der yacy[x]-esbek-iv-net-pl Peer-Betreiber ist? Kennt den jemand?

Mir kommt das etwas merkwürdig vor, dass der in seinen 10 Peers jeweils komplett identische riesige Linklisten hat (50 Mio. Links), aber bei PPM stets 0 steht. Wie geht das eigentlich? Ergebnisse ohne selbst zu crawlen?

Ich würde fast vermuten, das ist eine IT-Bude aus Polen, die ähnlich wie http://www.domengo.de jetzt ein Suchportal anbietet. Leider finde ich bei google nix.

Was meint ihr?

Viele Grüße

Statistik: Verfasst von JanOnymous — Fr Jan 17, 2014 10:41 pm


Fragen und Antworten • Re: Peer: esbek-iv-net-pl - Wer ist das?

Date: 2014-01-17 22:59:30

OK, hab doch was gefunden:

DOMAIN NAME: iv.net.pl
registrant type: organization
nameservers:
dns2.iv.net.pl. [195.191.233.252]
dns1.iv.net.pl. [195.191.233.251]
created: 2009.04.06 15:12:45
last modified: 2013.03.11 17:14:37
renewal date: 2014.04.06 15:12:45

no option

dnssec: Unsigned

REGISTRAR:
NetArt Spolka Akcyjna S.K.A.
ul. Cystersow 20A
31-553 Krakow
Polska/Poland
+48.801 33 22 33
+48.12 297 88 10
+48.12 297 88 08
http://www.nazwa.pl

Das ist tatsächlich ein polnischer Hoster, der jetzt bei YaCy eingestiegen ist.

Ein offener Peer ist hier: http://195.191.233.220:8090/ nimmt aber keine Suchanfragen entgegen.

Man findet den polnischen Hoster auch bei Tor, die betreiben auch mind. einen Tor-Knoten.

Sympathisch :D

Statistik: Verfasst von JanOnymous — Fr Jan 17, 2014 10:59 pm


Hilfe für Einsteiger und Anwender • ssl_error_rx_record_too_long

Date: 2014-01-18 07:51:55

Unter http://localhost:8090/ConfigBasic.html ist eingestellt, \“with SSL\“.

Bis gestern lies sich die Seite auch problemlos unter https://localhost:8090/index.html im verschlüsselten Modus aufrufen.
Nun erscheint beim aufruf der Seite (Firefox, unter archlinux mit Gnome 3) ein Seiten-Ladefehler:

[Fehler: Gesicherte Verbindung fehlgeschlagen
Ein Fehler ist während einer Verbindung mit 127.0.0.1:8090 aufgetreten.
SSL hat einen Eintrag erhalten, der die maximal erlaubte Länge überschritten hat.
(Fehlercode: ssl_error_rx_record_too_long)]{style=“font-weight: bold”}

Unter http://localhost:8090/..., also unverschlüsselt, kann ich weiter problemlos auf Yacy und die Administration zugreifen.

Vielleicht kann mir jemand einen Tipp geben, was hier los ist ...

Viele Grüße
Dino

PS: Konfiguration -> Linux/archlinux mit Gnome 3 / Firefox 26.0

Statistik: Verfasst von dino — Sa Jan 18, 2014 7:51 am


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-18 08:03:52

Das Problem besteht (unter Windows) weiter.
Auf meinem Linux-Produktivsystem läuft Yacy (fast, siehe http://forum.yacy-websuche.de/viewtopic.php?f=18&t=5095) problemlos.

Was ich beobachtet habe bzw. rekonstruieren konnte:

Wenn Yacy auf einem Rechner (ich habe dies in einem Netzwerk unter Windows 2003 mit XP-Prof. Clients nachvollzogen) erstmalig auf einem Rechner installiert wurde, läuft es fehlerfrei durch. Sobald Yacy (nach ordentlichem beenden) deinstalliert, und dann wieder neu installiert wurde, läuft Yacy nicht mehr.

Auch das deinstallieren und neu installieren von Java hilft nicht weiter.

Auf Linux konnte ich dies (noch) nicht nachvollziehen, hier kann ich Yacy beliebig oft entfernen und hinzufügen oder verschiedene Konfigurationen laufen haben.
Hängt also - scheinbar - mit Windows zusammen. Gut, das ich privat damit nichts mehr zu tun habe. Trotzdem würde ich natürlich auch gerne mit Yacy in meiner Firma arbeiten (nicht nur für die Websuche, auch für unser Intranet). Schade.

Viele Grüße
Dino

Statistik: Verfasst von dino — Sa Jan 18, 2014 8:03 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-18 11:10:56

Hi,

these two sites report on memory optimisation for the raspberryPi

http://raspberry.pi.gw.gd/t50-Using-ZRAM.html
https://extremeshok.com/2012/07/22/rasp ... ory-usage/{.postlink}

My skills are - however - not sufficient to estimate the usefulness of those methods. But maybe they are worthwhile.

Greetings
lux

Statistik: Verfasst von lux — Sa Jan 18, 2014 11:10 am


Hilfe für Einsteiger und Anwender • Re: ssl_error_rx_record_too_long

Date: 2014-01-18 13:10:18

Ich hatte anfangs auch Probleme mit dem Ausliefern der korrekten SSL Zertifikate Kette
und bin dann umgestiegen auf stunnel.
Da man damit auch andere Dienste auf SSL upgraden kann ist die Lösung mit stunnel meine absolute Lieblingslösung.
Mittlerweile läuft es > 1 Monat ohne einen einzigen Fehler:
http://idienstler.de/2915/tutorial-yacy ... inrichten/{.postlink}

Statistik: Verfasst von Yududi — Sa Jan 18, 2014 1:10 pm


Hilfe für Einsteiger und Anwender • Re: RAM-Bedarf?

Date: 2014-01-18 13:17:36

Was den RAM angeht schau mal hier:
http://www.yacy-websuche.de/wiki/index. ... quirements{.postlink}

Im Moment läuft ein Projekt mit einem Raspberry Pi der nur 512 MB RAM hat:
viewtopic.php?f=15&t=3363{.postlink-local}

Persönlich lasse ich YaCy gerne mit 2 und mehr GB laufen.
Es kommt auch immer drauf an was man mit YaCy machen möchte.

Seit der Webserver auf Jetty umgestellt worden ist scheint mehr RAM frei zu sein
aber genau gemessen habe ich es noch nicht.

Statistik: Verfasst von Yududi — Sa Jan 18, 2014 1:17 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-18 13:19:41

dino hat geschrieben:\ Das Problem besteht (unter Windows) weiter.\ Auf meinem Linux-Produktivsystem läuft Yacy (fast, siehe ) problemlos.\ \ Was ich beobachtet habe bzw. rekonstruieren konnte:\ \ Wenn Yacy auf einem Rechner (ich habe dies in einem Netzwerk unter Windows 2003 mit XP-Prof. Clients nachvollzogen) erstmalig auf einem Rechner installiert wurde, läuft es fehlerfrei durch. Sobald Yacy (nach ordentlichem beenden) deinstalliert, und dann wieder neu installiert wurde, läuft Yacy nicht mehr.\ \ Auch das deinstallieren und neu installieren von Java hilft nicht weiter.\ \ Auf Linux konnte ich dies (noch) nicht nachvollziehen, hier kann ich Yacy beliebig oft entfernen und hinzufügen oder verschiedene Konfigurationen laufen haben.\ Hängt also - scheinbar - mit Windows zusammen. Gut, das ich privat damit nichts mehr zu tun habe. Trotzdem würde ich natürlich auch gerne mit Yacy in meiner Firma arbeiten (nicht nur für die Websuche, auch für unser Intranet). Schade.\ \ Viele Grüße\ Dino\



Hast du probiert das in die Datei einzubauen das geht nicht eindeutig hervor

-Djava.net.preferIPv4Stack=true

Gruß

Statistik: Verfasst von Yududi — Sa Jan 18, 2014 1:19 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-18 13:29:25

Last days I looked at some sites regarding the topic:

- german webmaster that lives in germany
- website in a foreign language

and I found out that its not that easy to run a website in a foreign language.

1. A german webmaster has to follow the german laws
(\“Impressum\“, \“Datenschutzerklärung\“, ... ) which is something like \“Legal Notice\” and \“Privacy Policy\“.

2. If a website addresses people from a foreign country the webmaster may also have to follow the laws of a/that foreign country.

-> A spanish website/forum would mean Orbiter would have to call a spanish lawyer for creating neccessary law texts and so on.
-> The forum would need an \“Impressum\“, \“Datenschutzerklärung\“, \“Legal Notice\“?, \“Privacy Policy\“? and don\’t know what its called in Spain if they also have got something like that.

3. I\’m no lawyer just what I think about this topic after some texts.

Statistik: Verfasst von Yududi — Sa Jan 18, 2014 1:29 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-19 05:28:12

\ Hast du probiert das in die Datei einzubauen das geht nicht eindeutig hervor\ \ -Djava.net.preferIPv4Stack=true\



Ja, keine Änderung. Leider.

Statistik: Verfasst von dino — So Jan 19, 2014 5:28 am


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-19 13:10:19

I am starting to get a bit fed up, to put it nice. I have been working professionaly with Linux for 10 years, and I asses YaCy to be very unstable. Maybe you could get it stable somehow by having expert insight into the code as a developer, but it don’t work right out of the box like it is stated on the web page. The result will be that users download the software to try it out, don’t get it to work and just delete it. That in turn will put an effective stop on recruitment of YaCy users.

Since mid of december I have tried to put up a stable YaCy installation, and my setup is right now as follows. Dedicated server Core 2 Duo E6750 CPU, with 8GB ram, 240GB 10k RPM disks RAID1. Linux Debian Wheezy (kernel 2.6.32) with Java SE 1.7.0 environment. I am running YaCy 1.66 with an external solr 4.6.0 instance running under tomcat 6.0.35. Both tomcat and YaCy is running with java args Xmx2g and the system have a script running every hour as a cron job that free up system memory. Beside apache with a mod_proxy allowing access through port 80, the system is running the YaCy installation exclusively. Internet connection is a 50/50mbit/s dedicated fiber line.

Since mid december I have encountered the following problems:

•Unstable YaCy, not configureded (or stable enough) to run right out of the box
•Not good enough documentation. It lacks English documentation, and the german documentation which I have translated with google translate lack the following:
------oDetailed information about how the system actually work. Which files does what? How is it all logical build up? It is far to superficial and most of it describes only how the GUI work and seem aimed at newbie users (which this system is not stable enough to be aimed as a user base in mine opinion)
------oWhat do the configuration alternatives do? How do I customize yacy log files to output the logging I need? (e.g whats the difference between PROXY.level and PLASMA.level). What do all the alternatives in the yacy.conf files mean? How can I “downtune” it, so it don’t crash? (if it is even able)
------oDetailed info about how to configure my node to weight the results the way I would like to present them. As a Norwegian node I would weight content from .no domains very high, and I would like to create a index of relevant sites.
•Language. The forums is mainly in German. That makes non-german speaking people having trouble asking for help. The first thing that meet me on the English forum was loads of spam. Most of the admins where inactive and the owner was long gone, but I got in touch with one of the maintainers and gave him some advice on running forums and much of the spam is now sorted out.

I am fed up, and the only reason I am not deleting the software right now is that I would like to contribute to create a counter weight to foreign states survival regimes.

So. The first thing I would like to comment on is the project aim. Stop aiming the software to home users. The software is not for home users, it is really not. You need good hardware to be able to run it and you can’t use memory intensive programs while you are running it (e.g. games). The software should really be aimed at people running a dedicated server and want to contribute.

Be concrete about the environment needs. Which java version that is recommended, and what is the minimum memory. (it is a lot more than 4GB, that’s for sure.)

The next thing you should do is to optimize the package to run in such a environment. I really start to wonder about your competency when you are distributing the package with 600mb start memory. It will run out of memory in hours. It makes it impossible to use out of the box in a dedicated system as well as a home user system, and novice server owners will not be able to tune the memory and give up. Effectivly rejecting user mass you actually could get hold off. The same goes to the settings in yacy.conf. Optimize it to work on a dedicated system with enough resourses and flag to the community that you need that hardware specs.

This was a long post, but I am angry. I feel tricked into using a month on a system that don’t work as it is promised. I am not angry about you guys making YaCy, because YaCy is free and the idea is good. But I am really angry about how you communicating this software as a “search engine that [anyone ]{style=“font-weight: bold”}can use to build a search portal for their intranet or to help search the public internet” with “installation takes only three minutes. Just download the release, decompress the package and run the start script.”

Last I would just say that I did some statistics about the active peers in the YaCy network. Yes, some has over 100 days uptime. But the average uptime was 4 days. That is really bad. More bad is that the median uptime is 1 day. ONE DAY! Only 3,2% of the members have a uptime over 20 days and only 7,4% have uptime over 10 days. That means that 92,6% of the peers have 9 days uptime or less! It is not good at all, to be honest it is really awfull.

So to conclude: I would like some comment from the developers on this. What is the strategy? I would really like to contribute to this project. But things really need to change regarding strategy, distribution and documentation if you want this project to succeed.

// Sincerely
David Karlsen
a engaged YaCy user

Statistik: Verfasst von davidk — So Jan 19, 2014 1:10 pm


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-19 17:35:10

Hi David,

what I can read out of your lines is not a problem of YaCy but a problem of more supporters.
As you can see on the commits here: https://gitorious.org/yacy/rc1/commits/ ... 0220733f55{.postlink} there are just 2-3 main developers working on YaCy.
Those may have a normal job and can\’t work the whole day on this project.
What they can do, they do, when you have a look at the forum and the wiki.
To change this situation there exists 2 or more alternatives:
1. Help YaCy through coding.
(Download the Source, import the project into Eclipse, identify code which you can optimize, optimize it and push it to the repository )
2. Help by donating money.
(So the core developer do not need to work so much and spend that time on YaCy or pay developers)

To the english section:
YaCy is a decentralized search engine. So it would be good if this also would work for the rest.
Have a look at: https://twitter.com/yacy_search/status/ ... 8249160704{.postlink}
There has been 1 guy I think who created an english forum you mentioned but he stops working.
Its no problem to setup a forum but mainly a legal problem to run websites in several languages it costs a lot of time and money as you can see viewtopic.php?f=12&t=4872{.postlink-local} in the last post.
So the easiest way would be if everyone who wants a forum in his language just setup a forum and this will be linked here -> problem solved.
The main developers also could visit these forums to answer question as if they were posted here.

To the uptime:
I dont think the uptime can be used for any statistics about the stability.
I have one local peer running which is offline when I shut down my computer.
I also have 1 remote peer running and I used it with 2 GB for 1 month with crawler. After an update (which causes my peer to start running from 0 again) I tried 600 MB for YaCy without a crawler just DHT and it works for 3 12 days now and it keeps running.

My conclusion:
Continue to support the community by whether you suggest it to friends or start contributing code (optimization) or you setup a forum or ...
I for example recently found a bug in the RSS-Feed and never worked with Gitorious and the last time I programed with Java was really years ago ... but I downloaded Eclipse and corrected the code and submitted it to the repository to try it out. After some days it was checked and brought into the actual release. I really would contribute more to YaCy but as long as I do this in my spare time its not possible.
I suggest you if you run into trouble with your YaCy peer fill in a bug report or maybe start a thread in this forum.
YaCy is the only Open Source Search Engine that I know at the moment which also would work if you just have 1 Computer available and you would live in a war-zone just like in Syria where maybe the Internet is shut down at the borders.
When I look at your post you really want the best for YaCy and this is good because YaCy needs more people like you so thank you for your support so far.

PS: I really wonder why no state supports the idea behind YaCy.
Imagine what yould be done with just 1 Million Euro/USD.
Europe has no alternative to Google.
Why is such a project not supported?
We spend millions for bridges at highways where just 2 people or frogs crosses the street in 1 whole year.
But nevertheless the YaCy developers will continue their work on YaCy and do what they can for it-

Statistik: Verfasst von Yududi — So Jan 19, 2014 5:35 pm


Fragen und Antworten • Re: Yacy startet nicht mehr ...

Date: 2014-01-19 17:42:02

Dann würde ich Zeile für Zeile aus der Debug mal in die Startdatei übertragen.
Da die Debug läuft und es nicht allzu viele Zeilen sind lässt sich der Fehler dadurch schnell lokalisieren.

Statistik: Verfasst von Yududi — So Jan 19, 2014 5:42 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-19 23:32:52

Hi!

It first: Thanks for tips in order to send the log. That\’s not yet what I want, because I hop to can couple this log data with other status information from the device online. But maybe my colleagues have some ideas. We have developer which have some experiences.

Today I made a benchmark of my systems with SD-cards and HDDs. Following table contains the values from the 512MB-Hetzner vServer as comparison values.

Used disk-hardware:

SD-card of RasPi: SanDisk Ultra 8GB, \“30MB/s read\“, Class 10 (for system)
SD-card of CubieTruck: no-name 8GB, Class 4 (for system)
HDD of RasPi: IDE 2,5\” Fujitsu 80GB MHT2080AH from year 2005 via an USB-adapter (for YaCy)
HDD of CubieTruck: SATA 2,5\” Toshiba 500GB MQ01ABD050 from last year (for YaCy)

Code:
Type of test |       RasPi       |     CubieTruck     |    Hetzner vServer             | SD-card | IDE-HDD | SD-card | SATA-HDD | HDD or SSD (Raid?)---------------------------------------------------------------------------sysbench     | 0.131   | 1.349   | 0.0404  | 2.118    | 3.359  MByte/sread + write |---------------------------------------------------------------------------dd write     | 16.7    | 24.6    | 4.9     | 39.3     | 175    MByte/sdd read      | 18.2    | 24.9    | 14.5    | 112      | 233    MByte/s



That\’s a fast SD-card in RasPi! The access on the SD-cards seems generally bad by using as a hard disk. Only continuous read/write (test with dd) is fast. To use a fast USB-Flash-Drive could be much better.

The dd-values of the USB-Hard-Disk (RasPi) looks like the USB (-adapter/driver) is the bottleneck and not the drive by itself.

- Gigabit-switch and cables are ordered for my test environment. And I ordered another RasPi because I need one of them for my TOR-Access-Point (and the model train ;) )

Statistik: Verfasst von fherb — So Jan 19, 2014 11:32 pm


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-20 11:49:19

I\’m afraid that davidk is right - stability IS a problem.
I have had setup YaCy on VPS machine, with dedicated domain for it. Works fine - for couple of days. Then site made unacessible (\“Service Temporarily Unavailable\” error). I still see in \“top\” that all YaCy processes are running, memory used in 50%, HDD in 56%, system load 1%... I have no idea why YaCy doesn\’t show it\’s page. Yacy is set on Debian stable (50GB SSD drive, 4 cores, 4GB RAM).

Also, I have set YaCy on second virtual server (on top of dedicated machine, with only this one VPS on it) with 8GB RAM and 120GB HDD. Ubuntu 12.04. Same situation.

Most stable is YaCy on my Windows desktop machine, but this not a solution for me...

Statistik: Verfasst von krzyszp — Mo Jan 20, 2014 11:49 am


YaCy Coding & Architektur • Re: Can a YaCy-owned IPv6 subnet solve the port forwarding i

Date: 2014-01-20 14:59:16

I have now obtained such a tunnel and are running a YaCy peer at


[Please check if you can reach this.]{style=“font-weight: bold”} (You must have an IPv6-enabled internet connection as well!)

One problem to get this running is, that YaCy has a setting
-Djava.net.preferIPv4Stack=true
inside the debian /etc/init.d/yacy script. You must change that to
-Djava.net.preferIPv6Stack=true

If not done so, the new jetty does not bind to the IPv6 localhost address. With the above setting, the localhost can be reached with
http://[::1]:8090

Statistik: Verfasst von Orbiter — Mo Jan 20, 2014 2:59 pm


Off-Topic • Re: dyndns Alternative?

Date: 2014-01-20 16:15:09

Ich bin neuerdings auf folgendes dyndns Projekt gestoßen: https://github.com/nsupdate-info/nsupdate.info
(Könnte evtl. auch auf yacy-websuche.de aufgesetzt werden?)

Auf https://nsupdate.info sowie https://www.hopper.pw kann man sich dyndns Adressen registrieren.
Wird in Zukunft auf jeden Fall meine Anlaufstelle Nr. 1 sein.

Statistik: Verfasst von 140#gast — Mo Jan 20, 2014 4:15 pm


Off-Topic • Re: dyndns Alternative?

Date: 2014-01-20 16:58:19

140\#gast hat geschrieben:\ Ich bin neuerdings auf folgendes dyndns Projekt gestoßen: \ (Könnte evtl. auch auf yacy-websuche.de aufgesetzt werden?)\ \ Auf sowie kann man sich dyndns Adressen registrieren.\ Wird in Zukunft auf jeden Fall meine Anlaufstelle Nr. 1 sein.\



Sehr cooler Tipp, vielen Dank.

Statistik: Verfasst von Yududi — Mo Jan 20, 2014 4:58 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-21 01:09:42

Yududi hat geschrieben:\ Last days I looked at some sites regarding the topic:\ \ - german webmaster that lives in germany\ - website in a foreign language\ \ and I found out that its not that easy to run a website in a foreign language.\ \ 1. A german webmaster has to follow the german laws\ (\"Impressum\", \"Datenschutzerklärung\", \... ) which is something like \"Legal Notice\" and \"Privacy Policy\".\ \ 2. If a website addresses people from a foreign country the webmaster may also have to follow the laws of a/that foreign country.\ \ -\> A spanish website/forum would mean Orbiter would have to call a spanish lawyer for creating neccessary law texts and so on.\ -\> The forum would need an \"Impressum\", \"Datenschutzerklärung\", \"Legal Notice\"?, \"Privacy Policy\"? and don\'t know what its called in Spain if they also have got something like that.\ \ 3. I\'m no lawyer just what I think about this topic after some texts.\



If your domain is .de you should not only comply to german laws?
And, I think, having a section english-based does not implies that this section is addressed to US citizens.

Statistik: Verfasst von nicolas — Di Jan 21, 2014 1:09 am


Off-Topic • Re: Spanish corner?

Date: 2014-01-21 01:16:55

nicolas hat geschrieben:\ If your domain is .de you should not only comply to german laws?\ And, I think, having a section english-based does not implies that this section is addressed to US citizens.\


Important is only where the server is. Even if domain is .fr or .pl but server is in Germany - you need only to comply with German law...

Statistik: Verfasst von krzyszp — Di Jan 21, 2014 1:16 am


Off-Topic • Re: Spanish corner?

Date: 2014-01-21 09:58:15

krzyszp hat geschrieben:\ >
> > nicolas hat geschrieben:If your domain is .de you should not only > comply to german laws?\ > And, I think, having a section english-based does not implies that > this section is addressed to US citizens.\ > >


Important is only where the server is. Even if domain is .fr or .pl but server is in Germany - you need only to comply with German law...



No.

If I would follow your argumentation every german could legally run a piracy website which is hosted on a russian server.
This is forbidden and you would be judged for this just like you would run this on a german server.
A good first startpoint for this discussion for german users is
http://www.selbstaendig-im-netz.de/2011 ... -websites/{.postlink}

And: also if you are no german and do not live in germany as long as you addresses german users you have to act compatible to german laws.
If not you can be judged too. Depends on the contracts between your state and germany and if you ever want to travel to germany to see the reaction.
If you are a russian and run a piracy website on an australien website it could be that you get in jail here.

So because also YaCy is decentralized why not the forum too?
https://twitter.com/yacy_search/status/ ... 8249160704{.postlink}
Start your own forum in your own language and it will be linked here.

Statistik: Verfasst von Yududi — Di Jan 21, 2014 9:58 am


Hilfe für Einsteiger und Anwender • Re: Ersteinrichtung YaCy Server

Date: 2014-01-21 12:20:31

Ich verwalte meine SSD / HDD Kombination mit symbolischen Links. Bei mir sind sogar Sachen wie das Benutzerverzeichnis auf die HDD ausgelagert um Speicherplatz auf der SSD zu sparen. Danach kannst Du zum Beispiel c:\user\user1 weiter benutzen und die Daten der Verzeichnisses liegen in Wirklichkeit auf d:\user\user1.c oder was auch immer. Betreffend YACY habe ich zum Beispiel eine Testinstallation auf der ich nur die Datenverzeichnisse auf eine extra-HDD ausgelagert habe, der Rest liegt aber noch auf c:.

Es gibt dazu verschiedene Programme aber mklink in der Konsole reicht (Adminrechte empfohlen).

Code:
C:\Windows\system32>mklink /?Erstellt eine symbolische Verknüpfung.MKLINK [[/D] | [/H] | [/J]] Verknüpfung Ziel        /D           Erstellt eine symbolische Verknüpfung für ein Verzeichis.                     Standardmäßig wird eine symbolische Verknüpfung für                     eine Datei erstellt.        /H           Erstellt eine feste Verknüpfung anstelle einer                     symbolischen Verknüpfung.        /J           Erstellt eine Verzeichnisverbindung.        Verknüpfung  Gibt den Namen für die symbolischen Verknüpfung an.        Ziel         Gibt den Pfad (relativ oder absolut) an, auf den die                     neue Verknüpfung verweist.



1. Originalverzeichnis an sein neues Ziel verschieben (bei Benutzerverzeichnissen muss dazu ein anderer Benutzer genutzt werden)
2. Link mit mklink anlegen
3. Glücklich sein

Mehr Infos auf Wikipedia{.postlink}.

Statistik: Verfasst von matze — Di Jan 21, 2014 12:20 pm


Hilfe für Einsteiger und Anwender • Where to post basic start questions in English?

Date: 2014-01-21 22:59:00

I\’m trying to find:
1) Where I am supposed to post.
2) Where to see / find English interface (I see Forum rules, but do not understand).
3) Am trying to start with basic index of file on my internal network, but it isn\’t \“crawling\”...
(I am using URL\’s like file://D:/ -- where all my Documents are). But see nothing being scanned...

Have selected intranet search, but it doesn\’t descend into the directory -- only telling me filenames at the top level.

Looks like a neat project, but seems to have high learning curve... ;-(

Statistik: Verfasst von Astara — Di Jan 21, 2014 10:59 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-22 07:29:28

http://www.elektroniknet.de/embedded/ha ... el/104867/{.postlink}

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 7:29 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-22 07:31:16

here is another press report about the YaCyPi (in german): http://www.elektroniknet.de/embedded/ha ... el/104867/{.postlink}

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 7:31 am


non-English and non-German • we can not support non-english and non-german forums

Date: 2014-01-22 11:56:10

This forum is locked. You cannot discuss in non-english and non-german language. There is a simple reason for that:


That means, we cannot host non-english/non-german forums here. But there is a solution for the problem:

[[[You can become a non-english/non-german YaCy forum owner! Start your own forum!]{style=“color: #FF8000”}]{style=“font-weight: bold”}]{style=“font-size: 150%; line-height: 116%;“}

If you run your own forum, then we will put a prominent link here in this section and on the http://yacy.net home page!

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 11:56 am


English • Re: Where to post basic start questions in English?

Date: 2014-01-22 12:07:00

alright, your question is valid: a new user cannot start an english posting because there is no space for that. Therefore I just created this new forum section for english postings. I moved you posting here, therefore it becomes the first posting in this new forum.

your Questions:

1) - here :D 2) I believe it is possible to set a language when you subscribe to the forum. The naviagtion should then be in english, but I never tried... The forum rules are in german, yes, therefore I started this forum section. We do not have the variety of discussion topics here, so there is also not a variety of forum rules in english.
3) on windows, I believe you must use the backslash as separator, like \“file://D:\\” but it may be the case that you must mask every backslash with another one because it is treated as escape character, like \“file://D:\\\“.

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 12:07 pm


Off-Topic • Re: Spanish corner?

Date: 2014-01-22 12:14:14

as there was again a question where to start a posting in english language, I created an international forum category and added a non-english/non-german forum which is locked and contains only one posting explaining that we cannot host that there: viewtopic.php?f=24&t=5097{.postlink-local}

\@nicolas [please]{style=“font-style: italic”}: if you are urgently looking for a spanish space to discuss YaCy topics, just create a YaCy forum yourself! It is not so difficult to upload a phpbb5 release to a cheap web space, [just do that]{style=“font-style: italic”}!

If you do not want to do that yourself, please twitter a call for participation in spanish language (with a link here) and I will retweet that. Maybe someone else wants to start a spanish forum.

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 12:14 pm


English • Minimum requirements for YaCy

Date: 2014-01-22 12:14:59

I have done dedicated server for YaCy to test stability.
The machine is Athlon64 x2, 2GB RAM, 160GB HDD (Sata) in small factor Shuttle box. I have installed Debian 7 (stable) on it and I install YaCy based on English wiki{.postlink}. Also, I have redirected port on my router to it to make it visible from outside. Also I have enabled network crawling.

I have discovered that after just few hours my YaCy site is not accessible at all.

Do I made something wrong?
Apart of network access for YaCy, I don\’t change any memory settings, system is completely clear, nothing else installed on it...

Statistik: Verfasst von krzyszp — Mi Jan 22, 2014 12:14 pm


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-22 14:06:52

Noch eine zusätzliche Frage: Kann ich irgendwie localhost crawlen? Bekomme immer die Meldung

Code:
FINAL_LOAD_CONTEXT denied_(the host 'localhost' is local, but local addresses are not accepted: 127.0.0.1)

Statistik: Verfasst von kilian — Mi Jan 22, 2014 2:06 pm


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-22 14:51:14

du musst dafür in /ConfigBasic.html in den Intranet-Modus schalten.

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 2:51 pm


English • Re: Minimum requirements for YaCy

Date: 2014-01-22 15:50:13

Which version do you use?
How many sites do you crawl at the same time?
How big was your index?
How many memory do you gave YaCy during the setup process?
How many memory was free when YaCy was crawling?
What about the load average before YaCy crashed (5 min / 15 min value)?

Statistik: Verfasst von Yududi — Mi Jan 22, 2014 3:50 pm


English • Re: Where to post basic start questions in English?

Date: 2014-01-22 17:15:25

Orbiter hat geschrieben:\ alright, your question is valid: a new user cannot start an english posting because there is no space for that. Therefore I just created this new forum section for english postings. I moved you posting here, therefore it becomes the first posting in this new forum.\


I hate being on the bleeding edge.… :oops:

\ 2) I believe it is possible to set a language when you subscribe to the forum. The naviagtion should then be in english, but I never tried\... The forum rules are in german, yes, therefore I started this forum section. We do not have the variety of discussion topics here, so there is also not a variety of forum rules in english.\


Well, better not many rules -- harder for me to worry about breaking them.

\ 3) on windows, I believe you must use the backslash as separator, like \"file://D:\\\" but it may be the case that you must mask every backslash with another one because it is treated as escape character, like \"file://D:\\\\\".\



Firefox and IE both use \‘/\‘.

Also, tried the suse linux version -- same result (my \’D:\’ is really a Documents directory on my linux server exported with Samba).

Can try it with \’\\\‘, but I think that would cause more problems -- not sure.

Thanks!

Statistik: Verfasst von Astara — Mi Jan 22, 2014 5:15 pm


English • Re: Minimum requirements for YaCy

Date: 2014-01-22 17:32:06

YaCy version 1.679553
Max 4 sites simultaneously + what sends other hosts (can\’t check as status site not load).
Index size: 2.2GB
1GB Ram for YaCy

Now values after restart YaCy (I have done this before I read your post, so can\’t check before).
0.5GB free memory during crawling
Load average 0.5 for 1/5/15 minutes (very stable).

I will supply more data on next crash, but... I have to say, that it looks like not all YaCy crash - just the web site. In system under top I still seem java processes (only java processes on this system are belongs to YaCy).

Statistik: Verfasst von krzyszp — Mi Jan 22, 2014 5:32 pm


English • Re: Where to post basic start questions in English?

Date: 2014-01-22 17:49:05

ah! a D: on linux! Then forget about the backslash. The problem ist probably this:
you must give an absolute path! That starts with /, if your path D: is at root /, then the url is:
file:///D:/

(3x \‘/\‘!)

see also: http://en.wikipedia.org/wiki/File_URI_scheme#Unix
like: file:///etc/fstab

Statistik: Verfasst von Orbiter — Mi Jan 22, 2014 5:49 pm


Hilfe für Einsteiger und Anwender • http error 500

Date: 2014-01-22 18:37:31

Hello
Updated when opening http://localhost:8091/Status.html?noforward =
climbed error:

Code:
HTTP ERROR 500Problem accessing /Status.html. Reason:    Server ErrorCaused by:javax.servlet.ServletException   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:300)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:735)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at org.eclipse.jetty.server.Server.handle(Server.java:370)   at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)   at org.eclipse.jetty.server.AbstractHttpConnection.headerComplete(AbstractHttpConnection.java:971)   at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.headerComplete(AbstractHttpConnection.java:1033)   at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:644)   at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)   at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)   at java.lang.Thread.run(Thread.java:724)Powered by Jetty://


installed apache
Ubuntu 12.04
installation

Code:
$ sudo apt-get update$ sudo apt-get upgrade


thank you in advance

Statistik: Verfasst von mass — Mi Jan 22, 2014 6:37 pm


Hilfe für Einsteiger und Anwender • Re: http error 500

Date: 2014-01-22 20:21:10

Hello mass,

a fix for this is on the road. (1.67-9558)

Cu, sixcooler

Statistik: Verfasst von sixcooler — Mi Jan 22, 2014 8:21 pm


Off-Topic • Liveübertragung aus Kiew / Live broadcast from Kiev

Date: 2014-01-23 17:11:29

Liveübertragung von der Hruschewskyj-Strasse:
[Live broadcast from the Hrushevsky street:]{style=“font-style: italic”}

http://ukrstream.tv/
http://www.ustream.tv/channel/euromajdan/pop-out

Statistik: Verfasst von David — Do Jan 23, 2014 5:11 pm


Off-Topic • Re: Liveübertragung aus Kiew / Live broadcast from Kiev

Date: 2014-01-23 18:42:53

Irgendwie bizarr wie man heutzutage mit einer Tasse Kaffee in der einen und einem Stück Kuchen in der anderen Hand, wie eine Made im Speck, in einer überheizten Wohnung anderen Menschen via Liveübertragung zuschauen kann, wie sie auf der Strasse für ihre Rechte kämpfen müssen.

Andererseits schaut man wenigstens nicht weg. Das ist, glaub ich, schon mal ein guter Anfang.

Statistik: Verfasst von David — Do Jan 23, 2014 6:42 pm


Fragen und Antworten • Re: API search conditions

Date: 2014-01-24 09:35:52

Another thing you could do is querying the integrated Solr instance directly. Unfortunately I know close to nothing about that.

I tried the Google Search appliance API which contains a filetype parameter, but without success. The parameter seems to be ignored or I used it wrong.

This is the documentation of the parameters of the API: https://developers.google.com/search-appliance/documentation/68/xml_reference#request_parameters

An example link (for Solr too) is provided in the menu on the left side in the YaCy HTML interface.

Statistik: Verfasst von Low012 — Fr Jan 24, 2014 9:35 am


Presse • VDI Nachrichten 42014

Date: 2014-01-24 10:33:25

Titel: Google-Alternativen durch NSA-Skandal attraktiver
http://www.vdi-nachrichten.com/Technik- ... ttraktiver{.postlink}

Zum Schluss geht es um Alternativen aus Deutschland, und da werden MetaGer und YaCy genannt.

Statistik: Verfasst von Lotus — Fr Jan 24, 2014 10:33 am


Hilfe für Einsteiger und Anwender • Re: Bildersuchmaschine

Date: 2014-01-24 14:39:55

\ die robots.txt ist irrelevant,\



Nicht unbeding geht man nach
http://www.gruenderszene.de/allgemein/d ... nternehmen{.postlink}
Da heisst es

\ Damit kann man nun -- mit einigen Einschränkungen -- in der Tendenz davon ausgehen, dass alles indiziert werden darf, was nicht in der Robots.txt vom Durchsuchen ausgeschlossen ist.\


Wenn es halt zu einem Rechtsstreit kommt durch den erst einmal Kosten entstehen kommt es immer auch auf den Einzelfall drauf an wie es ausgeht.

PS...
Auch Suchmaschinenbetreiber koennen gezwungen werden Bilder aus der Bildersuche zu entfernen.
http://www.welt.de/wirtschaft/article12 ... eigen.html{.postlink}

Statistik: Verfasst von Yududi — Fr Jan 24, 2014 2:39 pm


YaCy Coding & Architektur • Re: Can a YaCy-owned IPv6 subnet solve the port forwarding i

Date: 2014-01-24 21:27:37

I can reach it.

Statistik: Verfasst von Lotus — Fr Jan 24, 2014 9:27 pm


YaCy Coding & Architektur • Bilder Doubletten erkennen

Date: 2014-01-24 22:14:22

Man kann Momente von Bildern berechnen, die unter anderem invariant gegen Skalierung sind, d.h. wenn ein Bild in der Größe verändert wird, ändert sich die Zahl nicht.
https://en.wikipedia.org/wiki/Image_moment

Ich habe das einfach mal programmiert. Jetzt habe ich 2 Zahlen (= Merkmale).
Was kann YaCy nun damit anfangen?
Ich habe die vorhandenen Parser angesehen, die speichern ihre Informationen offenbar in Prosa-Text in vorhandene Text-Felder in Solr.
Um Doubletten auszusortieren bräuchte man eine Suche nach \“so ähnlich wie\“. Beispielsweise über eine Sortierung der Merkmale und eine Clusterbildung (= Klassifizierung) nahe beieinander liegender. Einfacher Ansatz: Zurückweisungssschwelle ab erstem Element je Klasse.
Dass sie relativ ähnlich sein müssen, ist auch schon über die Vorauswahl durch die Tatsache, dass sie bei der Suche anhand eines Wortes gefunden wurden bekannt.

Eigentlich auch eine ziemlich coole Sache:
Man könnte ein Bild zu YaCy hochladen, und dann finden lassen, wo es überall verwendet wurde. Komisch, dass Google das nicht kann.

Leider schluckt das Bild einlesen und Pixel extrahieren in Java einige Performance. Ich habe es auch nicht schneller hinbekommen. Die Zeiten unten sind von einem Athlon X2 6000+ (3.1Ghz) mit 64 Bit Java. Das erste Bild ist nur eine Dummy-Messung damit Java den Code lädt.

Code:
import java.awt.image.BufferedImage;import java.io.File;import javax.imageio.ImageIO;public class ImageParser {   public static void main(String[] args) {      File f[] = {            new File("/mnt/Daten/dev/eclipse/testproj/kfz3.png"),            new File("/mnt/Daten/dev/eclipse/testproj/kfz1.png"),            new File("/mnt/Daten/dev/eclipse/testproj/kfz2.png"),            new File("/mnt/Daten/dev/eclipse/testproj/kfz3.png"),            new File("/mnt/Daten/dev/eclipse/testproj/kfz4.png"),            new File("/mnt/Daten/dev/eclipse/testproj/kfz5.png")      };      for (int i = 0; i < f.length; i++)      {         System.out.println("Bild " + i);         calculateMoments(f[i]);         System.out.println("");      }   }   private static void calculateMoments(File f) {      long t = System.currentTimeMillis();      BufferedImage img = null;      try {         img = ImageIO.read(f);      } catch (Exception e) {         System.out.println(e.getMessage());         e.printStackTrace();      }      if (img != null) {         System.out.println("Zeit (0): " + (System.currentTimeMillis() - t));         final int xmax = img.getWidth();         final int ymax = img.getHeight();         final int pic[][] = new int[xmax][ymax];         System.out.println("xmax: " + xmax + " ymax: " + ymax + ", " + (xmax*ymax*32/8/1024) + "kb");         // moments         long m00 = 0;         long m10 = 0;         long m01 = 0;         // get raw image         int raw[] = img.getRGB(0, 0, xmax, ymax, null, 0, xmax);         System.out.println("Zeit (1): " + (System.currentTimeMillis() - t));         for (int x = 0; x < xmax; x++) {            for (int y = 0; y < ymax; y++) {               //int pixel = img.getRGB(x, y);               final int pixel = raw[y * xmax + x];               //int alpha = (pixel >> 24) & 0xff;               final int red   = (pixel >> 16) & 0xff;               final int green = (pixel >>  8) & 0xff;               final int blue  = (pixel      ) & 0xff;               //int grey = (int) Math.sqrt((double) (red*red + green*green + blue*blue));               final int grey = (red + green + blue) / 3;               pic[x][y] = grey;               m00 += grey;               m10 += grey*x;               m01 += grey*y;               //System.out.print("" + x + "." + y + " " + alpha + " " + red + " " + green + " " + blue + "\n");            }         }         System.out.println("Zeit (2): " + (System.currentTimeMillis() - t));         // center of mass         final long xs = m10/m00;         final long ys = m01/m00;         //System.out.println("xs=" + xs + " ys=" + ys);         // central moments         long u00 = m00;         long u20 = 0;         long u02 = 0;         long u11 = 0;         for (int x = 0; x < xmax; x++) {            for (int y = 0; y < ymax; y++) {               long dx = x - xs;               long dy = y - ys;               u20 += pic[x][y]*dx*dx;               u02 += pic[x][y]*dy*dy;               u11 += pic[x][y]*dx*dy;            }         }         // normalized central moments         double n20 = (double) u20 / (u00 * u00);         double n02 = (double) u02 / (u00 * u00);         double n11 = (double) u11 / (u00 * u00);         // Hu invariant moments to translation, scale, rotation          double i1 = n20 + n02;         double i2 = (n20 - n02)*(n20 - n02) + 4*n11*n11;         System.out.println("i1=" + i1);         System.out.println("i2=" + i2);         //System.out.println("u20=" + u20 + " u02=" + u02 + " u20+u02=" + (u20+u02));         //System.out.println("n20=" + n20 + " n02=" + n02 + " n20+n02=" + (n20+n02));      }      System.out.println("Zeit (3): " + (System.currentTimeMillis() - t));   }}

Code:
Bild 0Zeit (0): 158xmax: 200 ymax: 150, 117kbZeit (1): 257Zeit (2): 351i1=0.001496248385046892i2=2.8157097923746405E-7Zeit (3): 366Bild 1Zeit (0): 747xmax: 3072 ymax: 2304, 27648kbZeit (1): 1353Zeit (2): 1869i1=0.0014866404030748307i2=2.7724108030034244E-7Zeit (3): 1900Bild 2Zeit (0): 57xmax: 800 ymax: 600, 1875kbZeit (1): 96Zeit (2): 102i1=0.0014912386304618134i2=2.7956183263973203E-7Zeit (3): 106Bild 3Zeit (0): 3xmax: 200 ymax: 150, 117kbZeit (1): 6Zeit (2): 7i1=0.001496248385046892i2=2.8157097923746405E-7Zeit (3): 8Bild 4Zeit (0): 24xmax: 800 ymax: 600, 1875kbZeit (1): 67Zeit (2): 73i1=0.001496248385046892i2=2.8157097923746405E-7Zeit (3): 76Bild 5Zeit (0): 28xmax: 800 ymax: 600, 1875kbZeit (1): 76Zeit (2): 82i1=0.0015016224895486679i2=2.808167327318427E-7Zeit (3): 85

Statistik: Verfasst von Lotus — Fr Jan 24, 2014 10:14 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-25 00:56:04

We speak about a \“Rechenzwerg\“, a \“computing dwarf\“. Thats the one of the main topics of the actual c\’t magazin. Raspi, CubieTruck...

Statistik: Verfasst von fherb — Sa Jan 25, 2014 12:56 am


Mitmachen • c\’t \“Rechenzwerge\”

Date: 2014-01-25 01:53:26

Wie eben genannt, gibt es in der aktuellen c\’t einige Artikel zu den Mini-Computer-Systemen. Eine kurze Zusammenfassung über die Hardware:

- Der RasPi ist immer noch der billigste ARM-Rechner mit gleichzeitig der größten Community. Aber es gibt, wir haben es hier selbst schon gesehen, Abstriche bei der Leistungsfähigkeit. Wobei hier \“Leistung\” an sich im unteren Anforderungsbereich gesehen wird. Es geht nicht um schniecke Videobearbeitungstools, sondern um minimalistische Server- oder Automation-Fähigkeiten. RasPi beherrscht problemlos Aufgaben als FTP-Server oder Webserver für \“vereinzelten\” Traffic, wie wir ihn im privaten Bereich benötigen. Auch als TOR-Bridge ist er im Home-Bereich ausreichend. Bei mir erfüllt er alle drei Aufgaben. Aber die Zugriffe sind auch gering. Insofern ist der Energieverbrauch unter 3 Watt absolut gerechtfertigt. Für meine Aufgabe (Web, FTP, TOR-Bridge) ist er optimal.

- Alles, was sich \“Beagle\” nennt ist optimal für die Steuerung lokaler Systeme geeignet. Es gibt eine große Community und ein großes Angebot an Zusätzen. Ideal für kleine Maschinen oder kleine Bastel-Roboter. Die Zielrichtung von Beagle ist nicht das Internet mit all seinen Diensten, sondern eher der Hardware-Bastler, der auf Hardware-Niveau steuern möchte..

- Olimex ist eine auch mir bekannte \“Größe\” im Bereich der Development-Plattformen. In der c\’t findet sich eine Beschreibung speziell zu OLinuXino Micro A20. Der Rechenkern ist vergleichbar mit der Klasse des CubieTruck. Olimex ist immer einen Blick wert, wenn man in diesem Segment Ausschau hält. Gegenüber CubieTruck ist dieser Olimex preislich günstiger, ein bisschen weniger RAM aber der gleiche Dual-Core-Prozessor.
Die Größe der Community kann ich derzeit nicht einschätzen.

- Naja: Mein geliebter CubieTruck wird hier gelobt. Ich kann ihn auch nur empfehlen. Er ist relativ neu. Der Hersteller ist noch mit der Entwicklung des optimalen Betriebssystems beschäftigt. Aber die Version aus 2013 ist wirklich recht gut, voll funktionsfähig und ... wirklich performant. Es gibt inzwischen auch gute chinesische Ingenieure. Aus meiner studentischen Praxis: Es gibt sie. Sie sind bezogen auf die Gesamtmenge der chinesischen Studenten absolut rar, aber es gibt sie; ich habe sie kennen gelernt: Chinesische Studenten, die wahre Ingenieure sind. Nach den klassischen deutschen Maßstäben. Ich freue mich auf diese Konkurrenz, wenn sie denn nach der Ausbildung jemals wieder nach China zurück kehren. :)
Zum CubieTruck kann ich noch sagen: Im Kit werden Plexiglasscheiben und metallene Abstandshalter sowie ein auf das Bord abgestimmter SATA-Adapter-Stecker als Montagematerial mitgeliefert, die den CubieTruck wirklich zum \“Cubie\” machen. Und eine SATA-2,5\“-Festplatte lässt sich darin integrieren. Damit ist dieses System tatsächlich der erste vollständige NAS-Bastelsatz! Obwohl er bisher nie damit beworben wurde. Mal sehen, was kommt. Vielleicht ein Truck mit 2 Stück SATA. Ich bin gespannt.

Zu RasPi als Open ELEC bzw. XBMC sag ich hier mal nichts weiter: Ich habe andere Ansprüche. Mir war dieses System deutlich zu minderwertig. Auch wenn man oft, wie in dieser c\’t etwas anderes liest.

Statistik: Verfasst von fherb — Sa Jan 25, 2014 1:53 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-25 02:12:36

Congratulation, Orbiter!

You are right: This project could give some more interest in YaCy for additional people. That\’s important for you, the idea and the project. And when I observe the RSS feed for YaCy development: Your are really deep in work with YaCy to produce a good state for this search engine. Thanks, in the name of all users!

But, Kickstarters, WHY, LORD, ANOTHER LINUX DERIVATE?? Raspian Debian wheezy server components needs only around 20MB of the memory. But, what YaCy drives, is Java! Not any special Linux component. Only the drivers for the less core hardware components, which are included in this 20MByte, are used from Linux. All the other is based on Java.

What could really help: A USB 3.0 driver for RasPi and storage hardware like USB sticks or USB to SATA converters. There are some USB sticks which are USB 3.0 compatible. But it seems that we will not get 3.0 for RasPi from the RasPi community in the next future. And the HDD-access velocity is one of the important factors for YaCy. But I assume, that the USB chip on RasPi can not speak 3.0.

MAYBE you can explain to us what you expects from Puppy against Debian wheezy. Maby, it will give much more understanding about your Kickstarter project for us.

But, this should be enough critic from me. You will get some assistance for the Puppy implementation from me, of course.

State of my test environment:

I got the hardware (switch, cables, another RasPi) today. I started to write the software in order to observe YaCy software and hardware. My solution: Starting YaCy in debug mode and give the debug output in a pipeline to netcat. It\’s not possible to do this with tail -f via the log file, because the logfile is closed by YaCy after some log messages and YaCy starts another log file. My software will receive the netcat news from all devices. Additional from all devices should come some information of CPU and memory use. That\’s very important! I want to combine YaCy logs with the state of the controller.

My software will log all this information and will produce statistic informations and alerts for Java exceptions.

When my working time it allows, so I will start with the first tests of my software next week.

When this will run successfull, so I will look for the YaCy-API: Additional informations to record what YaCy does can come from this.

I think, when we have such a test environment, so it\’s possible to compare the implementations really realistic. My experiences of the last test weeks: All other, more simple tests are comparable to fishing in Loch Ness during a lot of fog. :roll:

Frank ;)
[@ Orbiter, ...]{style=“font-weight: bold”}

... hier Englisch zu schreiben ist immer eine gute Übung für mich. Und ich finde es auch wichtig, dass YaCy auf diesem Wege von der Nationalität abgekoppelt wird. Dass das Internet per se zu mehr Demokratie führt, scheint widerlegt. Aber es wird die kommenden Generationen verändern. Wenn mein (Internet-)Nachbar Du und der Kickstarter aus Amerika sind, dann verändert es. Mich und alle Beteiligten. Das gibt mir die Energie, Zeit in solche Dinge zu stecken, wie YaCy. Dass Du das Projekt seit so vielen Jahren fort führst, hab ich seit der Entdeckung von YaCy regelrecht bewundert. Ich bin eher der Projektmensch. Irgendwann muss mal etwas fertig und abgeschlossen sein. Aber es gibt ja Tricks für Open-End-Projekte: Zwischenziele, die abzuschließen sind. :)
Ich habe jedenfalls an Deinem Projekt Feuer gefangen. Ich selber komme aus der Automatisierung und der Systemintegration im Bereich Forschungstechnik. Das heißt, ich beschäftige mich mit Elektronik (speziell Digital- und Controller-Elektronik), Hardware-nahe Softwareprogrammierung von Mikrocontrollern, programmierbarer Logik, aber auch der klassischen (modernen) Automatisierungstechnik (SPS-Technik, SCADA), mit der Instrumentierung von kleinen und auch großen außergewöhnlichen Experimentiereinrichtungen, wie z.B. Teilchenbeschleunigern, wobei hier die Systemintegration im Mittelpunkt steht: Kopplung aller notwendigen Komponenten zur Steuerung und messtechnischen Datenerfassung. Um es konkret zu machen: Im Forschungszentrum \“Helmholtz Zentrum Dresden Rossendorf\“. Ich bin integriert in eine Zentralabteilung, die man faktisch als Prototypen-Entwicklung bezeichnen könnte. Wir bearbeiten faktisch nur Einzelsysteme. Das macht es unheimlich interessant und einzigartig. Von der Konstruktion und mechanischen Fertigung über den Bau von Experimentiereinrichtungen, deren steuerungstechnische und messtechnische Instrumentierung bis hin zur Datenauswertung. Naja, und ganz nebenbei habe ich auch die klassiche Elektrotechnik und Regelungstechnik am Hals. ;) Ein Job, der mich nicht nur ausfüllt, sondern immer wieder begeistert. :)
Wir sind davon ausgegangen, dass Java zukünftig eine wichtige Entwicklungsplattform ist. Aus dem Grund habe ich vor 5 Jahren mal einen Java-Lehrgang besucht. Wie sich herausgestellt hat, ist Java aber in unserem Bereich doch nicht mehr im Kommen. Trotz aller Prognosen. Ich habe also nie in Java ein Entwicklungsprojekt bearbeitet. Trotzdem sind mir Begriffe, wie Garbage Collector, nicht unbekannt. Linux habe ich mir vor 2 Jahren das erste Mal angesehen, um meinen ersten privaten NAS (Synology) ordentlich zu manipulieren und das rauszuholen, was ich benötige. (Betrieblich sind wir wegen unserer Zielsysteme und Entwicklungssysteme überwiegend auf Windows festgelegt.) Software habe ich auf Linux-Basis selbst nicht entwickelt. Meine Erfahrungen liegen im Laufe der Jahre bei \“Bleistift-Assembler\” für Z80, Basic, PL 1, Turbo Pascal, C, Assembler und C für Mikrocontroller Texas Instruments MSP 430, Perl (CGI), Siemens SIMATIC Step5 und Step7 in Kürze auch auf Basis TIA-Portal, und .…

... Meine aktuell bevorzuge Entwicklungsumgebung ist LabVIEW von National Instruments. Ich möchte das hier nicht weiter erklären, weil es im Sinne von YaCy kein relevantes Entwicklungssystem ist. Es ist aus meiner Sicht die derzeit beste Programmiersprache, da sie konsequent grafisch ist. Man muss also nicht mehr die Schemata im Kopf in eine zeilenorientierte Sprache übersetzen. Und für unsere Anwendungen gibt es eine Menge messtechnsicher Hardware und Treiber, die damit kompatibel sind. (Das ist der Grund, warum wie LabVIEW letztlich nutzen.) Es gibt Entwicklungsprojekte, die sehen wie 5 Mannjahre aus und sind aber in einem Mannmonat fertig gestellt. Ich habe es geschafft, mit LabVIEW einen ganzen Tag zu programmieren und nicht einen klassichen Flüchtigkeitsfehler zu machen. Tippfehler sind wegen der Grafik faktisch ausgeschlossen.

Ich erwähne das, weil ich das Logging meiner YaCy Testumgebung auf Basis von LabVIEW programmiere. Da habe ich nur marginalen Aufwand und kann mein persönlich geschaffenes Framework verwenden. Falls notwendig: Wir haben als Forschungszentrum auch eine Lizenz, aus LabVIEW heraus eine Distribution zu erstellen. Es ist vergleichbar zu Java: Als Nutzer benötigt man ein Runtime-Environment, dass es kostenlos gibt. Und es gibt in Büchern immer Studentenversionen von LabVIEW. Insofern ist es in Grenzen für die eigene, private Verwendung frei verfügbar.

Lass(t) mich mal die Testumgebung fertig stellen. Danach können wir uns bezüglich Versuchsplanung auch gern über den kurzen Dienstweg kontaktieren: herbrand@gmx.de

[Kurz zu meiner persönlichen Zeitplanung:]{style=“font-weight: bold”} Ich bin Chormitglied im Wilandes-Chor Wilsdruff (bei Dresden) und habe dort neben der Aufgabe im Bass und als Percussionist Zusatzfunktionen im Noten- und MP3-Bereich. Das hat aller oberste Priorität. Weiterhin engagiere ich mich für TOR (zukünftig wahrscheinlich bei den Zwiebelfreunden e.V.). Das hat derzeit die niedrigste Priorität. Und zwischendurch suche ich eine (sexuelle, familiäre) Partnerin. Und ... irgendwann möchte ich mal wieder ein Buch lesen. Also bitte nicht böse sein, wenn ich zwischendurch mal paar Wochen YaCy in den Hintergrund drängen muss.

Viele Grüße,
Frank

http://www.fherb.de

Statistik: Verfasst von fherb — Sa Jan 25, 2014 12:08 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-25 03:26:38

I\’m having an odd problem with the 1.67 versions that I never had with the 1.66 versions. I\’m getting password errors all the time. Even when I use the /yacy/bin/passwd.sh command, when I try to log in later my password wont working. Every once in a while if I reset it... I can log in to the admin panel [once]{style=“font-weight: bold”}, but after I change anything it asks me to log back in and the same login/pass wont work. I\’ve tried everything, even manually editing the yacy.conf file and encoding my own base64 md5 hash.

This makes me feel like a complete idiot. can someone explain what I\’m messing up?

For some updates.
Embedded JDK8 wont work at all since -server only works with ARMv7.
Embedded JDK7 works fine and I\’m noticing some performance improvements over v6. Want to do more testing to just see if what I\’m seeing is a fluke.
ME 3.3 and ME8 will not work at all for us, sadly. This would have given us the biggest performance boost possible.

The reason i went with Puppy Linux over Rasbian is becuase I have the most experience for being able to get the most performance out of it. While i have some experience with tweaking Debian itself, I\’m more familiar with modifying sources for performance. In the end I will use whatever is the best performing solution. If that ends up to be Rasbian or SlackwareARM... so be it. I dont care what OS we end up using, just as long as it provides the best user experience.

Yes, Java is the main performance barrier for us. So by working to give Java as much of the hardware as possible, we can get better performance out of it. As I said before, our biggest issue is the CPU barrier. Mild overclocking will give us some leeway, I\’m curious to see if overclocking from 800 to 900 will help us out anymore. I\’ve been running Yacy on a RPi for a few months now with only a few crashes, mostly I believe due to my own errors. I wouldn\’t have ever started the Kickstarter if I didnt believe it could be improved further. I believe with further refinement and carefully working out what the best YaCy settings are, that it will work well for more users in most situations. I own a BeagleBone Black, but I haven\’t felt there\’s much of a benefit over the RPi. There are several reasons I dont want to focus on something like a CubieTruck. 1) Less people have them, so producing an image will not be helpful to many people, the RPi community is huge, and as a result there are millions of them out there. So there are more people that can benefit from YaCy on the RPi. I know people that bought them just to play around with every few months. If those people run YaCy when it would normally be sitting on the desk collecting dust... it helps the YaCy network. 2) Cost, the cubietruck costs twice the amount, the RPi is in the perfect price range for what is for most people... a fun toy. People are less willing to spend 80\$ on a device they really wont do much with. If I wanted a perfect performing system... we could just sell laptops with yacy installed. But the point is to keep things as cheap as possible. Since RPi\’s are so cheap, tons of people have them. While I\’d be nice to run use something like a cubietruck or the Odroid3, cost becomes the issue. People are not going to want to spend 100\$ or more to run a program that they could just run on their own OS and get better performance. Because the RPi is cheap, people understand there is a performance limit.

fherb, what do you think of the Odroid-U3 compared to the cubietruck? http://hardkernel.com/main/products/prd ... 8733896281{.postlink}


I am currently testing out to see how much of a performance benefit HardFloat gives us over SoftFloat.

Michael, you have any scripts for diagnosing the reasons for when YaCy crashes? I\’m looking in the logs and seeing absolutely nothing. It\’s almost as if JAVA itself is crashing, and thats why YaCy logs just end abruptly. So I\’m unable to diagnose whats causing the problem.
EDIT: disregard that last question. I was testing the archarm release and was able to able to track down the issue to be systemd killing java via OOM.

Statistik: Verfasst von q5sys — Sa Jan 25, 2014 3:26 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-25 11:58:50

q5sys hat geschrieben:\ I\'m having an odd problem with the 1.67 versions that I never had with the 1.66 versions. I\'m getting password errors all the time. Even when I use the /yacy/bin/passwd.sh command, when I try to log in later my password wont working. Every once in a while if I reset it\... I can log in to the admin panel [once]{style="font-weight: bold"}, but after I change anything it asks me to log back in and the same login/pass wont work. I\'ve tried everything, even manually editing the yacy.conf file and encoding my own base64 md5 hash.\



reger is working on the auth mechanism and he wants to migrate from BASIC auth to DIGEST auth. This is a work in progress and I am confident that this is a matter of some days to work again.

q5sys hat geschrieben:\ For some updates.\ Embedded JDK8 wont work at all since -server only works with ARMv7.\ Embedded JDK7 works fine and I\'m noticing some performance improvements over v6. Want to do more testing to just see if what I\'m seeing is a fluke.\ ME 3.3 and ME8 will not work at all for us, sadly. This would have given us the biggest performance boost possible.\



jre6-headless should be sufficient, i don\’t know if there is a jre7-headless. I would also suggest to try jre6 in favor of jre7 and check resource amount. I remember that jre7 had some issues in the beginning and that i.e. solr was not working on jre7. Maybe oracle had messed it up when their developers first tried to enhance jre...

q5sys hat geschrieben:\ The reason i went with Puppy Linux over Rasbian is becuase I have the most experience for being able to get the most performance out of it. While i have some experience with tweaking Debian itself, I\'m more familiar with modifying sources for performance. In the end I will use whatever is the best performing solution. If that ends up to be Rasbian or SlackwareARM\... so be it. I dont care what OS we end up using, just as long as it provides the best user experience.\


I was very happy to see that you had (a kickstarter) experience with other projects on the RPi and that had a connection on the selection of a different OS than raspian. I though this experience could be a missing element for the YaCy-on-RPi challenge.

q5sys hat geschrieben:\ Michael, you have any scripts for diagnosing the reasons for when YaCy crashes? I\'m looking in the logs and seeing absolutely nothing. It\'s almost as if JAVA itself is crashing, and thats why YaCy logs just end abruptly. So I\'m unable to diagnose whats causing the problem.\ EDIT: disregard that last question. I was testing the archarm release and was able to able to track down the issue to be systemd killing java via OOM.\


We have seen this out-of-nothing crashes of YaCy without leaving a message in the log a lot. Until today I don\’t know how to find out what it is. I belive it could be different in different jre versions because it is an in-jre bug. What did you find out?

Statistik: Verfasst von Orbiter — Sa Jan 25, 2014 11:58 am


Mitmachen • Re: Raspberry Pi

Date: 2014-01-25 12:05:12

Hallo zusammen,

ich habe ein CubieBoard2 für YaCy angeschafft, bin aber bisher noch nicht dazu gekommen, damit herumzuspielen. Nach meiner Einschätzuung die bessere Plattform als der Raspberry Pi für diese Anwendung, Rechenleistung, RAM und SATA-Schnittstelle.

Ich glaube, daß diese Mini-Rechner den Durchbruch für YaCy bringen können, insbesondere wenn man ein Image erstellen kann, mit dem YaCy und Owncloud parallel genutzt werden können.

2014 wird sehr, sehr spannend!

Statistik: Verfasst von Huppi — Sa Jan 25, 2014 12:05 pm


Presse • Re: VDI Nachrichten 42014

Date: 2014-01-25 12:20:47

Ich hab\’s gerade in der Print-Ausgabe gelesen und bin ganz aus dem Häuschen. Mal ein Grund, wieder in\’s Forum zu schauen.

\ Alternative Browser aus Deutschland holen auf\ Gleichwohl gibt es zwei weitere Alternativen aus Deutschland, die garantiert deutschem Datenschutzrecht unterliegen: MetaGer un Yacy.\ \...\ Die zweite Suchmaschinen-Alternative ist die Peer-to-Peer-Suchmaschine Yacy. Die Nutzer müssen die Yacy-Software auf ihrem Rechner installieren und von ihrem Desktop aus nutzen. Die Nutzung ist damit garantiert anonym, weil mit der Installation ein lokaler Proxy auf dem eigenen Rechner eingesetzt wird.\



Manches sicherlich vereinfachend und nicht immer ganz korrekt. Das könnte durchaus Aufmerksamkeit auf YaCy ziehen. Leider ist kein Link angegeben und so werden die meisten erst einmal nach Yacy googeln müssen ;-P

Statistik: Verfasst von Huppi — Sa Jan 25, 2014 12:20 pm


Mitmachen • Re: 10 Jahre YaCy

Date: 2014-01-25 12:27:38

Herzlichen Glückwunsch Michael!
Woher hast Du vor 10 Jahren diesen Weitblick gehabt, daß 2013 die NSA die Argumente liefert, weshalb YaCy wirklich gebraucht wird? ;-P

Statistik: Verfasst von Huppi — Sa Jan 25, 2014 12:27 pm


Hilfe für Einsteiger und Anwender • Facetten aufbauen und Infos mittels Regex extrahieren

Date: 2014-01-25 14:25:17

Hallo zusammen,

ich bin YacY Einsteiger (aber schon recht fit im Umgang mit anderen Suchtechnologien wie Elasticsearch).
Derzeit teste ich YaCy im Bereich Facettierung, Vocabularies etc.

Und hierzu habe ich gleich ein paar Fragen. Das Wiki und Forum sind klasse, aber leider konnte ich keine Antworten finden.
Daher hoffe ich auf Hinweise oder Infos über diesen Thread, was mit Bordmitteln geht und was ich ggf. mit Java zusätzlich implementieren kann.

Wenn man ein Vocabulary anlegt: über welche Felder wird dann im Index nach Treffern gesucht?
Ich habe in einem ersten Test festgestellt, dass die Werte aus dem Vocabulary anscheinend über den gesamten Text einer Seite geprüft werden.
Kann man konfigurieren, auf welchen Index Feldern die Begriffe aus dem Vocabulary geprüft werden sollen?

Außerdem würde ich gerne Indexfelder mittels regulärer Ausdrücke füllen. Wenn z.B. im Text einer Seite eine ISBN Nummer genannt wird und ein zuvor definierter regulärer Ausdruck dafür matcht, wäre es super, wenn die ISBN dann in einem separaten Feld des Solr Dokuments gespeichert werden würde.

Danke im Voraus für Eure Tipps!
Mercutio

Statistik: Verfasst von mercutio — Sa Jan 25, 2014 2:25 pm


English • 2 instances of YaCy on the same host

Date: 2014-01-25 19:05:03

I would like to install 2 instances of Yacy on the same server.

The first running on 8090 port.
The second on 8091.
But if the first runs, the second is not reachable from outside.

If the 2 instances are not and the same server, all works fine.

I think that one service is listening on one port, but I do not know which one.

Which parameter must be changed for running correctily ?

Statistik: Verfasst von ccompagnon — Sa Jan 25, 2014 7:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-01-25 20:22:43

http://forums.anandtech.com/showthread.php?p=35994027
http://archive.rebeccablacktech.com/g/thread/39823238

Statistik: Verfasst von Orbiter — Sa Jan 25, 2014 8:22 pm


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-26 18:39:15

I have done some more tests. Of several tests I find this one very interesting:

Server is doing one crawl, 30PPM. Network is set peer-to-peer mode. Inbound traffic on port 8090 has been firewalled during the test period. The installation was working fine and got remote results from other peers just fine for a whole week. (Sunday to Sunday)

Then, I opened port 8090. Two hours later the software was unresponsive. The process was running and port 8090 was open but when telneting to the port the server was accepting the connection but not responding to any HTTP-commands. The process could be killed without force. (using normal kill PID, not kill -9 PID)

This shows that the server are not responding well to inbound peer-to-peer requests. My investigation shows that during the timeframe of about 2 hours the port was open the server got about 8.000 requests on port 8090. I will do some more tests, trying to analyze the traffic more using some network tools.

What do you think? Is this just YaCy overwhelmed with traffic from its peers, or could it be some kind of DoS attack towards the network? Why is it the software just stop responding? (not crashing/exiting)

Statistik: Verfasst von davidk — So Jan 26, 2014 6:39 pm


Mitmachen • Update of the Benchmarks

Date: 2014-01-26 22:23:22

fherb hat geschrieben:\ Today I made a benchmark of my systems with SD-cards and HDDs. Following table contains the values from the 512MB-Hetzner vServer as comparison values.\ \ Used disk-hardware:\ \ Following actualized on 26.1.2014:\ \ SD-card of RasPi and CubieTruck: SanDisk SDSDQU-008G-U46A (Class 10 / U1) read until 30MByte/s; write tested with Laptop: 16.3MByte/s\ HDD of RasPi: IDE 2,5\" Fujitsu 80GB MHT2080AH from year 2005 via an USB-adapter (for YaCy)\ HDD of CubieTruck: SATA 2,5\" Toshiba 500GB MQ01ABD050 from last year (for YaCy)\ USB-Stick: Platinum TW3 8GB, \"max read: 30MB/s, max write: 15-20MB/s\"; new formatted before this test (continuous write from Laptop measured: 15MByte/s)\ \ \[Table following \...\]\



[Update of the Benchmarks]{style=“font-weight: bold”}

For my test environment I ordered additional Micro-SD-Cards and two USB-Sticks. I choose components with a compromise of price and power. I repeated the tests with SD-Card now with the same exemplar for CubieTruck and RasPi. Additional with this USB-Stick. I [actualized the benchmarking table of this older post above]{style=“font-weight: bold”}. The parameters of the used hardware are to find above of the table.

[The values of SD-Card and USB-Stick are now full comparable between RasPi and CubieTruck.]{style=“font-weight: bold”}

Statistik: Verfasst von fherb — So Jan 26, 2014 10:23 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-26 22:33:31

Huppi hat geschrieben:\ Ich glaube, daß diese Mini-Rechner den Durchbruch für YaCy bringen können,\ \ 2014 wird sehr, sehr spannend!\



Prima! Ich würd\’s jetzt zwar nicht schon vorher Durchbruch nennen, aber CubieBoard2 und 3 (CubieTruck) haben wirklich eine gute Leistung. (Ok. Ein Vier-Kerner wäre noch besser...) Habe heute mal wieder nach Entwicklerboards mit ARMs gesucht. Im Bastler-Segment scheint diese Hardware aktuell die besten Preise bezogen auf die Leistungsklasse zu haben.

Mir schwebt, wie weiter oben beschrieben auch so ein Allrounder vor, wie Du es planst. Man könnte auch einen guten NAS dazu umfunktionieren. Aber erstens ist er etwas teurer (hat aber auch Gehäuse, Netzteil, Einschübe, Lüfter... Ist also unterm Strich nicht teurer) und zweitens immer mit Software beladen, die nicht offen und frei verfügbar ist.

Viel Spaß und melde Dich, falls Du Probleme hast.

Statistik: Verfasst von fherb — So Jan 26, 2014 10:33 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-26 22:55:29

q5sys hat geschrieben:\ Here is the base image link: \ ssh password: [woofwoof]{style="font-style: italic"}\



Hi q5sys!

I want to try the benchmarks with your Linux-Version and with the same SD- and USB-Hardware on RasPi. Since my development hosts are all Windows systems, I tried to unpack your file with 7z. But it seems to be defect. Maybe you can send any other image next days. At first I would only test the read/write-performance.

In order to send me big image files please, use my FTP-directory:
- Server: ftp.hzdr.de
- Directory: /pub/incoming/Herbrand

After upload please, send me a short mail to herbrand € gmx .dot de

Statistik: Verfasst von fherb — So Jan 26, 2014 10:55 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-26 23:09:46

fherb hat geschrieben:\ >
> > q5sys hat geschrieben:Here is the base image link: > \ > ssh password: [woofwoof]{style="font-style: italic"}\ > >



Hi q5sys!

I want to try the benchmarks with your Linux-Version and with the same SD- and USB-Hardware on RasPi. Since my development hosts are all Windows systems, I tried to unpack your file with 7z. But it seems to be defect. Maybe you can send any other image next days. At first I would only test the read/write-performance.

In order to send me big image files please, use my FTP-directory:
- Server: ftp.hzdr.de
- Directory: /pub/incoming/Herbrand

After upload please, send me a short mail to herbrand € gmx .dot de




Yea the upload was bad for some reason so I uploaded it again (see post above or quote below)

q5sys hat geschrieben:\ >
> > Orbiter hat geschrieben: > > Code: > : `unxz yacypi-base.4gb.img.xz unxz: yacypi-base.4gb.img.xz: Unexpected end of input` > > \ > ![:(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad")\ > I tried this on debian and on mac, both with individual download > with the same file as result\ > Can you please upload a new version?\ > >




Can you check the MD5 on those? I\’m not sure where it might have gotten corrupted.
e5d43e42fe4a6c08cff77b4c292b6d13


EDIT:

Nevermind try this one:
http://q5sys.info/yacy/yacypi-base.4gb.copy.img.xz
http://q5sys.info/yacy/yacypi-base.4gb.copy.img.xz.md5



However, we\’ve been testing other RPi builds using various bases. We are noticing significant performance gains using a hard float with the newer JDK7u51. 7u60 is in early access right now, once its released we\’ll check it out. And I mean [significant]{style=“font-weight: bold”} gains, I\’d guess a factor of three to four times more responsive.

So dont both testing that image, I\’m going to try to make a new image early next week. I\’ll email you once that\’s done.

Statistik: Verfasst von q5sys — So Jan 26, 2014 11:09 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-26 23:32:20

q5sys hat geschrieben:\ People are not going to want to spend 100\$ or more to run a program that they could just run on their own OS and get better performance. Because the RPi is cheap, people understand there is a performance limit.\ \ fherb, what do you think of the Odroid-U3 compared to the cubietruck? [http://hardkernel.com/main/products/prd \... 8733896281](http://hardkernel.com/main/products/prdt_info.php?g_code=G138733896281){.postlink}\



Hi again, q5sys!,

Many thanks for your detailed comment. Maybe, you are right. I\’m an Engineer and not a really good businessman. :) Maybe we get a RasPi device with some more performance in future and so the engineering demands meet attractive prizes. I know, RasPi is not developed to produce updates in a short time manner. It would destroy the community and the idea. But, we will see.

How my last runs show, the RasPi could have enough power when we renounce from big crawling tasks. And with actual development versions of YaCy also CubieTruck and Hetzner vServer run in a problem of stability. Maybe this is not only a question of CPU power.

This Odroid-U3 looks nice. Interesting prize. 4 cores. Maybe this will be an additional test platform for me in future. Best thanks for this link! I read across over the magazine. It shows that the target group is the same of RasPi and Arduino. It could come a really interesting time. :)
A good week, Frank!

Statistik: Verfasst von fherb — So Jan 26, 2014 11:32 pm


Wunschliste • Re: IPv6

Date: 2014-01-27 10:35:24

eieiei das hier ist ja nun schon ein sehr alter Thread. Trotzdem will ich ihn mal aufwärmen um alle zu fragen wie es bei euch mit der Verfügbarkeit von IPv6 aussieht?
Ich habe im letzten halben Jahr immer wieder mal geguckt ob es speziellen, IPv6-verhindernden Code gibt und den raus gemacht. Könnt ihr da verstäkt drauf gucken bitte?

Statistik: Verfasst von Orbiter — Mo Jan 27, 2014 10:35 am


Fragen und Antworten • Re: Stable YaCy

Date: 2014-01-27 12:42:42

Hi davidk,

i think you are right in many o fyour points.

I think it would be good to provide different configurations.
e.g.:
- just searching
- just DHT
- just crawling
- combinations of the upper ones

and each one for different memorysizes

The normal home user might just want to search.

My conclusions on stability:
- never use the dev versions
- oracle java seems to run more stable then icedtea
- when crawling you have to reduce crawling speed to a point where the io is less then 100% of what the disks can manage /Performance_p.html
- when crawling my yacy was crashing within 5 days with a chanche of 100%

My current stragedy:
- just DHT distribution
- set timeout for DHT to 1000ms /PerformanceQueues_p.html
- just 10000 words in wordcache /PerformanceQueues_p.html
- runs stable for over two weeks with just 1G RAM and currently 11Mio. documents

NoGos wich should get fixed:
- yacy eating up ram und stalling with 100% cpu utilization
-- perhaps some kind of watchdog wich tries to restart yacy and sens mail if problem occurs more the x times in x days / hours
- yacy not starting again with same amount of ram it ran before, cause this normaly means you are loosing your index :(

Communication in the forum should be english in general. I think most people writing in german just because it\’s easier.

To summarize: It would be nice to develop yacy more like a product. Perhaps it would be an idea to provide a out of the box version like openelec does for xbmc. So you can ran yacy in an special configurated VM.

Statistik: Verfasst von CaptainPsycho — Mo Jan 27, 2014 12:42 pm


Mitmachen • LinuxTag 2014

Date: 2014-01-27 13:43:29

Die suchen wohl noch Vorträge: http://www.heise.de/newsticker/meldung/LinuxTag-sucht-nach-Vortraegen-2097756.html

Auf der DroidCon war ich vor ein paar Jahren mal beruflich und ich war etwas enttäuscht vom Niveau vieler Vorträge, wobei ich vom Chaos Communication Congress auch ziemlich verwöhnt war. Die würde ich wahrscheinlich auch bei zeitgleich stattfindendem LinuxTag auslassen. Wahrscheinlich erhofft sich der LinuxTag aber auch einen Besucherstrom in umgekehrter Richtung, was ja auch nicht schaden könnte. ;-)

Statistik: Verfasst von Low012 — Mo Jan 27, 2014 1:43 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-01-27 17:26:34

mir macht das Vortragen ja inzwischen ziemlich Spass, aber ich habe keine Luste vor sieben Leute zu stehen. Erfahrungsgemäß ist der \‘Besucherandrang\’ nur so groß, wie der Titel reisserisch{.postlink} ist. Machen wir doch mal folgendes:

- nennt Vorschläge zu Titeln die da rein passen
- [ohne]{style=“font-style: italic”} Zusammenhang mit dem, was wir hier können (!)

.. und im Anschluss bauen wir das, was zum Titel passt, in YaCy ein!

Statistik: Verfasst von Orbiter — Mo Jan 27, 2014 5:26 pm


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2014-01-27 22:59:17

Ich habe noch einen anderen Tipp (habe das in einem anderen Forum ausprobiert – mit Erfolg): Im Quelltext der Seite alle Hinweise auf phpBB entfernen.

Bei diesem Forum wäre das:
1. Der Hinweis auf das phpBB-Theme im Header, Kommentar in den Zeilen 19-28 im Quelltext der Seite
2. der copyright-Hinweis im Footer

Ein bisschen Abhilfe schafft es auch, einfach nur im Copyright-Hinweis im Footer den Link zu entfernen, aber den Hinweis auf phpBB selbst drin zu lassen.

Statistik: Verfasst von gTSj — Mo Jan 27, 2014 10:59 pm


Mitmachen • SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2014-01-27 23:17:14

Ich fände es schön, wenn alle Seiten von yacy (yacy.net, bugs.yacy.net, yacy.de, forum.yacy-websuche.de, …) unter verschlüsselter Verbindung erreichbar wären. Gründe dafür:

1. Datenschutz: es geht niemanden – NSA eingeschlossen – etwas an, welcher Nutzer welche Seite ansurft

2. Sicherheit: Schützt angemeldete Nutzer davor, dass ihr login (Username+Passwort) oder ihr session-cookie mitgelesen und missbraucht wird. Das ist besonders wichtig für Leute, die aus einem nicht vertrauenswürdigen Umfeld heraus surfen (Tor, VPN, andere Proxys, WLAN-Netze/Hotspots, …).

3. Verschlüsselung treibt den Aufwand der NSA nach oben.

4. Es gibt den Nutzern wenigstens ein bisschen Sicherheit, dass ihnen nicht jemand x-beliebige Software statt dem Yacy-Installer unterschiebt.

Ich habe auch ein paar Tipps dazu, wie man das umsetzen könnte:

A. kostenlose Zertifikate gibt es z.B. bei https://startssl.com/ – sind in allen gängigen Browsern automatisch gültig (Root CA wird vertraut).

B. unter https://www.ssllabs.com/ gibt es einen Server-Test sowie diverse Tipps, wie man die Konfiguration des Servers richtig macht

C. für die Zeit, in der umgestellt wird: Links wie feed.php{.postlink-local} funktionieren sowohl für HTTP als auch für HTTPS, wenn man sie so verändert: //forum.yacy-websuche.de/feed.php . Somit werden apsolute (Protokoll-spezifische) URLs protokollunabhängig.

D. Auf Dauer wäre eine vollständige Umstellung auf HTTPS-only (mit HSTS: HTTP strict transport security) sinnvoll. Grund: Es ist sonst sehr leicht, auf eine nicht-HTTPS-Seite umzuleiten und die Cookies zu \“entführen\“.

PS1: gibt es auch PGP-signierte Releases von Yacy?

Statistik: Verfasst von gTSj — Mo Jan 27, 2014 11:17 pm


English • Re: Minimum requirements for YaCy

Date: 2014-01-27 23:33:30

Do you have a stacktrace logged somewhere? Should be visible on terminal or in syslog.

Statistik: Verfasst von gTSj — Mo Jan 27, 2014 11:33 pm


Mitmachen • Website yacy.de bzw. yacy.net

Date: 2014-01-28 00:02:08

Ich finde, die Seite yacy.net sollte überarbeitet werden:
1. Ohne JavaScript im Browser ist sie kaum nutzbar (kein Menü, kein Footer, ein Teil des Textes überlappt).
2. Der Inhalt des HTML-Dokuments besteht etwa zur Hälfte aus Kommentaren.
3. Im Header sind widersprüchliche Angaben zum Encoding (utf-8 vs. iso-8859-1)
4. Die Website sieht so aus, als wäre sie statisch, aber mit Abstrichen: Das JavaScript-Menü ist so ein Workaround.
5. Die Website ist weit davon entfernt, valide zu sein: http://validator.w3.org/check?uri=yacy. ... ne&group=0{.postlink}

Das https://www.torproject.org/ hat zur Zeit ein ähnliches Problem (ok, deren Website ist etwas umfangreicher). Ihre Lösung ist es, die Websiten mit einer Software wie Pelikan oder Jekyll statisch zu generieren. Quelltext ist jeweils so etwas wie Markdown. Per Skript generiert das dann die Website selbst. Letztlich wäre es dann auch möglich, die Website per Git zu verwalten und weiter zu geben. Beide haben jeweils eine Blog- und Seiten-Funktionalität wie man das z.B. von Wordpress-Seiten kennt. So wäre es dann möglich, die statischen Seiten (About YaCy, Search Portal, Applications, Screenshots, Tutorials, Philosophy, API, Technology, Join In) dort zu belassen, aber bei aktuellen Ereignissen (neue Version, Sicherheitshinweise, interessante Nachrichten zur Entwicklung, Erwähnung in den Medien, …) jeweils einen neuen Blogeintrag zu haben.

Abgesehen davon bin ich dafür, die Website zu verschlüsseln (siehe anderer Thread).

Mir fehlt außerdem noch die Möglichkeit, heruntergeladene Dateien zu verifizieren (Checksumme, PGP-Signatur).

PS: Der WebServer sollte aus Sicherheitsgründen so konfiguriert werden, dass er dem Nutzer nicht mitteilt, wer er ist (besonders keine Versionsnummer!) – das ist zur Zeit der Fall.

PPS: Ein Tor hidden Service wäre auch cool ;)

Statistik: Verfasst von gTSj — Di Jan 28, 2014 12:02 am


English • Re: Minimum requirements for YaCy

Date: 2014-01-28 00:03:47

I don\’t see any log files. Am I missing something?

Statistik: Verfasst von gTSj — Di Jan 28, 2014 12:03 am


English • Re: Minimum requirements for YaCy

Date: 2014-01-28 00:05:05

I had to delete yacy00.log file then restart yacy again.
End part of new log attached (complete file are 340kB).

Edit:

Can\’t add file, so last lanes are here:

Code:
I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&oldid=38468188 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Cytuj&page=Roman_Abraham&id=38468188 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=10 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=8 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=9 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=7 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://www.worldcat.org/identities/viaf-50073800 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=6 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=book_creator&referer=Roman%20Abraham - post url not allowedI 2014/01/27 22:50:00 REJECTED http://www.lwow.home.pl/abraham.html - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 LOADER Forcing sleep of 497 ms for host pl.wikipedia.orgI 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Legion_Honneur_Chevalier_ribbon.svg/40px-Legion_Honneur_Chevalier_ribbon.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=1 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/POL_Medal_10-lecia_Odzyskania_Niepodleg%C5%82o%C5%9Bci_BAR.svg/40px-POL_Medal_10-lecia_Odzyskania_Niepodleg%C5%82o%C5%9Bci_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=Roman%2BAbraham&type=signup - post url not allowedI 2014/01/27 22:50:00 BALANCER forcing crawl-delay of 486 milliseconds for pl.wikipedia.org: minimumDelta = 500, flux = 0, host.average = 535, robots.delay = 0, ((waitig = 500) - (timeSinceLastAccess = 15)) = 485, domainStacks.size() = 1, domainStacksInitSize = 1I 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/8/82/Gen_Kutrzeba-_Gen_Abraham.gif/200px-Gen_Kutrzeba-_Gen_Abraham.gif - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/0/0f/POL_Z%C5%82oty_Krzy%C5%BC_Zas%C5%82ugi_BAR.svg/40px-POL_Z%C5%82oty_Krzy%C5%BC_Zas%C5%82ugi_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=12 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=8 - post url not allowedI 2014/01/27 22:50:00 REJECTED http://creativecommons.org/licenses/by-sa/3.0/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/POL_Virtuti_Militari_Z%C5%82oty_BAR.svg/40px-POL_Virtuti_Militari_Z%C5%82oty_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_pl.wikipedia.org&uselang=pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/d/d8/Commander_Ordre_de_Leopold.png/40px-Commander_Ordre_de_Leopold.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/c/c7/POL_Virtuti_Militari_Srebrny_BAR.svg/40px-POL_Virtuti_Militari_Srebrny_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:00 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=render_article&arttitle=Roman%20Abraham&oldid=38468188&writer=rl - post url not allowedI 2014/01/27 22:50:00 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/5/59/PL_Epolet_gen_bryg.svg/50px-PL_Epolet_gen_bryg.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Commons-logo.svg/20px-Commons-logo.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Gr%C3%B3b_gen._bryg._WP_dr._Romana_Abrahama.JPG/200px-Gr%C3%B3b_gen._bryg._WP_dr._Romana_Abrahama.JPG - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=11 - post url not allowedD 2014/01/27 22:50:01 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=7, maxDepth=8, must-match=\Qhttp://pl.wikipedia.org/\E.*, must-not-match=(.*Recentchangeslinked.*)|(.*Whatlinkshere.*)|(.*MediaWiki.*), initiatorHash=DiKwX6E3hLcG, url=http://pl.wikipedia.org/wiki/De-LovelyI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=4 - post url not allowedI 2014/01/27 22:50:01 STACKCRAWL URL 'http://pl.wikipedia.org/w/opensearch_desc.php' is double registered in 'ERRORS', previous cause: FINAL_ROBOTS_RULE denied by robots.txtI 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/6/6f/Roman_Abraham_1938.jpg/159px-Roman_Abraham_1938.jpg - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 SWITCHBOARD CRAWL: ADDED 131 LINKS FROM http://pl.wikipedia.org/wiki/De-Lovely, STACKING TIME = 23, PARSING TIME = 32I 2014/01/27 22:50:01 REJECTED https://wikimediafoundation.org/wiki/Warunki_korzystania - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=6 - post url not allowedI 2014/01/27 22:50:01 SWITCHBOARD Excluded 0 words in URL http://pl.wikipedia.org/wiki/De-LovelyI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/api.php?action=rsd - post url not allowedI 2014/01/27 22:50:01 REJECTED http://meta.wikimedia.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 Fulltext indexing: 0MV031oEaihR http://pl.wikipedia.org/wiki/De-LovelyI 2014/01/27 22:50:01 SWITCHBOARD *Indexed 368 words in URL http://pl.wikipedia.org/wiki/De-Lovely [0MV031oEaihR]        Description:  De-Lovely – Wikipedia, wolna encyklopedia        MimeType: text/html | Charset: UTF-8 | Size: 3439 bytes |        LinkStorageTime: 54 ms | indexStorageTime: 4 msI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=2 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=3 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&veaction=edit&section=9 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://sl.wikipedia.org/wiki/Roman_Abraham - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/8/8e/POL_Krzy%C5%BC_Walecznych_BAR.svg/40px-POL_Krzy%C5%BC_Walecznych_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/e/e0/POL_Polonia_Restituta_Oficerski_BAR.svg/40px-POL_Polonia_Restituta_Oficerski_BAR.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Roman_Abraham&action=edit&section=13 - post url not allowedI 2014/01/27 22:50:01 LOADER Forcing sleep of 497 ms for host pl.wikipedia.orgI 2014/01/27 22:50:01 BALANCER forcing crawl-delay of 485 milliseconds for pl.wikipedia.org: minimumDelta = 500, flux = 0, host.average = 528, robots.delay = 0, ((waitig = 500) - (timeSinceLastAccess = 17)) = 483, domainStacks.size() = 1, domainStacksInitSize = 1I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=book_creator&referer=Harald%20Hagen - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&action=edit&section=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ostatnie_zmiany&feed=atom - post url not allowedI 2014/01/27 22:50:01 REJECTED http://www.sports-reference.com/olympics/athletes/ha/harald-hagen-1.html - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&veaction=edit&section=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED https://www.mediawiki.org/wiki/Special:MyLanguage/How_to_contribute - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://no.wikipedia.org/wiki/Harald_Hagen - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&printable=yes - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.m.wikipedia.org/wiki/Harald_Hagen - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://wikimediafoundation.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/a/a9/Olympic_rings_with_white_rims.svg/16px-Olympic_rings_with_white_rims.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://en.wikipedia.org/wiki/Harald_Hagen - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED https://creativecommons.org/licenses/by-sa/3.0/deed.pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Kongelig_Norsk_Seilforening&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://www.mediawiki.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 STACKCRAWL URL 'http://pl.wikipedia.org/w/opensearch_desc.php' is double registered in 'ERRORS', previous cause: FINAL_ROBOTS_RULE denied by robots.txtI 2014/01/27 22:50:01 REJECTED http://www.wikidata.org/wiki/Q5653794 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&action=info - post url not allowedI 2014/01/27 22:50:01 REJECTED https://wikimediafoundation.org/wiki/Warunki_korzystania - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=render_article&arttitle=Harald%20Hagen&oldid=36126222&writer=rl - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Cytuj&page=Harald_Hagen&id=36126222 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://wikimediafoundation.org/wiki/Zasady_zachowania_poufno%C5%9Bci - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&action=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/api.php?action=rsd - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=Harald%2BHagen&type=signup - post url not allowedI 2014/01/27 22:50:01 REJECTED http://meta.wikimedia.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&action=history - post url not allowedI 2014/01/27 22:50:01 REJECTED http://creativecommons.org/licenses/by-sa/3.0/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_pl.wikipedia.org&uselang=pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=Harald%2BHagen - post url not allowedI 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/d/d9/Flag_of_Norway.svg/22px-Flag_of_Norway.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&veaction=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Harald_Hagen&oldid=36126222 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://bits.wikimedia.org/static-1.23wmf10/skins/vector/images/search-ltr.png?303-4 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/0/06/Poland_location_map.svg/238px-Poland_location_map.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ostatnie_zmiany&feed=atom - post url not allowedI 2014/01/27 22:50:01 REJECTED https://www.mediawiki.org/wiki/Special:MyLanguage/How_to_contribute - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/e/e9/Geographylogo.svg/20px-Geographylogo.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=book_creator&referer=Broniszewo%20(powiat%20wrzesi%C5%84ski) - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&action=edit&section=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/0/0c/Red_pog.svg/6px-Red_pog.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED https://creativecommons.org/licenses/by-sa/3.0/deed.pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://www.mediawiki.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/2/26/POL_Wrze%C5%9Bnia_COA.svg/50px-POL_Wrze%C5%9Bnia_COA.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&action=info - post url not allowedI 2014/01/27 22:50:01 REJECTED http://toolserver.org/~geohack/geohack.php?language=pl&params=52.349722222222_N_17.688611111111_E_type:city - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://wikimediafoundation.org/wiki/Zasady_zachowania_poufno%C5%9Bci - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://toolserver.org/~geohack/geohack.php?language=pl&pagename=Broniszewo_(powiat_wrzesi%C5%84ski)&params=52_20_59_N_17_41_19_E_type:city - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://creativecommons.org/licenses/by-sa/3.0/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Dyskusja:Broniszewo_(powiat_wrzesi%C5%84ski)&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=render_article&arttitle=Broniszewo%20(powiat%20wrzesi%C5%84ski)&oldid=36888806&writer=rl - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&veaction=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_pl.wikipedia.org&uselang=pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Cytuj&page=Broniszewo_(powiat_wrzesi%C5%84ski)&id=36888806 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://bits.wikimedia.org/static-1.23wmf10/skins/vector/images/search-ltr.png?303-4 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Wielkopolskie_mapa_administracyjna.png/238px-Wielkopolskie_mapa_administracyjna.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=Broniszewo%20(powiat%20wrzesi%C5%84ski) - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikisource.org/wiki/Polskie_tablice_rejestracyjne - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://en.wikipedia.org/wiki/Broniszewo%2C_Wrze%C5%9Bnia_County - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&printable=yes - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Szablon:Gmina_Wrze%C5%9Bnia&action=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://wikimediafoundation.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 STACKCRAWL URL 'http://pl.wikipedia.org/w/opensearch_desc.php' is double registered in 'ERRORS', previous cause: FINAL_ROBOTS_RULE denied by robots.txtI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&oldid=36888806 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&veaction=edit&section=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Dyskusja_szablonu:Gmina_Wrze%C5%9Bnia&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://www.wikidata.org/wiki/Q4973933 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED https://wikimediafoundation.org/wiki/Warunki_korzystania - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/1/12/Flag_of_Poland.svg/22px-Flag_of_Poland.svg.png - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&action=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/api.php?action=rsd - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=Broniszewo%20(powiat%20wrzesi%C5%84ski)&type=signup - post url not allowedI 2014/01/27 22:50:01 REJECTED http://meta.wikimedia.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.m.wikipedia.org/wiki/Broniszewo_(powiat_wrzesi%C5%84ski) - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Broniszewo_(powiat_wrzesi%C5%84ski)&action=history - post url not allowedI 2014/01/27 22:50:01 LOADER Forcing sleep of 496 ms for host pl.wikipedia.orgI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Skip_O'Pot2Mus&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Half_Baked&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Your_Only_Friends_Are_Make_Believe&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ostatnie_zmiany&feed=atom - post url not allowedI 2014/01/27 22:50:01 REJECTED https://www.mediawiki.org/wiki/Special:MyLanguage/How_to_contribute - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 BALANCER forcing crawl-delay of 485 milliseconds for pl.wikipedia.org: minimumDelta = 500, flux = 0, host.average = 528, robots.delay = 0, ((waitig = 500) - (timeSinceLastAccess = 17)) = 483, domainStacks.size() = 1, domainStacksInitSize = 1I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Cytuj&page=L%C3%BCp%C3%BCs_Th%C3%BCnder&id=35917897 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.m.wikipedia.org/wiki/L%C3%BCp%C3%BCs_Th%C3%BCnder - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/The_Bloodhound_Gang.jpg/200px-The_Bloodhound_Gang.jpg - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED https://creativecommons.org/licenses/by-sa/3.0/deed.pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Dyskusja:L%C3%BCp%C3%BCs_Th%C3%BCnder&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=render_article&arttitle=L%C3%BCp%C3%BCs%20Th%C3%BCnder&oldid=35917897&writer=rl - post url not allowedI 2014/01/27 22:50:01 REJECTED http://www.mediawiki.org/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://www.riaa.com/goldandplatinumdata.php?table=SEARCH - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://www.ultimate-guitar.com/interviews/interviews/lupus_thunder_everything_is_nasty_in_bloodhound_gang.html - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://wikimediafoundation.org/wiki/Zasady_zachowania_poufno%C5%9Bci - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://creativecommons.org/licenses/by-sa/3.0/ - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_pl.wikipedia.org&uselang=pl - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://da.wikipedia.org/wiki/Lupus_Thunder - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Ksi%C4%85%C5%BCka&bookcmd=book_creator&referer=L%C3%BCp%C3%BCs%20Th%C3%BCnder - post url not allowedI 2014/01/27 22:50:01 REJECTED http://bg.wikipedia.org/wiki/%D0%9B%D1%8E%D0%BF%D1%83%D1%81_%D0%A2%D1%8A%D0%BD%D0%B4%D1%8A%D1%80 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=L%C3%BCp%C3%BCs_Th%C3%BCnder&veaction=edit - post url not allowedI 2014/01/27 22:50:01 REJECTED http://www.wikidata.org/wiki/Q738401 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*D 2014/01/27 22:50:01 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=3, maxDepth=8, must-match=\Qhttp://pl.wikipedia.org/\E.*, must-not-match=(.*Recentchangeslinked.*)|(.*Whatlinkshere.*)|(.*MediaWiki.*), initiatorHash=DiKwX6E3hLcG, url=http://pl.wikipedia.org/wiki/Plik:NFL_teams_locations.PNGI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Kiss_Me_Where_It_Smells_Funny&action=edit&redlink=1 - post url not allowedI 2014/01/27 22:50:01 REJECTED http://bits.wikimedia.org/static-1.23wmf10/skins/vector/images/search-ltr.png?303-4 - url does not match must-match filter \Qhttp://pl.wikipedia.org/\E.*I 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=L%C3%BCp%C3%BCs_Th%C3%BCnder&printable=yes - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Specjalna:Zaloguj&returnto=L%C3%BCp%C3%BCs%20Th%C3%BCnder - post url not allowedI 2014/01/27 22:50:01 REJECTED http://pl.wikipedia.org/w/index.php?title=Szablon:Bloodhound_Gang&action=edit - post url not allowedI 2014/01/27 22:50:03 MEMORY performed explicit GC, freed 63070 KB (requested/available/average: 344385 / 362279 / 7681 KB)I 2014/01/27 22:50:03 HeapReader close HeapFile citation.index.20140126075150800.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:275) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:322) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkUpToMaxSizeFiles(ReferenceContainerArray.java:415) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:199) -> net.yacy.kelondro.rwi.IndexCell.access$1000(IndexCell.java:62) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:166) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:116)I 2014/01/27 22:50:03 HeapReader close HeapFile citation.index.20140123174156145.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:275) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:323) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkUpToMaxSizeFiles(ReferenceContainerArray.java:415) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:199) -> net.yacy.kelondro.rwi.IndexCell.access$1000(IndexCell.java:62) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:166) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:116)

Statistik: Verfasst von krzyszp — Di Jan 28, 2014 12:02 am


Mitmachen • Re: Website yacy.de bzw. yacy.net

Date: 2014-01-28 11:10:52

Das finden wir alle :D fragt sich nur wer die Zeit hat \^\^

Tor Browser-Bundle:
Worin besteht der Vorteil eines Hidden-Service für YaCy hinsichtlich
a) Anonymität
b) Sicherheit
im Vergleich Aufruf von YaCy.net oder irgendwas.onion im Tor Browser-Bundle?
Ich sehe speziell für YaCy keinen Nutzen da es sich bei YaCy selbstverständlich um ein seriöses Serviceangebot handelt und YaCy sich deswegen auch nicht auf einem anonymen Webserver zu verstecken braucht zumal die Webseite ja öffentlich erreichbar ist.
Höchstens ein Nice-2-Have oder übersehe ich was?

Statistik: Verfasst von Yududi — Di Jan 28, 2014 11:10 am


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-28 11:22:35

Vielen Dank! Sind im Intranet-Modus die DDoS-Sicherungen aktiv? Bei einem Crawl geht im Moment die CPU-Auslastung auf dem Serve ganz schön hoch. Ist aber nicht so schlimm.

Kann man beim Indexieren, oder mithilfe eines Suchfilters sich auf ein bestimmtes Objekt im DOM-Modell beschränken.
Ich will, dass nur alles innerhalb der ID \“content-main\” in den Suchergebnissen erscheint und nicht z.B. auch das Menü. Apache Nutch kann das soviel ich weiß. Hab bereits gesucht danach, aber nicht wirklich was gefunden.
contentdom=content-main ist glaub ich nicht genau das was ich will.

Alternativ, würde es auch reichen, bei den Snippets mich auf das content-element beschränken zu können.

Statistik: Verfasst von kilian — Di Jan 28, 2014 11:22 am


Mitmachen • Re: SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2014-01-28 11:31:36

1. Ja
2. Nein. Macht es höchstens sicherer. Aber schützen: nein.
VPN-/, Proxy-Anbieter und Tor Exit-Node können trotz Verschlüsselung mit ein paar Tricks mitlesen. Was man dadurch nur absichern kann sind im Grunde die Strecken zwischen \“Knotenpunkten\“. Nicht aber die \“Knotenpunkte\” an sich und wenn man sich in einer unsicheren Umgebung befindet bringt das leider nichts.
Es bringt aber wohl was wenn man sich in einem sicheren Umfeld befindet. Zwar hat man da keine Anonymität aber der Datenverkehr ist relativ sicher wenn auch nicht 100% aber das ist ja bekannt.
3. Ja
4. Ja
Worst Case: Certificate Authority arbeitet (un)freiwillig an der Maßnahme \“User ärgern\” mit. Man kriegt dann im schlimmsten Fall eine Seite vorgezeigt die wie das Original aussieht und von den Sicherheitsmaßnahmen des Standardbrowsers auch als Original akzeptiert wird. Was man dann runterlädt ist aber alles andere als das Original und ein ggf. auf der Webseite erwähnter PGP-Key, SHA-Hash auch.
A. Ja
NSA darf halt keinen Einfluss auf die Firma haben und die Firma darf kein Honeypot sein.
Ich hatte mal was von solchen Maßnahmen im Zusammenhang mit Snowden gelesen.
Im Prinzip kommt da jede CA in Frage.
B,C,D:
Weitere Developer könnten da helfen damit die Entwicklung an YaCy nicht auf der Strecke bleibt.

Statistik: Verfasst von Yududi — Di Jan 28, 2014 11:31 am


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-28 11:44:21

kilian hat geschrieben:\ Sind im Intranet-Modus die DDoS-Sicherungen aktiv? Bei einem Crawl geht im Moment die CPU-Auslastung auf dem Serve ganz schön hoch.\


Das ist Absicht, denn es ist ja umgekehrt: im Internet-Modus gibts massiv angezogene Bremsen, die im Intranet weg sind. Das ist meistens gewünscht. Wenn nicht, kannst du im Crawler_p.html Servlet selber die Bremse anziehen. Im Intranet ist meistens der Webseitenbetreiber identisch oder in einer Verantwortungshierarchie mit dem YaCy-Peerbetreiber, d.h. sie können sich hier absprechen was sie wollen.

Statistik: Verfasst von Orbiter — Di Jan 28, 2014 11:44 am


Wunschliste • Re: https-Proxy

Date: 2014-01-28 14:38:45

Just looking in here after some time.

Why, biolizard, that\’s perfect, thanks! :-) Already installed it. I don\’t really need a proxy, but wanted the possibility to have every page indexed I am visiting. Which is what that script does.

Thanks a lot!

Statistik: Verfasst von zottel — Di Jan 28, 2014 2:38 pm


YaCy Coding & Architektur • KI in der Suchmaschine

Date: 2014-01-28 15:24:15

nee, der Deepmind{.postlink}-Kauf hat mich nicht erst da drauf gebracht sondern das habe ich schon fast seit Anfang des Projektes \‘irgendwann\’ mal vor: eine Scriptsprache auf YaCy (oder anderen Suchdiensten) aufsetzen, welche schon im Bereich KI etabliert ist und die Suchmaschine als Datenbank benuzt. Im Auge hatte ich Prolog{.postlink}, das ist zwar ein wenig in Vergessenheit geraten, habe ich aber selber recht viel benutzt während meiner KI-Vertiefung im Informatikstudium. Speziell ging es da um automatische Beweiser in einem bestimmten Prädikatenkalkül.

Wie würde das aussehen: in Prolog gibt es Fakten und Regeln, wenn man so will sind die Regeln der Programmcode und die Fakten so etwas wie Datendefinitionen. Eigentlich sind Fakten bedingungslose Regeln. Prolog-Programmdaten haben die gleiche Form wie Prolog-Regeln, d.h. ein Programm kann leicht sich selbst betrachten.

Nun bezeichnet man Prolog-Programme als sogenannte \‘Deduktive Datenbank\’ (im Kontrast zu normalen Datenbanken), eine Datenbank dessen Inhalt erst durch \‘Nachdenken\’ entsteht. Die Verbindung von Prolog-Regeln und Suchmaschine wäre eine Regel, welche aufgrund der Ergebnisse einer Suche \‘feuert\‘. Damit ein Suchergebnis etwas ist, mit dem man \‘rechnen\’ kann, muss es etwas strukturiert werden. Als Struktur können hierbei die Facetten und Metadaten der Suchmaschine genutzt werden.

Damit wären so etwas wie \‘Suchmaschinen-Apps\’ möglich: jeder kann Programme schreiben, die als Add-on für YaCy oder separat bestimmte Eigenschaften von Suchergebnisse verarbeiten können. Als einfaches Beispiel wäre dann möglich, von einem Suchergebnis über die Inhalte der gefundenen Dokumente zu neuen Suchanfragen und somit weiteren Ergebnissen zu springen. Wenn dann noch mächtige Regeln zur Textanalyse hinzukommen, können die Apps dann quasi autonom recherchieren, Dokumente semantisch miteinander verknüpfen und ein \‘Wissen\’ über die Inhalte erlangen, gegen das man dann Fragen stellen kann.

Oder anders gefragt: kann hier jemand Prolog und würde das interessant finden?

Statistik: Verfasst von Orbiter — Di Jan 28, 2014 3:24 pm


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-28 16:28:24

Noch eine zusätzliche Frage ;-) (wird glaub ich hier ein riesen Feature-Request-Thema):
Gibt es irgendeine Möglichkeit zur Wildcard-Suche. Meine bisherigen Recherchen haben ergeben, dass es (noch) nicht geht.
Eine Suche nach Konzerte liefert mir keine Ergebnisse, eine Suche nach Benefizkonzerte aber schon. Man muss auch ausdrücklich das Wort im Plural suchen. Das ist nicht so schön.
*konzert* bringt nichts.

Statistik: Verfasst von kilian — Di Jan 28, 2014 4:28 pm


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-28 16:29:07

Einen Prototypen der Seite gibt es hier zu bestaunen:
http://paddg.fsmb.de/

Statistik: Verfasst von kilian — Di Jan 28, 2014 4:29 pm


Fragen und Antworten • Re: Sitemaps und API

Date: 2014-01-28 18:06:02

kilian hat geschrieben:\ Einen Prototypen der Seite gibt es hier zu bestaunen:\ \


cool!

kilian hat geschrieben:\ Noch eine zusätzliche Frage ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink") (wird glaub ich hier ein riesen Feature-Request-Thema):\ Gibt es irgendeine Möglichkeit zur Wildcard-Suche. Meine bisherigen Recherchen haben ergeben, dass es (noch) nicht geht.\ Eine Suche nach Konzerte liefert mir keine Ergebnisse, eine Suche nach Benefizkonzerte aber schon. Man muss auch ausdrücklich das Wort im Plural suchen. Das ist nicht so schön.\ \*konzert\* bringt nichts.\


ja.. ich hab sowas auch beim 30c3 immer im Log gesehen, das jemand ein \’*\’ dranhängt oder davor schreibt. Ich hatte auch noch vor etwas das aufeinanderfolgen von Wörtern zu boosten.
Ich versuche mal das \’*\’ einzubauen, sollte nicht soo schlimm sein, jetzt mit Solr... Aber das geht dann nur für Portale, nicht für p2p Suche!

Statistik: Verfasst von Orbiter — Di Jan 28, 2014 6:06 pm


English • Re: 2 instances of YaCy on the same host

Date: 2014-01-28 19:59:26

ccompagnon hat geschrieben:\ But if the first runs, the second is not reachable from outside.\


Yeah, because, yacy uses the port 8090 by default, so if you start a peer the very first time it uses this port, but you can\’t run two peers at the same time which are configured to use the same port.

So you have to:
1. Make sure all your yacys are shut down.
2. Start the peer for which you want to use port 8091
3. Open your web browser and go to the yacy \‘basic configuration\’ page:
http://localhost:8090/ConfigBasic.html
4. Under \“peer port\” set the port 8091
5. Click on \‘set configuration\”
6. Start the peer for which you want to use port 8090 (you don\’t have to change the port settings, since the port 8090 is used by default.)

Statistik: Verfasst von David — Di Jan 28, 2014 7:59 pm


English • Re: Minimum requirements for YaCy

Date: 2014-01-28 22:01:02

gTSj hat geschrieben:\ I don\'t see any log files. Am I missing something?\


Attached above - can\’t attach whole log file...

Statistik: Verfasst von krzyszp — Di Jan 28, 2014 10:01 pm


Wunschliste • Re: https-Proxy

Date: 2014-01-28 23:10:05

zottel hat geschrieben:\ Just looking in here after some time.\ \ Why, biolizard, that\'s perfect, thanks! ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile") Already installed it. I don\'t really need a proxy, but wanted the possibility to have every page indexed I am visiting. Which is what that script does.\ \ Thanks a lot!\



Great, happy to hear it worked for you.

Statistik: Verfasst von biolizard89 — Di Jan 28, 2014 11:10 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-01-29 13:58:48

Das (fast) ungefilterte Ergebnis meines spontanen Brainstormings. Schrott, aber ein Anfang, denn der ist ja immer am schwersten. ;)

Statistik: Verfasst von Low012 — Mi Jan 29, 2014 1:58 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-01-29 16:20:27

ha! der hier ist ja der Knaller

Low012 hat geschrieben:\ Macht doch was ihr wollt, ich mach jetzt meinen eigenen Kram!\


Das passt genau in die Art, Titel zu schreiben wie in diesem Artikel über Abschlussarbeiten:
http://www.spiegel.de/unispiegel/wunder ... 43298.html{.postlink}

Ausserdem kann man unter diesem Titel die ganzen nospy-Sachen bringen, so ein #Neuland-#Unabhängigkeit - Vortrag würde ich gerne (wieder) machen, da kann ich mein \’Game of Tools{.postlink}\’ wieder einbauen

Low012 hat geschrieben:\ Die vierte Gewalt ist die Initiative des Einzelnen\


nicht schlecht, man bezeichnet aber auch oft die Presse als vierte Gewalt. Könnte sich als Untertitel gut machen.

Wie wärs mit \“Ein Nackter Mann hat wenig Geheimnisse, ein gehäuteter hat keine\”
iframe

Statistik: Verfasst von Orbiter — Mi Jan 29, 2014 4:20 pm


English • YaCy setup on a Raspberry PI

Date: 2014-01-29 22:04:39

I am trying to set up YaCy on a Raspberry PI model B rev. 1 (256MB).
I have been following the instructions given here:-
http://www.yacy-websuche.de/wiki/index. ... spberry_Pi{.postlink}
I also followed the instructions given here:-
http://www.yacy-websuche.de/wiki/index. ... anHeadless{.postlink}
However I installed openjdk-6-jre-headless from the Debian repo\’s.
I have NOT setup YaCy Auto-Start and Watchdog!
I have NOT edited the file /etc/rc.local to add the iptables command line.
I have installed ufw; and edited the /etc/ufw/before.rules to include:-
*nat
:PREROUTING ACCEPT [0:0]
-A PREROUTING -p tcp --dport 80 -j REDIRECT --to-port 8090
COMMIT

ufw status:-
Status: active
Logging: on (low)
Default: deny (incoming), allow (outgoing)
New profiles: skip

To Action From
-- ------ ----
8090/tcp ALLOW IN Anywhere
22/tcp LIMIT IN Anywhere

I hope I have setup my Netgear WGR614v10 router to open ports 80 and 8090 to my Raspberry PI at IP address 192.168.1.70.
With my browser I have entered http://192.168.1.70:8090 and I am able to see the yacysearch.html, when I look at the ConfigBasic.html I see the following message:-

[ Your peer cannot be reached from outside (which is not fatal, but would be good for the YaCy network); please open your firewall for this port and/or set a virtual server option in your router to allow connections on this port.]{style=“font-weight: bold”}

So how do I fix the above message?

Also, when I look at the Status.html page I see the following message:-

[You have not published your peer seed yet. This happens automatically, just wait.]{style=“font-weight: bold”}

No matter how long I wait this message does not go away, so what is the fix for this as well.

Statistik: Verfasst von YorkshireTyke — Mi Jan 29, 2014 10:04 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-01-29 22:12:36

„Ich koch mir mein eigenes Google”

Statistik: Verfasst von gTSj — Mi Jan 29, 2014 10:12 pm


Mitmachen • Re: Website yacy.de bzw. yacy.net

Date: 2014-01-29 23:14:49

Tor Hidden Service (nicht Browser bundle): Da man als Tor-User davon ausgehen muss, dass die eigene Exit-Node schadhaft ist und HTTP-Traffic manipuliert, würde ein Hidden Service etwas Abhilfe schaffen. Ja, Niche2have.

zum Thema: Wie sieht den euer Server-Setup (so grob) aus? Ist das ein vServer, RootServer oder shared hosting? Für alle Seiten (yacy.net vs. bugs.yacy.net vs. yacy-websuche.de) oder separat?
Anders gefragt: wäre es möglich, per git Content auf den Server zu bringen?

Statistik: Verfasst von gTSj — Mi Jan 29, 2014 11:14 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-01-30 08:35:39

Orbiter hat geschrieben:\ >
> > Low012 hat geschrieben:Die vierte Gewalt ist die Initiative des > Einzelnen\ > >


nicht schlecht, man bezeichnet aber auch oft die Presse als vierte Gewalt.


Genau! :twisted: Die lokale Zeitung hier druckt nach meiner subjektiven Wahrnehmung eigentlich fast nur noch dpa- und Polizeimeldungen ab.

\ Wie wärs mit \"Ein Nackter Mann hat wenig Geheimnisse, ein gehäuteter hat keine\"\


War gestern der große Lacher bei mir im Büro!

Statistik: Verfasst von Low012 — Do Jan 30, 2014 8:35 am


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-01-30 14:56:22

Is it somehow possible to have yacy run reliably when the index becomes larger?

I\’ve given yacy 3500 MB RAM on my VPS (need the rest for other stuff running on the server).

I allow remote crawls and DHT and have yacy index everything I browse using the Gresemaonky script, so the index will never stop growing. Currently, there are about 9 million documents and 31 million citations in the index.

I\’m restarting yacy four times a day using a cron job. Plus, I have it delete documents older than 28 days every day.

This has worked well for a month or so, but not anymore. yacy generally works well for about half an hour or maximum an hour after it was started.

Then viewing pages of the admin interface still works, and search works initially, but when I try to switch to the second page of results, the first page is shown again.

Then more and more short memory cycles are showing up in the log, then the first exceptions for not enough Java heap space start coming up. After a while, the log consists almost exclusively of \“W 2014/01/30 14:43:51 COLLECTION d[] is empty, iid=…\” lines.

When the next restart is reached, in 75% of the cases a clean shutdown is not possible anymore, and the stop script kills yacy.

This has at least worked better until a week ago or so? Until that point, yacy used to stop the crawlers before memory became too low, so it at least stayed more or less usable. (Though searches often still didn\’t work anymore.) Now, yacy very seldomly stops the crawlers, and when it does, it\’s much too late.

What can I do to keep my index at a size my VPS can handle? I.e. as big as possible so that yacy can at least run without problems for six or seven hours or so? Is there a rule of thumb how many documents yacy can handle with a certain memory size?

Why is it always working well at the beginning, but stops doing so later? What is eating up so much memory over time? It seems to me that crawling is the biggest problem here, but why would I run a search engine if I can\’t have it crawl? :-)

Are there any optimizations I could do?

Statistik: Verfasst von zottel — Do Jan 30, 2014 2:56 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-01-31 09:53:28

Yet some another ARM boards (a tip from a colleague): http://www.udoo.org/

The target group are Arduino users. So these devices contains an additional ATMEL controller. Distribution also inside Europe (22% VAT, no additional TAX). Other Distribution places: USA, India, Russia.

The most powerful device has 4 cores and SATA. Costs: 99€+VAT

Different Linux OS available: Ubuntu, Android, Debian, Yocto

Best regards,
Frank

Statistik: Verfasst von fherb — Fr Jan 31, 2014 9:53 am


English • Re: 2 instances of YaCy on the same host

Date: 2014-02-01 07:04:05

Yes, I made that first. But it does not work.

I can connect to the both YaCy instances locally, but the second cannot reach the outside.

Statistik: Verfasst von ccompagnon — Sa Feb 01, 2014 7:04 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-01 09:45:47

Hi,

darf ich meine 2 Cent auch noch beisteuern?

- wir finden alles
- P2P, die besondere Art der Partnersuche
- Yacy, die do-it-yourself Suchmaschine
- Such\’ doch selbst
- gewusst wo, Yacy
- no woman no cry, no Ggl no spy
- you never (walk) search alone

Orbiters \‘gehäuteter Mann\’ gefällt mir sehr gut.

Gruß
lux

Statistik: Verfasst von lux — Sa Feb 01, 2014 9:45 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-01 15:43:24

Der gehäutete Mann ist ein toller Titel für einen Vortrag.

Statistik: Verfasst von Huppi — Sa Feb 01, 2014 3:43 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-01 15:49:36

Ein Arbeitskollege hat mich auf ein paar krasse ARM-Boards hingewiesen, die hier aber alle wohl noch nicht verfügbar sind. 8-Kerner, 8-16 GB RAM. Die sind aber alle erst einmal auf Android ausgelegt. Ich schaue die Informationen mal durch und poste dann hier ein paar Links.

Statistik: Verfasst von Huppi — Sa Feb 01, 2014 3:49 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-02-01 15:52:39

Blippex habe ich mir angesehen, bin aber skeptisch, ob ich das Plugin installieren möchte.

Statistik: Verfasst von Huppi — Sa Feb 01, 2014 3:52 pm


Suchmaschinen • Google beschreibt die Netzzukunft

Date: 2014-02-01 16:15:23

Gerade gefunden: Buchbesprechung in Bild der Wissenschaft 2-2014:

\ Eric Schmidt, Jared Cohen, \"Die Vernetzung der Welt\", ISBN 978-3498-06422-8\


auch als E-Book unter anderer ISBN erhätlich

\ Der Executive Chairman von Google und sein Forschungsdirektor wissen, wovon sie reden - schließlich leiten sie die Geschicke des weltweit mächtigsten, innovativsten und neugierigsten Internetkonzerns. \... Sie erstellen nachvollziehbare Prognosen und entwerfen ein differenziertes, kompetentes Bild eines beunruhigenden Szenarios.\

Statistik: Verfasst von Huppi — Sa Feb 01, 2014 4:15 pm


Suchmaschinen • Re: Was ist mit Romso los?

Date: 2014-02-01 16:21:23

Bei mir geht es gerade nicht :-(

Statistik: Verfasst von Huppi — Sa Feb 01, 2014 4:21 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-01 20:29:13

Also Olimex has now an own ARM based Linux board system: OLinuXino (eg. A20 dual core 1GByte RAM and SATA for 55,00 Euro).

see https://www.olimex.com/Products/OLinuXino/A20/

The special of this boards are a lot possibilities in order to connect hardware. From a lot of GPIOs until grafic displays. These displays are tested and distributed from Olimex. And the price seems really good.

There are low price boards similar to RasPi.

Greetings, Frank

Statistik: Verfasst von fherb — Sa Feb 01, 2014 8:29 pm


English • Thank you for the English forum

Date: 2014-02-02 06:38:44

It\’s been a long time coming and I think it\’s a great idea. One suggestion though to help increase English participation. I noticed upon trying to register that almost all text was in German. I think that may make it difficult for English speakers. In particular the current security question in regards to past members of the German government might also be a challenge. :) Might it be a good idea to add English text to the registration fields as well and in particular the security question? I did notice British English is installed as a language so for my fellow English speakers you can go to your \“user control panel\” at ucp.php{.postlink-local} and change that so most forum fields are in English but unfortunately as far as I can tell it is only for registered users.

Statistik: Verfasst von davidm — So Feb 02, 2014 6:38 am


English • Re: Minimum requirements for YaCy

Date: 2014-02-02 06:41:12

I noticed the same problems a year or two back when I tested YaCy. As it approached the upper memory limit it suddenly crashed or became very unstable. I was hoping the bug would be fixed. :( I am about to do an install on a 32 bit 3 GB Ram P4 3.0 Ghz Linux install and will test and see if I run into the same thing.

Statistik: Verfasst von davidm — So Feb 02, 2014 6:41 am


Hilfe für Einsteiger und Anwender • Crawler Tiefe verändern

Date: 2014-02-02 15:18:16

Hallo in die Runde :)
Ich bin heute auf Yacy aufmerksam geworden und habe es erst einmal zu Testzwecken installiert.

Als Anfänger probiert man ja einiges aus und habe deswegen beim einrichten einer URL von der ich aus crawlen wollte die Crawling-Tiefe auf 4 gesetzt.

Da im Nachhinein betrachtet dies anscheinend zu viel war, wollte ich den Wert ändern. Die Stellen wo ich der Meinung war das man den dort ändern kann, hatten aber nach dem neuen starten keinerlei Auswirkungen.

Darum die Frage, kann man die Crawler Tiefe im nachhinein eigentlich noch ändern und wenn ja wo.

Ach ja, ich habe mir erlaubt auf meinem kleinen Blog heute einen Anfangsbericht zu schreiben über YacY und wollte vielleicht in den nächsten Wochen meine eigenen Erfahrungen in weiteren kleinen Beiträgen veröffentlichen.

Statistik: Verfasst von tbtip — So Feb 02, 2014 3:18 pm


Mitmachen • Re: Website yacy.de bzw. yacy.net

Date: 2014-02-02 15:34:46

gTSj hat geschrieben:\ Ich finde, die Seite yacy.net sollte überarbeitet werden:\ 1. Ohne JavaScript im Browser ist sie kaum nutzbar (kein Menü, kein Footer, ein Teil des Textes überlappt).\ 2. Der Inhalt des HTML-Dokuments besteht etwa zur Hälfte aus Kommentaren.\


Ich habe gerade weder in Firefox noch in Chromium eine Möglichkeit gefunden, Javascript zu deaktivieren. Wer das also trotzdem macht, weiß genau, was er sich antut. HTML-Kommentare lese ich nicht. (Dies ist keine \“offizielle\” Meinung, sondern meine persönliche.)

Statistik: Verfasst von Lotus — So Feb 02, 2014 3:34 pm


English • Re: 2 instances of YaCy on the same host

Date: 2014-02-02 16:53:41

Do you have port forwarding configured manually in your modem/router, and do you have \“Configure your router for YaCy\” checked or unchecked, on the basic configuration page of yacy (http://localhost:8090/ConfigBasic.html)?

Statistik: Verfasst von David — So Feb 02, 2014 4:53 pm


Hilfe für Einsteiger und Anwender • Re: Crawler Tiefe verändern

Date: 2014-02-02 22:59:00

Hallo!

tbtip hat geschrieben:\ Darum die Frage, kann man die Crawler Tiefe im nachhinein eigentlich noch ändern und wenn ja wo.\


Eigentlich sollte man das unter Creation Monitor / Scheduler and Profile Editor (ganz unten auf der Seite) ändern können.
http://localhost:8090/CrawlProfileEditor_p.html

Statistik: Verfasst von David — So Feb 02, 2014 10:59 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-02-02 23:32:12

The bigger your index grows, the more ram it needs. There\’s nothing you can do about it. You probably should stop crawling new pages before it\’s getting too big, and uncheck \“Index Receive\” in the network configuration: http://localhost:8090/ConfigNetwork_p.html. If you want to index additional pages, you either have to upgrade your RAM or start a new index on another computer.

zottel hat geschrieben:\ I\'m restarting yacy four times a day using a cron job.\


Wow. This should not be necessary. Under normal circumstances a healthy peer should be able to run for several days, weeks or even months without the need for restarting.

zottel hat geschrieben:\ Is there a rule of thumb how many documents yacy can handle with a certain memory size?\


I\’m not 100% sure, but as far as I know, with 15GB of RAM you should be able to maintain an index with 50\‘000\‘000-60\‘000\‘000 links. So with 3.5GB you probably can run an index with 10\‘000\‘000-12\‘000\‘000 links. But as I said, I\’m not really sure about this. It depends on many different factors.

Statistik: Verfasst von David — So Feb 02, 2014 11:32 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-02 23:45:37

I wrote about the Olimex boards. I want to introduce one of them: The [A10-OLinuXino-LIME]{style=“font-weight: bold”}.

The RasPi-Project is Open Source. In the moment I can not estimate how far the Olimex OLinuXino is open for any own board development. For our YaCy it\’s important to get a long available platform. When Olimex could be interesting for future, so we will look for details in licence questions.

The reason is the base price of 30 Euro. So this board is in the same category like Rasperry Pi. [Let us look for details:]{style=“font-weight: bold”}

(This data comes from Olimex <https://www.olimex.com/Products/OLinuXino/A10/A10-OLinuXino-LIME/open-source-hardware> and the German Rasperycenter <http://raspberrycenter.de/handbuch/technische-daten>. Please note: I didn\’t find a special \“datasheet\” page on raspberry.org. It\’s not clear for me why raspberry.org doesn\’t have such a page in the high order level of they web site.)

[[CPU]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: ARM1176JZFS v6 32Bit Single Core with math. coprozessor (VPU) und DSP, 700 MHz
A10-OLinuXino: A10 Cortex-A8 CPU 1GHz

[[GPU]{style=“font-weight: bold”}]{style=“text-decoration: underline”}

RasPi: Videocore IV, Dual Core, 128 KB L2-Cache, 250 MHz
A10-OLinuXino: Mali 400 GPU


[[RAM]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: 512 MB RAM, 400 MHz (Model B)
A10-OLinuXino: 512MB DDR3 RAM

[[local Boot-\“Disk\“]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: SD Memory Card Slot (SDHC), compatibel to Class 4 and Class 6 cards
A10-OLinuXino: MicroSD card connector (no special data)

[Class 46: I\’m not sure if this could be the reason that the SD-slot of RasPi is slower than it\’s USB interface. But it can be. ]{style=“font-weight: bold”}

[[Display ports]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: HMDI 1.3a, Composite Video
A10-OLinuXino: HDMI connector with FullHD support (1080p), LCD connector compatible with with 4.3\“, 7.0\“, 10.1\” LCD modules from Olimex

[[GPIO and interfaces]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: 17 3,3V GPIO Pins (SPI, I2C, UART)
A10-OLinuXino: 160 GPIOs on four GPIO connectors; DEBUG-UART connector for console debug with USB-SERIAL-CABLE-F; GPIO LED

[[Audio]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: 3,5mm Stereo-Audio
A10-OLinuXino: no

[[Data-Interfaces]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: 1 x RJ45 10100 MBit/s Ethernet via USB-Controller; 2 x USB 2.0
A10-OLinuXino: 100MBit native Ethernet; 2 x USB High Speed, 1 x USB On-The-Go

[[HDD-Interface]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: no special Interface; USB 2.0 connector
A10-OLinuXino: [SATA]{style=“font-weight: bold”} (???) connector with 5V SATA power jack

[[Power consumption:]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

RasPi: 3,5W
A10-OLinuXino: ???

The A10-OLinuXino has a [[LiPo]{style=“text-decoration: underline”}]{style=“font-weight: bold”} Battery connector with battery-charging capabilities

I see: We should try this device. :)

Statistik: Verfasst von fherb — So Feb 02, 2014 11:45 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-02-03 04:30:14

Is there really no mechanism to automatically remove the oldest/least accessed data once we approach the upper limits of the server? One would think this would be the way to do things and that it would be important to keep the node stable. I can\’t see a use case for where we should prefer a crash or lockup over removing the oldest data... unless I miss something.

On a positive note yaCy is one of the most beautiful and well designed projects I have ever seen. The web admin is simply amazing. You can tell there are some people involved in the project who really care about it.

Statistik: Verfasst von davidm — Mo Feb 03, 2014 4:30 am


YaCy Coding & Architektur • How were the ranking parameters selected?

Date: 2014-02-03 08:26:19

Can anyone tell me how the default ranking parameters were selected? Was it just manual trial and error until it looked good?

I\’m a computer science student taking a grad-level course on evolutionary computation; I\’m thinking it might be an interesting project to automatically adjust YaCy\’s ranking based on evolutionary algorithms using relevance feedback from the user base. Does this sound like an interesting idea? Is there any ongoing work regarding optimizing the ranking?

Thanks.

(I\’m posting this English post in the Coding/Architecture section because I think it\’s most relevant there; should I have posted this in the new English-specific section?)

Statistik: Verfasst von biolizard89 — Mo Feb 03, 2014 8:26 am


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-03 09:49:02

Wow, das wäre cool, wenn diese Funktion mal in Yacy implementiert werden würde.

Lotus hat geschrieben:\ Man könnte ein Bild zu YaCy hochladen, und dann finden lassen, wo es überall verwendet wurde. Komisch, dass Google das nicht kann.\


Google kann das schon ziemlich lang. Wenn man auf die Bildersuchmaske wechselt, hat es ganz rechts im Eingabefeld für den Suchbegriff, ein kleines Fotoapparat-Symbol, das man anklicken kann.

Statistik: Verfasst von David — Mo Feb 03, 2014 9:49 am


Mitmachen • Re: Website yacy.de bzw. yacy.net

Date: 2014-02-03 10:36:15

\@Lotus:
bei 1. geht es auch um die Indizierung durch Suchmaschinen. So weit ich weiß, interpretieren Suchmaschinen kein JavaScript – damit sind weite Teile der Yacy-Website nicht für Suchmaschinen sichtbar. Was das bedeutet, wisst ihr besser als ich.
bei 2. geht es vor allem um den Traffic, der unnötig ist.

Statistik: Verfasst von gTSj — Mo Feb 03, 2014 10:36 am


English • Re: Thank you for the English forum

Date: 2014-02-03 10:37:58

Since most Germans are able to understand at least some English the default language of this forum could be changed to English in my opinion.

Statistik: Verfasst von gTSj — Mo Feb 03, 2014 10:37 am


Panorama • CCC und Digitalcourage stellen Strafanzeige gegen Regierung

Date: 2014-02-03 14:07:39

aus meiner Sicht [endlich]{style=“font-style: italic”} so eine Aktion auf \‘Staatsebene\‘. Das war überfällig.

Der CCC, die Internationale Liga für Menschenrechte und der Digitalcourage e.V haben eine Strafanzeige beim Generalbundesanwalt wegen Zusammenarbeit mit NSA, verbotene geheimdienstliche Agententätigkeiten sowie Beihilfe hierzu, Verletzungen des persönlichen Lebens- und Geheimbereichs und Strafvereitelung im Amt durch Duldung und Kooperation mit der NSA und dem GCHQ.

\ Die Bundesregierung habe sich strafbar gemacht nach Paragraph 99 Strafgesetzbuch (verbotene geheimdienstliche Agententätigkeit), den Paragraphen 201ff. des Strafgesetzbuchs ((Verletzungen des persönlichen Lebens- und Geheimbereichs) und nach Paragraph 258 Strafgesetzbuch (Strafvereitelung). Das müsse vom Generalbundesanwalt verfolgt werden.\



http://www.tagesschau.de/inland/cccanzeige100.html
http://www.zeit.de/digital/datenschutz/ ... sregierung{.postlink}
http://www.faz.net/aktuell/feuilleton/m ... 82623.html{.postlink}
http://www.ccc.de/de/updates/2014/complaint
http://digitalcourage.de/blog/2014/stra ... sregierung{.postlink}

Ich finde ja, die Wellen hierzu können gar nicht hoch genug schlagen. Bitte Mithelfen die Nachricht zu multiplizieren!

Statistik: Verfasst von Orbiter — Mo Feb 03, 2014 2:07 pm


Mitmachen • Re: How to beat Google?

Date: 2014-02-03 20:35:39

There is the obvious: beat them on a larger index size. But that is difficult indeed!!

I would suggest that we could beat them by offering more configuration options for the power users so they can define how their search engines work. This is something Google does not give them. Ideally we should match Google\’s search capabilities and then look to exceed them in this regard.

A weakness the last time I checked was the inability to do exact multi-word searches like \“yacy beta\” or \“Orlando, FL\“. From reading from what I recall the nature of the dHt implementation makes this difficult.

Right now though at this point it\’s probably most important to make sure the client is stable. Otherwise people will run it and uninstall it once it always crashes or locks up their system. This was why I left a few years ago. So far so good on my tests this time. 48 hours uptime so far. :)

Statistik: Verfasst von davidm — Mo Feb 03, 2014 8:35 pm


English • Re: Thank you for the English forum

Date: 2014-02-03 20:48:50

Well I\’m an American who understands very little German. :) But I respect the right of the developers and German speakers to use their own language if they prefer. I just think it\’s great that we have a English section on this forum now. :)
Sure changing to English probably would make it so more people can read it more easily. But it feels a lot like going to Germany as a guest and demanding everyone speak only English.

Statistik: Verfasst von davidm — Mo Feb 03, 2014 8:48 pm


Hilfe für Einsteiger und Anwender • Re: Crawler Tiefe verändern

Date: 2014-02-04 05:40:11

Hallo David,

David hat geschrieben:\ Eigentlich sollte man das unter Creation Monitor / Scheduler and Profile Editor (ganz unten auf der Seite) ändern können.\



diese Stelle hatte ich auch gefunden, jedoch kann ma nur auf das Profil zugreifen, wenn der entsprechende Crawl auch aktiv ist.

Ist der Crawl aktiv und man bearbeitet die entsprechende Stelle im Profil und speichert diese neue Einstellung, bleibt dennoch die vorherige Einstellung bestehen.

Statistik: Verfasst von tbtip — Di Feb 04, 2014 5:40 am


Panorama • Re: CCC und Digitalcourage stellen Strafanzeige gegen Regier

Date: 2014-02-04 10:57:32

https://twitter.com/derpupe/status/430445297248923648
Bild

Statistik: Verfasst von Orbiter — Di Feb 04, 2014 10:57 am


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-04 13:24:42

Lotus hat geschrieben:\ Man kann Momente von Bildern berechnen, die unter anderem invariant gegen Skalierung sind, d.h. wenn ein Bild in der Größe verändert wird, ändert sich die Zahl nicht.\



Wenn die Momente sowieso invariant gegenüber Skalierung sind, kann man die Bilder doch auch erst (auf eine geeignete Größe, was auch immer das ist) verkleinern und dann die Momente berechnen. Ausreißer wie die 1900ms bei Bild 1 sollte es dann nicht mehr geben.

Ich hatte vor einiger Zeit mal einen etwas naiven Ansatz verfolgt, bin dann aber auf Probleme gestoßen, hatte dann keine Zeit mehr und habe den Kram ganz vergessen: viewtopic.php?f=8&t=3138{.postlink-local}

Dummerweise habe ich den Quellcode damals nicht angehängt, der müsste aber noch irgendwo im Backup eines Backups meiner Code-Müllhalde vor sich hin schimmeln. Das Skalieren ging, wenn ich mich richtig erinnere, recht flott. Ich muss den Kram aber nochmal ausgraben, um zu schauen, ob das wirklich so war.

Statistik: Verfasst von Low012 — Di Feb 04, 2014 1:24 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-04 17:19:12

Ich favorisiere zur Zeit den Titel \“Macht doch was ihr wollt, ich mach jetzt meinen eigenen Kram!\” im Hinblick darauf, dass die linuxtag-Leute das halt ablehnen wenn sie es zu skurril finden. Als Abstract hab ich mal folgendes geschrieben:

\ Gemeinwohl und Demokratie hängen vom Grundrecht auf Datenschutz und Anonymität ab. Durch die Untätigkeit unserer Regierung sind wir zum Selbstschutz gezwungen. Der Vortrag beschreibt die Misere jedes Computer- und Internetnutzers: wie kann ich kommunizieren, recherchieren und Datenaustausch betreiben ohne überwacht werden zu können? Zum Selbstschutz machen wir nun \'unseren eigenen Kram\' und zeigen in einem Rundumschlag wie das einfach geht.\



Das ist der Kurzabstract, einen längeren habe ich noch nicht vorbereitet. Der Vortrag wird dann eine Zusammenfassung von meiner Keynote bei den Kieler Linuxtagen 2013{.postlink} mit Schwerpunkt GPG, Tor, YaCy, OSM, Owncloud und RPi. Ideen?

Statistik: Verfasst von Orbiter — Di Feb 04, 2014 5:19 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-04 17:30:36

http://www.tbtip.de/blog/?post/Meine-ei ... 02/02/2014{.postlink}

Statistik: Verfasst von Orbiter — Di Feb 04, 2014 5:30 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-05 09:13:18

Bau auf jeden Fall das \“Game of Tools\” ein, das ist super!

\“Macht doch was ihr wollt, ich mach jetzt meinen eigenen Kram!\” finde ich irgendwie ein bisschen sperrig, wenn man es ausspricht. Irgendwie fehlt da ein bisschen der \“Flow\“. Vielleicht habe ich aber auch nur ein Macke...

Statistik: Verfasst von Low012 — Mi Feb 05, 2014 9:13 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-02-05 10:38:30

Also ich habe es nicht getan. :mrgreen:

Statistik: Verfasst von Low012 — Mi Feb 05, 2014 10:38 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-05 11:21:08

hm, ich nehme den von dir vorgeschlagenen Trotz-Satz, um ihn weiterzuentwickeln, mache daraus \“lass mich, ich kann das selbst\” und werde noch ein wenig politischer. Wie wäre es mit

\“Staatsversagen in #Neuland: lass mich, ich kann das selbst!\”

wobei mir dabei noch die Wörter Datenschutz und Privatsphähre fehlen, weiss aber nicht wie ich die unterbringen soll.

Statistik: Verfasst von Orbiter — Mi Feb 05, 2014 11:21 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-05 11:26:35

Wie wäre es mit \“Staatsversagen in #Neuland: lass mich, ich kann das selbst! – Selbstverteidigung im Privatsphähre- und Datenschutz-freien Raum\“?

Statistik: Verfasst von Low012 — Mi Feb 05, 2014 11:26 am


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-05 16:41:17

Ist eine externe C-Bibliothek/Assembler-Programm keine Option?

Statistik: Verfasst von kilian — Mi Feb 05, 2014 4:41 pm


English • Is Yacy indexing every webpage i visit in my browser?

Date: 2014-02-05 19:19:39

Is yacy indexing every webpage i visit in my webbroswer?
I found some information that seems like that is the case, but it\’s not much information and I had to shut down yacy until I know more about this.
I did not find any setting to toggle this if it is acutally happening..

Statistik: Verfasst von crawl3r — Mi Feb 05, 2014 7:19 pm


Off-Topic • https://www.facebook.com/vasiliy.dede

Date: 2014-02-05 20:57:11

https://www.facebook.com/vasiliy.dede
#\$#
P.S. [Yududi]{style=“font-weight: bold”} - bitte , nicht zu kommentieren mein Thema ! ;)

Statistik: Verfasst von petyunchik-smor — Mi Feb 05, 2014 8:57 pm


YaCy Coding & Architektur • DHT Frage

Date: 2014-02-05 21:31:24

1. Ist die genaue Funktionsweise der verteilten Hashtabelle irgendwo dokumentiert? Konnte im Wiki nichts finden. Mich würd interessieren wie das mit dem \“keyspace partioning\” im Yacy-Netz funktioniert und wie dabei die Redundanz sicher gestellt wird. Und auch wie das \“Overlay network\” aussieht.

2. Was sind denn die Gegenmaßnahmen gegen Peers die das Freeworldnetz mit tausenden Suchanfragen pro Minute bombardieren?

3. Was gibt es denn für Möglichkeiten Suchvorschläge im DHT-Modus anzubieten, also nicht nur welche aus dem lokalen Index? Mir ist klar, dass das wohl ziemlich aufwändig wird.…

Statistik: Verfasst von kilian — Mi Feb 05, 2014 9:31 pm


English • Re: Is Yacy indexing every webpage i visit in my browser?

Date: 2014-02-05 21:49:53

Hi crawl3r!

\ Will running YaCy jeopardize my privacy?\ \ YaCy respects user privacy. All password- or cookies-protected pages are excluded from indexing. Additionally, pages loaded using GET or POST parameters are not indexed by default. Thus, only publicly accessible, non-password-protected pages will be indexed.\ \ For a detailed explanation on the technique: [How YaCy protects your privacy wrt to personalized pages](http://www.yacy-websuche.de/wiki/index.php/En:Privacy){.postlink}.\


Source: http://www.yacy-websuche.de/wiki/index. ... privacy.3F{.postlink}

Plus, the websites you open in your web browser are only getting indexed, if yacy is set as proxy in the network configuration of your browser.

Statistik: Verfasst von David — Mi Feb 05, 2014 9:49 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-02-05 22:37:07

The requested option does not exist directly, but it is e.g. possible to remove all entries from the index which are older than a specified time. I guess that makes quite sense to drop search results older than one year, for example. This can be acchieved within two steps:

1.) Go to \“http://localhost:8090/IndexDeletion_p.html" and delete entries older than a specified age.
2.) At \“http://localhost:8090/Table_API_p.html" you find this deletion as a recorded action and you\’ve got the possibility to set it as a repeated action, e.g. after every start.

Statistik: Verfasst von anonufe — Mi Feb 05, 2014 10:37 pm


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2014-02-06 01:54:04

An idea I had and started to write a few building blocks for is an Anti SPAM Robot program for my forum using 2 computers running QuickBASIC 4.5
I never finished it because there are not very many keyboard shortcuts when moderation is involved in a forum.

Would it be helpful if the Robot looked in active posts and reported posts with links of domains that are listed known for spam or other suspect content?

The system I had in mind has a master computer running XP or 2003 to gather, sort and identify content, a slave that talks to its keyboard port receiving its commands over a serial connection from the master computer.

Statistik: Verfasst von smokingwheels — Do Feb 06, 2014 1:54 am


Mitmachen • Re: Das leidige Thema SPAM im Forum

Date: 2014-02-06 12:22:34

\@gTSj ich bin mal deinem Rat gefolgt und habe die copyright-Meldungen aus dem html und dem css rausgenommen. Dabei habe ich versehentlich die ganzen Änderungen von mir abgeschossen und ich hoffe ich konnte sie wieder rekonstruieren.

Statistik: Verfasst von Orbiter — Do Feb 06, 2014 12:22 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2014-02-06 16:17:07

Ich habe auf einem Peer so einen Fall gehabt, dass er nicht reagiert und habe mit jmap -dump:format=b <pid> ein dump file von der noch laufenden Applikation gemacht und mit dem Eclipse MemoryAnalyzer untersucht, Ergebnis: memory leak in Solr (speziell ConcurrentLRUCache):

Solr_MemoryLeak_ConcurrentLRUCache.png

Dabei gibt es schon Konfigurationen in solrconfig.xml um die Caches klein zu halten. Ich versuche nun herauszufinden, ob ich über direkte Methoden am Solr Core den Cache kleinkloppen kann.

Statistik: Verfasst von Orbiter — Do Feb 06, 2014 4:17 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2014-02-06 17:02:31

Die Caches kann man auch gut ganz weglassen - YaCy hat ja eh alles gecached - ich denke nicht das ohne die SolrCaches mehr IO erzeugt wird.
Ich hab das bei mir schon recht lange ohne sie laufen.

Statistik: Verfasst von sixcooler — Do Feb 06, 2014 5:02 pm


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-06 19:22:55

\@killian: Damit geht dann halt die Platformunabhängigkeit verloren. Und die Distribution wird auch deutlich schwieriger.

Statistik: Verfasst von gTSj — Do Feb 06, 2014 7:22 pm


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2014-02-07 10:34:33

die Caches sind eh schon recht klein, ich habe aber den Code durchforstet und den Verdacht, dass ich da irgendwo einen Fehler hatte der Solr Searcher aufgemacht und nicht wieder geschlossen hat. Das legt dann pro Searcher vier neue Caches an. Die Datenstruktur, die alle Caches hält hatte ich wohl schon vor zwei Monaten als Memory Leak entdeckt, dann aber falsch gefixt. Könnte jetzt besser gelaufen sein. Um das ganze mal monitoren zu können, habe ich in /PerformanceMemory_p.html eine neue Tabelle die alle Solr Datenstrukturen zeigt, die bei einem Core geöffnet sind. Da sind auch die vier Caches drin (mit \“org.apache.solr.search.FastLRUCache\” in der ersten Spalte) und dazugehörigen Statistiken. Mal schauen wie das sich dort entwickelt, bei Verdacht auf Memory Leak bitte da mal rein schauen ob was merkwürdig ist.

Statistik: Verfasst von Orbiter — Fr Feb 07, 2014 10:34 am


Fragen und Antworten • Re: Was liest man aus dem Log, wenn Peer nicht reagiert?

Date: 2014-02-07 14:47:23

Ich dachte irgendwo im Solr-Wiki mal etwas aufgeschnapt zu haben, das Searcher - wenn geschlossen - eh wieder geöffnet werden.
Solr versucht immer einen Searcher offen zu haben um für die nächste Anfrage bereit zu sein.
Ob die neuen Caches gleich wieder gefüllt werden, ist eine Frage der Option \‘Autowarming\‘.
Ja die Caches sind klein in unserer Config - aber 64 Dokumente können auch Fett sein.

Statistik: Verfasst von sixcooler — Fr Feb 07, 2014 2:47 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-02-07 15:26:30

I had done that already and even daily removed everything older than 28 days. :-)

But I\’m not sure if it might have been a problem of config leftovers etc., because a few days after my post, I completely dumped my yacy installation and everything in it to start from scratch.

Of course, the index on my peer is not even half as large as it was before, but yacy has been running like a charm for a whole week now, and it\’s still fast and everything works.

When I first set up yacy a year ago or so, I immediately gave it a number of very big crawls, and the index was quickly large enough to make it unstable. So I gave up on it, later tried again, but kept my config and only deleted the index. I then set up periodical index cleaning, and that worked for a while, but still the index became too large to handle, it seems. And: At some point when I was originally trying to get it to work for more than a few hours, I had switched to Generation Memory Strategy and had also fiddled with a lot of other settings, hoping to make it work. These changes were never changed back, and when I tried to switch back to Standard memory Strategy in January, it didn\’t work, it always set itself back to Generation Memory Strategy.

So it might be that something was very wrong with my settings, too.

Now I\’m back to defaults, and at least at the current index size of about 4 million documents, everything works very smoothly. I didn\’t allow remote crawls this time, so the index doesn\’t grow too much, too.

I\’m now indexing the public parts of the Red Matrix ( https://redmatrix.me ) daily, have yacy crawl everything I visit, and accept DHT transfer. Let\’s see how large the index can become now that I\’m back to defaults. And I think I\’ll add periodic deletion of old documents, anyway, maybe it will never grow too large then.

Statistik: Verfasst von zottel — Fr Feb 07, 2014 3:26 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2014-02-07 16:50:33

davidm hat geschrieben:\ One would think this would be the way to do things and that it would be important to keep the node stable.\


I see that this feature is now really missing to operate YaCy on limited devices like a RPi. There is not a single reason that this feature is not yet realized but many:
- time for development
- unanswered deletion strategies (delete least accessed, oldest?)
- a missing architecture for the deletion (two databases - RWI and Metadata/Solr - must be cleaned in balance and efficiency for that is not easy), and
- the philosophical contradiction (a search engine which rejects censoring deletes it\’s own data).

There are also some administration questions, like
- should \‘auto-delete\’ be a default setting if resources are not available (if not set by default, most people will not enable it so it does not work as peer-protection)
- should the limit be set by remaining space (\“df .\” does not work on all systems) or to-occupy-space (requires frequent counting of all file sizes in DATA)

Statistik: Verfasst von Orbiter — Fr Feb 07, 2014 4:50 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-09 14:42:20

YaCy is today in the Linux Action Show, 10 am PST, 19:00 EST.
I am invited for an interview, I guess we will talk about the YaCyPi project as well.

Statistik: Verfasst von Orbiter — So Feb 09, 2014 2:42 pm


Fragen und Antworten • YaCy + Raspberry Pi + Arch Linux = Segfault Java

Date: 2014-02-09 17:59:54

Hey everyone and thanks for all the effort that\’s already been put into this great project.

Since I run quite some computers at home and I want YaCy to be used on all of them, I wanted to install it on my RasPi as the search engine server in my home network.
The compilations runs fine and when I start the yacy service I can see the java process doing smth for a while and exits then, leaving me with an error file in /tmp:

I\’m neither into OpenJDK nor into Java in general so I\’d hope somebody would have a good hint for me :)
This is the error log:

Code:
## A fatal error has been detected by the Java Runtime Environment:##  Internal Error (os_linux_zero.cpp:254), pid=2698, tid=3061621856#  fatal error: caught unhandled signal 11## JRE version: OpenJDK Runtime Environment (7.0_51-b31) (build 1.7.0_51-b31)# Java VM: OpenJDK Zero VM (24.51-b03 interpreted mode linux-arm )# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again## If you would like to submit a bug report, please include# instructions on how to reproduce the bug and visit:#   http://icedtea.classpath.org/bugzilla#---------------  T H R E A D  ---------------Current thread (0xb6607278):  JavaThread "main" [_thread_in_Java, id=2699, stack(0xb678c000,0xb67cb000)]Stack: [0xb678c000,0xb67cb000],  sp=0xb67aae0c,  free space=123kJava frames: 0xb67c9278: stack_word[9]         = 0x00000002 0xb67c927c: stack_word[8]         = 0xb67c92e8 0xb67c9280: stack_word[7]         = 0x65601b10 0xb67c9284: stack_word[6]         = 0x40cb4430 0xb67c9288: stack_word[5]         = 0x40cb3e98 0xb67c928c: stack_word[4]         = 0x5a9c42f4 0xb67c9290: stack_word[3]         = 0x40cb4470 0xb67c9294: stack_word[2]         = 0x40cb4470 0xb67c9298: stack_word[1]         = 0x400c0014 0xb67c929c: stack_word[0]         = 0x40ca4fe8 0xb67c92a0: istate->_thread       = 0xb6607278 0xb67c92a4: istate->_bcp          = 0x656c5e78 (bci 24) 0xb67c92a8: istate->_locals       = 0xb67c9300 0xb67c92ac: istate->_constants    = 0x656c6b10 0xb67c92b0: istate->_method       = java.util.HashMap.createEntry(ILjava/lang/Object;Ljava/lang/Object;I)V 0xb67c92b4: istate->_mdx          = 0x00000000 0xb67c92b8: istate->_stack        = 0xb67c9290 0xb67c92bc: istate->_msg          = 0x00000003 0xb67c92c0: istate->_result       = 0x656c73b0 0xb67c92c4: (istate->_result)     = 0x76600140 0xb67c92c8: (istate->_result)     = 0x00000003 0xb67c92cc: istate->_prev_link    = 0x00000000 0xb67c92d0: istate->_oop_temp     = 0x00000000 0xb67c92d4: istate->_stack_base   = 0xb67c92a0 0xb67c92d8: istate->_stack_limit  = 0xb67c9274 0xb67c92dc: istate->_monitor_base = 0xb67c92a0 0xb67c92e0: istate->_self_link    = 0xb67c92a0 0xb67c92e4: frame_type            = INTERPRETER_FRAME 0xb67c92e8: next_frame            = 0xb67c934c 0xb67c92ec: local[5]              = 0x65601b10 0xb67c92f0: local[4]              = 0x400c0014 0xb67c92f4: local[3]              = 0x40cb4430 0xb67c92f8: local[2]              = 0x40cb3e98 0xb67c92fc: local[1]              = 0x5a9c42f4 0xb67c9300: local[0]              = 0x40e39718 0xb67c9304: istate->_thread       = 0xb6607278 0xb67c9308: istate->_bcp          = 0x656c5d91 (bci 65) 0xb67c930c: istate->_locals       = 0xb67c9360 0xb67c9310: istate->_constants    = 0x656c6b10 0xb67c9314: istate->_method       = java.util.HashMap.addEntry(ILjava/lang/Object;Ljava/lang/Object;I)V 0xb67c9318: istate->_mdx          = 0x00000000 0xb67c931c: istate->_stack        = 0xb67c92ec 0xb67c9320: istate->_msg          = 0x00000008 0xb67c9324: istate->_result       = 0x656c5ee0 0xb67c9328: (istate->_result)     = 0x76600140 0xb67c932c: (istate->_result)     = 0x00000003 0xb67c9330: istate->_prev_link    = 0x00000000 0xb67c9334: istate->_oop_temp     = 0x00000000 0xb67c9338: istate->_stack_base   = 0xb67c9304 0xb67c933c: istate->_stack_limit  = 0xb67c92e4 0xb67c9340: istate->_monitor_base = 0xb67c9304 0xb67c9344: istate->_self_link    = 0xb67c9304 0xb67c9348: frame_type            = INTERPRETER_FRAME 0xb67c934c: next_frame            = 0xb67c93ac 0xb67c9350: local[4]              = 0x400c0014 0xb67c9354: local[3]              = 0x40cb4430 0xb67c9358: local[2]              = 0x40cb3e98 0xb67c935c: local[1]              = 0x5a9c42f4 0xb67c9360: local[0]              = 0x40e39718 0xb67c9364: istate->_thread       = 0xb6607278 0xb67c9368: istate->_bcp          = 0x656c4cf9 (bci 137) 0xb67c936c: istate->_locals       = 0xb67c93cc 0xb67c9370: istate->_constants    = 0x656c6b10 0xb67c9374: istate->_method       = java.util.HashMap.put(Ljava/lang/Object;Ljava/lang/Object;)Ljava/lang/Object; 0xb67c9378: istate->_mdx          = 0x00000000 0xb67c937c: istate->_stack        = 0xb67c934c 0xb67c9380: istate->_msg          = 0x00000008 0xb67c9384: istate->_result       = 0x656c5de0 0xb67c9388: (istate->_result)     = 0x76600140 0xb67c938c: (istate->_result)     = 0x00000003 0xb67c9390: istate->_prev_link    = 0x00000000 0xb67c9394: istate->_oop_temp     = 0x00000000 0xb67c9398: istate->_stack_base   = 0xb67c9364 0xb67c939c: istate->_stack_limit  = 0xb67c9344 0xb67c93a0: istate->_monitor_base = 0xb67c9364 0xb67c93a4: istate->_self_link    = 0xb67c9364 0xb67c93a8: frame_type            = INTERPRETER_FRAME 0xb67c93ac: next_frame            = 0xb67c9420 0xb67c93b0: local[7]              = 0x00000000 0xb67c93b4: local[6]              = 0x00000000 0xb67c93b8: local[5]              = 0x00000000 0xb67c93bc: local[4]              = 0x400c0014 0xb67c93c0: local[3]              = 0x5a9c42f4 0xb67c93c4: local[2]              = 0x40cb4430 0xb67c93c8: local[1]              = 0x40cb3e98 0xb67c93cc: local[0]              = 0x40e39718 0xb67c93d0: monitor[0]->_lock     = 0x00000001 0xb67c93d4: monitor[0]->_obj      = 0x40e39718 0xb67c93d8: istate->_thread       = 0xb6607278 0xb67c93dc: istate->_bcp          = 0x6573a611 (bci 57) 0xb67c93e0: istate->_locals       = 0xb67c9438 0xb67c93e4: istate->_constants    = 0x6573ae58 0xb67c93e8: istate->_method       = java.security.SecureClassLoader.getProtectionDomain(Ljava/security/CodeSource;)Ljava/security/ProtectionDomain; 0xb67c93ec: istate->_mdx          = 0x00000000 0xb67c93f0: istate->_stack        = 0xb67c93c0 0xb67c93f4: istate->_msg          = 0x00000008 0xb67c93f8: istate->_result       = 0x656c4d78 0xb67c93fc: (istate->_result)     = 0x76600140 0xb67c9400: (istate->_result)     = 0x00000003 0xb67c9404: istate->_prev_link    = 0x00000000 0xb67c9408: istate->_oop_temp     = 0x00000000 0xb67c940c: istate->_stack_base   = 0xb67c93d0 0xb67c9410: istate->_stack_limit  = 0xb67c93ac 0xb67c9414: istate->_monitor_base = 0xb67c93d8 0xb67c9418: istate->_self_link    = 0xb67c93d8 0xb67c941c: frame_type            = INTERPRETER_FRAME 0xb67c9420: next_frame            = 0xb67c9498 0xb67c9424: local[10]             = 0x00000000 0xb67c9428: local[9]              = 0x40cb3eb8 0xb67c942c: local[8]              = 0x40e39718 0xb67c9430: local[7]              = 0x40cb4430 0xb67c9434: local[6]              = 0x40cb3e98 0xb67c9438: local[5]              = 0x40e393b0 0xb67c943c: local[4]              = 0x00003630 0xb67c9440: local[3]              = 0x00000000 0xb67c9444: local[2]              = 0x40cb0858 0xb67c9448: local[1]              = 0x40c8b250 0xb67c944c: local[0]              = 0x40e393b0 0xb67c9450: istate->_thread       = 0xb6607278 0xb67c9454: istate->_bcp          = 0x6573a389 (bci 9) 0xb67c9458: istate->_locals       = 0xb67c94b0 0xb67c945c: istate->_constants    = 0x6573ae58 0xb67c9460: istate->_method       = java.security.SecureClassLoader.defineClass(Ljava/lang/String;[BIILjava/security/CodeSource;)Ljava/lang/Class; 0xb67c9464: istate->_mdx          = 0x00000000 0xb67c9468: istate->_stack        = 0xb67c9430 0xb67c946c: istate->_msg          = 0x00000008 0xb67c9470: istate->_result       = 0x6573a6a0 0xb67c9474: (istate->_result)     = 0x76600140 0xb67c9478: (istate->_result)     = 0x00000003 0xb67c947c: istate->_prev_link    = 0x00000000 0xb67c9480: istate->_oop_temp     = 0x00000000 0xb67c9484: istate->_stack_base   = 0xb67c9450 0xb67c9488: istate->_stack_limit  = 0xb67c9428 0xb67c948c: istate->_monitor_base = 0xb67c9450 0xb67c9490: istate->_self_link    = 0xb67c9450 0xb67c9494: frame_type            = INTERPRETER_FRAME 0xb67c9498: next_frame            = 0xb67c94fc 0xb67c949c: local[5]              = 0x40cb3e98 0xb67c94a0: local[4]              = 0x00003630 0xb67c94a4: local[3]              = 0x00000000 0xb67c94a8: local[2]              = 0x40cb0858 0xb67c94ac: local[1]              = 0x40c8b250 0xb67c94b0: local[0]              = 0x40e393b0 0xb67c94b4: istate->_thread       = 0xb6607278 0xb67c94b8: istate->_bcp          = 0x657390c4 (bci 220) 0xb67c94bc: istate->_locals       = 0xb67c9528 0xb67c94c0: istate->_constants    = 0x6573aff8 0xb67c94c4: istate->_method       = java.net.URLClassLoader.defineClass(Ljava/lang/String;Lsun/misc/Resource;)Ljava/lang/Class; 0xb67c94c8: istate->_mdx          = 0x00000000 0xb67c94cc: istate->_stack        = 0xb67c9498 0xb67c94d0: istate->_msg          = 0x00000008 0xb67c94d4: istate->_result       = 0x6573a3e0 0xb67c94d8: (istate->_result)     = 0x76600140 0xb67c94dc: (istate->_result)     = 0x00000003 0xb67c94e0: istate->_prev_link    = 0x00000000 0xb67c94e4: istate->_oop_temp     = 0x00000000 0xb67c94e8: istate->_stack_base   = 0xb67c94b4 0xb67c94ec: istate->_stack_limit  = 0xb67c9484 0xb67c94f0: istate->_monitor_base = 0xb67c94b4 0xb67c94f4: istate->_self_link    = 0xb67c94b4 0xb67c94f8: frame_type            = INTERPRETER_FRAME 0xb67c94fc: next_frame            = 0xb67c9574 0xb67c9500: local[10]             = 0x40cb3e98 0xb67c9504: local[9]              = 0x00000000 0xb67c9508: local[8]              = 0x40cb0858 0xb67c950c: local[7]              = 0x00000000 0xb67c9510: local[6]              = 0x40e34018 0xb67c9514: local[5]              = 0x0000002d 0xb67c9518: local[4]              = 0x0648b8e6 0xb67c951c: local[3]              = 0x0000056b 0xb67c9520: local[2]              = 0x40c8e148 0xb67c9524: local[1]              = 0x40c8b250 0xb67c9528: local[0]              = 0x40e393b0 0xb67c952c: istate->_thread       = 0xb6607278 0xb67c9530: istate->_bcp          = 0x65739bfb (bci 3) 0xb67c9534: istate->_locals       = 0xb67c9580 0xb67c9538: istate->_constants    = 0x6573aff8 0xb67c953c: istate->_method       = java.net.URLClassLoader.access$100(Ljava/net/URLClassLoader;Ljava/lang/String;Lsun/misc/Resource;)Ljava/lang/Class; 0xb67c9540: istate->_mdx          = 0x00000000 0xb67c9544: istate->_stack        = 0xb67c951c 0xb67c9548: istate->_msg          = 0x00000008 0xb67c954c: istate->_result       = 0x657391b0 0xb67c9550: (istate->_result)     = 0x76600140 0xb67c9554: (istate->_result)     = 0x00000003 0xb67c9558: istate->_prev_link    = 0x00000000 0xb67c955c: istate->_oop_temp     = 0x00000000 0xb67c9560: istate->_stack_base   = 0xb67c952c 0xb67c9564: istate->_stack_limit  = 0xb67c9514 0xb67c9568: istate->_monitor_base = 0xb67c952c 0xb67c956c: istate->_self_link    = 0xb67c952c 0xb67c9570: frame_type            = INTERPRETER_FRAME 0xb67c9574: next_frame            = 0xb67c95cc 0xb67c9578: local[2]              = 0x40c8e148 0xb67c957c: local[1]              = 0x40c8b250 0xb67c9580: local[0]              = 0x40e393b0 0xb67c9584: istate->_thread       = 0xb6607278 0xb67c9588: istate->_bcp          = 0x6578f5bb (bci 43) 0xb67c958c: istate->_locals       = 0xb67c95dc 0xb67c9590: istate->_constants    = 0x6578f888 0xb67c9594: istate->_method       = java.net.URLClassLoader$1.run()Ljava/lang/Class; 0xb67c9598: istate->_mdx          = 0x00000000 0xb67c959c: istate->_stack        = 0xb67c9574 0xb67c95a0: istate->_msg          = 0x00000008 0xb67c95a4: istate->_result       = 0x65739c30 0xb67c95a8: (istate->_result)     = 0x76600140 0xb67c95ac: (istate->_result)     = 0x00000003 0xb67c95b0: istate->_prev_link    = 0x00000000 0xb67c95b4: istate->_oop_temp     = 0x00000000 0xb67c95b8: istate->_stack_base   = 0xb67c9584 0xb67c95bc: istate->_stack_limit  = 0xb67c9568 0xb67c95c0: istate->_monitor_base = 0xb67c9584 0xb67c95c4: istate->_self_link    = 0xb67c9584 0xb67c95c8: frame_type            = INTERPRETER_FRAME 0xb67c95cc: next_frame            = 0xb67c9628 0xb67c95d0: local[3]              = 0x00000000 0xb67c95d4: local[2]              = 0x40c8e148 0xb67c95d8: local[1]              = 0x40c8bbe0 0xb67c95dc: local[0]              = 0x40c8ba70 0xb67c95e0: istate->_thread       = 0xb6607278 0xb67c95e4: istate->_bcp          = 0x6578f6a9 (bci 1) 0xb67c95e8: istate->_locals       = 0xb67c962c 0xb67c95ec: istate->_constants    = 0x6578f888 0xb67c95f0: istate->_method       = java.net.URLClassLoader$1.run()Ljava/lang/Object; 0xb67c95f4: istate->_mdx          = 0x00000000 0xb67c95f8: istate->_stack        = 0xb67c95d8 0xb67c95fc: istate->_msg          = 0x00000008 0xb67c9600: istate->_result       = 0x6578f628 0xb67c9604: (istate->_result)     = 0x76600140 0xb67c9608: (istate->_result)     = 0x00000003 0xb67c960c: istate->_prev_link    = 0x00000000 0xb67c9610: istate->_oop_temp     = 0x00000000 0xb67c9614: istate->_stack_base   = 0xb67c95e0 0xb67c9618: istate->_stack_limit  = 0xb67c95d0 0xb67c961c: istate->_monitor_base = 0xb67c95e0 0xb67c9620: istate->_self_link    = 0xb67c95e0 0xb67c9624: frame_type            = INTERPRETER_FRAME 0xb67c9628: next_frame            = 0xb67c9638 0xb67c962c: local[0]              = 0x40c8ba70 0xb67c9630: call_wrapper          = 0xb67ab8d0 0xb67c9634: frame_type            = ENTRY_FRAME 0xb67c9638: next_frame            = 0xb67c969c 0xb67c963c: unboxed parameter[3]  = 0xb67c96a0 0xb67c9640: unboxed parameter[2]  = 0xb67c96a4 0xb67c9644: parameter[0] (JNIEnv) = 0xb67abb44 0xb67c9648: parameter[1] (mirror) = 0xb67abb34 0xb67c964c: parameter[2]          = 0xb67c9640 0xb67c9650: parameter[3]          = 0xb67c963c 0xb67c9654: istate->_thread       = 0xb6607278 0xb67c9658: istate->_bcp          = 0x00000000 0xb67c965c: istate->_locals       = 0xb67c96a4 0xb67c9660: istate->_constants    = 0x65689170 0xb67c9664: istate->_method       = java.security.AccessController.doPrivileged(Ljava/security/PrivilegedExceptionAction;Ljava/security/AccessControlContext;)Ljava/lang/Object; 0xb67c9668: istate->_mdx          = 0x00000000 0xb67c966c: istate->_stack        = 0xb67c9650 0xb67c9670: istate->_msg          = 0x00000002 0xb67c9674: istate->_result       = 0x00000000 0xb67c9678: (istate->_result)     = 0x00000000 0xb67c967c: (istate->_result)     = 0x00000000 0xb67c9680: istate->_prev_link    = 0x00000000 0xb67c9684: istate->_oop_temp     = 0x40e045b0 0xb67c9688: istate->_stack_base   = 0xb67c9654 0xb67c968c: istate->_stack_limit  = 0xb67c9650 0xb67c9690: istate->_monitor_base = 0xb67c9654 0xb67c9694: istate->_self_link    = 0xb67c9654 0xb67c9698: frame_type            = INTERPRETER_FRAME 0xb67c969c: next_frame            = 0xb67c96f0 0xb67c96a0: local[1]              = 0x40e39b20 0xb67c96a4: local[0]              = 0x40c8ba70 0xb67c96a8: istate->_thread       = 0xb6607278 0xb67c96ac: istate->_bcp          = 0x65738dd5 (bci 13) 0xb67c96b0: istate->_locals       = 0xb67c96fc 0xb67c96b4: istate->_constants    = 0x6573aff8 0xb67c96b8: istate->_method       = java.net.URLClassLoader.findClass(Ljava/lang/String;)Ljava/lang/Class; 0xb67c96bc: istate->_mdx          = 0x00000000 0xb67c96c0: istate->_stack        = 0xb67c969c 0xb67c96c4: istate->_msg          = 0x00000008 0xb67c96c8: istate->_result       = 0x65688c68 0xb67c96cc: (istate->_result)     = 0x7660017c 0xb67c96d0: (istate->_result)     = 0x00000003 0xb67c96d4: istate->_prev_link    = 0x00000000 0xb67c96d8: istate->_oop_temp     = 0x00000000 0xb67c96dc: istate->_stack_base   = 0xb67c96a8 0xb67c96e0: istate->_stack_limit  = 0xb67c968c 0xb67c96e4: istate->_monitor_base = 0xb67c96a8 0xb67c96e8: istate->_self_link    = 0xb67c96a8 0xb67c96ec: frame_type            = INTERPRETER_FRAME 0xb67c96f0: next_frame            = 0xb67c9750 0xb67c96f4: local[2]              = 0x00000000 0xb67c96f8: local[1]              = 0x40c8b250 0xb67c96fc: local[0]              = 0x40e393b0 0xb67c9700: monitor[0]->_lock     = 0x00000001 0xb67c9704: monitor[0]->_obj      = 0x40c8b308 0xb67c9708: istate->_thread       = 0xb6607278 0xb67c970c: istate->_bcp          = 0x656134ae (bci 70) 0xb67c9710: istate->_locals       = 0xb67c9778 0xb67c9714: istate->_constants    = 0x656816d8 0xb67c9718: istate->_method       = java.lang.ClassLoader.loadClass(Ljava/lang/String;Z)Ljava/lang/Class; 0xb67c971c: istate->_mdx          = 0x00000000 0xb67c9720: istate->_stack        = 0xb67c96f4 0xb67c9724: istate->_msg          = 0x00000008 0xb67c9728: istate->_result       = 0x65738e28 0xb67c972c: (istate->_result)     = 0x76600140 0xb67c9730: (istate->_result)     = 0x00000003 0xb67c9734: istate->_prev_link    = 0x00000000 0xb67c9738: istate->_oop_temp     = 0x00000000 0xb67c973c: istate->_stack_base   = 0xb67c9700 0xb67c9740: istate->_stack_limit  = 0xb67c96e0 0xb67c9744: istate->_monitor_base = 0xb67c9708 0xb67c9748: istate->_self_link    = 0xb67c9708 0xb67c974c: frame_type            = INTERPRETER_FRAME 0xb67c9750: next_frame            = 0xb67c97c4 0xb67c9754: local[9]              = 0x00000000 0xb67c9758: local[8]              = 0x058a17fe 0xb67c975c: local[7]              = 0x0000056b 0xb67c9760: local[6]              = 0x0567685a 0xb67c9764: local[5]              = 0x0000056b 0xb67c9768: local[4]              = 0x00000000 0xb67c976c: local[3]              = 0x40c8b308 0xb67c9770: local[2]              = 0x00000000 0xb67c9774: local[1]              = 0x40c8b250 0xb67c9778: local[0]              = 0x40e393b0 0xb67c977c: istate->_thread       = 0xb6607278 0xb67c9780: istate->_bcp          = 0x6578a65c (bci 36) 0xb67c9784: istate->_locals       = 0xb67c97d8 0xb67c9788: istate->_constants    = 0x6578ac60 0xb67c978c: istate->_method       = sun.misc.Launcher$AppClassLoader.loadClass(Ljava/lang/String;Z)Ljava/lang/Class; 0xb67c9790: istate->_mdx          = 0x00000000 0xb67c9794: istate->_stack        = 0xb67c976c 0xb67c9798: istate->_msg          = 0x00000008 0xb67c979c: istate->_result       = 0x65613570 0xb67c97a0: (istate->_result)     = 0x76600140 0xb67c97a4: (istate->_result)     = 0x00000003 0xb67c97a8: istate->_prev_link    = 0x00000000 0xb67c97ac: istate->_oop_temp     = 0x00000000 0xb67c97b0: istate->_stack_base   = 0xb67c977c 0xb67c97b4: istate->_stack_limit  = 0xb67c9760 0xb67c97b8: istate->_monitor_base = 0xb67c977c 0xb67c97bc: istate->_self_link    = 0xb67c977c 0xb67c97c0: frame_type            = INTERPRETER_FRAME 0xb67c97c4: next_frame            = 0xb67c9824 0xb67c97c8: local[4]              = 0x00000000 0xb67c97cc: local[3]              = 0x0000002d 0xb67c97d0: local[2]              = 0x00000000 0xb67c97d4: local[1]              = 0x40c8b250 0xb67c97d8: local[0]              = 0x40e393b0 0xb67c97dc: istate->_thread       = 0xb6607278 0xb67c97e0: istate->_bcp          = 0x656133bb (bci 3) 0xb67c97e4: istate->_locals       = 0xb67c982c 0xb67c97e8: istate->_constants    = 0x656816d8 0xb67c97ec: istate->_method       = java.lang.ClassLoader.loadClass(Ljava/lang/String;)Ljava/lang/Class; 0xb67c97f0: istate->_mdx          = 0x00000000 0xb67c97f4: istate->_stack        = 0xb67c97cc 0xb67c97f8: istate->_msg          = 0x00000008 0xb67c97fc: istate->_result       = 0x6578a6b0 0xb67c9800: (istate->_result)     = 0x76600140 0xb67c9804: (istate->_result)     = 0x00000003 0xb67c9808: istate->_prev_link    = 0x00000000 0xb67c980c: istate->_oop_temp     = 0x00000000 0xb67c9810: istate->_stack_base   = 0xb67c97dc 0xb67c9814: istate->_stack_limit  = 0xb67c97c4 0xb67c9818: istate->_monitor_base = 0xb67c97dc 0xb67c981c: istate->_self_link    = 0xb67c97dc 0xb67c9820: frame_type            = INTERPRETER_FRAME 0xb67c9824: next_frame            = 0xb67c9838 0xb67c9828: local[1]              = 0x40c8b250 0xb67c982c: local[0]              = 0x40e393b0 0xb67c9830: call_wrapper          = 0xb67abd88 0xb67c9834: frame_type            = ENTRY_FRAME 0xb67c9838: next_frame            = 0xb67c98a0 0xb67c983c: local[6]              = 0xb67c9800 0xb67c9840: local[5]              = 0xb67c9800 0xb67c9844: local[4]              = 0x00000002 0xb67c9848: local[3]              = 0xb67c98a0 0xb67c984c: local[2]              = 0x40c7b288 0xb67c9850: local[1]              = 0x40c7b0a8 0xb67c9854: local[0]              = 0x40b8fc28 0xb67c9858: istate->_thread       = 0xb6607278 0xb67c985c: istate->_bcp          = 0x659c61f6 (bci 46) 0xb67c9860: istate->_locals       = 0xb67c98c8 0xb67c9864: istate->_constants    = 0x65dd8cf0 0xb67c9868: istate->_method       = net.yacy.cora.storage.Configuration.commit()V 0xb67c986c: istate->_mdx          = 0x00000000 0xb67c9870: istate->_stack        = 0xb67c984c 0xb67c9874: istate->_msg          = 0x00000003 0xb67c9878: istate->_result       = 0x6571cc28 0xb67c987c: (istate->_result)     = 0x76600140 0xb67c9880: (istate->_result)     = 0x00000003 0xb67c9884: istate->_prev_link    = 0x00000000 0xb67c9888: istate->_oop_temp     = 0x00000000 0xb67c988c: istate->_stack_base   = 0xb67c9858 0xb67c9890: istate->_stack_limit  = 0xb67c9838 0xb67c9894: istate->_monitor_base = 0xb67c9858 0xb67c9898: istate->_self_link    = 0xb67c9858 0xb67c989c: frame_type            = INTERPRETER_FRAME 0xb67c98a0: next_frame            = 0xb67c9914 [...] cut out [...] 0xb67c98cc: istate->_thread       = 0xb6607278 0xb67c98d0: istate->_bcp          = 0x659cef39 (bci 1) 0xb67c98d4: istate->_locals       = 0xb67c9924 0xb67c98d8: istate->_constants    = 0x65de0000 0xb67c98dc: istate->_method       = net.yacy.search.schema.CollectionConfiguration.commit()V 0xb67c98e0: istate->_mdx          = 0x00000000 0xb67c98e4: istate->_stack        = 0xb67c98c4 0xb67c98e8: istate->_msg          = 0x00000008 0xb67c98ec: istate->_result       = 0x659c6480 0xb67c98f0: (istate->_result)     = 0x76600140 0xb67c98f4: (istate->_result)     = 0x00000003 0xb67c98f8: istate->_prev_link    = 0x00000000 0xb67c98fc: istate->_oop_temp     = 0x00000000 0xb67c9900: istate->_stack_base   = 0xb67c98cc 0xb67c9904: istate->_stack_limit  = 0xb67c98b8 0xb67c9908: istate->_monitor_base = 0xb67c98cc 0xb67c990c: istate->_self_link    = 0xb67c98cc 0xb67c9910: frame_type            = INTERPRETER_FRAME 0xb67c9914: next_frame            = 0xb67c9970 0xb67c9918: local[3]              = 0x00000000 0xb67c991c: local[2]              = 0x00000000 0xb67c9920: local[1]              = 0x00000000 0xb67c9924: local[0]              = 0x40c4db48 0xb67c9928: istate->_thread       = 0xb6607278 0xb67c992c: istate->_bcp          = 0x657fceb7 (bci 1191) 0xb67c9930: istate->_locals       = 0xb67c9a1c 0xb67c9934: istate->_constants    = 0x659d86c0 0xb67c9938: istate->_method       = net.yacy.search.Switchboard.<init>(Ljava/io/File;Ljava/io/File;Ljava/lang/String;Ljava/lang/String;)V 0xb67c993c: istate->_mdx          = 0x00000000 0xb67c9940: istate->_stack        = 0xb67c9920 0xb67c9944: istate->_msg          = 0x00000008 0xb67c9948: istate->_result       = 0x659ceff8 0xb67c994c: (istate->_result)     = 0x76600140 0xb67c9950: (istate->_result)     = 0x00000003 0xb67c9954: istate->_prev_link    = 0x00000000 0xb67c9958: istate->_oop_temp     = 0x00000000 0xb67c995c: istate->_stack_base   = 0xb67c9928 0xb67c9960: istate->_stack_limit  = 0xb67c98d0 0xb67c9964: istate->_monitor_base = 0xb67c9928 0xb67c9968: istate->_self_link    = 0xb67c9928 0xb67c996c: frame_type            = INTERPRETER_FRAME 0xb67c9970: next_frame            = 0xb67c9a6c [...] cut out [...] 0xb67c9a24: istate->_thread       = 0xb6607278 0xb67c9a28: istate->_bcp          = 0x657f047f (bci 783) 0xb67c9a2c: istate->_locals       = 0xb67c9b04 0xb67c9a30: istate->_constants    = 0x6580f1a0 0xb67c9a34: istate->_method       = net.yacy.yacy.startup(Ljava/io/File;Ljava/io/File;JJZ)V 0xb67c9a38: istate->_mdx          = 0x00000000 0xb67c9a3c: istate->_stack        = 0xb67c9a08 0xb67c9a40: istate->_msg          = 0x00000008 0xb67c9a44: istate->_result       = 0x657fe4e0 0xb67c9a48: (istate->_result)     = 0x76600140 0xb67c9a4c: (istate->_result)     = 0x00000003 0xb67c9a50: istate->_prev_link    = 0x00000000 0xb67c9a54: istate->_oop_temp     = 0x00000000 0xb67c9a58: istate->_stack_base   = 0xb67c9a24 0xb67c9a5c: istate->_stack_limit  = 0xb67c99e0 0xb67c9a60: istate->_monitor_base = 0xb67c9a24 0xb67c9a64: istate->_self_link    = 0xb67c9a24 0xb67c9a68: frame_type            = INTERPRETER_FRAME 0xb67c9a6c: next_frame            = 0xb67c9b50 [...] cut out [...] 0xb67c9b08: istate->_thread       = 0xb6607278 0xb67c9b0c: istate->_bcp          = 0x657f1b7e (bci 510) 0xb67c9b10: istate->_locals       = 0xb67c9b84 0xb67c9b14: istate->_constants    = 0x6580f1a0 0xb67c9b18: istate->_method       = net.yacy.yacy.main([Ljava/lang/String;)V 0xb67c9b1c: istate->_mdx          = 0x00000000 0xb67c9b20: istate->_stack        = 0xb67c9ae8 0xb67c9b24: istate->_msg          = 0x00000008 0xb67c9b28: istate->_result       = 0x657f0f30 0xb67c9b2c: (istate->_result)     = 0x76600140 0xb67c9b30: (istate->_result)     = 0x00000003 0xb67c9b34: istate->_prev_link    = 0x00000000 0xb67c9b38: istate->_oop_temp     = 0x00000000 0xb67c9b3c: istate->_stack_base   = 0xb67c9b08 0xb67c9b40: istate->_stack_limit  = 0xb67c9ae0 0xb67c9b44: istate->_monitor_base = 0xb67c9b08 0xb67c9b48: istate->_self_link    = 0xb67c9b08 0xb67c9b4c: frame_type            = INTERPRETER_FRAME 0xb67c9b50: next_frame            = 0xb67c9b90 0xb67c9b54: local[12]             = 0x00000000 0xb67c9b58: local[11]             = 0x00000000 0xb67c9b5c: local[10]             = 0x00000000 0xb67c9b60: local[9]              = 0x40f1a5b8 0xb67c9b64: local[8]              = 0x40f1a5b8 0xb67c9b68: local[7]              = 0x40e067d8 0xb67c9b6c: local[6]              = 0x00000001 0xb67c9b70: local[5]              = 0x05880000 0xb67c9b74: local[4]              = 0x00000000 0xb67c9b78: local[3]              = 0x05791038 0xb67c9b7c: local[2]              = 0x00000000 0xb67c9b80: local[1]              = 0x00000000 0xb67c9b84: local[0]              = 0x40e91308 0xb67c9b88: call_wrapper          = 0xb67c9c20 0xb67c9b8c: frame_type            = ENTRY_FRAME 0xb67c9b90: next_frame            = 0x00000000---------------  P R O C E S S  ---------------Java Threads: ( => current thread )  0x3cfa4778 JavaThread "Thread-1" [_thread_blocked, id=2713, stack(0x3cc28000,0x3cc68000)]  0x3d0c25c8 JavaThread "Log Worker" [_thread_blocked, id=2708, stack(0x3d18d000,0x3d1cd000)]  0xb6688a40 JavaThread "Service Thread" daemon [_thread_blocked, id=2706, stack(0x3d64a000,0x3d68a000)]  0xb6686fe0 JavaThread "Signal Dispatcher" daemon [_thread_blocked, id=2705, stack(0x3d68a000,0x3d6ca000)]  0xb6685d48 JavaThread "Surrogate Locker Thread (Concurrent GC)" daemon [_thread_blocked, id=2704, stack(0x3d6ca000,0x3d70a000)]  0xb6674a60 JavaThread "Finalizer" daemon [_thread_blocked, id=2703, stack(0x3d70a000,0x3d74a000)]  0xb66734f8 JavaThread "Reference Handler" daemon [_thread_blocked, id=2702, stack(0x3d74a000,0x3d78a000)]=>0xb6607278 JavaThread "main" [_thread_in_Java, id=2699, stack(0xb678c000,0xb67cb000)]Other Threads:  0xb6670bd8 VMThread [stack: 0x3d78b000,0x3d80a000] [id=2701]  0xb668a6a0 WatcherThread [stack: 0x3d5cb000,0x3d64a000] [id=2707]VM state:not at safepoint (normal execution)VM Mutex/Monitor currently owned by a thread: NoneHeap def new generation   total 14848K, used 16593K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K, 113% used [0x3fe00000, 0x40cb4488, 0x40b00000)  from space 1536K, 100% used [0x40c80000, 0x40e00000, 0x40e00000)  to   space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000) concurrent mark-sweep generation total 75776K, used 1470K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 12800K, used 8097K [0x65600000, 0x66280000, 0x75600000)Card table byte_map: [0x3fc53000,0x3fe00000] byte_map_base: 0x3fa54000Polling page: 0xb6f43000Code Cache  [0x76600000, 0x76628000, 0xb6600000) total_blobs=93 nmethods=0 adapters=86 free_code_cache=1048505Kb largest_free_block=1073669312Compilation events (0 events):No eventsGC Heap History (8 events):Event: 3.689 GC heap before{Heap before GC invocations=0 (full 0): def new generation   total 14848K, used 2052K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,  15% used [0x3fe00000, 0x400011d8, 0x40b00000)  from space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000)  to   space 1536K,   0% used [0x40c80000, 0x40c80000, 0x40e00000) concurrent mark-sweep generation total 75776K, used 0K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 4096K, used 2188K [0x65600000, 0x65a00000, 0x75600000)Event: 3.989 GC heap afterHeap after GC invocations=1 (full 1): def new generation   total 14848K, used 0K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,   0% used [0x3fe00000, 0x3fe00000, 0x40b00000)  from space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000)  to   space 1536K,   0% used [0x40c80000, 0x40c80000, 0x40e00000) concurrent mark-sweep generation total 75776K, used 581K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 4096K, used 2188K [0x65600000, 0x65a00000, 0x75600000)}Event: 21.079 GC heap before{Heap before GC invocations=1 (full 2): def new generation   total 14848K, used 13311K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,  99% used [0x3fe00000, 0x40affff0, 0x40b00000)  from space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000)  to   space 1536K,   0% used [0x40c80000, 0x40c80000, 0x40e00000) concurrent mark-sweep generation total 75776K, used 581K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 4992K, used 4931K [0x65600000, 0x65ae0000, 0x75600000)Event: 21.232 GC heap afterHeap after GC invocations=2 (full 2): def new generation   total 14848K, used 1536K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,   0% used [0x3fe00000, 0x3fe00000, 0x40b00000)  from space 1536K, 100% used [0x40c80000, 0x40e00000, 0x40e00000)  to   space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000) concurrent mark-sweep generation total 75776K, used 1328K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 4992K, used 4931K [0x65600000, 0x65ae0000, 0x75600000)}Event: 39.379 GC heap before{Heap before GC invocations=2 (full 2): def new generation   total 14848K, used 14847K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,  99% used [0x3fe00000, 0x40afffe8, 0x40b00000)  from space 1536K, 100% used [0x40c80000, 0x40e00000, 0x40e00000)  to   space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000) concurrent mark-sweep generation total 75776K, used 1107K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 9028K, used 6341K [0x65600000, 0x65ed1000, 0x75600000)Event: 39.558 GC heap afterHeap after GC invocations=3 (full 2): def new generation   total 14848K, used 1452K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,   0% used [0x3fe00000, 0x3fe00000, 0x40b00000)  from space 1536K,  94% used [0x40b00000, 0x40c6b350, 0x40c80000)  to   space 1536K,   0% used [0x40c80000, 0x40c80000, 0x40e00000) concurrent mark-sweep generation total 75776K, used 1957K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 9028K, used 6341K [0x65600000, 0x65ed1000, 0x75600000)}Event: 75.333 GC heap before{Heap before GC invocations=3 (full 3): def new generation   total 14848K, used 14764K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K, 100% used [0x3fe00000, 0x40b00000, 0x40b00000)  from space 1536K,  94% used [0x40b00000, 0x40c6b350, 0x40c80000)  to   space 1536K,   0% used [0x40c80000, 0x40c80000, 0x40e00000) concurrent mark-sweep generation total 75776K, used 1957K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 9028K, used 7277K [0x65600000, 0x65ed1000, 0x75600000)Event: 79.964 GC heap afterHeap after GC invocations=4 (full 3): def new generation   total 14848K, used 1536K [0x3fe00000, 0x40e00000, 0x40e00000)  eden space 13312K,   0% used [0x3fe00000, 0x3fe00000, 0x40b00000)  from space 1536K, 100% used [0x40c80000, 0x40e00000, 0x40e00000)  to   space 1536K,   0% used [0x40b00000, 0x40b00000, 0x40c80000) concurrent mark-sweep generation total 75776K, used 2263K [0x40e00000, 0x45800000, 0x65600000) concurrent-mark-sweep perm gen total 9028K, used 7277K [0x65600000, 0x65ed1000, 0x75600000)}Deoptimization events (0 events):No eventsInternal exceptions (10 events):Event: 104.921 Thread 0xb6607278 Threw 0x40bd3240 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 104.950 Thread 0xb6607278 Threw 0x40bdc7d0 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 104.981 Thread 0xb6607278 Threw 0x40be3bb8 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 105.033 Thread 0xb6607278 Threw 0x40bebde0 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 105.091 Thread 0xb6607278 Threw 0x40c07a00 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 105.285 Thread 0xb6607278 Threw 0x40c24a68 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 105.455 Thread 0xb6607278 Threw 0x40c41cd0 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 106.075 Thread 0xb6607278 Threw 0x40c7b7c0 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 106.104 Thread 0xb6607278 Threw 0x40c83eb8 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Event: 106.133 Thread 0xb6607278 Threw 0x40c8b958 at /build/java7-openjdk/src/icedtea-2.4.5/openjdk/hotspot/src/share/vm/prims/jvm.cpp:1244Events (10 events):Event: 105.454 loading class 0x3d0d6820Event: 105.454 loading class 0x3d0d6820 doneEvent: 105.524 loading class 0x3db46ab0Event: 105.539 loading class 0x3db46ab0 doneEvent: 106.074 loading class 0x3d0ef300Event: 106.074 loading class 0x3d0ef300 doneEvent: 106.103 loading class 0x3cfbe770Event: 106.103 loading class 0x3cfbe770 doneEvent: 106.131 loading class 0x3cfbe710Event: 106.131 loading class 0x3cfbe710 doneDynamic libraries:00008000-00009000 r-xp 00000000 b3:05 249795     /usr/lib/jvm/java-7-openjdk/jre/bin/java00010000-00011000 rw-p 00000000 b3:05 249795     /usr/lib/jvm/java-7-openjdk/jre/bin/java006ec000-00748000 rw-p 00000000 00:00 0          [heap]3ca00000-3ca3a000 rw-p 00000000 00:00 0 3ca3a000-3cb00000 ---p 00000000 00:00 0 3cb37000-3cb3c000 r--s 0004c000 b3:05 249208     /usr/lib/jvm/java-7-openjdk/jre/lib/jsse.jar3cb3c000-3cb40000 r--s 00085000 b3:05 249265     /usr/lib/jvm/java-7-openjdk/jre/lib/ext/localedata.jar3cb40000-3cb43000 ---p 00000000 00:00 0 3cb43000-3cb80000 rw-p 00000000 00:00 0 3cb80000-3cb83000 ---p 00000000 00:00 0 3cb83000-3cbc0000 rw-p 00000000 00:00 0 3cbc0000-3cbc3000 ---p 00000000 00:00 0 3cbc3000-3cc00000 rw-p 00000000 00:00 0 3cc00000-3cc02000 r-xp 00000000 b3:05 21060      /usr/lib/libnss_myhostname.so.23cc02000-3cc09000 ---p 00002000 b3:05 21060      /usr/lib/libnss_myhostname.so.23cc09000-3cc0a000 r--p 00001000 b3:05 21060      /usr/lib/libnss_myhostname.so.23cc0a000-3cc0b000 rw-p 00002000 b3:05 21060      /usr/lib/libnss_myhostname.so.23cc0b000-3cc0f000 r-xp 00000000 b3:05 23290      /usr/lib/libnss_dns-2.18.so3cc0f000-3cc16000 ---p 00004000 b3:05 23290      /usr/lib/libnss_dns-2.18.so3cc16000-3cc17000 r--p 00003000 b3:05 23290      /usr/lib/libnss_dns-2.18.so3cc17000-3cc18000 rw-p 00004000 b3:05 23290      /usr/lib/libnss_dns-2.18.so3cc18000-3cc1f000 r-xp 00000000 b3:05 249749     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libmanagement.so3cc1f000-3cc27000 ---p 00007000 b3:05 249749     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libmanagement.so3cc27000-3cc28000 rw-p 00007000 b3:05 249749     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libmanagement.so3cc28000-3cc2b000 ---p 00000000 00:00 0 3cc2b000-3cc68000 rw-p 00000000 00:00 0          [stack:2713]3cc68000-3cc7a000 r-xp 00000000 b3:05 23300      /usr/lib/libresolv-2.18.so3cc7a000-3cc81000 ---p 00012000 b3:05 23300      /usr/lib/libresolv-2.18.so3cc81000-3cc82000 r--p 00011000 b3:05 23300      /usr/lib/libresolv-2.18.so3cc82000-3cc83000 rw-p 00012000 b3:05 23300      /usr/lib/libresolv-2.18.so3cc83000-3cc85000 rw-p 00000000 00:00 0 3cc85000-3cce2000 r-xp 00000000 b3:05 14948      /usr/lib/libpcre.so.1.2.23cce2000-3cce9000 ---p 0005d000 b3:05 14948      /usr/lib/libpcre.so.1.2.23cce9000-3ccea000 r--p 0005c000 b3:05 14948      /usr/lib/libpcre.so.1.2.23ccea000-3cceb000 rw-p 0005d000 b3:05 14948      /usr/lib/libpcre.so.1.2.23cceb000-3cced000 r-xp 00000000 b3:05 1132       /usr/lib/libgmodule-2.0.so.0.3800.23cced000-3ccf5000 ---p 00002000 b3:05 1132       /usr/lib/libgmodule-2.0.so.0.3800.23ccf5000-3ccf6000 rw-p 00002000 b3:05 1132       /usr/lib/libgmodule-2.0.so.0.3800.23ccf6000-3cdd6000 r-xp 00000000 b3:05 1031       /usr/lib/libglib-2.0.so.0.3800.23cdd6000-3cdd7000 rw-p 000e0000 b3:05 1031       /usr/lib/libglib-2.0.so.0.3800.23cdd7000-3cef5000 r-xp 00000000 b3:05 1060       /usr/lib/libgio-2.0.so.0.3800.23cef5000-3cefc000 ---p 0011e000 b3:05 1060       /usr/lib/libgio-2.0.so.0.3800.23cefc000-3ceff000 rw-p 0011d000 b3:05 1060       /usr/lib/libgio-2.0.so.0.3800.23ceff000-3cf00000 rw-p 00000000 00:00 0 3cf00000-3cfff000 rw-p 00000000 00:00 0 3cfff000-3d000000 ---p 00000000 00:00 0 3d000000-3d0fe000 rw-p 00000000 00:00 0 3d0fe000-3d100000 ---p 00000000 00:00 0 3d102000-3d146000 r-xp 00000000 b3:05 1155       /usr/lib/libgobject-2.0.so.0.3800.23d146000-3d14d000 ---p 00044000 b3:05 1155       /usr/lib/libgobject-2.0.so.0.3800.23d14d000-3d14f000 rw-p 00043000 b3:05 1155       /usr/lib/libgobject-2.0.so.0.3800.23d14f000-3d15b000 r--s 000b3000 b3:05 252956     /usr/share/java/yacy/zookeeper-3.4.5.jar3d15b000-3d16f000 r-xp 00000000 b3:05 249743     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnet.so3d16f000-3d176000 ---p 00014000 b3:05 249743     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnet.so3d176000-3d177000 rw-p 00013000 b3:05 249743     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnet.so3d177000-3d184000 r-xp 00000000 b3:05 249750     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnio.so3d184000-3d18c000 ---p 0000d000 b3:05 249750     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnio.so3d18c000-3d18d000 rw-p 0000d000 b3:05 249750     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libnio.so3d18d000-3d190000 ---p 00000000 00:00 0 3d190000-3d1cd000 rw-p 00000000 00:00 0          [stack:2708]3d1cd000-3d1e7000 r--s 0027b000 b3:05 252957     /usr/share/java/yacy/yacycore.jar3d1e7000-3d200000 r--s 00135000 b3:05 252959     /usr/share/java/yacy/xercesImpl.jar3d200000-3d300000 rw-p 00000000 00:00 0 3d300000-3d309000 r--s 0002d000 b3:05 252958     /usr/share/java/yacy/xml-apis.jar3d309000-3d30f000 r--s 0007a000 b3:05 252960     /usr/share/java/yacy/wstx-asl-3.2.9.jar3d30f000-3d316000 r--s 00053000 b3:05 252961     /usr/share/java/yacy/webcat-0.1-swf.jar3d316000-3d318000 r--s 0000f000 b3:05 252962     /usr/share/java/yacy/spatial4j-0.3.jar3d318000-3d31f000 r--s 00057000 b3:05 252963     /usr/share/java/yacy/solr-solrj-4.5.0.jar3d31f000-3d340000 r--s 00226000 b3:05 252964     /usr/share/java/yacy/solr-core-4.5.0.jar3d340000-3d341000 r--s 00001000 b3:05 252965     /usr/share/java/yacy/slf4j-jdk14-1.7.2.jar3d341000-3d343000 r--s 00005000 b3:05 252966     /usr/share/java/yacy/slf4j-api-1.7.2.jar3d343000-3d345000 r--s 0001f000 b3:05 252967     /usr/share/java/yacy/servlet-api-2.5-20081211.jar3d345000-3d346000 r--s 00006000 b3:05 252968     /usr/share/java/yacy/sax-2.0.1.jar3d346000-3d352000 r--s 000b7000 b3:05 252969     /usr/share/java/yacy/poi-scratchpad-3.6-20091214.jar3d352000-3d36d000 r--s 0015d000 b3:05 252970     /usr/share/java/yacy/poi-3.6-20091214.jar3d36d000-3d383000 r--s 003b1000 b3:05 252971     /usr/share/java/yacy/pdfbox-1.8.2.jar3d383000-3d384000 r--s 00005000 b3:05 252972     /usr/share/java/yacy/noggit-0.5.jar3d384000-3d38a000 r--s 000ad000 b3:05 252973     /usr/share/java/yacy/mysql-connector-java-5.1.12-bin.jar3d38a000-3d38e000 r--s 00030000 b3:05 252974     /usr/share/java/yacy/metadata-extractor-2.6.2.jar3d38e000-3d391000 r--s 00023000 b3:05 252975     /usr/share/java/yacy/lucene-suggest-4.5.0.jar3d391000-3d393000 r--s 00015000 b3:05 252976     /usr/share/java/yacy/lucene-spatial-4.5.0.jar3d393000-3d39c000 r--s 00055000 b3:05 252977     /usr/share/java/yacy/lucene-queryparser-4.5.0.jar3d39c000-3d3a2000 r--s 0002d000 b3:05 252978     /usr/share/java/yacy/lucene-queries-4.5.0.jar3d3a2000-3d3a4000 r--s 00015000 b3:05 252979     /usr/share/java/yacy/lucene-misc-4.5.0.jar3d3a4000-3d3a5000 r--s 00008000 b3:05 252980     /usr/share/java/yacy/lucene-memory-4.5.0.jar3d3a5000-3d3a7000 r--s 0000e000 b3:05 252981     /usr/share/java/yacy/lucene-join-4.5.0.jar3d3a7000-3d3ab000 r--s 0001b000 b3:05 252982     /usr/share/java/yacy/lucene-highlighter-4.5.0.jar3d3ab000-3d3ae000 r--s 00018000 b3:05 252983     /usr/share/java/yacy/lucene-grouping-4.5.0.jar3d3ae000-3d3b6000 r--s 00052000 b3:05 252984     /usr/share/java/yacy/lucene-facet-4.5.0.jar3d3b6000-3d3dc000 r--s 0020b000 b3:05 252985     /usr/share/java/yacy/lucene-core-4.5.0.jar3d3dc000-3d3e3000 r--s 00048000 b3:05 252986     /usr/share/java/yacy/lucene-codecs-4.5.0.jar3d3e3000-3d3e5000 r--s 00004000 b3:05 252987     /usr/share/java/yacy/lucene-classification-4.5.0.jar3d3e5000-3d3f5000 r--s 00173000 b3:05 252989     /usr/share/java/yacy/lucene-analyzers-common-4.5.0.jar3d3f5000-3d3f7000 r--s 00004000 b3:05 252990     /usr/share/java/yacy/log4j-over-slf4j-1.7.2.jar3d3f7000-3d3fd000 r--s 0003e000 b3:05 252991     /usr/share/java/yacy/jsoup-1.6.3.jar3d3fd000-3d400000 r--s 0002b000 b3:05 252993     /usr/share/java/yacy/jsch-0.1.42.jar3d400000-3d4fb000 rw-p 00000000 00:00 0 3d4fb000-3d500000 ---p 00000000 00:00 0 3d500000-3d523000 r--s 001ae000 b3:05 252994     /usr/share/java/yacy/jena-2.6.4.jar3d523000-3d525000 r--s 0000b000 b3:05 252995     /usr/share/java/yacy/jempbox-1.8.2.jar3d525000-3d527000 r--s 00003000 b3:05 252996     /usr/share/java/yacy/jcl-over-slf4j-1.7.2.jar3d527000-3d52d000 r--s 0005b000 b3:05 252997     /usr/share/java/yacy/jcifs-1.3.17.jar3d52d000-3d53b000 r--s 000c7000 b3:05 252998     /usr/share/java/yacy/jaudiotagger-2.0.4-20111207.115108-15.jar3d53b000-3d53d000 r--s 0000e000 b3:05 252999     /usr/share/java/yacy/jakarta-oro-2.0.8.jar3d53d000-3d540000 r--s 00023000 b3:05 253000     /usr/share/java/yacy/iri-0.8.jar3d540000-3d563000 r--s 0025f000 b3:05 253001     /usr/share/java/yacy/icu4j-core.jar3d563000-3d565000 r--s 00008000 b3:05 253002     /usr/share/java/yacy/httpmime-4.3.1.jar3d565000-3d56b000 r--s 0003f000 b3:05 253003     /usr/share/java/yacy/httpcore-4.3.jar3d56b000-3d576000 r--s 00084000 b3:05 253004     /usr/share/java/yacy/httpclient-4.3.1.jar3d576000-3d578000 r--s 00010000 b3:05 253005     /usr/share/java/yacy/htmllexer.jar3d578000-3d59c000 r--s 001aa000 b3:05 253006     /usr/share/java/yacy/guava-13.0.1.jar3d59c000-3d5a0000 r--s 0002f000 b3:05 253008     /usr/share/java/yacy/fontbox-1.8.2.jar3d5a0000-3d5a5000 r--s 00041000 b3:05 253010     /usr/share/java/yacy/commons-lang-2.6.jar3d5a5000-3d5ca000 r--s 00172000 b3:05 253016     /usr/share/java/yacy/bcprov-jdk15-145.jar3d5ca000-3d5cb000 ---p 00000000 00:00 0 3d5cb000-3d64a000 rw-p 00000000 00:00 0          [stack:2707]3d64a000-3d64d000 ---p 00000000 00:00 0 3d64d000-3d68a000 rw-p 00000000 00:00 0          [stack:2706]3d68a000-3d68d000 ---p 00000000 00:00 0 3d68d000-3d6ca000 rw-p 00000000 00:00 0          [stack:2705]3d6ca000-3d6cd000 ---p 00000000 00:00 0 3d6cd000-3d70a000 rw-p 00000000 00:00 0          [stack:2704]3d70a000-3d70d000 ---p 00000000 00:00 0 3d70d000-3d74a000 rw-p 00000000 00:00 0          [stack:2703]3d74a000-3d74d000 ---p 00000000 00:00 0 3d74d000-3d78a000 rw-p 00000000 00:00 0          [stack:2702]3d78a000-3d78b000 ---p 00000000 00:00 0 3d78b000-3d852000 rw-p 00000000 00:00 0          [stack:2701]3d852000-3da00000 r--s 01cf4000 b3:05 249260     /usr/lib/jvm/java-7-openjdk/jre/lib/rt.jar3da00000-3dae5000 rw-p 00000000 00:00 0 3dae5000-3db00000 ---p 00000000 00:00 0 3db00000-3db02000 r--s 00006000 b3:05 253007     /usr/share/java/yacy/geronimo-stax-api_1.0_spec-1.0.1.jar3db02000-3db04000 r--s 0000e000 b3:05 253009     /usr/share/java/yacy/commons-logging-1.1.3.jar3db04000-3db0a000 r--s 00044000 b3:05 253011     /usr/share/java/yacy/commons-jxpath-1.3.jar3db0a000-3db0d000 r--s 00025000 b3:05 253012     /usr/share/java/yacy/commons-io-2.1.jar3db0d000-3db12000 r--s 00036000 b3:05 253014     /usr/share/java/yacy/commons-compress-1.4.1.jar3db12000-3db3c000 r--s 001f4000 b3:05 253018     /usr/share/java/yacy/arq-2.8.7.jar3db3c000-3db97000 rw-p 00000000 00:00 0 3db97000-3db98000 ---p 00000000 00:00 0 3db98000-3fab4000 rw-p 00000000 00:00 0          [stack:2700]3fab4000-3fb2e000 rw-p 00000000 00:00 0 3fb2e000-3fb54000 rw-p 00000000 00:00 0 3fb54000-3fc53000 rw-p 00000000 00:00 0 3fc53000-3fc80000 rw-p 00000000 00:00 0 3fc80000-3fd7f000 rw-p 00000000 00:00 0 3fd7f000-3fd86000 rw-p 00000000 00:00 0 3fd86000-3fdff000 rw-p 00000000 00:00 0 3fdff000-45800000 rw-p 00000000 00:00 0 45800000-65600000 rw-p 00000000 00:00 0 65600000-66280000 rw-p 00000000 00:00 0 66280000-75600000 rw-p 00000000 00:00 0 75600000-75601000 rw-p 00000000 00:00 0 75601000-76600000 rw-p 00000000 00:00 0 76600000-76628000 rwxp 00000000 00:00 0 76628000-b66fe000 rw-p 00000000 00:00 0 b66fe000-b6700000 ---p 00000000 00:00 0 b6700000-b6701000 r--s 00005000 b3:05 252988     /usr/share/java/yacy/lucene-analyzers-phonetic-4.5.0.jarb6701000-b6703000 r--s 0000d000 b3:05 253013     /usr/share/java/yacy/commons-fileupload-1.2.2.jarb6703000-b670a000 r--s 00039000 b3:05 253015     /usr/share/java/yacy/commons-codec-1.7.jarb670a000-b670f000 r--s 00033000 b3:05 253017     /usr/share/java/yacy/bcmail-jdk15-145.jarb670f000-b6716000 r--s 0004e000 b3:05 253019     /usr/share/java/yacy/apache-mime4j-0.6.jarb6716000-b671b000 r--s 0002f000 b3:05 253021     /usr/share/java/yacy/J7Zip-modified.jarb671b000-b6722000 r-xp 00000000 b3:05 249748     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libzip.sob6722000-b6729000 ---p 00007000 b3:05 249748     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libzip.sob6729000-b672a000 rw-p 00006000 b3:05 249748     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libzip.sob672a000-b6735000 r-xp 00000000 b3:05 22383      /usr/lib/libnss_files-2.18.sob6735000-b673c000 ---p 0000b000 b3:05 22383      /usr/lib/libnss_files-2.18.sob673c000-b673d000 r--p 0000a000 b3:05 22383      /usr/lib/libnss_files-2.18.sob673d000-b673e000 rw-p 0000b000 b3:05 22383      /usr/lib/libnss_files-2.18.sob673e000-b6761000 r-xp 00000000 b3:05 249740     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libjava.sob6761000-b6769000 ---p 00023000 b3:05 249740     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libjava.sob6769000-b676a000 rw-p 00023000 b3:05 249740     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libjava.sob676a000-b6774000 r-xp 00000000 b3:05 249744     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libverify.sob6774000-b677b000 ---p 0000a000 b3:05 249744     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libverify.sob677b000-b677c000 rw-p 00009000 b3:05 249744     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/libverify.sob677c000-b6782000 r-xp 00000000 b3:05 22368      /usr/lib/librt-2.18.sob6782000-b6789000 ---p 00006000 b3:05 22368      /usr/lib/librt-2.18.sob6789000-b678a000 r--p 00005000 b3:05 22368      /usr/lib/librt-2.18.sob678a000-b678b000 rw-p 00006000 b3:05 22368      /usr/lib/librt-2.18.sob678b000-b678f000 ---p 00000000 00:00 0 b678f000-b67cb000 rw-p 00000000 00:00 0          [stack:2699]b67cb000-b6835000 r-xp 00000000 b3:05 23333      /usr/lib/libm-2.18.sob6835000-b683c000 ---p 0006a000 b3:05 23333      /usr/lib/libm-2.18.sob683c000-b683d000 r--p 00069000 b3:05 23333      /usr/lib/libm-2.18.sob683d000-b683e000 rw-p 0006a000 b3:05 23333      /usr/lib/libm-2.18.sob683e000-b68f9000 r-xp 00000000 b3:05 25519      /usr/lib/libstdc++.so.6.0.19b68f9000-b6901000 ---p 000bb000 b3:05 25519      /usr/lib/libstdc++.so.6.0.19b6901000-b6905000 r--p 000bb000 b3:05 25519      /usr/lib/libstdc++.so.6.0.19b6905000-b6907000 rw-p 000bf000 b3:05 25519      /usr/lib/libstdc++.so.6.0.19b6907000-b690d000 rw-p 00000000 00:00 0 b690d000-b6913000 r-xp 00000000 b3:05 25531      /usr/lib/libffi.so.6.0.1b6913000-b691a000 ---p 00006000 b3:05 25531      /usr/lib/libffi.so.6.0.1b691a000-b691b000 rw-p 00005000 b3:05 25531      /usr/lib/libffi.so.6.0.1b691b000-b6d2a000 r-xp 00000000 b3:05 249771     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/server/libjvm.sob6d2a000-b6d32000 ---p 0040f000 b3:05 249771     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/server/libjvm.sob6d32000-b6d51000 rw-p 0040f000 b3:05 249771     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/server/libjvm.sob6d51000-b6d5f000 rw-p 00000000 00:00 0 b6d5f000-b6d7d000 r-xp 00000000 b3:05 25599      /usr/lib/libgcc_s.so.1b6d7d000-b6d84000 ---p 0001e000 b3:05 25599      /usr/lib/libgcc_s.so.1b6d84000-b6d85000 rw-p 0001d000 b3:05 25599      /usr/lib/libgcc_s.so.1b6d85000-b6d98000 r-xp 00000000 b3:05 27495      /usr/lib/libz.so.1.2.8b6d98000-b6d9f000 ---p 00013000 b3:05 27495      /usr/lib/libz.so.1.2.8b6d9f000-b6da0000 rw-p 00012000 b3:05 27495      /usr/lib/libz.so.1.2.8b6da0000-b6ec9000 r-xp 00000000 b3:05 23286      /usr/lib/libc-2.18.sob6ec9000-b6ed1000 ---p 00129000 b3:05 23286      /usr/lib/libc-2.18.sob6ed1000-b6ed3000 r--p 00129000 b3:05 23286      /usr/lib/libc-2.18.sob6ed3000-b6ed4000 rw-p 0012b000 b3:05 23286      /usr/lib/libc-2.18.sob6ed4000-b6ed7000 rw-p 00000000 00:00 0 b6ed7000-b6ed9000 r-xp 00000000 b3:05 23289      /usr/lib/libdl-2.18.sob6ed9000-b6ee0000 ---p 00002000 b3:05 23289      /usr/lib/libdl-2.18.sob6ee0000-b6ee1000 r--p 00001000 b3:05 23289      /usr/lib/libdl-2.18.sob6ee1000-b6ee2000 rw-p 00002000 b3:05 23289      /usr/lib/libdl-2.18.sob6ee2000-b6eee000 r-xp 00000000 b3:05 249774     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/jli/libjli.sob6eee000-b6ef5000 ---p 0000c000 b3:05 249774     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/jli/libjli.sob6ef5000-b6ef6000 rw-p 0000b000 b3:05 249774     /usr/lib/jvm/java-7-openjdk/jre/lib/arm/jli/libjli.sob6ef6000-b6f0b000 r-xp 00000000 b3:05 23337      /usr/lib/libpthread-2.18.sob6f0b000-b6f12000 ---p 00015000 b3:05 23337      /usr/lib/libpthread-2.18.sob6f12000-b6f13000 r--p 00014000 b3:05 23337      /usr/lib/libpthread-2.18.sob6f13000-b6f14000 rw-p 00015000 b3:05 23337      /usr/lib/libpthread-2.18.sob6f14000-b6f16000 rw-p 00000000 00:00 0 b6f16000-b6f17000 r--s 00003000 b3:05 252992     /usr/share/java/yacy/json-simple-1.1.jarb6f17000-b6f1a000 r--s 0000f000 b3:05 249270     /usr/lib/jvm/java-7-openjdk/jre/lib/ext/pulse-java.jarb6f1a000-b6f22000 rw-s 00000000 00:1a 15766      /tmp/hsperfdata_yacy/2698b6f22000-b6f41000 r-xp 00000000 b3:05 23302      /usr/lib/ld-2.18.sob6f41000-b6f42000 r--s 0000b000 b3:05 253020     /usr/share/java/yacy/activation.jarb6f42000-b6f43000 rw-p 00000000 00:00 0 b6f43000-b6f44000 r--p 00000000 00:00 0 b6f44000-b6f47000 rw-p 00000000 00:00 0 b6f47000-b6f48000 r-xp 00000000 00:00 0          [sigpage]b6f48000-b6f49000 r--p 0001e000 b3:05 23302      /usr/lib/ld-2.18.sob6f49000-b6f4a000 rw-p 0001f000 b3:05 23302      /usr/lib/ld-2.18.sobefc4000-befe5000 rw-p 00000000 00:00 0          [stack]ffff0000-ffff1000 r-xp 00000000 00:00 0          [vectors]VM Arguments:jvm_args: -Xms90m -Xmx600m -Xss256k -XX:MaxPermSize=256m -XX:ReservedCodeCacheSize=1024m -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -XX:-UseGCOverheadLimit -XX:+UseAdaptiveSizePolicy -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8 java_command: net.yacy.yacyLauncher Type: SUN_STANDARDEnvironment Variables:JAVA_HOME=/usr/lib/jvm/java-7-openjdk/jrePATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin---------------  S Y S T E M  ---------------OS:Linuxuname:Linux 3.10.29-1-ARCH #1 PREEMPT Sat Feb 8 01:09:56 MST 2014 armv6llibc:glibc 2.18 NPTL 2.18 rlimit: STACK 8192k, CORE 0k, NPROC 1329, NOFILE 4096, AS infinityload average:3.45 1.42 0.62/proc/meminfo:MemTotal:         473488 kBMemFree:          346636 kBBuffers:             300 kBCached:            34136 kBSwapCached:        12040 kBActive:            45496 kBInactive:          63300 kBActive(anon):      39844 kBInactive(anon):    55292 kBActive(file):       5652 kBInactive(file):     8008 kBUnevictable:           0 kBMlocked:               0 kBSwapTotal:       1048572 kBSwapFree:         865084 kBDirty:               320 kBWriteback:             0 kBAnonPages:         62752 kBMapped:             5948 kBShmem:             20752 kBSlab:               9732 kBSReclaimable:       4212 kBSUnreclaim:         5520 kBKernelStack:         608 kBPageTables:         1368 kBNFS_Unstable:          0 kBBounce:                0 kBWritebackTmp:          0 kBCommitLimit:     1285316 kBCommitted_AS:     361500 kBVmallocTotal:     524288 kBVmallocUsed:        4064 kBVmallocChunk:     303660 kBCPU:total 1 /proc/cpuinfo:processor   : 0model name   : ARMv6-compatible processor rev 7 (v6l)BogoMIPS   : 2.00Features   : swp half thumb fastmult vfp edsp java tls CPU implementer   : 0x41CPU architecture: 7CPU variant   : 0x0CPU part   : 0xb76CPU revision   : 7Hardware   : BCM2708Revision   : 000fSerial      : 000000007562dee3Memory: 4k page, physical 473488k(346636k free), swap 1048572k(865084k free)vm_info: OpenJDK Zero VM (24.51-b03) for linux-arm-vfp JRE (1.7.0_51-b31), built on Jan 29 2014 10:23:39 by "nobody" with gcc 4.8.2 20131219 (prerelease)time: Sun Feb  9 17:22:02 2014elapsed time: 106 seconds



Thanks already,
p.

Statistik: Verfasst von polylux — So Feb 09, 2014 5:59 pm


Suchmaschinen • Yacy: Energieverbrauch und CO2-Ausstoss

Date: 2014-02-09 21:12:48

Mich würde mal interessieren, wie es mit dem Energieverbrauch und dem CO2-Ausstoss eines dezentralen Suchmaschinennetzwerks wie Yacy aussieht, im Vergleich zu einer zentralen Suchmaschinen wie Google.

Meine Befürchtung ist, dass Yacy verhältnismässig um einiges weniger umweltfreundlich arbeitet. Schon alleine, weil die Indexierung, im Gegensatz zu einer zentralen Suchmaschine, nicht koordiniert wird und jeder Netzwerkteilnehmer sein eigenes Süppchen kocht und sich nicht darum kümmert was die Anderen machen. Was theoretisch dazu führen kann, dass hunderte Peers gleichzeitig die gleiche Seite indexieren.

Eher wenig energieeffizient ist glaube ich auch, dass Indexdaten von anderen Netzwerkteilnehmer generell nicht vertraut werden kann, und daher jede Seite zuerst einmal heruntergeladen und der Inhalt verifiziert werden muss, bevor sie in die Suchergebnisse aufgenommen werden kann.

Statistik: Verfasst von David — So Feb 09, 2014 9:12 pm


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-09 21:37:45

Hier mal mein alter Code von damals. Mein Versuch von damals ist mit Skalierung, Anpassung der Farben und Weichzeicher deutlich schneller als der ImageParser (zwischen 50% und 25 % der Zeit). Der große Nachteil meines Algorithmus ist, dass er sich durch geringfügig unterschiedliche Bildausschnitte schon durcheinander bringen lässt. Außerdem ist mein \“ImageHash\” viel länger als die Image-Momente.

Es wäre mal nett zu sehen, ob der Image-Parser mit meinen \“Normalisierungsmethoden\” deutlich schneller laufen würde und eventuell qualitativ ähnliche Ergebnisse liefern würde. Dazu bin ich nur heute Abend zu müde/faul.

Code:
import java.awt.geom.AffineTransform;import java.awt.image.AffineTransformOp;import java.awt.image.BufferedImage;import java.awt.image.BufferedImageOp;import java.awt.image.ConvolveOp;import java.awt.image.Kernel;import java.io.File;import java.io.IOException;import java.util.Arrays;import javax.imageio.ImageIO;/** * * @author low012 */public final class ImageHash {    private final static int BLOCK_WIDTH = 8;    private final static int BLOCK_HEIGHT = 8;    private final static int BLOCKS_HORIZONTAL = 8;    private final static int BLOCKS_VERTICAL = 8;    private final static int RESIZE_WIDTH = BLOCKS_HORIZONTAL * BLOCK_WIDTH;    private final static int RESIZE_HEIGHT = BLOCKS_VERTICAL * BLOCK_HEIGHT;    final static int DIVIDER = 8;    private byte[] imageHash;    public ImageHash(final BufferedImage image) {        this(createImageHash(image));    }    public ImageHash(final byte[] imageHash) {        this.imageHash = imageHash;    }    public byte[] getByteArray() {        return imageHash;    }        @Override    public boolean equals(final Object o) {        final boolean ret;        if (o == null) {            ret = false;        } else if (o instanceof BufferedImage) {            ret = isSimilar(this.getByteArray(), (BufferedImage) o);        } else if (o instanceof byte[]) {            ret = isSimilar(this.getByteArray(), (byte[]) o);        } else if (o instanceof ImageHash) {            ret = isSimilar(this.getByteArray(), ((ImageHash) o).getByteArray());        } else {            ret = false;        }        return ret;    }    @Override    public int hashCode() {        int hash = 5;        hash = 37 * hash + Arrays.hashCode(this.imageHash);        return hash;    }    private boolean isSimilar(final byte[] imageHash, final BufferedImage image) {        return isSimilar(imageHash, normalize(image));    }    private boolean isSimilar(final byte[] imageHash1, final byte[] imageHash2) {                final int l = imageHash1.length;        if (l != imageHash2.length) {            throw new IllegalArgumentException("ImageHashs need to have same length: " +                    l + " " + imageHash2.length);        }        int error = 0;        for (int i = 0; i < l && error < 500; i++) {            if (Math.abs((imageHash1[i] & 0xff) - (imageHash2[i] & 0xff)) > 1) {                error++;            }        }        /**         * The value of 0.01 has been found by experimenting with images from         * http://www.kasrl.org/jaffe.html and different size of the image at         * http://en.wikipedia.org/wiki/File:Hillary_Clinton_Bill_Chelsea_on_parade.jpg         *         * 0.01 seems to be low enough to ensure that very similar, but still         * clearly different images (slight change of angle from which an image         * has been taken, small changes in facial expression) will be detected as         * different, but resized images will be detected as not different.         *         * Try higher values to make the algorithm less strict.         */        return error < (l * 0.01);    }    private static byte[] createImageHash(final BufferedImage image) {        if (image == null) {            throw new IllegalArgumentException("Image may not be null!");        }        final byte[] b = normalize(image);        final byte[] ret = new byte[BLOCKS_VERTICAL * BLOCKS_HORIZONTAL * 3];        byte min;        byte max;        int sum;        byte val;        int i = 0;        for (int v = 0; v < BLOCKS_VERTICAL; v++) {            for (int h = 0; h < BLOCKS_HORIZONTAL; h++) {                min = (byte) 0xff;                max = (byte) 0x00;                sum = (byte) 0x00;                for (int bh = 0; bh < BLOCK_HEIGHT; bh++) {                    for (int bw = 0; bw < BLOCK_WIDTH; bw++) {                        val = b[(v * BLOCK_HEIGHT * RESIZE_WIDTH) + (h * BLOCK_WIDTH) + (bh * RESIZE_WIDTH) + bw];                        if ((val & 0xff) < (min & 0xff)) {                            min = val;                        }                        if ((val & 0xff) > (max & 0xff)) {                            max = val;                        }                        sum += val & 0xff;                                            }                }                ret[i++] = (byte) ((min & 0xff) / DIVIDER);                ret[i++] = (byte) ((max & 0xff) / DIVIDER);                // Besser statt Durchschnitt Median?                ret[i++] = (byte) ((sum / (BLOCK_WIDTH * BLOCK_HEIGHT) & 0xff) / DIVIDER);            }        }        return ret;    }    private static byte[] normalize(final BufferedImage image) {        return bufferedGrayscaleImageToByteArray(spreadGrayValues(blur(toGrayScale(scale(image, RESIZE_WIDTH, RESIZE_HEIGHT)))));    }    private static BufferedImage scale(final BufferedImage image, final int width, final int height) {        final AffineTransform tx = new AffineTransform();        tx.scale((float)width/image.getWidth(), (float)height/image.getHeight());        final AffineTransformOp affineTransformOp = new AffineTransformOp(tx, AffineTransformOp.TYPE_NEAREST_NEIGHBOR);        return affineTransformOp.filter(image, null);    }    private static BufferedImage blur(final BufferedImage image) {        final Kernel kernel = new Kernel(3, 3,            new float[] {                1f/9f, 1f/9f, 1f/9f,                1f/9f, 1f/9f, 1f/9f,                1f/9f, 1f/9f, 1f/9f});        final BufferedImageOp op = new ConvolveOp(kernel);        final BufferedImage ret = new BufferedImage(image.getWidth(), image.getHeight(), image.getType());        op.filter(image, ret);        return ret;    }    private static BufferedImage toGrayScale(final BufferedImage image) {        final BufferedImage ret = new BufferedImage(image.getWidth(), image.getHeight(), BufferedImage.TYPE_BYTE_GRAY );        ret.getGraphics().drawImage(image, 0, 0, null);        return ret;    }    private static BufferedImage spreadGrayValues(final BufferedImage image) {        int minGray = 255;        int maxGray = 0;        final int width = image.getWidth();        final int height = image.getHeight();        int rgb;        for (int i = 0; i < width; i++) {            for (int j = 0; j < height; j++) {                rgb = image.getRGB(i, j) >> 16 & 0xff;                if (rgb < minGray) {                    minGray = rgb;                }                if (rgb > maxGray) {                    maxGray = rgb;                }            }        }        final BufferedImage ret = new BufferedImage(width, height, image.getType());        int o, n;        for (int i = 0; i < width; i++) {            for (int j = 0; j < height; j++) {                o = image.getRGB(i, j) >> 16 & 0xff;                n = (int)(255f * ((float)(o -minGray) / (float)(maxGray - minGray)));                ret.setRGB(i, j, (n << 16) + (n << 8) + n);            }        }        return ret;    }    private static byte[] bufferedGrayscaleImageToByteArray(final BufferedImage image) {        final int width = image.getWidth();        final int height = image.getHeight();        final byte[] bytes = new byte[width * height];        int a = 0;        for (int i = 0; i < height; i++) {            for (int j = 0; j < width; j++) {                bytes[a++] = (byte) (image.getRGB(j, i) & 0xff);            }        }        return bytes;    }    public static void main(final String[] args) throws IOException {              long t = System.currentTimeMillis();               new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz3.png")));        System.out.println(System.currentTimeMillis() - t);        t = System.currentTimeMillis();        new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz1.png")));        System.out.println(System.currentTimeMillis() - t);        t = System.currentTimeMillis();        new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz2.png")));        System.out.println(System.currentTimeMillis() - t);        t = System.currentTimeMillis();        new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz3.png")));        System.out.println(System.currentTimeMillis() - t);        t = System.currentTimeMillis();        new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz4.png")));        System.out.println(System.currentTimeMillis() - t);        t = System.currentTimeMillis();        new ImageHash(ImageIO.read(new File("/mnt/Daten/dev/eclipse/testproj/kfz5.png")));        System.out.println(System.currentTimeMillis() - t);    }}

Statistik: Verfasst von Low012 — So Feb 09, 2014 9:37 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-09 22:56:41

iframe

Statistik: Verfasst von Orbiter — So Feb 09, 2014 10:56 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-09 22:58:31

http://www.tbtip.de/blog/?post/Domengo- ... 09/02/2014{.postlink}

Statistik: Verfasst von Orbiter — So Feb 09, 2014 10:58 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-10 01:24:50

New Image. This one is based on Arch-Arm. We may make a puppy version of Arch Arm... but we are debating if there\’s really any purpose. Arch is designed from the ground up to be minimal, so making a puppy version based on it probably wouldnt give us any better performance. This release is substantially faster than the puppy version based on debian we were using before.

http://q5sys.info/yacy/ArchYacy2.img.xz
http://q5sys.info/yacy/ArchYacy2.img.xz.md5

This is a 4gb USB image. To use it... use dd like always to burn it to a 4gb usb stick. Stick it in the lower USB port on the RPi.
To boot from the USB... open your SD card and edit the cmdline.txt so that \“root=/dev/mmcblk0p2\” is changed to \“root=/dev/sda5\”

The reason we did this is: 1) Faster Boots, 2) Ability to run Swap on the USB drive so we dont run into memory issues as fast, 3) Faster writes while the system is running.

You \‘may\’ be able to dd this directly to a SD card and boot, but the swap will not work. I\’ve created a systemd service file to auto load the swap partition at boot prior to YaCy loading. And it is hard coded to expect the swap partition to be /dev/sd* and not on /dev/mmcblk0p* So if you want to do this... you will need to edit /usr/lib/systemd/script/startup.sh and change \“swapon /dev/sda3\” to \“swapon /dev/mmcblk0p3\”

SSH password is \‘root\‘, YaCy password is also \‘root\‘, but I\’m running into the same problem I had before of it not working after being able to log in with it once.
[Do not try to update the system with Pacman!]{style=“text-decoration: underline”}


fherb,
The A10 looks interesting. I might have to get one to do some testing. I got my Odroid-U3 in the mail on Friday. That machine has some power. I wish there were other suppliers for it though, but it definitely is a very strong little device for designing network appliances on. I\’m considering buying a few more next month.


Orbiter, 3 things. 1) Any idea when the AUTH mech will be completed? 2) Awesome interview on LAS today. I\’m so happy you were able to do the interview.
3) I\’ve noticed the following in my logs and I dont know if its something you\’ve ever seen before. When it happens, which is rare; it continues to happen every 5 minutes in the logs until a shutdown.

Code:
E 2014/02/04 15:31:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2014/02/04 15:31:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2014/02/04 15:31:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2014/02/04 15:31:39 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!D 2014/02/04 15:31:39 net.yacy.upnp.messages.ActionMessage POST prepared for URL http://192.168.0.1:65535/ctl/IPConnI 2014/02/04 15:31:39 YACY rulebasedUpdateInfo: not an automatic update selectedI 2014/02/04 15:31:39 RESOURCE OBSERVER resources okE 2014/02/04 15:31:39 org.apache.solr.core.SolrCore java.lang.IllegalStateException: this writer hit an OutOfMemoryError; cannot commit   at org.apache.lucene.index.IndexWriter.prepareCommitInternal(IndexWriter.java:2793)   at org.apache.lucene.index.IndexWriter.commitInternal(IndexWriter.java:2970)   at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:2940)   at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:559)   at org.apache.solr.update.processor.RunUpdateProcessor.processCommit(RunUpdateProcessorFactory.java:95)   at org.apache.solr.update.processor.UpdateRequestProcessor.processCommit(UpdateRequestProcessor.java:64)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalCommit(DistributedUpdateProcessor.java:1274)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processCommit(DistributedUpdateProcessor.java:1253)   at org.apache.solr.handler.RequestHandlerUtils.handleCommit(RequestHandlerUtils.java:69)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:68)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1859)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:179)



I have not seen that before in tests. I did some searching and found: After reading: http://stackoverflow.com/questions/1764 ... s-not-grow{.postlink} Where is the setting so I can try lowering that value to see if I can find one that works? I\’m not getting this error until the device has been online for about a week. So I\’m not sure if there\’s a slow memory leak somewhere, or if its something else.
System that gave me that error had the following settings:
xms and xmx @ 120mb
System has 4gb of swap on seperate USB drive
vm.min_free_kbytes=8192
vm.vfs_cache_pressure = 300
vm.swappiness=60
vm.overcommit_memory=295

Statistik: Verfasst von q5sys — Mo Feb 10, 2014 1:24 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-10 09:11:16

Nachdem das YaCyPi-Projekt dort schon erwähnt wurde, war Michael dort jetzt auch zu Gast (beginnt kurz vor 39:00):

http://www.jupiterbroadcasting.com/51277/yacy-creator-interview-las-s30e09/

Ich konnte es mir leider noch nicht komplett ansehen.

Statistik: Verfasst von Low012 — Mo Feb 10, 2014 9:11 am


Fragen und Antworten • Rechtliches

Date: 2014-02-10 14:44:51

Wie sieht die ungefähre rechtliche Lage für eine privat betriebene Suchmaschine aus? Welche Konsequenzen sind bekannt? Hat da jemand Erfahrungen oder bereits recherchiert?

Statistik: Verfasst von propagare — Mo Feb 10, 2014 2:44 pm


Fragen und Antworten • content-language

Date: 2014-02-10 18:41:10

Hallo,

wie ermittelt YaCy die content-language eines Dokumentes. Diese kann ja sowohl im HTTP-Header übertragen werden, als auch in den HTML-Meta-Tags, auf verschiedene weisen, stehen.


Viele Grüße
Kilian

Statistik: Verfasst von kilian — Mo Feb 10, 2014 6:41 pm


Fragen und Antworten • Re: Rechtliches

Date: 2014-02-10 18:42:46

Hier ist das wichtigste zusammengefasst:
http://www.yacy-websuche.de/wiki/index.php/De:Recht

Statistik: Verfasst von kilian — Mo Feb 10, 2014 6:42 pm


Fragen und Antworten • Crawl wiederholen über die komplette Tiefe

Date: 2014-02-10 20:05:58

Ich habe mich in den letzten Tagen sehr stark mit Yacy beschäftigt. Da ich jetzt nicht unbedingt der IT-experte bin, sondern mehr die Hausgebrauch Variante abdecke, fallen mir diverse Vorgehensweisen schwer zu verstehen.

Aber wofür gibt es das Forum :-)

Wenn ich einen Crawl eingerichtet habe von einer Startseite aus und letztendlich auch heraus gefunden habe wie anscheinen ein Neustart nach tage X erfolgt, wundert es mich jedoch, das der Crawl dann nur über die Sart URL erfolgt und nicht über die komplette Tiefe wie man diese ja mal eingerichtet hat.

Dadurch wird zwar die Tiefe 0 aktualisiert, jedoch ab Tiefe 1 erfolgt keine Aktualisierung mehr.

Ist das so beabsichtigt oder wo ist der Dreh, das eine komplette Aktualisierung erfolgt, von der Start URL aus gesehen und in der eingestellten Tiefe.

Statistik: Verfasst von tbtip — Mo Feb 10, 2014 8:05 pm


Panorama • Snowden räumte NSA mit simplem Webcrawler aus

Date: 2014-02-10 21:02:05

http://winfuture.de/news,80235.html


Yacy, im Einsatz?*g*

Statistik: Verfasst von bbtuxi — Mo Feb 10, 2014 9:02 pm


Fragen und Antworten • Mittelweg zwischen stopYACY und killYACY?

Date: 2014-02-10 22:16:05

Hallo,

wenn YaCy sind aufhängt, dann ist bei mir meist auch der httpd nicht mehr erreichbar.
stopYACY funktioniert dann nicht mehr.
Der Aufruf von killYACY tut mir aber im Herzen weh :-)
GIbt es einen saubereren Weg YaCy runterzufahren, wenn stopYACY nicht mehr funktioniert?
Oder wenigstens einzelne Threads?

Gruß, Andreas

Statistik: Verfasst von otter — Mo Feb 10, 2014 10:16 pm


Panorama • Re: Snowden räumte NSA mit simplem Webcrawler aus

Date: 2014-02-10 23:46:33

wohl eher nicht, mit YaCy bekommt man ja keinen \‘schönen\’ Dokumentendump, obwohl der implizit ja im HTCACHE vorhanden ist (ist ja alles drin inklusive http header!)

Was mich wundert ist, dass die nicht benennen womit Snowden da gearbeitet hat und warum erst jetzt diese Meldung kommt.

Am einfachsten wäre ja wget gewesen, den kann man im crawler-Modus starten...

Statistik: Verfasst von Orbiter — Mo Feb 10, 2014 11:46 pm


Fragen und Antworten • Re: Rechtliches

Date: 2014-02-10 23:55:40

Danke.

Statistik: Verfasst von propagare — Mo Feb 10, 2014 11:55 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-11 10:28:22

Elvistrooper und Slaveleias
Bild

Statistik: Verfasst von Orbiter — Di Feb 11, 2014 10:28 am


Fragen und Antworten • Re: Crawl wiederholen über die komplette Tiefe

Date: 2014-02-11 14:51:08

Im Expert-Modus von \“Crawl-Start\” (/CrawlStartExpert_p.html) gibt es unter der Überschrift \“Double-Check Rules\” eine Option \“No Doubles\“.
Die verhindert, dass eine identische Seite zweimal gecrawlt wird.

Statistik: Verfasst von otter — Di Feb 11, 2014 2:51 pm


Panorama • Demand an end to mass surveillance!

Date: 2014-02-11 17:55:54

https://necessaryandproportionate.org/

Statistik: Verfasst von David — Di Feb 11, 2014 5:55 pm


Fragen und Antworten • Re: Crawl wiederholen über die komplette Tiefe

Date: 2014-02-11 18:22:36

Danke Otter für deine Antwort

Statistik: Verfasst von tbtip — Di Feb 11, 2014 6:22 pm


YaCy Coding & Architektur • Re: Bilder Doubletten erkennen

Date: 2014-02-11 22:31:47

Low012 hat geschrieben:\ Es wäre mal nett zu sehen, ob der Image-Parser mit meinen \"Normalisierungsmethoden\" deutlich schneller laufen würde und eventuell qualitativ ähnliche Ergebnisse liefern würde. Dazu bin ich nur heute Abend zu müde/faul.\


Da im Code der gleiche Pfad wie in meinem angegeben ist, deute ich das mal als \“führe das mal aus\“.
Das ist die Ausgabe:

Code:
26059774427649


Das ist tatsächlich schneller bei großem Bild. Hätte ich kaum erwartet, dass eine Größenänderung so viel mehr Performance bringt, weil der direkte Pixel-Zugriff so langsam ist. Ist eine gute Idee!

Schön bei dem Hash ist (so wie ich verstehe), dass man für Doubletten sofort auf gleichen Hash prüfen kann. Die Momente sind da schon etwas unterschiedlich bei gleichem Ausgangsbild (siehe ersten Post). Das ließe sich vielleicht auch durch Weichzeichnen etwas vom Rauschen befreien.
Ich habe auch gelesen, dass für die Momente noch der Logarithmus gebildet werden kann, um die kleinen Zahlen etwas zu entzerren.

Meine erste Idee war, nachdem die Bilder gefunden wurden, und bevor sie angezeigt werden, eine unüberwachte Minimun-Distance Klassifikation auszuführen. (automatische Clusterbildung über Distanz, dann statistisch die Zugehörigkeit bestimmen) Das wäre wahrscheinlich beim derzeitigen Suchablauf aufwändig zu implementieren. (Ich habe nicht nachgesehen.)

Statistik: Verfasst von Lotus — Di Feb 11, 2014 10:31 pm


YaCy Coding & Architektur • Re: DHT Frage

Date: 2014-02-11 22:39:43

Ich beantworte mal die erste Frage.

kilian hat geschrieben:\ 1. Ist die genaue Funktionsweise der verteilten Hashtabelle irgendwo dokumentiert? Konnte im Wiki nichts finden. Mich würd interessieren wie das mit dem \"keyspace partioning\" im Yacy-Netz funktioniert und wie dabei die Redundanz sicher gestellt wird. Und auch wie das \"Overlay network\" aussieht.\


Das ist im Quelltext von
net.yacy.cora.federate.yacy.Distribution
sehr gut dokumentiert.

Statistik: Verfasst von Lotus — Di Feb 11, 2014 10:39 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-02-11 22:47:02

Datenschutz und Privatsphäre wie zu Oma\’s Zeiten.
Haha!

Statistik: Verfasst von Lotus — Di Feb 11, 2014 10:47 pm


Fragen und Antworten • Re: YaCy + Raspberry Pi + Arch Linux = Segfault Java

Date: 2014-02-12 10:40:11

Source code for jvm.cpp is here: http://hg.openjdk.java.net/jdk7u/jdk7u/ ... ms/jvm.cpp{.postlink}
But I don\’t know whether that helps.

Statistik: Verfasst von gTSj — Mi Feb 12, 2014 10:40 am


Panorama • Re: Snowden räumte NSA mit simplem Webcrawler aus

Date: 2014-02-12 19:52:27

Ja, YaCy im Einsatz dachte ich auch, als ich das gelesen habe.
Ein wget reicht da allerdings aus, das ist mächtig genug. Das kann sogar Cookies oder sonstige Header mitschicken welche für eine Authentifizierung notwendig wären.

Statistik: Verfasst von Lotus — Mi Feb 12, 2014 7:52 pm


Suchmaschinen • Re: Yacy: Energieverbrauch und CO2-Ausstoss

Date: 2014-02-12 19:58:28

Ich denke, das kommt ganz darauf an, wie man rechnet.
Wenn man den Grundgedanken nimmt, dass YaCy auf den Rechnern der Nutzer läuft, dann ist dort kein oder nur wenig zusätzlicher Stromverbrauch, weil der Rechner ohnehin läuft.

Statistik: Verfasst von Lotus — Mi Feb 12, 2014 7:58 pm


Panorama • Re: Snowden räumte NSA mit simplem Webcrawler aus

Date: 2014-02-12 20:27:47

Erst mit wget alles spiegeln und dann mit YaCy einen Suchindex aufbauen! :o ;)

Statistik: Verfasst von Low012 — Mi Feb 12, 2014 8:27 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-02-13 00:07:26

Hi all!

[[A short state info:]{style=“font-weight: bold”}]{style=“text-decoration: underline”}

(These days I have not really time for YaCy. I have some free days with my children next week. Maybe they let me a bit time each evening.)

- My aim is to have a small [test environment]{style=“font-weight: bold”}: The [hardware is completely]{style=“font-weight: bold”}: Router, 2 RasPis, CubieTruck, Cables, SD-cards, a SATA-HDD, a USB-HDD, a USB-Stick, an older, but fast Laptop as web page server and my fast workstation also as web server and diagnostic system for the YaCys on ARM.

- [Log-Information transfer]{style=“font-weight: bold”} from YaCy on any device to this diagnostic system is [tested and working]{style=“font-weight: bold”}. I have a small program what opens an UDP port for YaCy and netcat is sending the log data from Yacy to this port (debug-mode). This software can receive and sort the UDP-data from different devices.

- Additional, this program will get another port to [receive system information]{style=“font-weight: bold”} via top -> grep -> netcat or similar possibilities. Maybe I write a short program what [collects system information and transfers it to the diagnostic system. (This is not yet ready.)]{style=“font-weight: bold”}

- What the [diagnostic system]{style=“font-weight: bold”} currently can is, to store all these data coming by UDP into files for each source device. It\’s a line oriented logging and in front of each line is written the source of information (yacy, top, ...) and a time stamp of the diagnostic system because not each log line from YaCy has a time stamp. So I get a [logfile what can combine YaCy-log-information with performance- and state-information]{style=“font-weight: bold”} by using the same time stamp for all these information. So i hope to get a reproduce-able tracking of the full system and not only YaCy-own debug information.

- [In the moment]{style=“font-weight: bold”} I write a special [parsing routine for the log lines]{style=“font-weight: bold”}. This will be controlled by a user-depending configuration pars-table. So, the regex\‘es will be configurable each time without to change the parser program. The parser should deliver two things: [Event information]{style=“font-weight: bold”} for special log lines and [data values]{style=“font-weight: bold”} which are in these lines. Like xxx in \“receive xxx URLs from\“. My aim is to get statistic information about events ( for example java-exceptions) and for the progress and data transfer of YaCy like URL or DHT transfer.
The parser will be working on-line during UDP-receive and as a post-processing process by using the special log file of the diagnostic system.

[[To do:]{style=“font-weight: bold”}]{style=“text-decoration: underline”}

- I have to [complete and test the parser]{style=“font-weight: bold”}.
- I have to write an [analysis tool]{style=“font-weight: bold”} to can visualize the parsing information.
- I have to write [scripts]{style=“font-weight: bold”} to deliver system state information of the ARM boards during YaCy is running. Either as sh-scripts or Perl-Scripts. I would prefer Perl because I know it and Python would be new for me.
- [Testing]{style=“font-weight: bold”} all theses components with the boards.

This is really some work to do but, I think that we can get so more plausible information what YaCy does.

On the diagnostic system I use LabVIEW as programming system. It is a system where I can come from quick-and-dirty trials to a stable program with GUI in a very short time (the same meaning like \“with minimal effort\“). When the tools are working good, so it is possible to distribute these tools as a distribution for other people, if you like. (Working on Win, Mac and special Linux distributions)

This the state for today,
and best regards,
Frank

Statistik: Verfasst von fherb — Do Feb 13, 2014 12:07 am


Mitmachen • Re: Raspberry Pi

Date: 2014-02-13 00:45:42

@ q5sys:

Maybe we can not rescue from ARM boards in future. ;-) Today I could read in the c\’t magazine that also AMD starts to produce processors with ARM technology. Let me estimate: In 5 years the normal consumer will buy an ARM based system in 95% of all cases. We use this technology with the most tablet computers today. And also our NAS devices or new TV-sets, our radio, ..., uses this technology. The reason is, that this technology is \“2D-scalable\” in computing power and power consumption. Android would doesn\’t work good without ARM processors. And with the first Tablets: Also Microsoft will be start in a software design which has to consider computer power versus energy consumption in future and - not only for tablets.

@ Orbiter:

So we should think about the future user home: The most systems from today, which are comparable to our desktops and Laptops, will be replaced by systems which work really only when the user is sitting in front of the terminal of this system. The other time these systems are completely down. But the cloud-system for each user is waiting for use all the time (247). This is what we know as NAS today. -> When we need a distributed search and indexing system, so the aim must be to place the software on these systems.

And, I think you will be are right, it is very important to bring YaCy also be fit by running on such small-power systems. My opinion: Not RasPi will be important in future. (But it is a good test environment.) Important will be a common ARM platform as any device what can also run services which are not implemented by the producer of this device.

Statistik: Verfasst von fherb — Do Feb 13, 2014 12:45 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-13 11:31:04

die Russen kommen...
http://habrahabr.ru/post/212407/
wegen dem Post haben wir auf YaCy.net jetzt alle 6 Sekunden einen neuen Besucher!!!! seht selbst: http://anomic.de/piwik

.…
http://www.linux.org.ru/forum/talks/101 ... 2244357648{.postlink}
http://pcnews.ru/blogs/yacy__raspredele ... 14308.html{.postlink}
http://gliffer.ru/articles/yacy-%E2%80% ... a-spustya/{.postlink}
http://gigamir.net/techno/pub597423

Statistik: Verfasst von Orbiter — Do Feb 13, 2014 11:31 am


YaCy Coding & Architektur • Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-14 11:49:56

Nachdem unser Netz ja nun wieder ein wenig wächst frage ich mich wie man die Netzgrafik verändern kann so dass sie in der Lage ist, mehr Peers zu zeigen.
Ein naiver Ansatz wäre die Nutzung eines 3x3 Fonts{.postlink} für die Peer-Namen, aber wenn das weiter wächst geht das auch nicht mehr.

Was habt ihr da für Ideen, wie kann man das skalieren lassen (zumindest noch ein wenig)

Statistik: Verfasst von Orbiter — Fr Feb 14, 2014 11:49 am


English • Re: Minimum requirements for YaCy

Date: 2014-02-14 11:55:09

I recently added resource observer actions which starts to delete index elements if the space on disk is low (< 1GB). I will continue to use the system monitoring to adopt the behaviour of YaCy, so one answer to the \‘minimum requirements\’ is: there is no, the architecture will contain elements for auto-scaling. But however, I cannot ensure that this works already.

Statistik: Verfasst von Orbiter — Fr Feb 14, 2014 11:55 am


YaCy Coding & Architektur • Chrome extension

Date: 2014-02-14 13:34:32

Hi everyone,

I started some months ago an extension for chrome using bootstrap + angularjs. At the moment I added ability like in firefox extension to blacklist, crawl and search. It\’s not yet completely finished but I wanted some feedback and wanted to know if you like it, if I have to continue and what you want inside. I\’m going to put it on github if you agree with that.

Here you can find this extension : http://ao0xck3gzo.1fichier.com/

To use search you have to write in address bar \“yacy\” and type what keyword you want to search, other features are easy to use so I don\’t give details.

Statistik: Verfasst von antham — Fr Feb 14, 2014 1:34 pm


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-14 14:00:52

Hallo,

da man da eh nix lesen kann, würde ich die Peer-Namen ganz weglassen.
Den Namen an dem eigenen Peer und die Strahlen mit den Namen wo es hingeht langen doch - oder?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Feb 14, 2014 2:00 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-02-14 15:41:28

thats really nice! Maybe not so many users here have Chrome, so I made a screenshot:
Chrome_Browser_YaCy_Extension.png

Statistik: Verfasst von Orbiter — Fr Feb 14, 2014 3:41 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-02-14 15:50:44

To all non-YaCy-users who wants to try that:

- open chrome://extensions/
- select options{.postlink}
- click on \“peer\”
- in \“peer_address\” enter \“search.yacy.net\“, in \“peer_port\” enter \“80\”
..to use the example search of YaCy.

IF TOO MANY PEOPLE DO THAT, IT WILL STOP WORKING! We don\’t have a data center, just a tiny box. You are supposed to run your own peer, please do that!

Statistik: Verfasst von Orbiter — Fr Feb 14, 2014 3:50 pm


Fragen und Antworten • YaCy API: OpenSearch XML nicht valide?

Date: 2014-02-14 21:56:36

Hallo zusammen

Ich bin momentan dabei, mit Hilfe eines Perl-Skripts Suchergebnisse von YaCy auszuwerten bzw. weiter zu verarbeiten. Um auf das OpenSearch API von YaCy zuzugreifen, verwende ich das Perl-Modul WWW:OpenSearch{.postlink}

Bei einem ersten Test bekam ich folgenden Perl-Fehler:

Code:
Error while parsing Description XML: Node should be OpenSearchDescription: rss at /usr/share/perl5/WWW/OpenSearch.pm line 139 at /usr/share/perl5/WWW/OpenSearch.pm line 139



Nach kurzer Recherche habe ich festgestellt, das das in OpenSearch definierte Element OpenSearchDescription{.postlink} in dem von YaCy zurückgelieferten XML nicht vorhanden ist.
Als API habe ich [yacysearch.rss]{style=“font-style: italic”} ( http://localhost/yacysearch.rss) verwendet, welches laut WIKI{.postlink} OpenSearch kompatibel ist:

\ /yacysearch.rss and /yacysearch.json YaCy search page returning xml (opensearch) or json results\



Gibt es noch ein anderes API direkt für OpenSearch oder gibt es einen Parameter, den man dem API mitgeben kann, um valides OpenSearch-XML zu bekommen?

Danke für eure Hilfe. :)
Meine eingesetzte YaCy Version ist derzeit 1.679709

Statistik: Verfasst von freak — Fr Feb 14, 2014 9:56 pm


English • Re: Minimum requirements for YaCy

Date: 2014-02-15 05:49:36

davidm hat geschrieben:\ I noticed the same problems a year or two back when I tested YaCy. As it approached the upper memory limit it suddenly crashed or became very unstable. I was hoping the bug would be fixed. ![:(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") I am about to do an install on a 32 bit 3 GB Ram P4 3.0 Ghz Linux install and will test and see if I run into the same thing.\



I encountered the same bug; it was fixed for me as of a few months ago. The YaCy devs have been doing an outstanding job.

Orbiter hat geschrieben:\ I recently added resource observer actions which starts to delete index elements if the space on disk is low (\< 1GB). I will continue to use the system monitoring to adopt the behaviour of YaCy, so one answer to the \'minimum requirements\' is: there is no, the architecture will contain elements for auto-scaling. But however, I cannot ensure that this works already.\



Excellent work, it\’s great that this is being implemented. A friend asked me a few months ago if it was feasible to install YaCy on a small VPS; at the time I had to tell him no... I guess when the next release is stable he\’ll finally be able to install it and support the YaCy network.

\@Orbiter, do you prefer that English-language technical threads be posted in the English forum or in the \” YaCy Coding & Architektur\” forum? I posted a technical inquiry here: viewtopic.php?f=8&t=5114{.postlink-local} , but have received no reply after 11 days. (I\’m a university student interested in doing YaCy development for a grad-level course, so I\’m curious if you have suggestions on how to get quick answers... I\’m not expecting instant replies, but 11 days and counting makes my course project kind of difficult.) Thanks!

Statistik: Verfasst von biolizard89 — Sa Feb 15, 2014 5:49 am


Fragen und Antworten • Re: YaCy API: OpenSearch XML nicht valide?

Date: 2014-02-15 13:19:26

das OpenSearchDescription file wird in yacysearch.rss in

Code:
<atom:link rel="search" href="http://localhost:8090/opensearchdescription.xml" type="application/opensearchdescription+xml"/>


benannt und das entsprechende File findest du auch in /opensearchdescription.xml

Statistik: Verfasst von Orbiter — Sa Feb 15, 2014 1:19 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-02-16 21:57:45

Orbiter hat geschrieben:\ die Russen kommen\...\


Oh Mist... ned schon wieder!

Statistik: Verfasst von David — So Feb 16, 2014 9:57 pm


Mitmachen • phpBB Umfragefunktion einschalten

Date: 2014-02-16 22:12:35

Ich würde es cool finden, wenn wir die Möglichkeit hätten Umfragen bzw. Abstimmungen im Forum zu starten. Diese Funktion scheint im Moment abgeschaltet zu sein.

Statistik: Verfasst von David — So Feb 16, 2014 10:12 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-16 23:45:32

heise.de erwartet die spanische Inquisition
http://deruwe.de/2014/02/heise-de-erwar ... ition.html{.postlink}

Statistik: Verfasst von Orbiter — So Feb 16, 2014 11:45 pm


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-17 02:24:37

also ganz ohne Namen ists aber auch langweilig, ggf. kann man die weglassen (und durch einen Punkt ersetzen), die ihren Namen nicht geändert haben, also \‘anon\’ irgendwodrin haben.

Und dann finde ich dieses Pendulum-Cover irgendwie inspirierend.…
Bild

Statistik: Verfasst von Orbiter — Mo Feb 17, 2014 2:24 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-17 08:27:24

:o http://www.youtube.com/watch?v=sAn7baRbhx4

Statistik: Verfasst von Low012 — Mo Feb 17, 2014 8:27 am


Fragen und Antworten • Re: YaCy API: OpenSearch XML nicht valide?

Date: 2014-02-17 15:39:20

Orbiter hat geschrieben:\ das OpenSearchDescription file wird in yacysearch.rss in\ Code: : `



Hallo Orbiter,

danke für den Hinweis. Das hat mir weiter geholfen. :)

Statistik: Verfasst von freak — Mo Feb 17, 2014 3:39 pm


Hilfe für Einsteiger und Anwender • Re: Ersteinrichtung YaCy Server

Date: 2014-02-17 16:35:12

Meine Festplatte partitioniert ist ua 2 Stück C: \ und D: \. YaCy erfasst Pfad C: \ Users \ kai \ YaCy wie es zu ändern D: \ YaCy ?

Ich konfigurierte
Festplattenspeicher
Deaktivere Crawls unter 10000 MiB freiem Speicher,
Deaktivere eingehende DHT Transfers unter 3000 MiB freiem Speicher
Arbeitsspeicher
Deaktivere eingehende DHT Transfers unter 150 MiB freiem Speicher

Lokaler Crawler anlangen 597660 und begeben sich auf eine Pause (Crawling is paused! If the crawling was paused automatically, please check your disk space.) Wie Mann Index große Websites Wie ru.wikipedia.org oder habrahabr.ru ?

Statistik: Verfasst von Kai — Mo Feb 17, 2014 4:35 pm


Fragen und Antworten • Why settings reset/change on update?

Date: 2014-02-17 23:09:05

Hi,

this might have been asked already but why do some settings reset/change on updates?

Thanks,

Statistik: Verfasst von zptoth — Mo Feb 17, 2014 11:09 pm


Fragen und Antworten • Re: Why settings reset/change on update?

Date: 2014-02-17 23:29:58

I usually try to prevent that and it also usually does not happen. Or should not!
If the architecture of a feature changes completely, then I assign new default values.

Which case do you address in particular?

Statistik: Verfasst von Orbiter — Mo Feb 17, 2014 11:29 pm


YaCy Coding & Architektur • Web Site Monitoring Tool?

Date: 2014-02-17 23:40:17

Kennt hier jemand ein Monitoring Tool wie Nagios, nur in superdupersimpel?

Ich brauche das um die von mir gepflegten YaCy-Instanzen zu monitoren. Das soll dann nur so aussehen wie der Berlios System Monitor{.postlink}, bzw simpler. Hab schon überlegt ob ich mir so was schnell selber zusammenschustere.

So was fettes wie Nagios will ich nicht. Was ich brauche wäre nur so ein 10-Zeilen- script, das aus einer Datei mit URLs eine HTML-Tabelle baut, wo drin steht ob das mit einem (http-) Ping geantwortet hat. Wer zaubert das aus dem Hut?

Statistik: Verfasst von Orbiter — Mo Feb 17, 2014 11:40 pm


Fragen und Antworten • Re: Why settings reset/change on update?

Date: 2014-02-18 00:06:14

Well, I\’ve experienced it already with crawl speed settings, performance settings, admin password and there might be some others I don\’t remember.

Statistik: Verfasst von zptoth — Di Feb 18, 2014 12:06 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-18 10:36:06

twittershit
https://twitter.com/0rb1t3r/status/435708844702830592

Statistik: Verfasst von Orbiter — Di Feb 18, 2014 10:36 am


Mitmachen • Re: Raspberry Pi

Date: 2014-02-19 22:10:10

Congratulations q5sys!

YaCyPi raised more than \$17000.

Statistik: Verfasst von Low012 — Mi Feb 19, 2014 10:10 pm


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-20 09:23:02

Das Cover erinnert mich an irgendwas aus einem Film, möglicherweise Aeon Flux, wo ein Mechanismus zum Öffnen einer Tür oder zum Aktivieren einer Bonbe so aussah. Ich finde es jetzt nicht.

Hier noch was aus Tron Lagacy:

Bild

Bild

Statistik: Verfasst von Low012 — Do Feb 20, 2014 9:23 am


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-20 11:21:32

Die Tron-Bilder sind super und sie schreien geradezu nach Drehungs-Animation, so wie es im Film ja auch zu sehen war. Dazu zwei Anmerkungen:

1) immer wenn ich erkläre, dass die Netzgrafik nicht nur ein schönes Bild ist sondern auch ein mathematisches Abbild der DHT-Struktur (geschlossene Ordnung -> Netzgrafik muss ein Kreis sein) sind die Zuhörer sehr überrascht und auch (so glaube ich) erleichtert dass sie glauben nun verstehen zu können wie das funktioniert. Diese fachliche Darstellung von dem was wir hier machen will ich nicht allzu weit durch Effekte, die ich nicht erklären kann, stören. Wir müssen also schauen wie die Animationen dazu gut sind, etwas abzubilden was passiert.

2) das Animieren von oszillierenden Vorgängen ist mit dem Darstellungs-Framework total einfach, also müssen die Ideen dorthin gehen. Zur Erinnerung wie das funktioniert: die Webseite läd über javascript 6 Grafiken nach (alle drei Sekunden nur eine), welche dann rotierend überblendet werden. Dazu verwende ich ein Wellenmodell und die 6 verschiedenen Grafiken entsprechen der Sequenz von 60, 120, 180, 240, 300, 360=0 Grad.

Eine Idee, die ich momentan habe geht in die Richtung, den grünen Kreis als \‘Trägerstruktur\’ aufzugeben und die Peers ihrer Wichtigkeit entsprechend näher oder weiter weg von Zentrum zu platzieren. Dann wären die großen Seniors innen, die kleinen Seniors in der Mitte und die Juniors aussen in einer \‘Wolke\‘, deren Zentrum ggf. leer bleibt um die DHT-Aktivitäten zeigen zu können. Irgendwo dadrin könnte man diese Tron-Kreise unterbringen.

Statistik: Verfasst von Orbiter — Do Feb 20, 2014 11:21 am


Fragen und Antworten • Re: Version 1.5 UPnP

Date: 2014-02-20 11:44:52

Ich krame das hier nochmal raus weil das Thema wegen dem YaCyPi Projekt wieder brandheiss und aktell ist:

Wo bitte bei wem funktioniert das UPnP in YaCy? Bitte melden!
[Mein Router hat kein UPnP und ich kann das nicht ausprobieren.]{style=“font-style: italic”}

Wenn hier jemand einen UPnP-Router/Modem hat und zum Helden werden will, kann er ja mal ausprobieren ob Cling{.postlink} als Ersatz für unseren UPnP-Client in Frage kommt.

Statistik: Verfasst von Orbiter — Do Feb 20, 2014 11:44 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-20 14:00:09

Bild

Statistik: Verfasst von Low012 — Do Feb 20, 2014 2:00 pm


Mitmachen • Erklärfilme / Erklärvideos

Date: 2014-02-20 15:20:46

Ey Leute, echt cooles Video-Mashup.
Werbefilme sind für die Online-Branche mega wichtig geworden.
Bin selber Video-Experte bei www.budget-erklaerfilme.de{.postlink} und produziere Erklärvideos im Comic-Stil.
Kennt Ihr unseren Service?
Gruß

Statistik: Verfasst von PeterSun — Do Feb 20, 2014 3:20 pm


Fragen und Antworten • RWI Ranking Search

Date: 2014-02-20 19:57:58

Eine Verständnisfrage.

Wenn ich es richtig verstanden habe, sind die Einstellungen unter Integrated Search Configuration >> RWI Ranking Search entscheidend für die Ausgabe der Suchergebnisse.

Wenn ich die Werte verändere, wann greifen dann die neuen Einstellwerte?

Passiert das automatisch oder muss ich was bestimmtes anstoßen?

Statistik: Verfasst von tbtip — Do Feb 20, 2014 7:57 pm


Off-Topic • Re: Liveübertragung aus Kiew / Live broadcast from Kiev

Date: 2014-02-20 22:13:21

A few other live streams...

Espreso TV - Live
http://www.youtube.com/watch?v=Y_LFrMcoEm4#t=1603747

NBC News - Live look at the Independence Square in Kiev:
http://www.nbcnews.com/storyline/ukraine-crisis/watch-live-look-independence-square-kiev-n33461

Reuters - Live stream:
http://www.livestation.com/en/reuters

Statistik: Verfasst von David — Do Feb 20, 2014 10:13 pm


Presse • Re: Bücher über YaCy

Date: 2014-02-21 00:13:05

Vega hat geschrieben:\ Das ganze ist großer KÄSE, siehe auch \


Anscheinend auch so ein Copy-Paste-Werk:

YaCy by Zheng Cirino
http://www.barnesandnoble.com/w/yacy-zh ... 6200964342{.postlink}

Statistik: Verfasst von David — Fr Feb 21, 2014 12:13 am


Fragen und Antworten • Re: RWI Ranking Search

Date: 2014-02-21 12:10:02

Das Ranking wird auch durch /RankingSolr_p.html beeinflusst. Man muss die Fälle P2P-Suche und Portalsuche/Appliance unterscheiden:

- P2P: hier fliessen die remote Suchergebnisse und die lokale Suche zusammen. Die remote Suche benutzt die RWI Ranking Einstellungen auch auf remote Seite, die lokale Suche im eigenen Index geht über die Solr Ranking Regeln. Beide Ergebnisse werden zusammengemischt und nachgerankt, hier wird wieder die RWI Ranking Regel benutzt. Für Ergebnisse aus dem lokalen Index haben hier also die Solr Regeln eine Vorsortierfunktion, die RWI-Regeln sortieren dann nur noch aus der Vorauswahl von 100 Treffern, die Solr liefert.

- Portalsuche/Appliance: es wird nur die Solr-Rankingregel benuzt, es gibt kein Nachsortieren mit RWI Regeln.

Wenn du die Regeln änderst, sollten sie sofort gelten. D.h. es wird auch ein lokaler Suchcache gelöscht. Es kann aber sein, dass eine Änderung der Regeln für lokale Ergebnisse sich nicht auswirkt, wenn die Solr Vorauswahl so ist, dass die RWI Regeln da nicht viel mehr dran ändern können.

Statistik: Verfasst von Orbiter — Fr Feb 21, 2014 12:10 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-21 12:36:52

Clipboard01.png

Statistik: Verfasst von Low012 — Fr Feb 21, 2014 12:36 pm


Fragen und Antworten • How save crawling list and feed

Date: 2014-02-21 15:09:16

Hello,
File that contains the list of sites and crawler RSS?
This will allow me to save.

Best regards

Statistik: Verfasst von Guims — Fr Feb 21, 2014 3:09 pm


Fragen und Antworten • Error this IndexReader is closed

Date: 2014-02-21 15:24:55

Hello,

I have yacy 1.699031 and java 1.6.0_27 on debian linux.
I have many error in log:
E 2014/02/21 15:20:12 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexReader is closed
at org.apache.lucene.index.IndexReader.ensureOpen(IndexReader.java:252)
at org.apache.lucene.index.SegmentReader.fields(SegmentReader.java:281)
at org.apache.lucene.index.TermContext.build(TermContext.java:90)
at org.apache.lucene.search.TermQuery.createWeight(TermQuery.java:166)
at org.apache.lucene.search.IndexSearcher.createNormalizedWeight(IndexSearcher.java:684)
at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:297)
at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1529)
at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1395)
at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:474)
at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:434)
at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:208)
at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:200)
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:322)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:345)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentById(MirrorSolrConnector.java:176)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.getDocumentById(ConcurrentUpdateSolrConnector.java:409)
at net.yacy.search.index.ErrorCache.exists(ErrorCache.java:180)
at net.yacy.crawler.data.CrawlQueues.exists(CrawlQueues.java:134)
at net.yacy.search.Switchboard.urlExists(Switchboard.java:1601)
at Load_RSS_p.respond(Load_RSS_p.java:355)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:640)
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:797)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:301)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:735)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:31)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
at org.eclipse.jetty.server.Server.handle(Server.java:370)
at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)
at org.eclipse.jetty.server.AbstractHttpConnection.headerComplete(AbstractHttpConnection.java:971)
at org.eclipse.jetty.server.AbstractHttpConnection\$RequestHandler.headerComplete(AbstractHttpConnection.java:1033)
at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:644)
at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)
at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)
at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)
at org.eclipse.jetty.io.nio.SelectChannelEndPoint\$1.run(SelectChannelEndPoint.java:52)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:543)
at java.lang.Thread.run(Thread.java:679)

Do you have any solution ?

Statistik: Verfasst von Guims — Fr Feb 21, 2014 3:24 pm


Fragen und Antworten • Re: Error this IndexReader is closed

Date: 2014-02-21 17:29:44

a fix is on the road

Statistik: Verfasst von sixcooler — Fr Feb 21, 2014 5:29 pm


Fragen und Antworten • Re: Error this IndexReader is closed

Date: 2014-02-21 18:01:53

Nice :-)

I use depot debian with apt-get upgrade.
The fix is in the version 1.69.9046 ?

Statistik: Verfasst von Guims — Fr Feb 21, 2014 6:01 pm


Fragen und Antworten • Re: How save crawling list and feed

Date: 2014-02-21 18:03:01

I find :-)

It\’s the file api.bheap in /DATA/WORK

Statistik: Verfasst von Guims — Fr Feb 21, 2014 6:03 pm


Fragen und Antworten • Re: Error this IndexReader is closed

Date: 2014-02-21 18:11:38

I\’m sorry - can\’t tell.
Usally it should be 1.69-9033 from main-branch.
But some package-maintainers use their own branches - so version-numbering differs.

Statistik: Verfasst von sixcooler — Fr Feb 21, 2014 6:11 pm


Off-Topic • Werbung: Android App für Wurstfinger-Geplagte

Date: 2014-02-21 21:14:17

Ich habe eine Android-App gebastelt, die es einfacher macht, URLs aus Texten (z.B. Mails) zu öffnen und die außerdem mehrere URLs gleichzeitig öffenen kann. Es reicht, wenn man den Link ungefähr markiert, die App sucht sich dann den Link oder die Links automatisch raus. Ist keine Raketentechnik, aber ich benutze die App jetzt schon ein paar Wochen und freue mich immer wieder drüber. :D
Die App gibt es hier: https://play.google.com/store/apps/details?id=de.audioattack.openlink

Ich werde außerdem schauen, dass ich sie möglichst bald bei F-Droid{.postlink} unterbringen kann.

Quellcode gibts hier: https://gitorious.org/openlink/

Statistik: Verfasst von Low012 — Fr Feb 21, 2014 9:14 pm


Fragen und Antworten • Re: Error this IndexReader is closed

Date: 2014-02-21 21:44:01

\@sixcooler GREAT WORK!
the debian release is now up (yacy_1.69.9033_all.deb)

Statistik: Verfasst von Orbiter — Fr Feb 21, 2014 9:44 pm


Fragen und Antworten • Re: Error this IndexReader is closed

Date: 2014-02-22 00:47:18

war noch nicht ganz raus, hab sixcoolers fix noch an einer weiteren Methode angewendet, jetzt in yacy_1.69.9034_all.deb drin.

Statistik: Verfasst von Orbiter — Sa Feb 22, 2014 12:47 am


English • Improving ranking using neural networks and genetic algos

Date: 2014-02-22 10:57:55

Hi, I have a proposal for improving YaCy search ranking. I\’m taking a course on neural networks and genetic algorithms, and I\’m planning to use YaCy ranking as my project for the course. Below is a slightly modified version of my proposal from the course; feedback would be greatly appreciated.

---

CS 5970 Artificial Neural Networks and Evolution – Instructor: Dr. Dean Hougen
Project Proposal by Jeremy Rand

I am interested in improving relevance of peer-to-peer web search engines using computational intelligence. Centralized search engines such as Google, Bing, and DuckDuckGo require the user to trust the search engine not to maliciously modify search results or log queries. As has been shown by enormous documentation, Google and Bing are definitely tampering with search results and logging queries, and DuckDuckGo has no way to prove that it is not doing so. An alternative search engine methodology has been proposed by the YaCy project, which uses a peer-to-peer distributed hash table to store a search index, with results being determined collectively by the network. YaCy has major civil liberties advantages, in that it is not possible to censor results, and logging queries is difficult. Unfortunately, YaCy\’s search ranking performs poorly compared to Google, Bing, and DuckDuckGo. I am interested in using computational intelligence to improve YaCy\’s ranking algorithms, hopefully making YaCy more competitive with Google, Bing, and DuckDuckGo. I am undecided whether to use neural networks, evolution, or both – this will be decided after additional material has been covered in class.

A decentralized collaborative search engine ranking system has a few potentially conflicting requirements:
1. Users should benefit from other users\’ experience.
2. Information about a user\’s search history should not leak to any other users.
3. Users should not be able to unethically influence the ranking to induce spam or censorship.

Requirements 1 and 2 can be fulfilled by simply having all users submit and retrieve data via Tor. However, this method is highly vulnerable to Sybil attacks. Introducing cryptographic proof of work would partially counter Sybil attacks while preserving anonymity, but would also significantly raise the cost of legitimate usage, and presumably a spammer has more resources than a legitimate user (spammers have botnet time at their disposal), so proof of work would probably still have a significant spam problem. Another rate-limiting method is based on IP addresses, but this eliminates anonymity, and botnets still have vastly more IP addresses available than legitimate users.

I think I have a reasonable compromise. Users are connected via a friend-to-friend network such as RetroShare. Users will be given the ability to upvote or downvote results for searches; this data will be saved locally but not shared (to protect privacy). Users also begin with a set of randomly generated search algorithms (in the form of neural network weights or evolutionary genotypes). The search algorithms will take as input some information about the search (e.g. the search tokens, although the exact set of input information is yet to be determined), and output a set of SOLR ranking parameters which can be fed to YaCy via its API. Periodically, each user sends some of its algorithms to all of its friends for evaluation. Those friends send the same algorithm unmodified to their friends for evaluation. This recursively continues until all connected users have received the algorithm; a user who receives the same algorithm a second time will drop the connection to avoid a loop. Each user who has received the algorithm then computes an evaluation based on its local search ranking upvote/downvote history, and returns a linear combination of its own evaluation and all of its friends\’ evaluations. The evaluation would consist of weight adjustments for a neural network, or a fitness value for an evolutionary genotype. Each user who received a copy of the search algorithm will save a copy for future reference, and the user who originated the algorithm will be able to apply the evaluation data to improve the algorithm. Over time, the algorithms will improve based on evaluation data.

The advantage of the linear combination system is that no user can reliably determine whether the evaluation received from a friend is primarily influenced by that friend, by that friend\’s friends, or by the friends of that friends\’ friends, etc. A fitness value and a weight adjustment, particularly in aggregate form, provide plenty of information to refine the search algorithms, but are unlikely to reveal any useful information about individual searches. The linear combination algorithm causes first-degree friends to have more influence on each other\’s ranking than second-degree friends, who have more influence than third-degree friends, etc. This makes spam and censorship difficult, because attackers will only have a large effect on their friends (and can be unfriended at any time). Sybil attacks are unfeasible on friend-to-friend networks, since all users know the identity of their friends.

Project Scope: This is a large and complex problem, and it is unlikely that a full treatment will be possible given the confines of this class. As necessary, components of the project may be cut or deferred so that something presentable is likely to exist at the end of the semester. ANNE-related coding and experimentation will have priority over the friend-to-friend infrastructure. The possibility exists of continuing the project after the semester is over, potentially for independent study credit (I would very much like to do so, assuming that the project is making progress).

References:
YaCy: http://yacy.net/en/index.html
RetroShare: http://retroshare.sourceforge.net/

Statistik: Verfasst von biolizard89 — Sa Feb 22, 2014 10:57 am


English • Re: Improving ranking using neural networks and genetic algo

Date: 2014-02-22 11:27:12

Hi, thats a very interesting proposal!

Thats a very useful use of YaCy as a \‘laboratory\’ for \‘social search\’ & ranking research. Since that approach will come up with a set of ranking rules for YaCy, it will be very useful for us.

This reminds me that the documentation for the YaCy ranking mechanism is (still) very incomplete, so please use the opportunity to ask questions about it, I will do my best to write a documentation in the wiki to answer your questions.

I would like to add another reference for this idea: the french seeks project, now moved to https://github.com/beniz/seeks
Short about seeks: its a framework above of other search engines which applies \‘social ranking rules\’ using the clicks on search results. They claim that they solved the problem to anonymously distribute the clicks on the results to main privacy of the users. I got this explained by the project maintainer, Emmanuel Benazera, in personal discussion, and it made pretty much sense. I hope there is some documentation visible about his approach, if you cannot find that then just ask him...

I would like to mention that we actually have an upvote/downvote mechanism at the search results which is not very much used; just a hint that there is already some framework that you could use. Please consider that you may get your hands on the code for that ;)
However, if you need something, just post here.

Statistik: Verfasst von Orbiter — Sa Feb 22, 2014 11:27 am


Off-Topic • Re: Werbung: Android App für Wurstfinger-Geplagte

Date: 2014-02-22 11:32:22

Hi Marc,
nette Idee, werde es mal ausprobieren, aber du hast das wichtigste vergessen, damit dieser Forumstopic ein wenig SEO zu dem Tool bekommt; den Namen: [Easy Open Link]{style=“font-weight: bold”}!!

Wenn du es geschaft hast das bei F-Droid reinzubekommen dann schreibe mal kurz wie das geht, will das auch mal machen (können).

Statistik: Verfasst von Orbiter — Sa Feb 22, 2014 11:32 am


Fragen und Antworten • Re: How save crawling list and feed

Date: 2014-02-22 11:33:35

right, you can copy DATA/WORK/api.bheap to a fresh peer and reconstruct the index by just starting all the recorded processes with /Table_API_p.html

Statistik: Verfasst von Orbiter — Sa Feb 22, 2014 11:33 am


Hilfe für Einsteiger und Anwender • Global Crawl

Date: 2014-02-22 14:34:52

Hello!

I\’ve got my new odroid 03 set up and yacy is up and running. I\’ve got a terabyte external harddrive attached and I\’m all good to go.

Is there a large ongoing global crawl I can join? I\’m having trouble finding anything in the documentation. I know I can put in a website address and start a local crawl which other people can access - is this the only option? I intend to leave my yacy running and I\’d love to be able to contribute to a bigger crawl.

Let me know what would be best to assist.

Statistik: Verfasst von vvvvvv — Sa Feb 22, 2014 2:34 pm


Hilfe für Einsteiger und Anwender • Re: How to get better results

Date: 2014-02-22 14:37:29

That\’s pretty excellent stuff - I\’m extremely new and so can\’t help but will be copying your settings.

Let me know if you find any more configuration settings.

Statistik: Verfasst von vvvvvv — Sa Feb 22, 2014 2:37 pm


Hilfe für Einsteiger und Anwender • Re: Global Crawl

Date: 2014-02-22 14:45:55

I\’ve figured out how to allow my machine to remotely crawl - for anyone else starting up, I did this:

1. Go to \“Crawler/Harvester\” under \“Index Production\” on the side bar.
2. On the top bar, click on \“Remote crawling\” under \“Network Harvesting\“.
3. Tick \“accept remote crawl requests\” and click save.

Can someone let me know if there\’s a larger global crawl I can latch on to , or if this is the best way to contribute.

Cheers.

Statistik: Verfasst von vvvvvv — Sa Feb 22, 2014 2:45 pm


Hilfe für Einsteiger und Anwender • Impressum anpassen

Date: 2014-02-22 17:53:15

Wie kann ich das Impressum, das unter http://host/ViewProfile.html?hash=localhash aufrufbar ist, anpassen?

Statistik: Verfasst von Tichodroma — Sa Feb 22, 2014 5:53 pm


Mitmachen • Openweathermap

Date: 2014-02-22 18:19:23

Gibt es eigentlich eine Methode, Openweathermap mit in die yacy-Suche einzubauen? Opensearch scheint das System ja nicht zu liefern, aber vielleicht über die Openweathermap-Api?

Statistik: Verfasst von click42 — Sa Feb 22, 2014 6:19 pm


Hilfe für Einsteiger und Anwender • Re: Impressum anpassen

Date: 2014-02-22 20:26:13

Ich habe die Lösung selbst gefunden. Als angemeldeter admin gibt es auf der Impressum-Seite einen Link zur Bearbeitung.

Statistik: Verfasst von Tichodroma — Sa Feb 22, 2014 8:26 pm


Off-Topic • Re: Werbung: Android App für Wurstfinger-Geplagte

Date: 2014-02-22 22:12:29

So, bei F-Droid gibt es die App jetzt auch: https://f-droid.org/repository/browse/?fdid=de.audioattack.openlink

Um dort eine App anzumelden gibt es zwei Möglichkeiten:

1. Man kann im Forum posten und hoffen, dass die App dann irgendwann aufgenommen wird: https://f-droid.org/forums/topic/read-this-before-posting/
2. Man clont das F-Droid-Repository bei Gitorious, erstellt eine entsprechende Metadaten-Datei für die App und stellt einen Merge-Request. Das geht relativ flott.

Ich habe zweimal die zweite Option benutzt und die App war jeweils nach ein paar Stunden online. Das zu clonende Repository ist https://gitorious.org/f-droid/fdroiddata/. Unter https://f-droid.org/manual/ gibt es eine Anleitung, die ich allerdings nicht komplett befolgt habe. Es gibt wohl irgendwo ein Skript, das ein Rumpf-Metadaten-Datei erzeugt, das ich aber nicht benutzt habe.

Ich habe mir einfach eine der Textdateien im Ordner \“metadata\” kopiert, umbenannt und so geändert, dass die für mich passt. Die Beschreibungen der einzelnen Sektionen in der Datei habe ich der o.g. Anleitung entnommen. Dann habe ich den Merge-Request gestellt. Beim ersten Mal gab es noch eine Rückfrage, beim zweiten Mal hat jemand vom F-Droid noch eine kleine Korrektut vorgenommen und dann meinen Vorschlag übernommen.

Du kannst es ja einfach mal probieren und wenn du nicht weiter kommst, kann ich ja mal schauen, ob ich helfen kann.

Voraussetzung ist auf jeden Fall, dass die Software unter einer Open-Source-Lizenz steht und der Quellcode in einem öffentlich zugänglichen Repository verwaltet wird.(https://f-droid.org/wiki/page/Inclusion_Policy)

Statistik: Verfasst von Low012 — Sa Feb 22, 2014 10:12 pm


Off-Topic • Re: Werbung: Android App für Wurstfinger-Geplagte

Date: 2014-02-23 00:08:31

ui, danke, das wirkt gar nicht so kompliziert...
macht Lust das mal auszuprobieren!
Noch eine Frage: wer hostet dann die app, also das apk? du selbst?

Statistik: Verfasst von Orbiter — So Feb 23, 2014 12:08 am


Off-Topic • Re: Werbung: Android App für Wurstfinger-Geplagte

Date: 2014-02-23 12:44:01

Nee, gehostet ist das apk bei F-Droid. Die ziehen sich den Code aus dem Repository der jeweiligen App und kompilieren die dann selbst. Idealerweise sollte man daher als Entwickler Tags setzen, damit deren Software erkennen kann, wann nun wirklich eine neue Version vorliegt.

Es gibt wohl Ausnahmen, wo fertige Binaries übernommen werden, aber das ist nicht der Normalfall. Ich weiß nicht genau, wie das läuft, wenn eins App noch Abhängigkeiten hat oder das Kompilieren vielleicht noch zusätzliche Schritte benötigt. Meine nächste App wird da wahrscheinlich etwas komplizierter, aber ich kümmere mich dann darum, wenn es soweit ist und das dauert wahrscheinlich noch...

Statistik: Verfasst von Low012 — So Feb 23, 2014 12:44 pm


Off-Topic • цемент м400 цена за мешок

Date: 2014-02-24 14:59:23

Как потом оказалось, виновник ДТП бросил машину неподалеку и ушел пешком в неизвестном направлении. В ГИБДД говорят, что авто зарегистрировано на женщину. А очевидцы утверждают, что за рулем точно был мужчина. Наверное, хозяйка дала машину приятелю. По крайней мере, «Лада» в угоне не числится. Сейчас этого человека пытаются найти. http://al-tut.ru/2013/08/populyarnyj-francuz-peugeot-308/feed/ ВАЖНО http://itakny.com/spravochnik/turisticheskie-firmy/agentstvo-volshebnyx-puteshestvij-ooo/
- Если вы едете на скутере, всегда держитесь правой полосы, - настоятельно советуют инспектора ДПС. - Ни в коем случае не пренебрегайте защитным шлемом, он может спасти вам жизнь. А если нужно везти ребенка, то на скутер необходимо установить специальное дополнительное сидение, которое оборудовано подножками.

Statistik: Verfasst von Turenohsbix — Mo Feb 24, 2014 2:59 pm


English • How To Become A Node Candidate

Date: 2014-02-24 20:21:13

I\’ve installed Yacy on a Debian 7 server. It\’s got 12GB RAM and 250GB HDD. I\’d like to just let this server run and help the network as much as possible. Dedicated IP address, and tons of bandwidth.

What are the settings I need to set/enable to do this?

Also, how can I become a \‘node candidate\‘? What is this?

Thanks.

Statistik: Verfasst von SajanP — Mo Feb 24, 2014 8:21 pm


English • Re: How To Become A Node Candidate

Date: 2014-02-24 23:39:03

your peer becomes a \“node candidate\” if the ip of the machine is the same as the ip that the remote peer see (which means it is not behind a NAT) and if the response time is below one second. That should be the case for your server.

Statistik: Verfasst von Orbiter — Mo Feb 24, 2014 11:39 pm


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-02-25 16:25:33

Das sind doch ganz gute Ideen.
Den Radius der Peers könnte mit 1/x\^2 eingehen, dann ist die verfügbare Fläche auf dem Kreis mit gewichtet. x: Anzahl der Links
Das Versenden von Daten könnte man durch dickere Farbige Punkte für den Quell- und Ziel-Peer animieren und die Linien weglassen. Da könnte man ja auch die Farbe animieren.
Peer-Namen könnte man auf Last-Seen kleiner 1 Minute beschänken, dann sind zumindest die beschriftet, an die Daten verschickt/empfangen wurden.
Nun könnte man noch die Partitionen einzeichnen, auch wenn die keinen direkten Sinn ergeben, weil es keine festen Grenzen gibt.
Die Junior-Peers könnten in den Außenbereich des Kreises wandern, weil sie sich nicht direkt beteiligen.
Die Crawl-Animation könnte man so beibehalten.

Haha und jetzt noch Animation: Man könnte nachdem das Bild gezeichnet ist, es drehen und dann Trapezförmig verzerren/stauchen, so hat man eine Animation eines \“drehenden Tellers\“. Würde aber ziemlich viel Frames benötigen um es flüssig zu haben.

Statistik: Verfasst von Lotus — Di Feb 25, 2014 4:25 pm


Off-Topic • ковролин ширина 5 метров

Date: 2014-02-25 20:42:13

А поскольку невозможно отрицать преступления нацизма в ходе Второй мировой (а особенно - Великой Отечественной), то самый лучший ход - сделать из других более гадких, чем были сами, взвалить на них весь груз ответственности и заявить: «Мы? Да вы что? Это исключительно они! А мы ни сном, ни духом!» http://newwoomen.ru/salony-krasoty/amsterdam/ Отсюда и такой, кстати говоря, резонанс в Европе по поводу процесса над украинским карателем Иваном Демьянюком - «Иваном Грозным». Ни в коей мере не хочу обелять его, но ведь плененный в 1942-м, он только в 1943-м пошел ради спасения себя в каратели. http://turprof.ru/otkryilsya-pervyiy-firmennyiy-salon-dverey-volhovets.html
И при чем здесь немцы, когда такие изверги появлялись из восточных варваров? Сериал «Наши матери, наши отцы» лучше всего отвечает именно на этот вопрос. Говоря «это все они». И не суть важно, кто эти «они» - рейхсляйтер, группенфюрер, поляки или обычные украинцы из УНА-УНСО... Главное, что не добрые берлинские парни.

Statistik: Verfasst von MatizraSog — Di Feb 25, 2014 8:42 pm


Fragen und Antworten • Re: Why settings reset/change on update?

Date: 2014-02-26 02:03:23

Is there any central resource where package updates could be tracked?
I\’d love to track the changes and their effects in the configuration.
I\’m running YaCy on a stable debian box having daily auto update configured from the YaCy debian repository.
My experience is that various settings reset from time to time which is not appropriate for a stable production system.

Thanks,

Statistik: Verfasst von zptoth — Mi Feb 26, 2014 2:03 am


English • English Search Results?

Date: 2014-02-26 02:32:42

When I search almost anything, I get German pages. Is there a way I can filter results based on language?

Also, your forums were very difficult for me to register on. It asked me something about a 16-year old German Chancellor as a CAPCHA of sorts. I had to search the answer.

Statistik: Verfasst von Clete2 — Mi Feb 26, 2014 2:32 am


English • Re: English Search Results?

Date: 2014-02-26 08:04:07

Clete2 hat geschrieben:\ When I search almost anything, I get German pages. Is there a way I can filter results based on language?\


You are right, there should be a default navigation setting which selects the browser language to set a flag for the ranking. Documents in the browser language can then be selected to have a higher ranking.

My personal usage of search results has mostly no language preference, they are either english or german. I usually prefer english results over german if the content is just better. This is of course connected to the fact that I am able to read and understand english.
A language navigation also depends on the language recognition of the parser, which was always a problem in the past. Lets see how the status there is.

Clete2 hat geschrieben:\ Also, your forums were very difficult for me to register on. It asked me something about a 16-year old German Chancellor as a CAPCHA of sorts. I had to search the answer.\



Your translation is wrong :) ...

If you register, then you can select the language for the registration in the top right corner, see screenshot:
select_english_in_forum_registration.png
After you select \‘english\’ you also get a registration captcha question in english language.

Statistik: Verfasst von Orbiter — Mi Feb 26, 2014 8:04 am


Mitmachen • Re: Raspberry Pi

Date: 2014-02-26 09:58:23

wow thats a huge ammount .{.postlink}.. !

Statistik: Verfasst von tanmos — Mi Feb 26, 2014 9:58 am


English • impossible te open an administration page

Date: 2014-02-26 11:29:46

Hi,

I have reinstalled Yacy from scratch, and when trying to open an administration page, I get the message \” « Le site http://localhost:8090 demande un nom d\‘utilisateur et un mot de passe. Le site indique : « YaCy-AdminUI » \“. I translate :\” «The site http://localhost:8090 asks for an username and a password. The site indicates : « YaCy-AdminUI » \“.
I assume YaCy-AdminUI is an identifier. I don\’t understand what I should enter here, since I tried several passwords : user, root, etc.
Could you help me ?

Statistik: Verfasst von jihell — Mi Feb 26, 2014 11:29 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-02-27 10:10:19

Bild

Statistik: Verfasst von Low012 — Do Feb 27, 2014 10:10 am


English • Re: English Search Results?

Date: 2014-02-28 04:29:56

Sorry, I should say that... I only took 1 semester of German so I did not even attempt to translate it myself. I used Google Translate and then searched from there to find the answer. :)
Is there somewhere I can send this feature suggestion (Choose language based on origin country and/or manual selection) to so that it can be considered?

Statistik: Verfasst von Clete2 — Fr Feb 28, 2014 4:29 am


Fragen und Antworten • Re: Why settings reset/change on update?

Date: 2014-02-28 09:35:27

Changes can be tracked fom the development repository.
https://gitorious.org/yacy/rc1/commits/

Statistik: Verfasst von Lotus — Fr Feb 28, 2014 9:35 am


Fragen und Antworten • Re: Version 1.5 UPnP

Date: 2014-02-28 10:04:04

Zufällig kann ich das gerade testen. Ich habe die Version 1.68 von der Webseite genommen.
Funktioniert unter Windows 7 und Linux Mint 13 (Ubuntu 12.04 LTS).
Unter Windows gab es zuerst im Log \“no device found\“. Das lag aber daran, dass ich die Firewall Meldung erst bestätigen musste. Wenig später wurde der Port freigegeben. Nach einem Neustart (von YaCy) ging es dann sofort.

Die Fehlermeldung vom Screenshot oben sagt Error 402 invalid argument. Das lässt sich leider nicht nachstellen, das ist wahrscheinlich Rechner-Spezifisch, wenn am Netzwerk sonst nichts geändert wurde. Ggf liegt es auch an Windows 8, das kann ich nicht debuggen.

Statistik: Verfasst von Lotus — Fr Feb 28, 2014 10:04 am


Fragen und Antworten • yacy als anon-Proxy?

Date: 2014-02-28 10:51:50

Nachdem ich nun nach etlichen Stunden des Herumkonfigurierens yacy dazu gebracht habe, als Proxy zu laufen, der gleichzeitig die besuchten Webseiten indexiert (was eine feine Sache ist :-)), stehe ich jetzt vor dem Problem, yacy abzugewöhnen, IP-Adresse der Browser-Clients durchzureichen. Letztlich soll yacy als anonnymisierender Proxy laufen; was muss ich (wahrscheinlich unter \“Erweiterte Konfiguration\“?) an Paramentern einstellen, damit die IP-Adresse NICHT durchgereicht wird? yacy.init habe ich gelesen, finde da aber nicht den passenden Hinweis. Wer kann helfen?

Statistik: Verfasst von wsb — Fr Feb 28, 2014 10:51 am


Mitmachen • Debian-Repository: yacy-stable

Date: 2014-02-28 11:35:26

Hallo zusammen,

aktuell stellt das Debian-Repository die aktuellste \“unstable\” Yacy-Version zur Verfügung. Wenn man sich das Pool-Verzeichnis des Repositories ansieht, findet man da auch die letzte \“stable\” Version (aktuell 1.68.9000). Wäre es vielleicht möglich, ein zweites Repository \“yacy-stable\” anzubieten, in der immer die \“stable\” Version zum upgrade zur Verfügung steht? Möchte man nämlich mit der stabilen Version arbeiten, bringt einem das aktuelle Repository nichts: entweder man pinnt und schaut täglich nach, ob bei einem apt-get update eine \“.9000\” auftaucht, um die dann zu pinnen, oder man schaut direkt im Pool nach (ohne apt) und holt sich dann das .deb blank aus dem Pool.

Beide Repositories hätten ihre Berechtigung: Das aktuelle für Entwickler und Betatester und ein \“yacy-stable\” für Leute, die das Ding etwas produktiver einsetzen.

Klar, die Repos sind eher untere Prio und machen Zusatzaufwand, aber das wäre eine echte Bereicherung. Was meint Ihr?

Statistik: Verfasst von click42 — Fr Feb 28, 2014 11:35 am


Mitmachen • Re: Debian-Repository: yacy-stable

Date: 2014-02-28 11:46:52

Ok, es gibt vielleicht ne Krücke (das muß aber mal jemand verifizieren): /etc/apt/preferences.d/yacy:

Code:
Package: yacyPin: version 1.*.9000Pin-Priority: 1001



... wenn man sich drauf verlassen kann, daß die \“stable\“-Version immer eine 9000 hat. Besser ist aber ein eigenes Repository...

Statistik: Verfasst von click42 — Fr Feb 28, 2014 11:46 am


Hilfe für Einsteiger und Anwender • Wie YaCy headless einrichten?

Date: 2014-02-28 12:44:41

Ich wollte gerade YaCy remote headless einrichten, und hatte einen dicken Stein im Weg. Genommen habe ich das 1.68 release von der Webseite.
Nachdem ich startYACY.sh ausgeführt habe, habe ich in Browser die Startseite geöffnet. Dann bin ich zur Admin-Konsole gegangen. Dann wurde ich zur Basis-Konfiguration weitergeleitet. Dann wollte ich die dort anpasen, und wurde nach einem Passwort gefragt. - Ab hier war die Installation nutzlos. Ein sofortiger Klick von der Basis-Konfiguration zu den Accounts bescherte mir ebenfalls den Passwort-Dialog, den ich nicht beantworten konnte. Ich habe nirgends einen Hinweis gesehen, wie YaCy einzurichten sei.

Ich musste es dann folgendermaßen machen: startYACY.sh, stopYACY.sh, reconfigureYACY.sh, startYACY.sh
Da muss ein Erstanwender erst einmal drauf kommen.
Ich hätte direkt nach dem start von startYACY.sh einen Hinweis gewünscht, wie YaCy einzurichten ist.

Statistik: Verfasst von Lotus — Fr Feb 28, 2014 12:44 pm


Fragen und Antworten • Re: yacy als anon-Proxy?

Date: 2014-02-28 13:38:43

Ui, ich hab MEINEN Fehler gefunden :-) \“proxy.sendXForwardedForHeader=false\” ist völlig richtig und tut, was es soll :-)

ABER in meiner Browser-Konfiguration fehlte der Haken bei \“Use this proxy-server for all protocols\” (denn es ging nicht via http, sondern https).

Statistik: Verfasst von wsb — Fr Feb 28, 2014 1:38 pm


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-02-28 15:09:46

hallo,
wenn ich mich recht entsinne, war der default-nutzer \“admin\” und das passwort leer. Nach meiner persönlichen EInschätzung nicht unbedingt soo schwer, aber das kann man anders sehen.

Im bin-Ordner gibt es das passwd.sh, mit dem man Admin und dessen Passwort ändern kann. Hab ich irgendwie damals auch gefunden, vielleicht habe ich aber auch irgendwo davon gelesen. Vorschlag, schreib mal einen Eintrag im Wiki dazu. Beizeiten kann ich das auch tun, falls es da tatsächlich noch nichts zu gibt.

adios

Statistik: Verfasst von kosmonaut pirx — Fr Feb 28, 2014 3:09 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2014-03-01 09:07:13

Orbiter hat geschrieben:\ Hi, thats a very interesting proposal!\ \ Thats a very useful use of YaCy as a \'laboratory\' for \'social search\' & ranking research. Since that approach will come up with a set of ranking rules for YaCy, it will be very useful for us.\ \ This reminds me that the documentation for the YaCy ranking mechanism is (still) very incomplete, so please use the opportunity to ask questions about it, I will do my best to write a documentation in the wiki to answer your questions.\ \ I would like to add another reference for this idea: the french seeks project, now moved to \ Short about seeks: its a framework above of other search engines which applies \'social ranking rules\' using the clicks on search results. They claim that they solved the problem to anonymously distribute the clicks on the results to main privacy of the users. I got this explained by the project maintainer, Emmanuel Benazera, in personal discussion, and it made pretty much sense. I hope there is some documentation visible about his approach, if you cannot find that then just ask him\...\ \ I would like to mention that we actually have an upvote/downvote mechanism at the search results which is not very much used; just a hint that there is already some framework that you could use. Please consider that you may get your hands on the code for that ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\ \ However, if you need something, just post here.\



Hi Orbiter,

Thanks for the reply.

I have one question about the ranking. I see there are two ranking mechanisms, SOLR and RWI. The documentation states that some items in the index only have RWI data available, but it\’s not clear to me what circumstances that occurs under. Is that just because some network nodes are on old YaCy versions that don\’t use SOLR internally? Or is there some other circumstance under which a search result will only have RWI data?

Regarding Seeks, there are a few reasons why I chose not to include it in my proposal (I\’m familiar with it). It doesn\’t seem to be actively maintained and installation on current OS versions is extremely difficult (or at least completely undocumented). To my knowledge Seeks doesn\’t run on Windows, which limits its audience considerably. My best understanding of Seeks\’s privacy features is that it only shares your data with people who make similar searches based on a locality-sensitive hash function; this makes it hard to evaluate a search algorithm on a wide variety of searches. (I could be wrong here, as the documentation is extremely weak on this.) And I\’m unaware of any anti-Sybil algorithms used by Seeks, which would make it somewhat vulnerable to spamming. (Again, maybe I\’m wrong, as the documentation is very weak.)

I noticed that there are \“bookmark\“/\“recommend\“/\“delete\” icons next to each search result; is this the upvote/downvote mechanism you\’re talking about or is there something else I\’ve missed? I haven\’t found any documentation on what those three icons currently do, is there documentation available for them that I\’ve missed?

Thanks!

Statistik: Verfasst von biolizard89 — Sa Mär 01, 2014 9:07 am


English • Re: Improving ranking using neural networks and genetic algo

Date: 2014-03-01 13:09:26

biolizard89 hat geschrieben:\ I have one question about the ranking. I see there are two ranking mechanisms, SOLR and RWI. The documentation states that some items in the index only have RWI data available, but it\'s not clear to me what circumstances that occurs under. Is that just because some network nodes are on old YaCy versions that don\'t use SOLR internally? Or is there some other circumstance under which a search result will only have RWI data?\


The RWIs are the data structure which is used to distribute the index. Its not \‘old\’ becuase it was there first before Solr came into the architecture, it\’s still \‘the\’ solution to the problem of distributed search (using the \‘partition by word\’ approach). RWIs work only together with a metadata storage and thats what was replaced by Solr; Solr acts now in two roles: the metadata store for the RWIs and the search index for the \‘Appliance Mode\‘. If YaCy runs without P2P, then only Solr is filled and Solr is the only place where things are searched. Furthermore, Solr is also used as Index when doing P2P search; its results are mixed to the distributed search results.

I made a picture of the Architecture:
Ranking.png
Maybe I should do an explanation video for that. Because it\’s even a bit more complex, the index verification process (realtime loading of remote search result documents) is not shown in there.

biolizard89 hat geschrieben:\ Regarding Seeks, there are a few reasons why I chose not to include it in my proposal (I\'m familiar with it). It doesn\'t seem to be actively maintained and installation on current OS versions is extremely difficult (or at least completely undocumented).\


I\’m afraid that this is true. But nevertheless Seeks should be mentioned since they made an interesting approach to the problem of distributed voting of search results.

biolizard89 hat geschrieben:\ I noticed that there are \"bookmark\"/\"recommend\"/\"delete\" icons next to each search result; is this the upvote/downvote mechanism you\'re talking about or is there something else I\'ve missed? I haven\'t found any documentation on what those three icons currently do, is there documentation available for them that I\'ve missed?\


Yes. A click on the bookmark icon makes (obviously) a bookmark. A click on \‘recommend\’ creates an upvote message, a click on delete deletes the link and creates a downvote message. These messages are part of peer-ping payloads; it will be distributed for some time in your peer seed. You can see these messages in /News.html?page=1 and the evaluation of up/downvotes influence the content of the page /Surftips.html where not only votes but also other urls are shown (i.e. public crawl starts and home pages of the online peers as entered in /ConfigProfile_p.html

If you want to do some experiements then these functions may be a good playground and open to changes if you like.

Statistik: Verfasst von Orbiter — Sa Mär 01, 2014 1:09 pm


YaCy Coding & Architektur • Re: Netzwerkgrafik für (viel) mehr Peers?

Date: 2014-03-01 19:00:17

Just my 2 cents:
1. weiß ich nicht, ob die Netzwerkgrafik so vielen Leuten etwas nützt
2. vermute ich, dass der Vorschlag von Lotus mit Animationen einfacher über eine JavaScript-Bibliothek + JSON + canvas gelöst bekommt, als GIF-Animationen mit so hohen Frameraten zu generieren. Muss ich sagen, obwohl mir JavaScript nicht gefällt.

Statistik: Verfasst von gTSj — Sa Mär 01, 2014 7:00 pm


Off-Topic • CeBIT-Ticket

Date: 2014-03-02 12:46:58

Wenn jemand zur CeBIT möchte: Ich habe einen Code für ein Fachbesucherticket bekommen, habe aber keine Lust hin zu fahren. Ich denke nicht, dass der Code personalisiert ist und ich würde ihn (kostenlos) abgeben. Wer Lust hat, kann sich per Nachrichtenfunktion des Forums an mich wenden.

Statistik: Verfasst von Low012 — So Mär 02, 2014 12:46 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-03-05 18:55:14

http://edwardthienhoang.wordpress.com/l ... rogrammer/{.postlink}

Statistik: Verfasst von Low012 — Mi Mär 05, 2014 6:55 pm


Fragen und Antworten • Re: YaCy + SSL

Date: 2014-03-05 20:04:45

cool.

Statistik: Verfasst von ribbon — Mi Mär 05, 2014 8:04 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-03-05 20:12:18

www.qwant.com{.postlink}

Statistik: Verfasst von ribbon — Mi Mär 05, 2014 8:12 pm


Mitmachen • Re: Vorbereitung auf agressives Peer-Wachstum

Date: 2014-03-05 20:13:09

weniger Marketing ?

Statistik: Verfasst von ribbon — Mi Mär 05, 2014 8:13 pm


Fragen und Antworten • Yacy als Crawler für eigene Seiten

Date: 2014-03-05 20:28:12

Hi,

ich bin dabei eine Extension für Typo3 zu schreiben, um Yacy in dem CMS nutzen zu können und zu prüfen ob Yacy ein Ersatz für existierende Lösungen sein kann.
Die Implementierung läuft prototypisch auch schon. Die Suchergebnisse beziehe ich über OpenSearch als rss und parse sie dann.
Ich haben mehrere Domains: domainA.de, domainB.de, etc.
Yacy läuft bei mir auf einem extra Server. Für jede Domain habe ich ein Profil um die Seite zu crawlen angelegt: domainA, domainB, etc.

Ich möchte natürlich auf domainA nicht die Suchergebnisse von domainB haben, gibt es eine Möglichkeit die Ergebnisse per OpenSearch auf ein Profil zu reduzieren, oder brauche ich pro Domain eine Instanz?
In etwa so was:

Code:
http://suchserver:8090/yacysearch.rss?query=query&profile=domainA&maximumRecords=10


Ziel wäre es nämlich für mehrere domains EINEN Suchserver zu haben. Den ich dann extern benutzen kann.

Danke, Eike

Statistik: Verfasst von Eike — Mi Mär 05, 2014 8:28 pm


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-03-07 03:38:49

Hallo,

YaCy für Typo3 ist ja super!

Für deine Idee mit der Unterteilung des Indexes gibt es konzeptionell zwei Lösungen die teilweise so zur Verfügung stehen:

- Unterteilung in einfache Domänen:
Dafür gibt es ja bereits einen Host-Navigator. Du kannst den Suchbegriff einfach mit \‘host:<hostname>\’ ergänzen, dann wird in der Suche darauf eingegrenzt.

- Unterteilung in Collections:
Du kannst beim Crawl Start jedem Crawl eine oder mehrere Collections zuordnen (Feld ganz unten in CrawlExpert). Wenn du eine Solr Suchanfrage stellst, kannst du mit einem collection_sxt:<collection> dann auf die entsprechende Collection eingrenzen. Weil jeder Crawl aber auch jede Suchanfrage je mehrere Collections benennen kann ist das ganze sehr flexibel.
Problem dabei: Collections können noch nicht in der normalen Suchanfrage angegeben werden. Das baue ich aber gerne dafür ein.

Statistik: Verfasst von Orbiter — Fr Mär 07, 2014 3:38 am


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-03-07 14:56:24

Orbiter hat geschrieben:\ - Unterteilung in einfache Domänen:\ Dafür gibt es ja bereits einen Host-Navigator. Du kannst den Suchbegriff einfach mit \'host:\\' ergänzen, dann wird in der Suche darauf eingegrenzt.\



Das wäre ja schon mal was. Aber wie schaffe ich das per OpenSearch den Host anzugeben?

Code:
http://localhost:8090/yacysearch.rss?query=query&maximumRecords=10&host=domainA


geht nicht.

Gibt es noch andere Möglichkeiten an Suchergebnisse als Daten zu kommen, außer OpenSearch?

Im Moment hohle ich mir die so:

Code:
$resultsXml = \TYPO3\CMS\Core\Utility\GeneralUtility::getUrl('http://localhost:8090/yacysearch.rss?query=Test&maximumRecords=10&host=domainA');

Statistik: Verfasst von Eike — Fr Mär 07, 2014 2:56 pm


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-03-08 10:30:43

Ok, habe es jetzt selber gefunden:

Per OpenSearch geht es wie hier beschrieben:
http://www.yacy-websuche.de/wiki/index. ... Parameters{.postlink}
über site:DomainA

Außerderm gibt es wohl eine PHP API:
http://www.yacy-websuche.de/wiki/index. ... yAPIforPHP{.postlink}
Die aber im Prinzip auch nur OpenSearch benutzt (zumindest für die Suche)

Statistik: Verfasst von Eike — Sa Mär 08, 2014 10:30 am


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-03-08 10:51:51

Ich habe aber noch eine andere Frage zur Konfiguration von YaCy:
Ich möchte wie gesagt meine eigenen Seiten indexieren, aber keine andern.
Ich würde aber schon gerne meinen Index mit andern peers teilen.
Habe YaCy jetzt auf:\“Suchportal für Ihre eigene Internetseiten\” (Robinson Modus)
gestellt, aber so wie ich das verstehe teile ich meinen Index nicht mit anderen peers, oder?

Wäre das dann ein \“Öffentlicher Peer\” unter Robinson Modus?
Oder werden nur Suchanfragen beantwortet, aber der index liegt nur bei mir.

Im besonderen möchte ich nur auf meinem Index suchen und keine andern Suchergebnisse haben.

Statistik: Verfasst von Eike — Sa Mär 08, 2014 10:51 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-03-10 01:11:59

http://deutsche-wirtschafts-nachrichten ... nz-machen/{.postlink}

Statistik: Verfasst von Orbiter — Mo Mär 10, 2014 1:11 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-03-10 09:11:35

VaCy??? :o

Statistik: Verfasst von Low012 — Mo Mär 10, 2014 9:11 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-03-10 16:49:10

:mrgreen: :mrgreen:

\ We are pleased to announce that you have been selected to present your paper \#20069:\ \ Lass mich, ich kann das selbst! -- Selbstverteidigung von Privatsphähre und Datenschutz\ \ at LinuxTag 2014.\


Juhu, mal sehen ob sich das überhaupt jemand ansehen will :?
Raum und Zeit stehen auch schon fest:

\ You are scheduled for the presentation\ Lass mich, ich kann das selbst! -- Selbstverteidigung von Privatsphähre und Datenschutz (\#20069)\ New Event in room Saal A on 10.05.2014 from 17:00 to 17:30.\


Das ist der letzte Termin, da fahren ja alle schon heim :cry:

Statistik: Verfasst von Orbiter — Mo Mär 10, 2014 4:49 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-03-10 22:57:54

Hmm, 10.05. ist etwas ungünstig, da hat jemand bei mir in der Famili Geburtstag. Ob ich mich da nach Berlin abseilen kann, weiß ich nicht.

Der Termin ist tatsächlich nicht so toll. Aber vielleicht hat den Veranstaltern der Titel so gut gefallen, dass sie sich gedacht haben, dass wenn es jemand schafft, die Leute noch ein bisschen dort zu halten, bist du es mit diesem Vortrag!

Statistik: Verfasst von Low012 — Mo Mär 10, 2014 10:57 pm


English • Re: impossible te open an administration page

Date: 2014-03-10 23:04:12

The default admin name in YaCy is \“admin\“. By default (if you have not set an admin password) you should have access to your peer if YaCy and your browser are running on the same machine. If this is the case and you still can not log in, you can try to run the [reconfigureYACY.sh]{style=“font-weight: bold”} script (sorry, no Windows version, but it should work ith Linux and OS X).

Statistik: Verfasst von Low012 — Mo Mär 10, 2014 11:04 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-03-11 01:14:27

na das ist ja eine ganz charmante Auslegung davon \‘das letzte\’ zu sein!

Statistik: Verfasst von Orbiter — Di Mär 11, 2014 1:14 am


Fragen und Antworten • yacy.net nicht erreichbar

Date: 2014-03-11 01:28:36

Zur Zeit ist http://yacy.net nicht erreichbar. Bei Strato war nur der Vertragssupport erreichbar und der sagte er sehe dass es nicht geht aber wisse nicht warum. Alle Logs sagen es sei alles ok, inklusive Vertragsstatus. Morgen soll der Techniksupport nachsehen.

Als Ausweichdomäne kann http://yacy.anomic.de genommen werden. Zunächst war http://yacy.de auch nicht erreichbar, das konnte ich aber durch Änderung eines Redirects (statt auf yacy.net auf den internen Pfad) wieder reparieren.

Eine mögliche Ursache könnte die gleichzeitig erhöhten Zugriffe sein
Zugriff_YaCy.png
Aber insgesamt ist das wenig zu peaks in der Vergangenheit. Vielleicht hat strato ja ein neues Tool das überreagiert hat.

Statistik: Verfasst von Orbiter — Di Mär 11, 2014 1:28 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-03-11 01:36:37

https://plus.google.com/112104542204948 ... MqXLoB4H8t{.postlink}

http://actualidad.rt.com/actualidad/vie ... -espionaje{.postlink}
dieser Link ging auch über den rt.com Twitter-Account an 248941 Follower: https://twitter.com/actualidadrt/status ... 8207938560{.postlink}

die beiden Links sind im Log als letztes aufgefallen, bevor yacy.net ausgefallen{.postlink} ist

Statistik: Verfasst von Orbiter — Di Mär 11, 2014 1:36 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-03-11 09:13:04

\ Das ist der letzte Termin, da fahren ja alle schon heim\



Naja. Diejenigen aber, die sich den Vortrag anhören, sind ganz dann gezielt dort. Für diese Zuhörer ist der Vortrag kein Lückenfüller, sondern sie kommen aus echtem Interesse an dem Thema. Das ist doch auch was wert.

Gruß lux

Statistik: Verfasst von lux — Di Mär 11, 2014 9:13 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-13 11:45:00

yacy.net ist seit gestern ca. 16:00 Uhr wieder erreichbar, ich konnte aber (Bahnfahrt bis spät in die Nacht) bislang nicht davon berichten. Hier ist, was passiert ist:

nach dem Posting oben habe ich an eine Supportadresse von Strato, service@strato.de geschrieben:

\ und melden beim Aufruf \"Diese Internetpräsenz ist zur Zeit nicht erreichbar\".\ \ Es handelt sich dabei um recht gut besuchte Seiten (60 neue Besucher pro Stunde) und die Seiten sind seit heute Nachmittag nicht mehr erreichbar. Ich bitte um eine schnelle Hilfe.\



Darauf kam eine automatische Antwort

\ Sehr geehrter Herr Christen,\ \ vielen Dank, dass Sie sich Zeit genommen haben, uns zu schreiben.\ Wir haben Ihre Anfrage vom 10.03.2014 erhalten.\ \ Derzeit kann es aufgrund der Hohen Nachfrage an den STRATO Service zu einer erhöhten Antwortzeit kommen. Wir bitten Sie daher um Verständnis.\ \ Selbstverständlich werden alle Anfragen persönlich und individuell beantwortet.\ \ Tipp: Nutzen Sie auch gerne eine der größten deutschsprachigen FAQ-Datenbanken unter mit über 2.000 Anleitungen und Antworten auf häufig gestellte Fragen.\


Ausser dieser Antwort von einem Robot kam dann bis heute nichts mehr von dieser Supportadresse!

- am Dienstag habe ich gleich um 9:00 den technischen Support angerufen, nachdem am Abend vorher nur die Vertragsbetreuung erreichbar war (offenbar ist die Möglichkeit zum Buchen von Diensten strato wichtiger als das Supporten von Diensten) und mir sagte das sei ganz sicher ein technisches Problem. Der technische Support sagte mir dann aber, da sein ein Flag dran \‘Rechtsabteilung\’ und das könne er nicht weg machen, das kann nur die Rechtsabteilung. Und die hat keine Telefonnummer. Alle Anfragen an die Rechtsabteilung soll an abuse@strato.de gehen.

- Also hab ich am 11. März 8:47 an abuse@strato.de geschrieben:

\ Subject: Sperrung der Webseite yacy.net, Kundennummer xxx\ \ Guten Morgen,\ \ seit gestern ist die von Ihnen gehostete Webseite nicht verfügbar und zeigt den Banner „Diese Internetpräsenz ist zur Zeit nicht erreichbar".\ Meine Kundennummer bei Strato ist xxx\ \ \ Ein Anruf in Ihrer Technikabteilung ergab, dass diese Sperrung durch die Rechtsabteilung ergangen ist. Ich bitte Sie\ - mir mitzuteilen warum die Webseite gesperrt ist\ - die Sperrung alsbald möglich wieder aufzuheben\ \ Diese Webseite wird von mir gewerblich genutzt und ich hatte gestern das große Glück, dass große Medien von meinen Diensten berichtete. Ggf. haben Sie eine größere Anzahl von Zugriffen gemessen. Für mich ist so ein Ereignis ein Glücksfall und sollte nicht durch eine Sperrung meiner Webseite durch den Hoster begleitet werden. Meinem Projekt ist durch Ihre Sperrung ggf. ein Schaden entstanden. Insofern bitte ich dringend um eine Aufklärung der Situation, schnellstmöglich.\ \ Bitte rufen Sie mich an: xxx\ \ Mit freundlichem Gruß,\


Ich hatte mittlerweile gesehen, dass yacy.de nicht gesperrt war aber so aussah, weil sie intern auf yacy.net geforwardet war (von mir). Ich hab dann die Umleitung auf einen internen file-Pfad gemacht, und so ging yacy.de wieder.

um 14:25 bekam ich Antwort:

\ Sehr geehrter Herr Christen,\ \ unter der Auftragsnummer xxx unterhalten Sie bei der STRATO Internet-Präsenzen. Hierzu haben Sie unter ausdrücklicher Anerkennung unserer Allgemeinen Geschäftsbedingungen ein Internet-Komplettpaket bestellt.\ \ Die Allgemeinen Geschäftsbedingungen sind - wie Ihnen bekannt ist - im Internet unter jederzeit einsehbar und ausdruckbar.\ \ Wir wurden von unserem Rechenzentrum darüber in Kenntnis gesetzt, dass Ihr Paket xxx kurzfristig gesperrt werden musste, da die Domain fsfe.yacy.net auf das blockierende Proxytarget 188.40.64.7:8095 umgeleitet wird, und sich so permanent mehr als 1000 Connections stauen. Dieses beeinträchtigt massiv die Serverstrukturen der STRATO AG.\ \ Wir bitten Sie daher, dass Sie sich dem Sachverhalt annehmen und den Vorgang so bearbeiten, dass das Problem behoben wird. Bitte informieren Sie uns abschließend per E-Mail, damit unser Rechenzentrum eine erneute Prüfung vornehmen kann.\ \ Gerne können Sie ganz einfach auf diese E-Mail antworten. Bitte denken Sie daran den Verlauf nicht zu löschen und den Betreff nicht zu verändern, da nur so eine schnellstmögliche Bearbeitung möglich ist.\ \ Mit freundlichen Grüßen\ \ STRATO AG \| Abuse\



Unter fsfe.yacy.net läuft nicht nur der Suchdienst für die fsfe.org, sondern das Netzbild wird von dort auch in yacy.net eingeblendet. Nun gab es offenbar einen Ansturm auf yacy.net, wahrscheinlich ausgelöst durch http://actualidad.rt.com/actualidad/vie ... -espionaje{.postlink}
Ggf. lief das sogar im Fernsehen. Wie sollen sonnst 1000 Zugriffe da auflaufen, wir haben sonst 30-60 Besucher pro Stunde. Nun, fsfe.yacy.net antwortet nicht und strato.de hätte jetzt zwei Möglichkeiten gehabt:
- die Verbindungsweiterleitung nach fsfe.yacy.net hätte einen Timeout haben können (hatten sie wohl nicht), oder
- die Sperre hätte sich auf die Subdomäne fsfe.yacy.net beziehen können

Das wäre doch wesentlich einfacher und kundenfreundlicher gewesen, als die ganze Domäne abzunippeln. Und dazu schreiben sie, dass ich einen Vergtragsbruch begehen würde, ich solle ja nochmal in die AGB schauen. Die lehnen sich da feist zurück um ein technisches Problem, dass man mit ein wenig Geschick leicht hätte lösen können zu einem Rechtsproblem auf Seiten des Kunden zu machen. Deswegen war das ja auch in der Rechtsabteilung.

Nun, ich habe die Domäne fsfe.yacy.net gelöscht, fsfe.yacy.de angelegt und die fsfe.org darüber informiert dass ihr Dienst nun woanders sei. Dann habe ich noch die Links in den Webseiten zu fsfe.yacy.net ersetzt zu den Klartext-IPs+Ports des YaCy Peer (genau dafür wäre ja eine Subdomäne praktisch) damit das in Zukunft an Strato vorbei läuft, weil die ja da nicht dienstleistungs- sondern abmahnorientiert agieren. Im Prinzip bedeutet das aber eigentlich, man solle alles an Strato vorbei leiten in der Zukunft, aber dazu mehr später.

Also schrieb ich am 11. März 16:00 an abuse@strato.de:

\ Sehr geehrte Damen und Herren,\ \ ich habe die betroffene subdomäne fsfe.yacy.net nun entfernt. Ich bitte um Reaktivierung der domäne yacy.net.\ \ Ich finde Ihre Vorgehensweise, die ganze Domäne anstatt nur die betroffene Subdomäne zu sperren im Begleitung der Tatsache, dass Sie mich noch nicht mal dazu zeitnah informiert haben zutiefst irritierend. Ist das die Standardvorgehensweise?\ \ Viele Grüße,\



Ich hatte gehofft dass man hierauf relativ schnell antwortet, aber wahrscheinlich hatte die Rechtsabteilung noch früher Feierabend als die Technikabteilung. Dann wartete ich am 12. März den ganzen Vormittag. Ich hatte einen Aquisetermin und verteilte meine Visitenkarten, auf denen eine Adresse stand die gerade geblockt ist. So sieht das dann für einen Kunden aus, wenn er die Adresse von meiner Karte aufruft:
Ihre Internetpräsenz ist zur Zeit nicht verfügbar.png
Das macht dann einen echt guten Eindruck, danke Strato!

Um 15:00 am 12. März war YaCy.net immer noch geblockt, 23 Stunden nachdem ich auf abuse@strato.de geantwortet hatte. Dann rief ich nochmal in der Vertragsabteilung an. Die sagten, ja was ich denn wolle, ich würde doch inzwischen wissen dass sie nix machen können, nur über abuse@strato.de ginge das. Ich sagte dann, ggf. könne er ja auch eine email dahin schicken. Ja macht er sagte er.

Tatsächlich kam dann um 15:38 eine Mail von abuse@strato.de:

\ Sehr geehrter Herr Christen ,\ \ vielen Dank für Ihre Nachricht, welche wir entsprechend zur Kenntnis genommen haben.\ \ Wir teilen Ihnen mit, dass wir Ihre Domain(s) / Mailaccounts wieder entsperrt haben.\ Der Vorgang ist für die Abuseabteilung der STRATO AG damit abgeschlossen.\ \ Bitte beachten Sie, dass aus technischen Gründen etwas Zeit vergehen kann bis die Domain wieder erreichbar ist.\



Sie haben weder auf meine Frage geantwortet noch haben sie sich für den Dienstausfall entschuldigt. Ach stimmt ja auch, war ja meine Schuld, siehe Hinweis auf die AGB.

tl;dr
Nach einem glücklichen Publicity-Vorfall, ca. am 10. März 16:00, bei dem wir die Verfügbarkeit von yacy.net sehr gut hätten brauchen können, hat Strato diese Domäne für 48 Stunden offline genommen und zwar mit einem Hinweis auf Verletzung der AGB.

Statistik: Verfasst von Orbiter — Do Mär 13, 2014 11:45 am


Off-Topic • FOSS-affines Web Hosting?

Date: 2014-03-13 12:06:15

nach dem Vorfall mit Strato{.postlink} suche ich nach einem neuen Hoster. Wer hat hier Tipps? Es sollte einer sein, der in FOSS-affinen Communities bekannt ist und dort geachtet wird. Und einer, der bei kurzzeitigen Peaks nicht für 48 Stunden abschaltet.

Statistik: Verfasst von Orbiter — Do Mär 13, 2014 12:06 pm


Fragen und Antworten • \“cannot start: SolrCore \‘collection1\’ is not available\”

Date: 2014-03-13 16:59:24

Während des Starts lädt er Daten in den RAM und fertigt folgendes Logfile an.
Danach beendet sich Yacy automatisch.

Da ich mit den Fehlermeldungen nichts richtiges gefunden habe, kopiere ich einfach mal das gesamte Logfile hier rein, in der Hoffnung das Leute mit dem gleichen Problem diesen Thread mithilfe von Suchmaschinen auffinden können.

\ S 2014/03/13 16:37:51 STARTUP YaCy version: 1.69/9141\ S 2014/03/13 16:37:51 STARTUP Java version: 1.7.0\_51\ S 2014/03/13 16:37:51 STARTUP Operation system: Linux\ S 2014/03/13 16:37:51 STARTUP Application root-path: /usr/share/yacy\ S 2014/03/13 16:37:51 STARTUP Data root-path: /usr/share/yacy\ S 2014/03/13 16:37:51 STARTUP Time zone: UTC+0100; UTC+0000 is 1394725071704\ S 2014/03/13 16:37:51 STARTUP Maximum file system path length: 65535\ S 2014/03/13 16:37:51 SWITCHBOARD Index Primary Path: /usr/share/yacy/DATA/INDEX\ S 2014/03/13 16:37:51 SWITCHBOARD Index Archive Path: /usr/share/yacy/DATA/ARCHIVE\ S 2014/03/13 16:37:51 SWITCHBOARD Lists Path: /usr/share/yacy/DATA/LISTS\ S 2014/03/13 16:37:51 SWITCHBOARD HTDOCS Path: /usr/share/yacy/DATA/HTDOCS\ S 2014/03/13 16:37:51 SWITCHBOARD Work Path: /usr/share/yacy/DATA/WORK\ S 2014/03/13 16:37:51 SWITCHBOARD Dictionaries Path:/usr/share/yacy/DATA/DICTIONARIES\ S 2014/03/13 16:37:51 SWITCHBOARD initializing libraries\ S 2014/03/13 16:37:52 SWITCHBOARD Loading sessionid file defaults/sessionid.names\ I 2014/03/13 16:37:52 HeapReader generating index for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 0 MB. Please wait.\ I 2014/03/13 16:37:52 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 1 entries, 0 gaps.\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/pkcounter.bheap\ I 2014/03/13 16:37:52 HeapReader saturation of api.bheap.x2OP0EQCehA5.idx: keylength = 11, vallength = 2, size = 21, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:52 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/api.bheap.\ I 2014/03/13 16:37:52 HeapReader BLOB /usr/share/yacy/DATA/WORK/api.bheap: merged 0 free records\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheap\ I 2014/03/13 16:37:52 HeapReader saturation of admin\_bookmarks.bheap.14A-k5VEpSuJ.idx: keylength = 0, vallength = 2, size = 16, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:52 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/admin\_bookmarks.bheap.\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/admin\_bookmarks.bheap\ I 2014/03/13 16:37:52 HeapReader saturation of robots.bheap.8oczy2gzOahw.idx: keylength = 3, vallength = 3, size = 1377, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:52 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/robots.bheap.\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/robots.bheap\ I 2014/03/13 16:37:52 HeapReader saturation of rss.bheap.3Kg7GnUXd8ax.idx: keylength = 11, vallength = 3, size = 13841, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:52 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/rss.bheap.\ I 2014/03/13 16:37:52 HeapReader BLOB /usr/share/yacy/DATA/WORK/rss.bheap: merged 0 free records\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/rss.bheap\ I 2014/03/13 16:37:52 HeapReader saturation of searchfl.bheap.D3umj3Fc-zwn.idx: keylength = 2, vallength = 2, size = 61, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:52 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/searchfl.bheap.\ I 2014/03/13 16:37:52 Heap initializing heap /usr/share/yacy/DATA/WORK/searchfl.bheap\ S 2014/03/13 16:37:52 SWITCHBOARD Starting Indexing Management\ I 2014/03/13 16:37:52 Word hashCache.size = 73464\ I 2014/03/13 16:37:52 SWITCHBOARD Initializing Segment \'/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS.\ I 2014/03/13 16:37:55 HeapReader saturation of text.index.20140227183509729.blob.S35jYragmD-z.idx: keylength = 6, vallength = 5, size = 1324231, maximum saving for index-compression = 7 MB, exact saving for value-compression = 6 MB\ I 2014/03/13 16:37:55 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183509729.blob.\ I 2014/03/13 16:37:55 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183509729.blob: merged 0 free records\ I 2014/03/13 16:37:57 HeapReader saturation of text.index.20140301181652551.blob.79LA4s5muCIu.idx: keylength = 6, vallength = 4, size = 1244815, maximum saving for index-compression = 7 MB, exact saving for value-compression = 4 MB\ I 2014/03/13 16:37:57 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140301181652551.blob.\ I 2014/03/13 16:37:57 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140301181652551.blob: merged 0 free records\ I 2014/03/13 16:37:57 HeapReader saturation of text.index.20140303045421229.blob.GcrUZCNVscKp.idx: keylength = 5, vallength = 4, size = 11755, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:57 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140303045421229.blob.\ I 2014/03/13 16:37:57 HeapReader saturation of text.index.20140303050345045.blob.GrJtllzR8J7d.idx: keylength = 5, vallength = 3, size = 939, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:37:57 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140303050345045.blob.\ I 2014/03/13 16:37:59 HeapReader saturation of text.index.20140227183409725.blob.4gWQSqhR5sTv.idx: keylength = 7, vallength = 5, size = 1114803, maximum saving for index-compression = 7 MB, exact saving for value-compression = 5 MB\ I 2014/03/13 16:37:59 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183409725.blob.\ I 2014/03/13 16:37:59 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183409725.blob: merged 0 free records\ I 2014/03/13 16:38:01 HeapReader saturation of text.index.20140227183308950.blob.D1A4vQHKAWVS.idx: keylength = 6, vallength = 4, size = 1055585, maximum saving for index-compression = 6 MB, exact saving for value-compression = 4 MB\ I 2014/03/13 16:38:01 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183308950.blob.\ I 2014/03/13 16:38:01 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183308950.blob: merged 0 free records\ I 2014/03/13 16:38:06 HeapReader saturation of text.index.20140227183008137.blob.k-NRMGx7q4Jb.idx: keylength = 7, vallength = 5, size = 3301743, maximum saving for index-compression = 22 MB, exact saving for value-compression = 15 MB\ I 2014/03/13 16:38:06 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183008137.blob.\ I 2014/03/13 16:38:06 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140227183008137.blob: merged 0 free records\ I 2014/03/13 16:38:06 HeapReader saturation of text.index.20140303030519876.blob.TWWFWpV1ivpK.idx: keylength = 5, vallength = 4, size = 36151, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:38:06 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140303030519876.blob.\ I 2014/03/13 16:38:06 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140303030519876.blob: merged 0 free records\ I 2014/03/13 16:38:06 HeapReader saturation of text.index.20140302193612243.blob.Ma\_ipHg5YNs7.idx: keylength = 6, vallength = 4, size = 113118, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:38:06 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140302193612243.blob.\ I 2014/03/13 16:38:06 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140302193612243.blob: merged 0 free records\ I 2014/03/13 16:38:06 HeapReader saturation of citation.index.20140301123650998.blob.0HT\_lLRtr3hy.idx: keylength = 4, vallength = 3, size = 51454, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB\ I 2014/03/13 16:38:06 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20140301123650998.blob.\ I 2014/03/13 16:38:09 HeapReader saturation of citation.index.20140227183011471.blob.Xbw4RsoAJpxT.idx: keylength = 11, vallength = 4, size = 1401716, maximum saving for index-compression = 14 MB, exact saving for value-compression = 5 MB\ I 2014/03/13 16:38:09 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20140227183011471.blob.\ I 2014/03/13 16:38:11 HeapReader saturation of citation.index.20140301092748588.blob.rsC\_Cr8D9Rc3.idx: keylength = 11, vallength = 4, size = 1334151, maximum saving for index-compression = 13 MB, exact saving for value-compression = 5 MB\ I 2014/03/13 16:38:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20140301092748588.blob.\ D 2014/03/13 16:38:11 initializeCoreConf overwrite /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_46/collection1/conf/solrcore.properties with /usr/share/yacy/defaults/solr/solrcore.properties\ D 2014/03/13 16:38:11 initializeCoreConf overwrite /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_46/webgraph/conf/solrcore.properties with /usr/share/yacy/defaults/solr/solrcore.properties\ I 2014/03/13 16:38:11 org.apache.solr.core.ConfigSolr Loading container configuration from /usr/share/yacy/defaults/solr/solr.xml\ I 2014/03/13 16:38:12 org.apache.solr.logging.LogWatcher SLF4J impl is org.slf4j.impl.JDK14LoggerFactory\ I 2014/03/13 16:38:12 org.apache.solr.logging.LogWatcher Registering Log Listener \[JUL (org.slf4j.impl.JDK14LoggerFactory)\]\ E 2014/03/13 16:38:15 org.apache.solr.core.CoreContainer Unable to create core: collection1\ org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.\(SolrCore.java:834)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:625)\ at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:251)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:243)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:615)\ at java.lang.Thread.run(Thread.java:744)\ Caused by: org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1477)\ at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1589)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:821)\ \... 11 more\ Caused by: org.apache.lucene.index.CorruptIndexException: codec header mismatch: actual header=733355355 vs expected header=1071082519 (resource: MMapIndexInput(path=\"/var/lib/yacy/INDEX/freeworld/SEGMENTS/solr\_46/collection1/data/index/\_3pee.fnm\"))\ at org.apache.lucene.codecs.CodecUtil.checkHeader(CodecUtil.java:128)\ at org.apache.lucene.codecs.lucene46.Lucene46FieldInfosReader.read(Lucene46FieldInfosReader.java:56)\ at org.apache.lucene.index.SegmentReader.readFieldInfos(SegmentReader.java:214)\ at org.apache.lucene.index.IndexWriter.getFieldNumberMap(IndexWriter.java:817)\ at org.apache.lucene.index.IndexWriter.\(IndexWriter.java:765)\ at org.apache.solr.update.SolrIndexWriter.\(SolrIndexWriter.java:77)\ at org.apache.solr.update.SolrIndexWriter.create(SolrIndexWriter.java:64)\ at org.apache.solr.update.DefaultSolrCoreState.createMainIndexWriter(DefaultSolrCoreState.java:267)\ at org.apache.solr.update.DefaultSolrCoreState.getIndexWriter(DefaultSolrCoreState.java:110)\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1440)\ \... 13 more\ E 2014/03/13 16:38:15 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Unable to create core: collection1\ at org.apache.solr.core.CoreContainer.recordAndThrow(CoreContainer.java:986)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:606)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:251)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:243)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:615)\ at java.lang.Thread.run(Thread.java:744)\ Caused by: org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.\(SolrCore.java:834)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:625)\ at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)\ \... 8 more\ Caused by: org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1477)\ at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1589)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:821)\ \... 11 more\ Caused by: org.apache.lucene.index.CorruptIndexException: codec header mismatch: actual header=733355355 vs expected header=1071082519 (resource: MMapIndexInput(path=\"/var/lib/yacy/INDEX/freeworld/SEGMENTS/solr\_46/collection1/data/index/\_3pee.fnm\"))\ at org.apache.lucene.codecs.CodecUtil.checkHeader(CodecUtil.java:128)\ at org.apache.lucene.codecs.lucene46.Lucene46FieldInfosReader.read(Lucene46FieldInfosReader.java:56)\ at org.apache.lucene.index.SegmentReader.readFieldInfos(SegmentReader.java:214)\ at org.apache.lucene.index.IndexWriter.getFieldNumberMap(IndexWriter.java:817)\ at org.apache.lucene.index.IndexWriter.\(IndexWriter.java:765)\ at org.apache.solr.update.SolrIndexWriter.\(SolrIndexWriter.java:77)\ at org.apache.solr.update.SolrIndexWriter.create(SolrIndexWriter.java:64)\ at org.apache.solr.update.DefaultSolrCoreState.createMainIndexWriter(DefaultSolrCoreState.java:267)\ at org.apache.solr.update.DefaultSolrCoreState.getIndexWriter(DefaultSolrCoreState.java:110)\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1440)\ \... 13 more\ \ I 2014/03/13 16:38:15 SolrEmbeddedInstance detected default solr core: collection1\ E 2014/03/13 16:38:15 STARTUP YaCy cannot start: SolrCore \'collection1\' is not available due to init failure: Error opening new searcher\ org.apache.solr.common.SolrException: SolrCore \'collection1\' is not available due to init failure: Error opening new searcher\ at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:823)\ at net.yacy.cora.federate.solr.instance.EmbeddedInstance.\(EmbeddedInstance.java:89)\ at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)\ at net.yacy.search.Switchboard.\(Switchboard.java:508)\ at net.yacy.yacy.startup(yacy.java:199)\ at net.yacy.yacy.main(yacy.java:690)\ Caused by: org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.\(SolrCore.java:834)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:625)\ at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:251)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:243)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)\ at java.util.concurrent.FutureTask.run(FutureTask.java:262)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:615)\ at java.lang.Thread.run(Thread.java:744)\ Caused by: org.apache.solr.common.SolrException: Error opening new searcher\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1477)\ at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1589)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:821)\ \... 11 more\ Caused by: org.apache.lucene.index.CorruptIndexException: codec header mismatch: actual header=733355355 vs expected header=1071082519 (resource: MMapIndexInput(path=\"/var/lib/yacy/INDEX/freeworld/SEGMENTS/solr\_46/collection1/data/index/\_3pee.fnm\"))\ at org.apache.lucene.codecs.CodecUtil.checkHeader(CodecUtil.java:128)\ at org.apache.lucene.codecs.lucene46.Lucene46FieldInfosReader.read(Lucene46FieldInfosReader.java:56)\ at org.apache.lucene.index.SegmentReader.readFieldInfos(SegmentReader.java:214)\ at org.apache.lucene.index.IndexWriter.getFieldNumberMap(IndexWriter.java:817)\ at org.apache.lucene.index.IndexWriter.\(IndexWriter.java:765)\ at org.apache.solr.update.SolrIndexWriter.\(SolrIndexWriter.java:77)\ at org.apache.solr.update.SolrIndexWriter.create(SolrIndexWriter.java:64)\ at org.apache.solr.update.DefaultSolrCoreState.createMainIndexWriter(DefaultSolrCoreState.java:267)\ at org.apache.solr.update.DefaultSolrCoreState.getIndexWriter(DefaultSolrCoreState.java:110)\ at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1440)\ \... 13 more\




Ich würde ja gerne mal testweise Yacy neu drauf klöppeln, habe aber Angst das mir APT den DATA Ordner auch entfernt.
Kann ich das gefahrlos machen?

Statistik: Verfasst von 140#gast — Do Mär 13, 2014 4:59 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-13 19:24:20

Qualität und Professionalität werden heutzutage halt nicht mehr grossgeschrieben. Das ist schon lange nicht mehr «trendy».

Statistik: Verfasst von David — Do Mär 13, 2014 7:24 pm


Hilfe für Einsteiger und Anwender • Crawler findet keine Links

Date: 2014-03-13 23:35:17

Hallo,

mache gerade die ersten Schritte ...

Index Production - Crawler: gebe den URL der Website A ein, die gecrawlt werden soll; wenn kein Schreibfehler, dann erscheint ein grüner Haken und eine Liste der Links, die Yacy auf der Startseite gefunden hat. Wenn ich den Crawl starte, klappt alles prima.

Jetzt mache ich alles wie vor mit einem anderen URL - Website B; wieder erscheint ein grüner Haken, jedoch keine Liste von Links, obwohl die genau so vorhanden sind wie bei A (Haken bei Dynamik-URLs ist gesetzt); Wenn ich den Crawl starte, passiert nichts, d. h., der Crawl läuft nicht. Natürlich schaltet das Fenster um, man sieht die Seite, auf der unten die \“Crawled Pages\” angezeigt werden sollten, bei Staus steht \“Running\“, aber das wars auch ...

Was läuft falsch?

Statistik: Verfasst von spok — Do Mär 13, 2014 11:35 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-14 08:33:51

Und jetzt? Bleibst du bei Strato oder wechselst du woanders hin?

edit: Ah, OK, habe eben viewtopic.php?f=12&t=5161{.postlink-local} gefunden!

Statistik: Verfasst von Low012 — Fr Mär 14, 2014 8:33 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-14 09:47:44

Hab die Frage nach Alternativen ja auch auf Twitter gestellt und dort uberspace.de empfohlen bekommen. Ich muss ja sagen dass mir das ganz gut gefällt. Ich habe dort einen Testaccount eingerichtet und probiere daran rum. Ansonsten scheint Hetzner auch interessant zu sein. Die ubernauten geben keinen Preis vor sondern sagen \‘zahle was du willst\‘, sie geben kein Trafficlimit vor aber schreiben anderswo \‘bei 100GB sprechen wir mit dir\‘. Da hab ich mal in das Log bei Strato geschaut, ich schaue da ja sonst nie rein, da waren letzte Woche trotz 48h Blockade 1.2 Millionen Zugriffe drin! In einer Woche! Allerdings gehen die meisten auf search.yacy.net/HostBrowser.html, da scheinen sich Crawler drin auszutoben :) :) Das Debian-Release bsp. wurde in einer Woche (in diesem Fall 5 Tage) 226 mal runtergeladen, das Windows-Release 985 mal (!), das tar.gz 161 mal, und das Mac-Release 124 mal. So sieht also unsere Monatsstatistik aus:

ca. 900 debian-Release Downloads
ca. 4000 Windows-Release Downloads
ca. 650 tar.gz Release Downloads
ca. 500 Mac-Release Downloads

Macht also etwa 6000 Downloads im Monat! (200 pro Tag !!! :o )

Rechnet mal also nur die Downloads zusammen, so kommen wir auf rund 240GB/Monat. Das ist etwas mehr als die uberspace sich \‘wünscht\‘. Hm, vielleicht können wir denen einen kleinen Sponsor-Link machen?

Statistik: Verfasst von Orbiter — Fr Mär 14, 2014 9:47 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-14 13:52:12

Bei Hetzner habe ich meinen Root-Server. Damit bin ich auch recht zufrieden. Beim Server habe ich mir schon ein paarmal eine Abuse-Message eingehandelt. Das war aber auch immer gerechtfertigt. Mit dem Support hatte ich nur einmal zu tun, als der Server, den ich vorher gemietet hatte, nicht mehr neu starten wollte. Da ist innerhalb einer angemessenen Zeit jemand im Rechenzentrum zum Server gegangen und hat den entsprechenden Knopf gedrückt.

Zum Traffic durch die Releases: Vielleicht könnten wir (zusätzlich) auch einen Download über Bittorrent anbieten. Unsere Zielgruppe versteht wahrscheinlich zum Großteil ja schon, was das ist. Ich könnte mir vorstellen, meinen Server als dauerhaften Seed dafür zur Verfügung zu stellen und vielleicht ja sonst auch noch jemand. Ich habe da (galube ich) mehrere TB Freivolumen und wenn ich da drüber bin, wird halt die Anbindung von 100Mbit auf 10MBit reduziert. Das stört mich auch nicht weiter.

Ich weiß nur nicht, was da einzurichten wäre und wie wir neue Releases dann möglichst automatisch auf den/die Seed(s) verteilen.

Statistik: Verfasst von Low012 — Fr Mär 14, 2014 1:52 pm


Hilfe für Einsteiger und Anwender • Re: Crawler findet keine Links - Ergänzung!!!

Date: 2014-03-14 14:04:27

Ich habe http://www.fraunhofer.de getestet und kann das reproduzieren. Hier ist was faul, folgendes passiert:
- YaCys http client läuft beim Laden in einen Time-Out

Eine manuelle Untersuchung des Zielhosts über telnet ergab:

Code:
telnet www.fraunhofer.de 80Trying 192.54.34.244...Connected to www.fraunhofer.de.Escape character is '^]'.GET / HTTP/1.1Host: www.fraunhofer.deHTTP/1.1 200 OKDate: Fri, 14 Mar 2014 12:57:54 GMTServer: ApacheLast-Modified: Fri, 14 Mar 2014 12:51:50 GMTAccept-Ranges: noneContent-Type: text/html; charset=utf-8Vary: Accept-EncodingTransfer-Encoding: chunkedb32


- die senden ohne Content-Length im http header
- die kodieren den Content mit Chunked-Encoding
- normalerweise kann man zwar einen http Content ohne Content-Length senden, dann muss aber der Server nach der Übertragung die Session zu machen
- das macht der Server aber nicht, weil Chunked-Encoding ja genau dafür gedacht ist, dass man immer was nachschieben kann (wir machen das mit der Suchseite so)

Wir brauchen hier noch eine Ausnahmeregel oder eine andere Time-Out Konfiguration, hm Sebastian, hast du eine Idee?

Statistik: Verfasst von Orbiter — Fr Mär 14, 2014 2:04 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-14 14:38:34

Orbiter hat geschrieben:\ \... auf rund 240GB/Monat. Das ist etwas mehr als die uberspace sich \'wünscht\'. Hm, vielleicht können wir denen einen kleinen Sponsor-Link machen?\



Wenn das etwas mehr ist, als sich Uperspace wünschen sollte, überweist du einfach dementsprechend mehr.
Die haben nicht auf jedem Host die gleiche Anzahl von Usern. Wichtig ist nur das die finanzielle Mischkalkulation am ende des Monats einigermaßen aufgeht.

Statistik: Verfasst von 140#gast — Fr Mär 14, 2014 2:38 pm


Hilfe für Einsteiger und Anwender • Re: Crawler findet keine Links - Ergänzung!!!

Date: 2014-03-14 16:12:23

Hallo,

ich guck mir das natürlich gerne an - nur ob das heute noch etwas wird, kann ich nicht sagen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Mär 14, 2014 4:12 pm


Mitmachen • Chemnitzer Linuxtage 2014

Date: 2014-03-14 16:20:56

morgen gehts los, die Chemnitzer Cateringtage! (hatten wir noch keinen Topic dazu hier?)

https://twitter.com/yacy_search/status/ ... 8024561665{.postlink}
bitte fleissig retweeten!

Kulis uns Sticker habe ich ja wieder viele, schon eingepackt, aber:

Achtung: wer will dass wir morgen Flyer haben, muss noch welche machen! Ich hab nämlich keine mehr!
Seid kreativ und schreibt auf ein din-a4 Blatt wie toll YaCy ist, wie einfach man es installiert und was man damit so machen kann. Dann finden wir bestimmt noch jemanden der das druckt.…

Statistik: Verfasst von Orbiter — Fr Mär 14, 2014 4:20 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-03-15 09:56:53

\@q5sys whats the current status? YaCyPi got fundet and I believe you are working on the deployment.
Do you want to show here your latest image for testing?
Here are some hints about the current status:

- the password and account problem was fixed, should work hopefully...
- I added some rules to prevent execution of high-peformance tasks like postprocessing if memory is less or below 600MB, therefore that should never start on a RPi
- there had been another settings to controll execution of specific tasks like index distribution when local load is too high. You may want to change these default settings (see all fields in yacy.init with \‘loadprereq\‘)
- I worked hard to reduce memory usage and to fix memory leaks
- I made some performance enhancements.

When you deploy the RPi you should add a \‘reset\’ script which an be used to remove the current YaCy instalation and replace it either with the YaCy version that you deployed or the latest version that you provide for updates, if you want to. I would think that this is like a good support to peope wo get a delivery and it would extend the livespan of such YaCyPi devices.

Statistik: Verfasst von Orbiter — Sa Mär 15, 2014 9:56 am


Mitmachen • Re: Chemnitzer Linuxtage 2014

Date: 2014-03-15 15:54:52

Bei uns war heute Morgen gut was los, viele Leute beim CLT2014, wahrscheinlich wegen dem schlechten Wetter!
YaCy-Profis beim clt2014.JPG

Thomas hat eine alte Google Search Appliance mitgebracht, auf den wir dann Debian und YaCy drauf gemacht haben..
YaCy auf Google Search Appliance 1.JPG
YaCy auf Google Search Appliance 2.JPG

Statistik: Verfasst von Orbiter — Sa Mär 15, 2014 3:54 pm


Mitmachen • Re: Chemnitzer Linuxtage 2014

Date: 2014-03-16 11:00:26

mehr Bilder vom Catering gibts hier:
https://www.flickr.com/photos/120566997 ... 422518333/{.postlink}

Statistik: Verfasst von Orbiter — So Mär 16, 2014 11:00 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-16 15:20:06

\“240 GB a month Wow\”

What do you think of this site http://yacyweb.tripod.com ?

After reading this thread here is what I have come up with in the last 2 days.

I use Dropbox\’s public folder to host the yacy files. After retrieving the links for the web page in the public folder to get to the 3 versions.
I use Bitly to keep a track of the number of clicks redirected from a Dyndns.org a web hop.
That way when I exceed my 20 Gig daily limit in traffic I could quickly switch to new Dropbox account or even have 3 for the various versions.
I am not sure what the bandwidth limit is for Tripod but the page is 26 k long.

Currently the links that take you to my drop box are named:
http://www.yacywindows.is-by.us
http://www.yacylinux.is-by.us
http://www.yacymac.is-by.us
About 4 min to download the windows release.

Can some one else confirm with the yacy manual update system if one was to manually download the 2 files and put them into c:\yacy\data\release folder yacy would still install and work ok. I have removed and put back releases and they appear on and off the list ok.

Statistik: Verfasst von smokingwheels — So Mär 16, 2014 3:20 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-16 18:47:17

Benötigt ihr jetzt Webspace für die Downloads?

Habe noch einen 1&1 Server der nicht viel zu tun hat.
Könnte bei Bedarf dort einen Account erstellen.

An wenn soll ich die Zugangsdaten schicken?

grüße

Statistik: Verfasst von bbtuxi — So Mär 16, 2014 6:47 pm


English • How to get YACY working as a proxy

Date: 2014-03-17 06:12:25

I have Yacy 1.68 set up on a Arch Linux server in my home office. I want to use it as a proxy for both IPv6 and IPv4 traffic from my internal systems. Whenever I point my browser at the server (10.144.0.255:8090) I get the error:

Code:
HTTP ERROR: 403Problem accessing /. Reason:    proxy use not allowed.Powered by Jetty://



I have added my IP range (10.* and 2001:470:b:1fb.*) to the IP number filter:

Code:
yacy.conf:proxyClient=localhost,127\.0\.0\.1,192\.168\..*,10\..*,0:0:0:0:0:0:0:1.*,2001:470:b:1fb.*



Any ideas what might be wrong? How do I troubleshoot?

Chet

Statistik: Verfasst von chetwisniewski — Mo Mär 17, 2014 6:12 am


Mitmachen • Re: Chemnitzer Linuxtage 2014

Date: 2014-03-17 10:08:54

Orbiter hat geschrieben:\ Thomas hat eine alte Google Search Appliance mitgebracht, auf den wir dann Debian und YaCy drauf gemacht haben..\



Ihr Schelme! :) :D :lol:

Statistik: Verfasst von Low012 — Mo Mär 17, 2014 10:08 am


Mitmachen • Re: Chemnitzer Linuxtage 2014

Date: 2014-03-17 10:25:12

Die habe ich mal bei Ebay für kleines Geld ersteigert :D Jedenfalls sind alle Leute stehengeblieben an der Kiste...
Ansonsten war es (wie immer) in Chemnitz sehr angenehm, auch hier ein großes Lob an die Organisatoren.…bis 2015 :-)... Blöderweise hab ich meine Kamera vergessen, daher gibt es keine weiteren Bilder...

[Thomas ]{style=“font-style: italic”}

Statistik: Verfasst von Vega — Mo Mär 17, 2014 10:25 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-17 10:41:57

Ich hätte auch noch einen Root bei Hetzner, vielleicht sollten wir Download-Mirrors einrichten...oder eine Spiegelung der Webseite, ist eh statisch und Hand-geschrieben.

[Thomas]{style=“font-style: italic”}

Statistik: Verfasst von Vega — Mo Mär 17, 2014 10:41 am


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-03-17 10:58:21

Hallo,

\“Öffentlicher Peer\” unter Robinson Modus\” bedeutet das sich Dein Peer im YaCy Netzwerk bekannt macht und Suchanfragen von anderen Peers beantwortet. Natürlich suchst Du nur in Deinem eigenem Index.…

[Thomas ]{style=“font-style: italic”}

Statistik: Verfasst von Vega — Mo Mär 17, 2014 10:58 am


English • Re: impossible te open an administration page

Date: 2014-03-17 11:00:14

Thank you for your answer. I did already this. So I uninstalled completely yacy, removed the remaing files found with «locate yacy». I made sure that only openjdk-6 is installed, and I reinstalld yacy.
In the configuration I changed the yacy peer name, the password and leaved the other parameters by deffault.

In the yacy interface, I have still the same messaqe «The site http://localhost:8090 asks for an username and a password. The site indicates : « YaCy-AdminUI ». I tried YaCy-AdminUI as user with the only password it knows, same message. I tried other users as my own identifier, as root, as yacy peer name, and i got always the same message. I do not understand, it should be very simple, but it does not work.

Have you other ideas ?

Statistik: Verfasst von jihell — Mo Mär 17, 2014 11:00 am


YaCy Coding & Architektur • Re: Web Site Monitoring Tool?

Date: 2014-03-17 11:03:57

Munin - http://munin-monitoring.org -, ist recht easy zu Konfigurieren ... kommt drauf an was Du überwachen willst...

Thomas

Statistik: Verfasst von Vega — Mo Mär 17, 2014 11:03 am


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-03-17 11:09:38

Hello,

it is good that you use http://search.yacy.net - but how Orbiter writes, if it will make too many people these servers, the load can no longer be processed. Support us by your own YaCy server operates, or help us with donations - so we can faster hardware, multiple servers can provide.

regards
Thomas

Statistik: Verfasst von Vega — Mo Mär 17, 2014 11:09 am


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-03-17 11:09:50

Hallo,

es ist gut das ihr http://search.yacy.net benutzt - aber wie Orbiter schreibt, wenn es zu viele Leute machen wird dieser Server die Last nicht mehr verarbeiten können. Unterstützt uns, indem Ihr eigene YaCy-Server betreibt, oder helft uns mit Spenden - damit können wir schnellere Hardware, mehrere Server bereitstellen können.

Grüße
Thomas

Statistik: Verfasst von Vega — Mo Mär 17, 2014 11:09 am


Fragen und Antworten • Re: \“cannot start: SolrCore \‘collection1\’ is not available\”

Date: 2014-03-17 14:44:59

Ich habe heute nun mal Yacy neu installiert.

Glücklicherweise habe ich das DATA Verzeichnis vor dem deinstallieren gesichert.
Ein \“apt-get remove yacy\” unter Debian entfernt auch das /yar/lib/yacy Verzeichnis, so dass der komplette Index weg gewesen wäre.
Unter Archlinux ist dem nicht so.

Jungfäulich frisch aufgesetzt mit leeren Index startet yacy.
Sobald ich aber wieder das ursprüngliche DATA Verzeichnis herstelle, erscheint im Log die bekannte Fehlermeldung.
Ich weiß jetzt leider nicht welche Verzeichnisse unter DATA gelöscht werden , bzw. aus einer jungfräulichen yacy Installation übernommen werden können.

Statistik: Verfasst von 140#gast — Mo Mär 17, 2014 2:44 pm


English • Register impossible on the Wiki

Date: 2014-03-19 20:25:59

Hello everybody
I\’m Pierre, a french student and I have 20 in some days.
I am a new user of Yacy, but I have already a problem : I can\’t creat a new account in the Yacy\’s Wiki because of the Captcha : It is written there

\ URL of your website is incorrect, please check the URL of your website at [www.keycaptcha.com](http://www.keycaptcha.com){.postlink}\

.

Is anybody have a solution ?

It is because I would like translate in french some articles. (In addition, I could translate menus in french if you want/need.)

To finish, I\’d like know what I can make to a robot goes in my website to add it.

Thanks

Pierre

Statistik: Verfasst von pi3rr329 — Mi Mär 19, 2014 8:25 pm


Fragen und Antworten • What triggers / How can I trigger postprocessing?

Date: 2014-03-19 21:20:37

I have some hundreds of thousands of pages waiting for postprocessing for about two weeks now.
Can I trigger the postprocessing manually?
If not: What pre-conditions is it waiting for?
(I already tried running it one night without a crawl.)

Thanks for an answer.

Statistik: Verfasst von otter — Mi Mär 19, 2014 9:20 pm


Fragen und Antworten • Re: What triggers / How can I trigger postprocessing?

Date: 2014-03-20 09:02:11

since last release the postprocessing does not start when memory assignment is unchanged. The postprocessing task is a high-cpu, high-RAM task and should not be performed in the default configuration any more. It is not a big problem if the process is not done.

I will change the display of the postprocessing information to inform about that a bit more. If you want to start the postprocessing, you must increase RAM strongly.

If your files are not postprocessed, everything is fine. The process just creates a bit more information which can be used for a better ranking but your search should work without the postprocessing fine.

Statistik: Verfasst von Orbiter — Do Mär 20, 2014 9:02 am


English • Question about YaCy indexing

Date: 2014-03-20 15:36:10

I\’m a little confused about how indexing in YaCy works. According to this page: http://yacy.de/en/Join.html , I can help YaCy by running a public peer. But I don\’t understand how simply running a public peer would help other peers in the network. I would have to crawl websites through the administration interface and build indexes as well, wouldn\’t I? Because otherwise I have nothing to share with my peers.

This topic: viewtopic.php?f=23&t=5116{.postlink-local} seems to suggest that YaCy automatically indexes the pages I visit on my browser. Is this true? How does YaCy even know what pages I\’m visiting? (my HTTP requests don\’t go through YaCy at all).

Statistik: Verfasst von nap — Do Mär 20, 2014 3:36 pm


English • Re: Question about YaCy indexing

Date: 2014-03-20 16:30:32

Hello nap,

running a Senior-Peer already does help the network by receiving DHT. With this the index-data will grow and will be used for search-requests.
Starting a crawl will also help enrich the the index of the network.

Indexing pages You visit can be done by using YaCy as a Web-Proxy of your browser.
Toggle transparent Proxy to be on at /Status.html and configure the browser to use 127.0.0.1 (port 8090) as proxy for http.
But using yacy as proxy has some limitations on some sites.
Pages with personal data will not be indexed.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mär 20, 2014 4:30 pm


Fragen und Antworten • search results seem to disappear

Date: 2014-03-20 16:43:49

Hi!

For testing purposes I\’ve started to crawl two sites. Advertisements in two different topics.
Crawling processes have started successfully but somewhat later I discovered that results for one of the sites seem to fall back time to time.
Although there were tens of thousands of hits before, it reset back to a few only. And this happens over and over again.
There is no problem at all with the other site. The quantity of search results just grows continuously for this one.

Where should I check for the cause of this strange behavior?

Thanks,

Statistik: Verfasst von zptoth — Do Mär 20, 2014 4:43 pm


Fragen und Antworten • Re: What triggers / How can I trigger postprocessing?

Date: 2014-03-21 12:17:22

yep, ich habe den Speicher um 200MB erhöht und das postprocessing lief an und durch.
Danke, Orbiter

Statistik: Verfasst von otter — Fr Mär 21, 2014 12:17 pm


Hilfe für Einsteiger und Anwender • Von außen nicht erreichbar.

Date: 2014-03-21 16:04:07

Hallo, ich bin von außen für andere Peers nicht erreichbar und habe keine Ahnung warum und wie ich das ändern kann. Den betreffenden Port habe ich in meiner Fritzbox freigegeben, leider erfolglos. Was nun?

LG Sheldon-E6217

https://www.dropbox.com/sh/b7s4qrich02jgzs/HHrKIalHL_

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 4:04 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 16:49:43

Kann mir niemand weiterhelfen?

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 4:49 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 16:56:47

Danke, scheint ja eine ech tolle community zu sein...

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 4:56 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 19:00:12

Hallo,

funktioniert es denn ohne SSL?
(unter 8090)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Mär 21, 2014 7:00 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 19:15:28

Hallo,
habe es jetzt mal ohne SSL auf Port 8090 versucht. Es hat sich nichts geändert, bin von aussen nicht erreichbar.
(Ubuntu 13.10, Fritzbox 7112)

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 7:15 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 19:17:10

OK, jetzt geht es. Also ohne SSL.

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 7:17 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-21 19:34:39

Warum funktioniert das nicht mit SSL? Wo könnte das Problem liegen?

Statistik: Verfasst von Sheldon-E6217 — Fr Mär 21, 2014 7:34 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-03-21 22:14:52

kein Wunder, wenn man Internetsperren bekommt: in der Türkei ist man auf uns aufmerksam geworden:
https://network23.org/kame/2014/03/21/y ... motorunuz/{.postlink}

Wir könnten auch ganz gut eine türkische Übersetzung vom Online-Interface gebrauchen.…

Statistik: Verfasst von Orbiter — Fr Mär 21, 2014 10:14 pm


English • Re: Question about YaCy indexing

Date: 2014-03-22 07:21:53

Thanks sixcooler! That\’s exactly what I wanted to know. :)

Statistik: Verfasst von nap — Sa Mär 22, 2014 7:21 am


Hilfe für Einsteiger und Anwender • Re: Crawler findet keine Links - Ergänzung!!!

Date: 2014-03-22 14:39:40

Hallo
ich habe das auch bei meinen Peers so erlebt, und habe dann den Crawel auf tiefere Ebene der Websitestruktur angesetzt, dann ging es meist und die Webseite wurde eingelesen.Ich habe auch festgestellt, wenn in der Website die ergaenzenden Befehle drinn stehen, lovt bei Yacy auch nix.
<meta name=\“robots\” content=\“index,follow,noodp,noydir\” />
noodp,noydir
der RSS Feed von denen laest sich auch nicht einlesen.
http://www.fraunhofer.de/de/rss/presse.rss

Frauenhofer hat in jeder Seite in den Metatags diese Befehle drinn

Gruss Roland

Statistik: Verfasst von RoGott — Sa Mär 22, 2014 2:39 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-22 14:53:27

Hi
ich kann auch mit zwei meiner Server aushelfen
auf den einen habe ich unbegrenzt Traffik aber nur 2 Gig RAM
Auf den anderen habe ich 5 Terra Traffik, die ich aber nicht erreiche, und 2 Terra Festplatte bei 32 Gig RAM

Und sollte ich ueber 5 Terra kommen wird was zugebucht.

MfG
Roland

Statistik: Verfasst von RoGott — Sa Mär 22, 2014 2:53 pm


Hilfe für Einsteiger und Anwender • Re: Von außen nicht erreichbar.

Date: 2014-03-22 23:32:58

Heute bin ich wieder nicht von außen erreichbar (Port 8090). Es ist zum Mäuse melken... :(

Statistik: Verfasst von Sheldon-E6217 — Sa Mär 22, 2014 11:32 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-03-23 12:35:01

für die älteren unter uns:
Bild

..oder: Flynn ;) (aka: \‘The Dude\‘)
Bild

Statistik: Verfasst von Orbiter — So Mär 23, 2014 12:35 pm


Hilfe für Einsteiger und Anwender • Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-23 23:26:02

Hallo, in der Admin Konsole erhalte ich folgende Fehlermeldung:

Code:
Der freie Festplattenspeicher ist geringer als 4 GB. Crawling wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.



Habe leider keine Ahnung, was ich jetzt machen muß. Verstehe das nicht. Ich habe 700 GB HD und nicht mal 10% benutzt. Warum also diese Meldung?

Bild{.postlink}

Statistik: Verfasst von Sheldon-E6217 — So Mär 23, 2014 11:26 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-03-24 03:37:46

Orbiter hat geschrieben:\ \@q5sys whats the current status? YaCyPi got fundet and I believe you are working on the deployment.\ Do you want to show here your latest image for testing?\ Here are some hints about the current status:\ \ - the password and account problem was fixed, should work hopefully\...\ - I added some rules to prevent execution of high-peformance tasks like postprocessing if memory is less or below 600MB, therefore that should never start on a RPi\ - there had been another settings to controll execution of specific tasks like index distribution when local load is too high. You may want to change these default settings (see all fields in yacy.init with \'loadprereq\')\ - I worked hard to reduce memory usage and to fix memory leaks\ - I made some performance enhancements.\ \ When you deploy the RPi you should add a \'reset\' script which an be used to remove the current YaCy instalation and replace it either with the YaCy version that you deployed or the latest version that you provide for updates, if you want to. I would think that this is like a good support to peope wo get a delivery and it would extend the livespan of such YaCyPi devices.\



Im waiting on the physical hardware to be delivered from the various sources so I can start putting together the shipping packages.
I was waiting on wrapping up the final image until the Login issue was fixed. I couldn\’t very well shipa product that people wouldn\’t be able to log into.
Since I\’m going ahead and including a USB drive with every order, memory isnt as much of an issue, since I can load 2Gb of swap space into a swap partition on the USB device, so if on board memory gets lower it can utilize that.

I was thinking of bundling a shell script for users to upgrade their YaCy install, but wasnt sure the best way to do this and still retain any of their logs, data, etc. Do I just save the /DATA dir and import that into the new folder once the tar.gz is expanded?
I havent done any testing with trying to update yet.
I was planning on just providing image updates as needed, which also allows me to update the kernel, packages, libs, etc. But maybe a way to update just YaCy is a good idea.

Statistik: Verfasst von q5sys — Mo Mär 24, 2014 3:37 am


Mitmachen • Re: Raspberry Pi

Date: 2014-03-24 08:12:01

Hi q5sys,

- the login issue is fixed as far as I can see!
- Including a USB drive is a good decision!
- upgrading YaCy: all data is always inside of DATA but it should not be necessary to save it as the internal upgrade-process does not do that as well: we always copy the latest release over the old release; the automatically deployed update script just removes the old libraries before starting with the update.
What should be better is a combined OS/YaCy release update process.

Statistik: Verfasst von Orbiter — Mo Mär 24, 2014 8:12 am


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 13:17:52

27 Zugriffe und keine einzige Antwort?

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 1:17 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 18:56:01

Hallo? Sorry, aber es ist halt nunmal nicht jeder so ein Nerd. Ich unterstütze und nutze gerne Freie Software, aber ich habe leider keine Ahnung. Es hat halt nicht jeder ein Informatik-Studium hinter sich und kennt sich mit solchen Dingen aus. Das hier ist doch ein Forum für Anfänger, oder etwa nicht???

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 6:56 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 19:11:33

Bist du denn sicher, dass du yacy auf dieser grossen Platte installiert hast, und nicht auf einer anderen?

Statistik: Verfasst von David — Mo Mär 24, 2014 7:11 pm


English • Re: Register impossible on the Wiki

Date: 2014-03-24 19:20:17

Salut Pierre!

Yeah you are right, there is something broken and it needs to fixed.

http://bugs.yacy.net/view.php?id=369

pi3rr329 hat geschrieben:\ Does anybody have a solution?\


The german registration page seems to be operational:
http://www.yacy-websuche.de/wiki/index. ... ype=signup{.postlink}

pi3rr329 hat geschrieben:\ To finish, I\'d like know what I can make to a robot goes in my website to add it.\


Do you mean, you want your website to be crawled by a yacy robot/spider?

Statistik: Verfasst von David — Mo Mär 24, 2014 7:20 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 19:22:22

Naja, ich habe nach einer Anleitung im Forum von Ubuntuusers ein deb-Paket erstellt und installiert. Das ist jetzt auf meiner 20-GB Root-Partition. Nutzt yacy jetzt etwa diese Partition und nicht die restliche Home-Parttion?

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 7:22 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 19:30:37

Wenn nicht, kann ich yacy irgendwie dazu bringen, das zu tun?

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 7:30 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 19:44:52

Ich weiss nicht genau wie das mit den Deb-Paketen funktioniert. Du musst glaub ich zuerst einmal rausfinden, wo dein Yacy-Ordner installiert wurde. Möglicherweise hast du eine Art Dateisuchprogramm auf deinem Rechner?

Statistik: Verfasst von David — Mo Mär 24, 2014 7:44 pm


English • Re: How to get YACY working as a proxy

Date: 2014-03-24 20:00:38

Hi,

Do you have «Transparent Proxy» enabled under «Advanced Settings / HTTP Networking»?

Statistik: Verfasst von David — Mo Mär 24, 2014 8:00 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 20:00:48

Yacy befindet sich unter /usr/share/yacy

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 8:00 pm


English • Re: impossible te open an administration page

Date: 2014-03-24 20:03:53

Hi,

Do you have your browser configured to use yacy as proxy?

Statistik: Verfasst von David — Mo Mär 24, 2014 8:03 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 20:08:50

Wenn du nun auf den Yacy-Ordner rechts-klickst und «Eigenschaften» oder «Properties» (oder so ähnlich) auswählst, solltest du eigentlich rausfinden können auf welcher Festplatte er sich befindet, und wieviel Platz noch frei ist.

Statistik: Verfasst von David — Mo Mär 24, 2014 8:08 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 20:14:42

Yacy befindet sich auf der 20 GB Partition, sind nur noch 3,8 GB frei. Werde es wieder deinstallieren und eine andere Version downloaden, die dann in meinem home-Ordner liegt und halt per script gestartet werden muss... danke.

Statistik: Verfasst von Sheldon-E6217 — Mo Mär 24, 2014 8:14 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 20:19:26

Gern geschehen.

Bevor du es deinstallierst, kannst du einfach auch den Yacy-Ordner auf die grössere Platte verschieben (und ab sofort mit «startYACY.sh» starten), damit die bisherige Arbeit nicht verloren geht.

Statistik: Verfasst von David — Mo Mär 24, 2014 8:19 pm


Hilfe für Einsteiger und Anwender • Re: Der freie Festplattenspeicher ist geringer als 4 GB...

Date: 2014-03-24 21:35:42

warum deinstallieren, verschiebe /usr/share/yacy einfach auf die andere Platte und mache einen symbolic link

Code:
mv /usr/share/yacy <andererort>ln -s <andererort> /usr/share/yacy


..alles als root

Statistik: Verfasst von Orbiter — Mo Mär 24, 2014 9:35 pm


Wunschliste • Loggen der Blacklist Regel

Date: 2014-03-24 22:34:23

Wenn eine URL aufgrund eines Blacklist Eintrages geblockt wird (z.B. Crawler), gibt es folgenden Logeintrag:

\ I 2014/03/24 21:48:30 REJECTED - url in blacklist\


Könnte man den Logeintrag noch um die Information über den entsprechenden Blacklist Eintrag ergänzen, welcher dafür verantwortlich ist?

Als Beispiel:

\ I 2014/03/24 21:48:30 REJECTED - url in blacklist (matching blacklist rule .\*domain.de/.\*.\*)\

Statistik: Verfasst von freak — Mo Mär 24, 2014 10:34 pm


Hilfe für Einsteiger und Anwender • Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-25 09:33:36

Liebe Leute,
bei mir wird der Crawler immer wieder angehalten und ich werde aufgefordert, den Festplattenplatz zu überprüfen. Der ist aber nicht das Problem, es sind noch 36 GB frei auf der Partition auf der Yacy seine Daten ablegt. In der Crawler-Überwachung heißt es dann in roter Schrift \“no memory space available\“. Bezieht sich das auf RAM? Wenn ja ist die vorher genannte Aufforderung irreführend.

Wenn es sich auf RAM bezieht - was soll man da machen? Mehr als die 600 MByte will ich Yacy wirklich nicht abtreten, da ich insegesamt nur 4 GByte RAM zur Verfügung habe und ja auch noch Arbeit geschafft bekommen muss.

Statistik: Verfasst von BododasBroetchen — Di Mär 25, 2014 9:33 am


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-25 09:54:21

Mahlzeit,
du kannst afaik in den Einstellungen angeben, wieviel Plattenplatz frei gehalten werden soll. Da mal nachschauen, bei \“Crawler\” glaube ich.

Und Thema RAM. 600MB ist zum Crawlen vielleicht ein wenig mau. Im Wiki steht was von \“mindestens 1024 MB Arbeitsspeicher erforderlich, empfehlenswert sind 2 GB oder mehr.\” Meiner persönlichen Meinung nach solltest du die Intention zum Crawlen bei unter 1Gig überdenken.

gruß

Statistik: Verfasst von kosmonaut pirx — Di Mär 25, 2014 9:54 am


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-25 10:22:28

kosmonaut pirx hat geschrieben:\ Mahlzeit,\ du kannst afaik in den Einstellungen angeben, wieviel Plattenplatz frei gehalten werden soll. Da mal nachschauen, bei \"Crawler\" glaube ich.\



Ja, aber das ist wie gesagt nicht das Problem. Es sind über 30 GB frei.

[quote=\“kosmonaut pirx\”
Und Thema RAM. 600MB ist zum Crawlen vielleicht ein wenig mau. Im Wiki steht was von \“mindestens 1024 MB Arbeitsspeicher erforderlich, empfehlenswert sind 2 GB oder mehr.\” Meiner persönlichen Meinung nach solltest du die Intention zum Crawlen bei unter 1Gig überdenken.[/quote]

Wenn das so ist, dann wird yacy mit Voreinstellungen ausgeliefert, die für den Zweck des Programms untauglich ist. 600 MB ist ja die Voreinstellung.

Statistik: Verfasst von BododasBroetchen — Di Mär 25, 2014 10:22 am


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-25 10:32:52

Wenn in den EInstellungen steht: \“lasse 30GB frei\“, dann ist das ein Problem. Aber wird vermutlich nicht so sein, zugegeben.

\ Wenn das so ist, dann wird yacy mit Voreinstellungen ausgeliefert, die für den Zweck des Programms untauglich ist. 600 MB ist ja die Voreinstellung.\



Ist die Frage, was jeder unter Zweck des Programms versteht. Du bist der Meinung, der Zweck von Yacy wird nur mit Crawlen erfüllt. Ok.

Statistik: Verfasst von kosmonaut pirx — Di Mär 25, 2014 10:32 am


Wunschliste • Re: Loggen der Blacklist Regel

Date: 2014-03-25 10:49:17

Ich schaue heute Abend mal rein.

Statistik: Verfasst von Low012 — Di Mär 25, 2014 10:49 am


Fragen und Antworten • Re: content-language

Date: 2014-03-25 16:02:48

Leider ist obige Frage relevanter denn je. Wir brauchen den Sprachfilter wohl zwingend.

Statistik: Verfasst von kilian — Di Mär 25, 2014 4:02 pm


Fragen und Antworten • Re: content-language

Date: 2014-03-25 17:33:11

wir haben in der Vergangenheit mit einem Voting aus drei Kriterien gearbeitet:
- Metadaten im html Header (content-language und DC.language)
- Top-Level-Domain
- statistische Analyse der Buchstabenhäufigkeiten mit Ähnlichkeitstest auf Referenz zu Wikipedia-Artikeln.

Alle drei Methoden sind äusserst fehlerbehaftet, auch ein Voting aus den drei Methoden ist recht fehlerhaft.
Wenn du weitere Kriterien kennst, nur her damit!

Statistik: Verfasst von Orbiter — Di Mär 25, 2014 5:33 pm


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-25 17:35:19

ich weiss nicht wer diese Werte ins Wiki geschrieben hat, Crawlen sollte bei weit unter 600MB RAM möglich sein, vor allem mit den Änderungen in den letzten drei Monaten.

Statistik: Verfasst von Orbiter — Di Mär 25, 2014 5:35 pm


Wunschliste • Re: Loggen der Blacklist Regel

Date: 2014-03-25 21:11:00

Den Logeintrag zu ergänzen ist ohne weiteres leider nicht möglich. Was halbwegs einfach sein müsste, wäre ein zusätzlicher Logeintrag.

Die Blacklist-Engine gibt lediglig zurück, ob ein Eintrag in einer Blacklist enthalten ist oder nicht. Der zitierte Logeintrag stammt aber aus einer Klasse, die die Blacklist-Engine benutzt und dann ggf. die Logausgabe erzeugt. Das umzubauen wäre ein ziemlicher Aufriss und nur für ein bisschen Logging wahrscheinlich Overkill. Ich könnte aber wahrscheinlich in der Blacklist-Engine eine (zusätzliche) Logausgabe erstellen.

Würde da irgendwas dagegen sprechen?

Statistik: Verfasst von Low012 — Di Mär 25, 2014 9:11 pm


English • Re: Register impossible on the Wiki

Date: 2014-03-25 21:58:26

Hello,
Please try again, I have changed the settings.

Thomas

Statistik: Verfasst von Vega — Di Mär 25, 2014 9:58 pm


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-26 11:14:34

Hallo Michael,

ich habe diese Werte in Wiki geschrieben - wie man in der Historie auch leicht sehen kann ;). Ich habe ja diese Werte nicht willkürlich festgelegt, sondern ausgelotet mit welchen Ram mein Peer stabil lief. Das es mit weniger als 700 MB \“knallt\” haben wir in Chemnitz auf dem Cubietruck Board gesehen. Es mag Fälle geben wo YaCy durchaus mit 512 MB Ram läuft, aber dieser Wert ist für die allgemeine Nutzung nicht Praxistauglich.

Thomas

Orbiter hat geschrieben:\ ich weiss nicht wer diese Werte ins Wiki geschrieben hat, Crawlen sollte bei weit unter 600MB RAM möglich sein, vor allem mit den Änderungen in den letzten drei Monaten.\

Statistik: Verfasst von Vega — Mi Mär 26, 2014 11:14 am


English • Re: impossible te open an administration page

Date: 2014-03-26 12:34:58

No, it is Firefox and configured without proxy.

Statistik: Verfasst von jihell — Mi Mär 26, 2014 12:34 pm


English • Re: impossible te open an administration page

Date: 2014-03-26 15:33:35

run <yacyhome>/bin/passwd.sh <newpw> and log in with user \‘admin\’ and pw <newpw>.
This feature was broken in latest release but fixed in current devrelease.

Statistik: Verfasst von Orbiter — Mi Mär 26, 2014 3:33 pm


English • debian.yacy.net traceroute

Date: 2014-03-26 20:00:37

Not sure who to send notice to, but I have not been able to reach debian.yacy.net here in the states, North Carolina to be exact. Waited a couple of days and not really seeing much if any change.

First one is from our net, other are various traceroute utility pages around the net in different parts of the world.

Guessing it would be that last hop before wae.rzone.de not allowing some addresses thru?

Code:
  3     7 ms     7 ms     7 ms  64-129-238-122.static.twtelecom.net [64.129.238.122]  4    19 ms    20 ms    19 ms  12.249.190.5  5    23 ms    22 ms    23 ms  cr2.attga.ip.att.net [12.122.140.214]  6    23 ms    22 ms    23 ms  12.122.117.97  7    20 ms    21 ms    21 ms  192.205.33.42  8    18 ms    18 ms    18 ms  ash-bb3-link.telia.net [213.155.134.130]  9   119 ms   127 ms   120 ms  ffm-bb1-link.telia.net [80.91.246.59] 10   135 ms   125 ms   126 ms  ffm-b7-link.telia.net [80.91.249.105] 11   119 ms   119 ms   119 ms  xe-10-2-0.morla.as6724.net [213.248.94.78] 12   133 ms   132 ms   135 ms  te4-2.fiddlersriddle.as6724.net [81.169.144.34] 13     *        *        *     Request timed out. 14  te4-2.fiddlersriddle.as6724.net [81.169.144.34]  reports: Destination net unreachable. traceroute to debian.yacy.net (81.169.145.174), 30 hops max, 60 byte packets 1  FMC_SCHNADT_ROUTER (80.92.66.1)  0.261 ms  0.310 ms  0.371 ms 2  80-92-83-193.ip.dclux.com (80.92.83.193)  33.072 ms  33.141 ms  33.164 ms 3  80-92-83-199.ip.dclux.com (80.92.83.199)  0.549 ms  0.603 ms  0.621 ms 4  78.141.176.21 (78.141.176.21)  1.626 ms  1.850 ms  2.199 ms 5  * * * 6  * * * 7  atuin.rzone.de (80.81.192.110)  5.281 ms  5.278 ms  5.275 ms 8  ae0.0.morla.as6724.net (81.169.144.33)  5.522 ms  5.505 ms  5.511 ms 9  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  7.725 ms  7.683 ms  7.635 ms10  wae.rzone.de (81.169.145.174)  7.661 ms  7.843 ms  7.602 ms      traceroute to debian.yacy.net (81.169.145.174), 30 hops max, 40 byte packets 1  rtc-sw1.neva.ru (195.208.113.126)  1.668 ms  0.948 ms  0.82 ms 2  rtc-gw.neva.ru (194.85.4.13)  0.657 ms  0.674 ms  0.714 ms 3  odu-gw3.neva.ru (194.85.4.26)  0.895 ms  0.938 ms  0.912 ms 4  kt12-1-gw.spb.runnet.ru (194.190.255.229)  1.295 ms  1.145 ms  1.337 ms 5  hikhef-1-gw.ams.runnet.ru (194.85.40.241)  35.421 ms  35.497 ms  36.148 ms 6  xe-0-0-1.core-ams14.as6724.net (195.69.146.180)  35.957 ms  35.412 ms  37.497 ms 7  xe-1-2-0.0.core-b30.as6724.net (85.214.0.63)  51.306 ms  51.366 ms  54.809 ms 8  ae2.0.morla.as6724.net (85.214.0.65)  51.097 ms  51.494 ms  51.435 ms 9  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  53.659 ms  53.786 ms  53.466 ms10  wae.rzone.de (81.169.145.174)  53.472 ms  54.224 ms  54.13 ms1  gateway (81.92.164.129)  0.939 ms  0.255 ms  0.328 ms2  ae0-81-cr1.ush.de.tnib.net (81.92.175.245)  0.996 ms  0.482 ms  0.678 ms3  ae0-0-cr1.ffm.de.tnib.net (81.92.175.90)  19.571 ms  7.167 ms  7.218 ms4  atuin.rzone.de (80.81.192.110)  7.790 ms  20.819 ms  20.221 ms5  ae0.0.morla.as6724.net (81.169.144.33)  8.202 ms  8.291 ms  7.818 ms6  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  10.764 ms  10.289 ms  10.532 ms7  wae.rzone.de (81.169.145.174)  10.798 ms  10.186 ms  10.323 mstraceroute to debian.yacy.net (81.169.145.174), 30 hops max, 60 byte packets 1  csc3-ge-11-3-0-0-funet-maint-a.funet.fi (193.166.4.254)  0.199 ms  0.230 ms  0.227 ms 2  helsinki6-xe-10-1-0-0-csc-b.funet.fi (193.166.187.185)  0.759 ms  0.804 ms  0.801 ms 3  se-tug.nordu.net (109.105.102.61)  7.310 ms  7.393 ms  7.436 ms 4  se-fre.nordu.net (109.105.97.1)  7.552 ms  7.612 ms  7.612 ms 5  dk-ore.nordu.net (109.105.97.6)  16.852 ms  16.889 ms  16.928 ms 6  nl-sar.nordu.net (109.105.97.25)  28.815 ms  28.332 ms  28.287 ms 7  xe-0-0-1.core-ams14.as6724.net (195.69.146.180)  32.465 ms  32.516 ms  32.485 ms 8  xe-1-2-0.0.core-b30.as6724.net (85.214.0.63)  43.796 ms  43.721 ms  43.823 ms 9  ae2.0.morla.as6724.net (85.214.0.65)  43.903 ms  43.940 ms  55.730 ms10  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  46.564 ms  46.108 ms  45.993 ms11  wae.rzone.de (81.169.145.174)  45.661 ms  45.903 ms  45.796 mstracing path from www.net.princeton.edu to 81.169.145.174 ...traceroute to 81.169.145.174 (81.169.145.174), 30 hops max, 40 byte packets 1  core-87-router (128.112.128.2)  0.618 ms  0.414 ms  0.367 ms 2  border-87-router (128.112.12.142)  1.972 ms  0.455 ms  0.333 ms 3  te0-0-1-1.204.rcr12.phl03.atlas.cogentco.com (38.122.150.1)  3.377 ms  3.299 ms  3.106 ms 4  te4-3.ccr01.phl01.atlas.cogentco.com (66.28.4.233)  3.123 ms te2-8.ccr01.phl01.atlas.cogentco.com (154.54.27.117)  3.455 ms te4-3.ccr01.phl01.atlas.cogentco.com (66.28.4.233)  5.322 ms 5  te4-1.ccr01.bwi01.atlas.cogentco.com (154.54.2.173)  6.867 ms te7-2.ccr01.bwi01.atlas.cogentco.com (154.54.83.222)  5.834 ms te4-1.ccr01.bwi01.atlas.cogentco.com (154.54.2.173)  5.829 ms 6  te4-3.mag01.dca01.atlas.cogentco.com (154.54.31.57)  18.851 ms te4-3.mag02.dca01.atlas.cogentco.com (154.54.25.86)  131.208 ms te4-3.mag01.dca01.atlas.cogentco.com (154.54.31.57)  10.547 ms 7  te0-3-0-0.mpd21.dca01.atlas.cogentco.com (154.54.31.49)  8.421 ms te0-3-0-0.ccr22.dca01.atlas.cogentco.com (154.54.30.225)  7.720 ms te0-3-0-0.mpd21.dca01.atlas.cogentco.com (154.54.31.49)  7.761 ms 8  be2169.ccr22.atl01.atlas.cogentco.com (154.54.31.97)  20.662 ms be2170.mpd21.atl01.atlas.cogentco.com (154.54.31.105)  18.655 ms be2169.ccr22.atl01.atlas.cogentco.com (154.54.31.97)  18.662 ms 9  be2174.mpd21.iah01.atlas.cogentco.com (154.54.29.202)  40.798 ms be2173.ccr22.iah01.atlas.cogentco.com (154.54.29.118)  36.808 ms  34.277 ms10  be2067.mpd21.lax01.atlas.cogentco.com (154.54.7.162)  70.876 ms be2066.ccr22.lax01.atlas.cogentco.com (154.54.7.54)  72.214 ms be2067.mpd21.lax01.atlas.cogentco.com (154.54.7.162)  68.735 ms11  be2179.ccr23.lax05.atlas.cogentco.com (154.54.41.82)  71.259 ms be2181.ccr23.lax05.atlas.cogentco.com (154.54.41.114)  69.761 ms be2179.ccr23.lax05.atlas.cogentco.com (154.54.41.82)  70.350 ms12  telia.lax05.atlas.cogentco.com (154.54.10.10)  83.011 ms telia.lax05.atlas.cogentco.com (154.54.12.218)  84.779 ms  83.110 ms13  ash-bb4-link.telia.net (213.155.137.112)  71.581 ms ash-bb3-link.telia.net (213.248.80.9)  71.433 ms ash-bb4-link.telia.net (80.91.246.70)  70.944 ms14  ffm-bb1-link.telia.net (213.155.135.56)  177.701 ms ffm-bb1-link.telia.net (80.91.246.59)  169.458 ms ffm-bb1-link.telia.net (213.155.131.146)  179.003 ms15  ffm-b7-link.telia.net (80.91.247.73)  178.067 ms ffm-b7-link.telia.net (80.91.251.234)  171.139 ms *16  xe-10-2-0.morla.as6724.net (213.248.94.78)  172.286 ms  232.099 ms  168.068 ms17  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  186.650 ms  171.757 ms  174.742 ms18  wae.rzone.de (81.169.145.174)  168.120 ms  170.521 ms  174.238 msDone.FROM www.wvi.com TO debian.yacy.net.traceroute: Warning: Multiple interfaces found; using 204.119.27.10 @ ce0traceroute to debian.yacy.net (81.169.145.174), 30 hops max, 40 byte packets 1  wvi-gw.wvi.com (204.119.27.254)  0.355 ms  0.190 ms  0.161 ms 2  te2-5.ccr01.pdx01.atlas.cogentco.com (38.104.104.249)  1.920 ms  1.924 ms  1.927 ms 3  te0-0-1-2.rcr12.pdx02.atlas.cogentco.com (154.54.0.90)  2.602 ms te0-0-1-1.rcr11.pdx02.atlas.cogentco.com (154.54.0.86)  2.437 ms 154.54.89.58 (154.54.89.58)  2.550 ms 4  te0-0-0-2.ccr21.sea01.atlas.cogentco.com (154.54.40.118)  5.964 ms  5.910 ms te0-0-0-2.ccr22.sea01.atlas.cogentco.com (154.54.40.122)  5.978 ms 5  be2083.ccr21.sea02.atlas.cogentco.com (154.54.0.250)  6.070 ms be2084.ccr21.sea02.atlas.cogentco.com (154.54.0.254)  6.547 ms be2083.ccr21.sea02.atlas.cogentco.com (154.54.0.250)  6.106 ms 6  sea-b1-link.telia.net (213.248.86.145)  5.721 ms  5.808 ms  5.769 ms 7  chi-bb1-link.telia.net (62.115.137.84)  49.970 ms chi-bb1-link.telia.net (62.115.137.90)  49.881 ms  49.943 ms 8  nyk-bb1-link.telia.net (80.91.247.16)  72.294 ms nyk-bb2-link.telia.net (80.91.248.197)  72.489 ms nyk-bb2-link.telia.net (213.155.136.18)  72.036 ms 9  ffm-bb2-link.telia.net (213.155.131.148)  304.010 ms ffm-bb1-link.telia.net (213.155.135.60)  160.496 ms ffm-bb2-link.telia.net (213.155.131.148)  166.429 ms10  ffm-b7-link.telia.net (80.91.247.75)  167.229 ms ffm-b7-link.telia.net (80.91.254.93)  160.032 ms ffm-b7-link.telia.net (80.91.247.75)  197.454 ms11  xe-10-2-0.morla.as6724.net (213.248.94.78)  154.766 ms  177.102 ms  154.439 ms12  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.427 ms  156.626 ms  157.873 ms13  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.308 ms !X * *14  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  157.755 ms !X *15  * * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  157.463 ms !X16  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  157.163 ms !X *17  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.565 ms !X *18  * * *19  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  159.540 ms !X *20  * * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.780 ms !X21  * * *22  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.521 ms !X * *23  * * *24  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.415 ms !X *25  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.580 ms !X * *26  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.354 ms !X * *27  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  160.354 ms !X * *28  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  156.865 ms !X *  160.508 ms !X

Statistik: Verfasst von davlaw — Mi Mär 26, 2014 8:00 pm


Hilfe für Einsteiger und Anwender • Re: Crawler findet keine Links - Ergänzung!!!

Date: 2014-03-26 22:04:43

Hallo nochmal,

wollte mich erkundigen, wie es jetzt weiter geht ...
Soll - kann ich überhaupt - das als Bug eintragen, trägt das jemand anders als Bug ein, ist es so von Interesse, dass es bearbeitet wird, ...?

Grüße

spok

Statistik: Verfasst von spok — Mi Mär 26, 2014 10:04 pm


English • Re: How to get YACY working as a proxy

Date: 2014-03-26 22:38:35

No, should I?

Statistik: Verfasst von chetwisniewski — Mi Mär 26, 2014 10:38 pm


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-27 08:04:55

Hi
... folglich sind doch dann alle Bestrebungen, Yacy auf dem RaspberryPi laufen zu lassen hinfällig - oder gibt es dafür vielleicht ein workaround?

Gruß
lux

Statistik: Verfasst von lux — Do Mär 27, 2014 8:04 am


English • Re: debian.yacy.net traceroute

Date: 2014-03-27 21:54:15

I can reach debian.yacy.net (from Germany) via IPv4 and IPv6.

according to tracepath/traceroute, wae.rzone.de is the last hop on IPv4 route, te4-2.fiddlersriddle.as6724.net is the one before.
This issue might be related with the fact that yacy.net was down for some time.
Does it work for you now?

Statistik: Verfasst von gTSj — Do Mär 27, 2014 9:54 pm


Fragen und Antworten • Re: content-language

Date: 2014-03-27 22:26:21

Ich habe noch weitere Kriterien:

Im HTTP-Header stehen manchmal Informationen wie z.B. diese Zeile:

Code:
Content-Language: de


Die Wikipedia-Server machen so etwas beispielsweise. Ist ein standardkonformes HTTP-Header-Feld.

Außerdem haben viele Websiten einen HTML- oder XHTML-Header, in dem z.B. folgendes drin steht:

Code:
<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="de" xml:lang="de">



Einige Websiten haben neben den genannten content-language und dc-language auch noch ein og:locale Feld wie z.B. heise.de:

Code:
<meta property="og:locale"      content="de_DE" />


Weitere Infos zum [Open Graph Protocol]{style=“font-style: italic”} gibts hier: http://ogp.me/ – dieses Feature wird auch von Facebook eingesetzt, um die Sprache zu erkennen.

An sonsten könnte der Quellcode von Google Chrome/Chromium weitere Anhaltspunkte liefern. Dort gibt es ja das (nervige) Feature, dass automatisch ein Hinweis eingeblendet wird, der eine Übersetzung der Website anbietet, falls sie nicht Deutsch ist.

Statistik: Verfasst von gTSj — Do Mär 27, 2014 10:26 pm


Fragen und Antworten • Re: content-language

Date: 2014-03-27 22:29:37

Zur Buchstabenhäufigkeit: Wäre es nicht einfacher, bestimmte Wörter zu zählen? Jedenfalls wäre dieses Kriterium eindeutiger. Es müsste sich nur jemand die Mühe machen, Wörter mit Sprachen zu korrelieren…

Statistik: Verfasst von gTSj — Do Mär 27, 2014 10:29 pm


English • Re: debian.yacy.net traceroute

Date: 2014-03-27 23:42:21

there was a not-available glitch here as well: http://ubuntuforums.org/showthread.php?t=2213439
but that is resolved as well.

Maybe there was more than the failiure of strato... ?

Statistik: Verfasst von Orbiter — Do Mär 27, 2014 11:42 pm


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-28 11:22:18

Hallo,

nein, hinfällig sind sie nicht, zum Linuxtag hab ich folgendes beobachten können: 90 Prozent der Zeit lief YaCy mit einer Speicherauslastung von 128 MB sehr gut, und plötzlich gab es Peaks die bis über 700 MB reichen. Das muss man anlysieren, sollte es eine Solr Funktion sein die dies verursacht muss das jemand als Bug in die entsprechende Mailing-Liste melden.… Wir sind da also drann.…

Thomas

lux hat geschrieben:\ Hi\ \... folglich sind doch dann alle Bestrebungen, Yacy auf dem RaspberryPi laufen zu lassen hinfällig - oder gibt es dafür vielleicht ein workaround?\ \ Gruß\ lux\

Statistik: Verfasst von Vega — Fr Mär 28, 2014 11:22 am


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-03-28 14:02:26

also ich muss hier nochmal ein paar Sachen gerade rücken:

- \“no memory space available\” - die Meldung kenne ich nicht. Der Crawler wird entweder ganz angehalten wenn der Plattenplatz ausgeht (dann gibt es eine Meldung, aber eine andere) oder es gibt bei zu geringem RAM ein Throttling, d.h. es werden Pausen gemacht bis wieder Speicher da ist.
- Den beim Linuxtag beobachteten Effekt von zu viel Speichernutzung entstand durch die kaputten Performanceeinstellungen, die Thomas, ohne zu wissen dass sie kaputt sind, benutzt hat. Diese Performance-Funktionen sind schwer zu beschreiben, unvollständig und unmaintained. Anstatt sie zu flicken habe ich sie deswegen gestern entfernt. Die Strategie sollte sein: wenn es ein Problem gibt, muss das Programm sie lösen, nicht der User.
- insofern bleibe ich bei der Behauptung, dass YaCy bei weit weniger als 600MB laufen sollte.
- Die Gründe für die Peaks müssen gefunden werden. Bitte im Threaddump_p.html ausschau halten was da läuft, wenn wegen Speichermangel alles festhängt.

Statistik: Verfasst von Orbiter — Fr Mär 28, 2014 2:02 pm


Fragen und Antworten • Re: Frage Ex- und Import

Date: 2014-03-29 16:59:53

Hilfe!!

Statistik: Verfasst von LA_FORGE — Sa Mär 29, 2014 4:59 pm


Hilfe für Einsteiger und Anwender • under parser

Date: 2014-03-29 18:57:15

hello
There is the opportunity to sub-parsers in the window / ConfigSearchPage_p.html,
in the \“Filter by domain\“(Locations Facet) ?
For example:
city ​​of Moscow
and more choice ... on the specified criteria

Statistik: Verfasst von mass — Sa Mär 29, 2014 6:57 pm


English • Re: How to get YACY working as a proxy

Date: 2014-03-30 06:56:08

OK, I tried that and now it works. This is poorly documented. I am not trrying to use Yacy as a transparent proxy so it never occured to me that I should need to turn this on,

Statistik: Verfasst von chetwisniewski — So Mär 30, 2014 5:56 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-30 18:54:43

Danke bbtuxi, Vega, Roland, das ist ein super Angebot auf das ich ggf. zurückkomme!

Mittlerweile hat sich ein neues Problem aufgetan, ich habe a[us den USA eine Meldung bekommen dass yacy.net nicht erreichbar ist]{style=“font-weight: bold”}:

\ I live in central Texas and \"website down\" tells me that \"yacy.net\" is down in my area:\ \ \



Mit einem VPN Tunnel in die USA konnte ich ein traceroute machen und den letzten Punkt feststellen, wo die Verbindung abreisst:

Code:
$ traceroute yacy.nettraceroute to yacy.net (81.169.145.174), 64 hops max, 52 byte packets 1  10.11.0.1 (10.11.0.1)  118.597 ms  116.099 ms  120.584 ms 2  hosted.by.leaseweb.com (108.59.13.60)  117.625 ms    hosted.by.leaseweb.com (108.59.13.61)  116.028 ms    hosted.by.leaseweb.com (108.59.13.60)  116.547 ms 3  be4.cr2.wdc1.leaseweb.net (108.59.15.108)  117.990 ms    108.59.15.150 (108.59.15.150)  115.568 ms    108.59.15.142 (108.59.15.142)  116.353 ms 4  80.150.169.229 (80.150.169.229)  124.058 ms    ash-b2-link.telia.net (80.239.192.25)  122.551 ms    80.150.169.229 (80.150.169.229)  119.602 ms 5  ash-bb3-link.telia.net (80.91.252.90)  120.151 ms    f-ed3-i.f.de.net.dtag.de (62.154.14.190)  209.572 ms    ash-bb4-link.telia.net (213.155.133.232)  140.714 ms 6  xe-3-0-1.atuin.as6724.net (62.157.249.198)  203.310 ms    ffm-bb2-link.telia.net (213.155.135.58)  317.053 ms    xe-3-0-1.atuin.as6724.net (62.157.249.198)  204.433 ms 7  ffm-b7-link.telia.net (80.91.251.234)  219.199 ms    ae0.0.morla.as6724.net (81.169.144.33)  205.190 ms    ffm-b7-link.telia.net (80.91.251.234)  222.874 ms 8  xe-10-2-0.morla.as6724.net (213.248.94.78)  307.937 ms    te4-2.fiddlersriddle.as6724.net (81.169.144.34)  207.591 ms    xe-10-2-0.morla.as6724.net (213.248.94.78)  213.678 ms 9  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  214.171 ms  205.300 ms !X10  * * *11  * te4-2.fiddlersriddle.as6724.net (81.169.144.34)  261.708 ms !X *12  te4-2.fiddlersriddle.as6724.net (81.169.144.34)  216.995 ms !X *  212.942 ms !X



as6724.net ist Strato:

Code:
Registrar: Cronon AGRegistrar Abuse Contact Email: abuse@strato.de



Strato verkackt also schon wieder!

Statistik: Verfasst von Orbiter — So Mär 30, 2014 5:54 pm


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-03-30 21:46:39

Strato wiederholt sich

Ende der 90ier Jahre gab es des mit Strato schon mal, damals waren ca. 3,5 Milllionen Kunden betroffen, deren Domain nicht mehr erreichbar waren.
Ich empfehle schnellstens zu handeln, bevor der richtig große Stratocrash kommt.
Meine Domains liegen bei Domainfactury
df.eu
und mein Server etwas verteilt bei anderen Anbietern
Den empfehle ich sehr gern,
http://lahno-webhosting.de/
einer zum Anfassen, sehr bemueht und sofort selbst am Telefon.
Auch Samstags


Gruß
Roland

Statistik: Verfasst von RoGott — So Mär 30, 2014 8:46 pm


Fragen und Antworten • HTTP ERROR: 403 - proxy use not allowed

Date: 2014-03-31 09:28:05

Moin,

folgender Fehler tritt seit kurzem auf einer von zwei Maschinen auf:

Code:
HTTP ERROR: 403Problem accessing /yacysearch.html. Reason:    proxy use not allowed (see Advanced Settings -> HTTP Networking -> Transparent Proxy; switched off).Powered by Jetty://



Die zwei Maschinen sind wie unter \“Search Box anywhere\” in eine MediaWiki-Seite integriert. Dabei werden sie per Round-Robin-Verfahren mehr oder weniger abwechselnd angesprochen. Das hat nun ~3 Jahre gut funktioniert. Wahrscheinlich seit dem Update von Version 1.68.9000 auf 1.69.9141 am 17.03. funktioniert das nicht mehr, auch die aktuelle Version 1.69.9220 hat noch keine Abhilfe gebracht. \“Transparent Proxy\” ist switched off, auch das kurzzeitige Aktivieren und wieder Deaktivieren der Option schafft keine Abhilfe. Im Log kommt nichts an. Hat jemand Vorschläge?

Statistik: Verfasst von Michael_MPI — Mo Mär 31, 2014 8:28 am


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2014-03-31 12:54:16

Hi,
die Meldung \“proxy use not allowed\” ist wahrscheinlich falsch. Wir haben ja im Januar auf Jetty umgestellt und das hat zwar geklappt und die meisten Probleme sind behoben, so eine Meldung soll es aber nicht geben.

Die \“Search Box Anywhere\” ist ja auch keine besondere Funktion, das ist ja nur ein html-Schnipsel das die Integration einer Suchseite einfacher machen soll. Hast du mal /yacysearch.html direkt aufgerufen? Was bedeutet \“auf einer von zwei Maschinen\“? Das sieht eher wie ein Caching-Problem auf Clientseite aus. Wir haben ja auch seit zwei Wochen ein ganz anderes CSS, vielleicht hängt da was. Bitte mal probieren die Browser auf den Clients neu zu starten.

Statistik: Verfasst von Orbiter — Mo Mär 31, 2014 11:54 am


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2014-03-31 13:22:53

Wir haben zwei gleich konfigurierte Maschinen. Bei einer gehts ohne Probleme, so wie es schon seit 3 Jahren auf beiden Maschinen funktioniert hatte. Die zweite macht nun Probleme.

Beide Maschinen sind sowohl über yacy.example.org:8080 als auch über ihre eigenen Namen zu erreichen. Wird die \“kaputte\” Maschine über yacy.~ angeprochen, erscheint oben stehender Fehler, über ihren eigenen Namen gehts aber.

Das Problem bestand schon vor dem neuen Style, dieser kam erst mit Version 1.69.920*, glaube ich zumindest. Den Cache habe ich als erstes geleert und die 3 anderen Browser auf meinem System löschen ihre Daten inkl. Cache beim Schließen.

[PS:]{style=“font-weight: bold”} Wo finde ich denn die Logs von jetty?

Statistik: Verfasst von Michael_MPI — Mo Mär 31, 2014 12:22 pm


YaCy Coding & Architektur • Hackathon zur DDB

Date: 2014-04-01 15:27:53

gestern ging die Deutsche Digitale Bibliothek{.postlink} in den \“Regelbetrieb\“. Die haben zur DDB nun tatsächlich eine API{.postlink}, und dazu veranstaltet man nun einen Hackathon: http://codingdavinci.de/

Wie ihr ggf. wisst, habe ich ja bei der DDB mitgemacht, die erste Architektur stammt von mir im Rahmen einer Machbarkeitsstudie. Die Backend-Serversoftware sollte Open Source werden und alles hatte einen Apache-Header, aber das Fraunhofer-Institut IAIS hat die Software nie veröffentlicht{.postlink}. Nun wollen die Community-Apps haben, aber der \‘Core\‘, die Cortex-Software ist \‘closed\‘.

So komme ich nun auf die Idee, beim DDB-Hackathon{.postlink} vorzuschlagen, in YaCy einen Teil der DDB-API nachzuimplementieren. Das ist nicht so ganz abwegig.
[Als Ergebnis bekommen wir dann von den anderen Projektteams neue Apps, die wir als YaCy-Apps nutzen können!]{style=“font-weight: bold”}
Dieser Hack wäre also höchst attraktiv für uns!

Leider habe ich am Kick-Off Termin am 26./27. April keine Zeit und brauche also Unterstützer aus der Community für den Termin in Berlin! Wer geht hin?

Statistik: Verfasst von Orbiter — Di Apr 01, 2014 2:27 pm


Fragen und Antworten • HTTP ERROR 500 - Problem accessing /IndexControlURLs_p.html

Date: 2014-04-01 15:44:38

Ich schon wieder.

Folgender Fehler erscheint, wenn ich den Index über das Webinterface löschen will und \“Stop Crawler and delete Crawl Queues\” angehakt lasse. Der Crawler läuft in dem Moment nicht.

YaCy version 1.699245

Code:
HTTP ERROR 500Problem accessing /IndexControlURLs_p.html. Reason:    Server ErrorCaused by:javax.servlet.ServletException   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:801)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:300)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:362)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:755)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at org.eclipse.jetty.server.Server.handle(Server.java:370)   at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)   at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982)   at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043)   at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865)   at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240)   at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)   at java.lang.Thread.run(Thread.java:701)Powered by Jetty://

Statistik: Verfasst von Michael_MPI — Di Apr 01, 2014 2:44 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-01 16:20:17

Sorry, I\’m really late to post another message. I put extension code here https://github.com/antham/yacybar , there is a problem remaining with travis to have test working in github, it\’s the reason why I didn\’t post here this repository yet. It\’s necessary to fix that before resuming.

Statistik: Verfasst von antham — Di Apr 01, 2014 3:20 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-01 16:40:41

To add another comment, what is missing I think, is a full api. You have one, but it miss some functionalities.

Statistik: Verfasst von antham — Di Apr 01, 2014 3:40 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-01 16:43:43

Hi antham, what functionality exactly do you need?

Statistik: Verfasst von Orbiter — Di Apr 01, 2014 3:43 pm


Fragen und Antworten • Passive Peers \“reaktivieren\“?

Date: 2014-04-02 07:55:32

Hallo zusammen,

ich versuche derzeit, ein kleines Netz aus Yacy-Peers zu erstellen und bin auf folgendes gestoßen:
- Ausgangssituation: Das Netzwerk besteht aus HF-Linkstrecken, d.h. Verbindungen können ggf. mal stundenweise ausfallen.
- In den Netzwerktechnisch gut funktionierenden bereichen gibt es jew. 2 Principal-peers, die sich erfolgreich untereinander pingen und aktiv bleiben.
Das funktioniert soweit. DIe Peers bootstrappen erfolgreich, das Netzwerk funktioniert dann einige Tage. Alle Peers sehen sich zuächst gegenseitig.
Nun mein Problem:

Sobald es ein Problem mit dem Netzwerk gibt, zerfällt das Yacy-Netz (logisch). Bei den Peers am jeweils anderen Netzwerkende werden dann die Peers als Passiv angezeigt.
Diese Situation scheint statisch zu sein. Bestehen die Netzwerkverbindungen wieder, bleiben die Peers im Status Passiv, obwohl ich alle peers manuell, auch über .yacy-Adressierung, erreichen kann. (per Browser, über proxys gegenseitig geprüft, seedlisten erreichbar) Auch das Neustarten der Peers scheint hier nichts daran zu ändern.
Werden diejenigen Peers, die im Status \“Passiv\” stehen, von den anderen Peers periodisch auf irgendeine Weise geprüft?

Vielen Dank, Alex

Statistik: Verfasst von redlexan — Mi Apr 02, 2014 6:55 am


Fragen und Antworten • Re: Passive Peers \“reaktivieren\“?

Date: 2014-04-02 08:41:52

Hi,

das ist ja eine spannende Geschichte! [HF-Linkstrecken!]{style=“font-style: italic”}, da würde ich gerne mehr drüber lesen 8-)

Also ein Peer, der bei einem anderen als passive markiert wurde weil er nicht mehr erreicht werden kann bleibt in diesem Zustand bis er das selbst wieder ändert. Peers aus der passiv-Liste werden nicht automatisch hin-und-wieder angepingt.

Jeder \‘lebendige\’ Peer macht einmal in der Minute einen Peer Ping zu einem anderen Peer. Dieser prüft über einen Backping den Betriebstatus Senior/Junior und teilt das im gleich Peer-Ping dem anpingenden Peer als Antwort mit. Ist der Peer ein Senior Peer, kommt er wieder in die aktive Liste. Jedes \‘Hello\‘, also der Peer-Ping wird ausserdem mit einer kleinen Liste von 10 zuletzt bekannt gewordenen Senior Peers beantwortet.

Gibt ein Peer also ein \‘Lebenszeichen\’ durch einen Peer Ping von sich und wird erfolgreich als Senior gekennzeichnet, so geht diese Info also wieder \‘auf die Reise\’ denn die nächsten anpingenden Peers bekommen den in die Liste.

Wenn ein Peer nun durch ein Ping an einen anderen so eine Liste bekommt, dann vergleicht er nach dem Zeitpunkt des letzten Lebenzseichen des \‘anderen\’ Peers in der eigenen passive-Liste und der remote-Info: ist das Lebenszeichen in der remote Info vor dem in der eigenen Passiv-Liste, dann wird der neue Peer ignoriert, ansonsten ist das ein \‘arrival\’ und der Peer kommt wieder in die Aktiv-Liste.

Solten _alle_ Peers durch fehlgeschlagene Pings passiv sein, so wird die Seedliste von einem Senior wieder neu geladen.

Als erstes würde ich versuchen die Uhren zu vergleichen, das Netz benötigt aufgrund des Tests zum letzten Lebenszeichen relativ gut abgeglichene Uhrzeiten. Es gibt zwar Toleranzen aber allzu große könnten ein Problem sein. Bitte gucken ob auch die Zeitzone korrekt ist.

Statistik: Verfasst von Orbiter — Mi Apr 02, 2014 7:41 am


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-02 11:02:04

What come to my mind with what I\’ve done :

To manage entries in blacklist, I followed what was defined in firefox extension, you have to use Blacklist_p.html?addBlacklistEntry=&currentBlacklist=currentBlacklist&newEntry and it returns html so get message if action where successful or not it\’s hard.

It would be nice to have json as output and every time error or success message to output that directly.

Maybe it could be nice to have full rest api on blacklists, blacklist entries to create/edit/delete/list those stuffs from outside.

Statistik: Verfasst von antham — Mi Apr 02, 2014 10:02 am


Fragen und Antworten • Add Button to re-load error 4xx or 5xx

Date: 2014-04-02 13:00:08

Hello,

I have already open thread here http://bugs.yacy.net/view.php?id=365
It\’s possible to add button to re-load page with status <str name=\“failreason_s\”> TEMPORARY_NETWORK_FAILURE .…

I have many website with >100 000 web page crawl and many web page with this status.
it\’s boring to re-crawl the web site for just 1000 fail crawl

The actual button \“re-load 404\” is very nice but with more feature is best.

Thx

Statistik: Verfasst von Guims — Mi Apr 02, 2014 12:00 pm


Fragen und Antworten • robots-nocontent

Date: 2014-04-02 18:43:57

Hallo!

Das wär schön:
https://en.wikipedia.org/wiki/Meta_elem ... -NoContent{.postlink}
Oder nicht?

Statistik: Verfasst von kilian — Mi Apr 02, 2014 5:43 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-03 20:01:43

\ we are excited to inform you, that your application for the project\ YaCy\ qualified for a sponsored booth at this year\'s LinuxTag.\



wie jedes Jahr..
[Standhelfer gesucht!]{style=“font-size: 150%; line-height: 116%;“}

Wer hat Lust dieses Mal für bis zu drei Tagen vom 8.-10. Mai heroische® Helfer(in) bei YaCy zu sein?
Und die neue Location (STATION Berlin{.postlink}) kennen zu lernen?

Statistik: Verfasst von Orbiter — Do Apr 03, 2014 7:01 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-03 20:38:10

Hallo,

ich sag mal das ich schon kommen werde.

Hast Du da eine Möglichkeit günstiger an Parkplätze zu kommen?
(das Parkhaus will wohl nen 10\‘er / Tag)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Apr 03, 2014 7:38 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-04-04 08:51:31

http://www.focus.de/digital/computer/in ... 43403.html{.postlink}
http://www.lvz-online.de/ratgeber/multi ... 38638.html{.postlink}
http://www.sueddeutsche.de/news/wirtsch ... 3-99-06582{.postlink}
http://www.shz.de/nachrichten/deutschla ... 87541.html{.postlink}

..kommt aus einem DPA-Verteiler! Das muss überall sein

Statistik: Verfasst von Orbiter — Fr Apr 04, 2014 7:51 am


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2014-04-04 10:46:22

Kommt die Funktion mit Mentor & Mentee erst in der 2.0 oder schon früher?

Statistik: Verfasst von LA_FORGE — Fr Apr 04, 2014 9:46 am


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2014-04-04 18:41:09

im Januar hatte ich gehofft das bis heute zu schaffen damit die YaCyPi Peers das nutzen können. Ich bin aber nicht so weit gekommen das zu schaffen, zu viele andere Aufgaben waren auch wichtig.
So kann ich auch keine Roadmap nennen, das kommt wenn mal Zeit dazu ist...

Statistik: Verfasst von Orbiter — Fr Apr 04, 2014 5:41 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-05 08:11:41

Hallo,

ja, 1 oder 2 Tage werde ich bestimmt dabei sein können.
Richtet jemand ein Wiki für die Vorbereitungen ein?

Bis bald
lux

Statistik: Verfasst von lux — Sa Apr 05, 2014 7:11 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-05 09:23:56

Hallo,

ich könnte auch an zwei Tagen dabei sein. Sagt einfach, wobei ich helfen kann.

Als Vortragstitel fände ich gut \“Autonome Suchstrukturen gegen Überwachung\”
Vielleicht fällt mir noch mehr ein mit der Zeit …

Gruss Uhura

Statistik: Verfasst von Uhura — Sa Apr 05, 2014 8:23 am


Wunschliste • Polipo als Proxy

Date: 2014-04-06 13:20:32

Polipo scheint mir ein schnellerer und leistungsfähigerer Proxy zu sein, als der des Apache Webservers.

Einige Leistungsmerkmale, die laut der Entwickler einzigartig sind:

\ Polipo will use HTTP/1.1 pipelining if it believes that the remote server supports it, whether the incoming requests are pipelined or come in simultaneously on multiple connections (this is more than the simple usage of persistent connections, which is done by e.g. Squid);\ \ Polipo will cache the initial segment of an instance if the download has been interrupted, and, if necessary, complete it later using Range requests;\ \ Polipo will upgrade client requests to HTTP/1.1 even if they come in as HTTP/1.0, and up- or downgrade server replies to the client\'s capabilities (this may involve conversion to or from the HTTP/1.1 chunked encoding);\ \ Polipo has complete support for IPv6 (except for scoped (link-local) addresses).\ \ Polipo can optionally use a technique known as Poor Man\'s Multiplexing to reduce latency even further.\


http://www.pps.univ-paris-diderot.fr/~jch/software/polipo/

Statistik: Verfasst von David — So Apr 06, 2014 12:20 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-06 22:10:47

Hi,

ich helfe sehr gerne. Als kompetenter Ansprechpartner am Stand kann ich wohl leider nicht dienen, dafür fehlt mir das Detailwissen, aber wenn es etwas auf- bzw. abzubauen gibt oder Kabel geschleppt werden müssen, kann ich sicher behilflich sein :)

Statistik: Verfasst von SILVA — So Apr 06, 2014 9:10 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-06 22:48:55

Hi, oh super sixcooler, lux, Uhura, SILVA, ich freue mich auf das Wiedersehen und Kennenlernen!

Zur Organisation habe ich die Wikiseite von 2013 geklont: http://www.yacy-websuche.de/wiki/index.php/LT2014

Bitte dort eintragen

Statistik: Verfasst von Orbiter — So Apr 06, 2014 9:48 pm


Fragen und Antworten • Re: Passive Peers \“reaktivieren\“?

Date: 2014-04-07 08:24:42

Hallo,

danke erst einmal für die schnelle Antwort.
Ich habe am Wochenende noch ein wenig experimentieren dürfen. Die Uhzeiten noch einmal genau abzugleichen scheint nur ein Teil der Lösung zu sein.
Da das Netz an YaCy-Peers im Moment recht statisch ist; also sämtliche Peers derzeit auf Servern laufen (keine auf Userrechnern, die Dynamik ins Netz bringen) habe ich wohl ersteinmal eine Deadlock-Situation: 2 Teilnetze sehen sich gegenseitig als Passiv, kein Teilnetz versucht den Verbindungsaufbau zum jeweils anderen, da jeweils alle Peers im Teilnetz betroffen sind.
Das erklärt auch, dass sich die Situation auch nicht durch neustarten einzelner Peers auflöst.

Meine vorübergehende Lösung ist folgende: Ich lösche in einem Restart-Zyklus stumpf die seed.old.heap auf einem Peer. Das beseitigt einerseits die Passiv-Einträge und scheint ein neues Bootstrapping zu bewirken... (nicht schön aber geht...) Der Peer fügt das Netz dann wieder zusammen.
(Ich überlege gerade, ob so eine Situation auch im Internet entstehen kann. Das könnte einige Peers kosten.)

Bei dem Netzwerk handelt es sich übrigens um das IP-Netz der Funkamateure (\“HAMNET\“). Das Netz befindet sich in DL gerade im Aufbau; bislang gibt es nur sehr wenige Services. (vornehmlich Backbone-Netzwerk)
Das Netzwerk existiert Weltumspannend im IP-Netz 44.* ; es besteht jedoch keine (direkte) Verbindung zum Internet.
Eine kurze übersicht findest du hier: http://de.wikipedia.org/wiki/Hamnet,
eine Übersicht über die Ausdehnung des Netzwerkes hier: http://hamnetdb.net/, (klick auf \“Map\“)

Statistik: Verfasst von redlexan — Mo Apr 07, 2014 7:24 am


Mitmachen • Re: YaCyBar in Git einpflegen

Date: 2014-04-07 12:04:01

weil hier letzte Woche ein merge request gekommen ist habe ich die Bar nochmals ausprobiert, aber ich kann sie nicht in Gang bringen!
Kann das mal einer, der Ahnung von Firefox-Extension hat versuchen zu verifizieren?

Statistik: Verfasst von Orbiter — Mo Apr 07, 2014 11:04 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-04-07 14:54:40

http://www.augsburger-allgemeine.de/dig ... 12256.html{.postlink}
http://www.verivox.de/nachrichten/googl ... 98330.aspx{.postlink}
http://www.general-anzeiger-bonn.de/rat ... 16061.html{.postlink}
http://www.teltarif.de/google-alternati ... 55124.html{.postlink}

Statistik: Verfasst von Low012 — Mo Apr 07, 2014 1:54 pm


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-04-08 09:29:55

Also, ich habe Yacy jetzt schweren Herzens wieder deinstalliert, denn es bremst mir meine Kiste einfach zu sehr aus, außerdem sind die Antwortzeiten unglaublich lang. In den letzten Tagen habe ich beobachtet, dass Yacy nach relativ kurzer Zeit reproduziertbar komplett aufhört, Anfragen zu beantworten, bis ich das Programm beende und neu starte.

Außerdem waren die Suchergebnisse weitgehend nutzlos. Es scheint kein funktionierendes Ranking zu geben, jedenfalls hat die Reihenfolge, in der Ergebnisse angezeigt werden keine erkennbare Beziehung zu dem, was ich suche. Und es waren triviale Suchen, mit denen ich das versucht habe.

Meine lokalen Ergebnisse waren übrigens komplett anders als unter search.yacy.net. Zu manchen Suchen, für die ich unter search.yacy.net relativ viele Hits bekommen habe, habe ich lokale überhaupt keine Resultate. Ich dachte, die Peers helfen sich da gegenseitig aus.

Wie auch immer, ich denke, Yacy ist ein tolles und wichtiges Projekt, aber mich hat der Versuch, mich da zu beteiligen, ernsthaft in meiner Arbeit behindert, weil der Rechner ständig ausgebremst war, deshalb mache ich erst einmal Pause...

Statistik: Verfasst von BododasBroetchen — Di Apr 08, 2014 8:29 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-04-08 10:52:51

http://developerexcuses.com/

Statistik: Verfasst von Low012 — Di Apr 08, 2014 9:52 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-09 01:25:35

da wir ja bis heute nicht in den USA über yacy.net erreichbar waren und schliesslich strato auf meine detailierte Berichte zur Nicht-Erreichbarkeit nicht, bzw. mit \‘aus unserer Sicht geht das\’ geantwortet haben, bin ich nun statt zu uberspace.de zu hetzner gegangen, vor allem weil die vom Preis her nicht zu schlagen sind und ausserdem ein wenig Infrastruktur mir die Arbeit weg nimmt. Hab heute morgen den kk-Antrag gefaxt und seit heute Abend ist yacy.net nun bei Hetzner und wieder aus USA erreichbar!

Leider zieht das einiges nach sich:
- yacy.de muss auch migriert werden
- 19 subdomänen nur für yacy.net müssen ebenfalls unter einen Hut, davon sind aber einige veraltet
- Hetzner kann kein subdomänenumleiten zu einem externen Host. Das ist blöd un bedeutet entweder, dass der externe Dienst vorläufig in eine (flexible) iframe kommt oder ganz zum hetzner-Account umzieht. Großes Problem z.B. mit debian.yacy.net, welches auf einem externen Server deployed wird.

Weil Hetzner nur eine Kündigungsfrist von 1 Monat hat kann ich ja wieder schneller umziehen, bei Strato läuft der Vertrag jetzt noch ein Jahr weiter...

Statistik: Verfasst von Orbiter — Mi Apr 09, 2014 12:25 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-10 12:47:07

you know how long the deposit debian.yacy.net will return as a result has put a YaCy day has become completely unstable and I need to update

Statistik: Verfasst von Guims — Do Apr 10, 2014 11:47 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-10 16:05:44

debian.yacy.net is not yet moved to the new hoster. I will try to do that soon, hold on.

Statistik: Verfasst von Orbiter — Do Apr 10, 2014 3:05 pm


Hilfe für Einsteiger und Anwender • Abfrage via Python liefert 0 Ergebnisse

Date: 2014-04-11 18:10:14

Hello,

ich möchte mit solrpy, eine Solr API für Python, auf den YaCy-Index zugreifen. Die Abfrage liefert allerdings 0 Ergebnisse. Also es kommt keine Fehlermeldung, sondern eben ein leeres Ergebnis zurückgeliefert.

Wenn ich die gleiche Abfrage bei einer separaten Solr-Installation durchführe, funktioniert alles einwandfrei.

Hat jemand evtl. eine Idee, wo das Problem liegen könnte?

Vielen Dank!
Lg, hotel24

Statistik: Verfasst von hotel24 — Fr Apr 11, 2014 5:10 pm


Panorama • Mediagoblin funding - dezentrales Mediahosting

Date: 2014-04-12 20:28:20

Hi, vielleicht hat der ein oder Andere ja bereits von Mediagoblin gehört. Das Projekt strebt an eine selbsthosting-fähige Alternative zu Youtube/Flickr/Shapeways/... zu schaffen. Im aktuellen Crowdfunding wird soll zum Beispiel die Federation und noch einige andere Features eingebaut werden. Wer also noch etwas Geld übrig hat, kann ja vielleicht über eine Spende nachdenken :geek:
http://mediagoblin.org/news/one-week-le ... paign.html{.postlink}

Statistik: Verfasst von Seitenreiter — Sa Apr 12, 2014 7:28 pm


Hilfe für Einsteiger und Anwender • Re: Abfrage via Python liefert 0 Ergebnisse

Date: 2014-04-14 13:16:56

Ich kann den Fehler nun detaillierter beschreiben. Das Problem liegt scheinbar darin, dass solrpy die Abfrage folgendermaßen zusammenbaut:
http://....../solr/select/?q=*:*
Diese Url führt zu einem 404 Not Found und entsprechend zu 0 Ergebnissen.

Das gleiche Urlmuster bei einer separaten solr-Installation ignoriert den \“/\” und liefert entsprechend Ergebnisse.

Lässt sich da bei der YaCy-Installation evtl. irgendwo etwas entsprechendes einstellen?

Danke!
LG, hotel24

Statistik: Verfasst von hotel24 — Mo Apr 14, 2014 12:16 pm


Hilfe für Einsteiger und Anwender • Re: Abfrage via Python liefert 0 Ergebnisse

Date: 2014-04-14 13:50:10

interessant, und warum macht solrpy das?
Sieht mehr mehr nach einem Bug report an solrpy aus.
Alternativ wäre das ja ein \‘wir bauen Bugs aus andern Libs ein um kompatibel zu sein\’

Statistik: Verfasst von Orbiter — Mo Apr 14, 2014 12:50 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-04-15 08:26:39

Guten Morgen! Ich habe gestern Morgen eine ganz blöde Orgamail für den Linuxtag bekommen, ich fürchte ihr müsst euch den Originaltext durchlesen:

\ Hi!\ \ This is going to be a long mail. Please read it carefully and pass on this information to your team members.\ \ Exhibitor Passes\ ==============\ \ As already stated in the acceptance mail, we will provide each project with \_two\_ 3-day-full-access-tickets-including-catering as exhibitor passes for their booth personell. So with these exhibitor passes projects can ensure that each booth is staffed with 2 people all the time. As professional catering is provided during the day time when the exhibition is open, we can not provide you with more free exhibitor passes.\ These tickets are complimentary from us at LinuxTag e.V.\ \ Roughly 60 projects are participating at this years\' LinuxTag and with each of them getting 2 passes and catering costing us about EUR 50,- per ticket, LinuxTag e.V. is sponsoring the free software projects with about EUR 6000,- in tickets/catering alone. Plus costs for the venue, power, network and the booth furniture.\ \ Projects can buy \_additional\_ exhibitor passes for EUR 50,- for a 3-day-ticket. But this is really only intended for booth personell (!) as it barely covers the catering costs but none of our other costs.\ \ Projects have asked us how this will work with booth personell that is only there for a day and another one being there on the next day. You will be able to pass on an exhibitor pass (and only an exhibitor pass - no other tickets!) to a team member. We will have a LinuxTag e.V. information booth in hall 6, where you need to drop by to arrange this.\ \ To get an idea how many exhibitor passes will be \"shared\", please use the new \"Comment\" field when requesting exhibitor passes in the vCC. Please also use this comment field if you want to buy an exhibitor pass for EUR 50,- for this team member.\ \ IMPORTANT: exhibitor passes need to be requested by April 25!\ (the caterer needs to know how many people we are expecting so that there is enough food available)\ \ I will then send out single-use-coupon codes to each project representative for both the complimentary and the additional exhibitor passes. These codes need to be used in our ticketshop to then get the actual ticket (which will then also generate a badge for you).\ If you provide me with the email address and add a comment, I will try to send the ticket codes directly to the recipient.\ \ Please note that I do not need to know the names of non-booth personell project members that neither are speakers nor crew or moderators. You should not add these names to the list in the vCC.\ \ Speakers, Crew, and Moderators\ ============================\ \ I am totally aware that limiting the complimentary exhibitor passes to only two per project is tough for some projects. Thus let me ensure you that I will double check the names you provide in the exhibitor pass request list in the vCC so that people do not receive multiple badges as in previous years.\ \ All speakers in the official conference program will receive a free full-conference pass from our conference team. So they do not need an exhibitor pass.\ \ All volunteers (crew members) and moderators will receive a free full-conference pass from me and thus do not need an exhibitor pass. Since we are still looking for volunteers and moderators, I will send around separate emails describing how you can sign up for this.\ \ Anyone accepted in our LinuxTag scholarship program (see our website for details - but hurry - the official deadline is tomorrow) will receive a complimentary full-conference pass from LinuxTag e.V. and thus does not need an exhibitor pass.\ \ If you list any speakers, crew members or moderators in the exhibitor pass list in the vCC, I will mark them accordingly. I will also delete any duplicate entries.\ \ Evenings are free, Saturday-only tickets are EUR 10,-\ =============================================\ \ The evening program is free, so there\'s no entrance fee for all talks between 18:00 and 22:00 on Thursday and Friday.\ Please note that the exhibition will be closed in the evening (we can not expect from exhibitors to staff their booth from 9:00 to 22:00). Only booths located in hall 5 (upstairs) may stay open longer if they wish. The remaining exhibition area will be roped off in the evening.\ \ Saturday-only tickets are EUR 10,-. They also include catering. Of course 3-day tickets already include Saturday. Saturday-only tickets are available for such a low price because this is our community day were also the droidcom barcamp takes place.\ \ Tickets for other team members\ ============================\ Unfortunately we can not provide you with free tickets for other team members this year. Members of your project who want to attend LinuxTag but neither are booth personell nor want to volunteer as LinuxTag crew member or moderator nor are speakers need to buy regular tickets if they want to attend LinuxTag during the daytime.\ \ Tickets are EUR 99,- for early bird tickets (full-3-day-access including catering, basically regular tickets at a reduced price sold on a first-come-first-served basis) and EUR 149,- for regular 3-day-access tickets including catering once the early birds run out. For EUR 79,- reduced 3-day-access tickets including catering are available with proper ID (full time students, handycap ID etc. ID needs to be presented at the registration desk when you pick up your lanyard and badge holder at the event).\ Once all early bird tickets have been sold, 1-day-access tickets for Thursday or Friday will go on sale for EUR 109,- per day. If you only want to attend on Saturday, this day-ticket only costs EUR 10,-.\ \ Any ticket sold supports LinuxTag and our concept to provide free software projects with free booths.\ \ Hope this clarifies things a bit!\ \ Cheers,\ Elke\ Referentin Freie Projekte\ LinuxTag e.V.\


und eine zusätzliche Mail hintendran:

\ Hi!\ \ I knew that I would forget something in my long email about tickets\...\ \ As you know re:publica overlaps with LinuxTag and droidcon on Thursday. We agreed that attendees of LinuxTag and droidcon will get access to the re:publica exhibition and attendees of re:publica will get access to our exhibition.\ \ But ONLY the exhibition. Not the talks. If you want to attend any of the re:publica talks, you need to buy a re:publica ticket.\ And if re:publica attendees want to attend LinuxTag and droidcon talks, they need to buy a ticket as well.\ \ This also means we need volunteers to check that only LinuxTag and droidcon attendees visit the LinuxTag and droidcon talks. And we need badge checks at the catering area, since re:publica attendees need to pay for the food, while for LinuxTag and droidcon attendees the catering is included in the ticket price.\ \ Puh. Complicated.\ \ Cheers,\ Elke\ Referentin Freie Projekte\ LinuxTag e.V.\


kurz zusammengefasst: es gibt nur 2 Tickets für Standhelfer (insgesamt) und man darf nicht in die Vorträge von re:publica. Es gibt keine Freitickets mehr für Community-Stände, statt dessen kosten die 3-Tagestickets 149,- so dass ein Sponsoring von Tickets für Standhelfer aus YaCy-Spenden auch nicht sinnvoll ist. Wahnsinn: begründet wird dieser Quatsch mit Cateringkosten.

Für uns heisst das: wir werden maximal zu dritt sein, weil ich dann für mich _kein_ Standhelferticket nehme und über mein Ticket für Speaker rein kann.

Ich weiss dass es stressig ist einen Stand zu dritt drei Tage lang zu machen. Wer unter diesen Umständen keine Lust mehr hat zu helfen dann kann ich das gut verstehen. Tatsächlich sind zwar bei den zwei Linuxtagen in Chemnitz die Anzahl der Standhelfer auch auf drei begrenzt, das ist aber was anders, das ist ganz klein dort, dort gibts keine richtige Messestände sondern nur Tische. Wahrscheinlich haben wir in Berlin auch nur einen Tisch und keine Box, aber dazu gabs noch keine Infomail.

Statistik: Verfasst von Orbiter — Di Apr 15, 2014 7:26 am


Fragen und Antworten • Re: Add Button to re-load error 4xx or 5xx

Date: 2014-04-15 17:57:37

if it is not possible to re-load the pages with a 4XX or 5XX error is a way (API) to update the contents of a page.
I try to use / QuickCrawlLink_p.xml but it is not satisfactory

Statistik: Verfasst von Guims — Di Apr 15, 2014 4:57 pm


English • dangerous to leave port open?

Date: 2014-04-17 05:49:39

Hello!

Is it dangerous to leave 8090, or any other selected port, open? Could someone sniff the port, and get into my computer through the Yacy program?

Statistik: Verfasst von cnouvelle — Do Apr 17, 2014 4:49 am


Hilfe für Einsteiger und Anwender • Re: Abfrage via Python liefert 0 Ergebnisse

Date: 2014-04-17 10:07:06

Das Problem konnte mittlerweile gelöst werden. Die eigentliche Ursache, warum keine Ergebnisse geliefert wurden, war jene, dass solrpy die Abfrage mittels POST durchführt. Die YaCy-solr-Abfrage funktioniert aber nur mittels GET.

Nach dem Installieren einer diesbezüglich überarbeiteten solrpy-Version funktioniert die Abfrage nun auch bei YaCy-solr :-)

Statistik: Verfasst von hotel24 — Do Apr 17, 2014 9:07 am


English • Re: dangerous to leave port open?

Date: 2014-04-18 16:32:27

Hi!

As far as I know, It\’s only dangerous, if there are known security vulnerabilities for the program running behind the open port (in this case yacy). So, it\’s recommended to keep your programs (and operating systems) updated, unless you know what you are doing.

Statistik: Verfasst von David — Fr Apr 18, 2014 3:32 pm


English • Re: dangerous to leave port open?

Date: 2014-04-19 09:25:11

If someone breaks into my virtual-machine YaCy, they can\’t get around the rest of the computer? How about the network as a whole? I didn\’t realize that virtual machines (e.g. Oracle Virtualbox) were so airtight.

Statistik: Verfasst von cnouvelle — Sa Apr 19, 2014 8:25 am


Hilfe für Einsteiger und Anwender • Re: Crawler wird immer wieder angehalten, ohne Platzmangel

Date: 2014-04-19 16:09:53

Zurück zum Thema :-)
Ich habe das gleiche Problem wie Bodo. Auch bei mir hält der Crawler unvermittelt an.
Folgendes sehe ich im Log:
I 2014/04/19 15:56:01 RESOURCE OBSERVER pausing local crawls
W 2014/04/19 15:56:01 SWITCHBOARD Crawl job \‘50_localcrawl\’ is paused: resource observer: not enough memory space

Ich habe noch ca. 100GB auf der Platte frei und eingestellt, dass er erst bei 4GB anhalten soll.
Oder liegt es doch am RAM?

Das habe ich seit ca. 1.69xxxx .Ich kann das auch gerne als Bug-Meldung aufmachen.

Statistik: Verfasst von otter — Sa Apr 19, 2014 3:09 pm


Hilfe für Einsteiger und Anwender • Re: Gedankengleichschaltung durch google search

Date: 2014-04-20 05:51:37

Orbiter hat geschrieben:\ >
> > veto hat geschrieben:und als ich auf einem video-vortrag von yacy > hoerte, dass das ranking der suchresultate die human-cultures > beinflusse kann, da wusste ich, ich bin nicht allein.\ > >


huch, dieses Gedankenspiel wird tatsächlich so wahrgenommen? Ich hatte die These \‘Ranking beeinflusst Normen und Werte\’ mit der Folgerung \‘Gemeinschaften brauchen eigene Suche für die eigenen Normen und Werte\‘. Du schilderst hier eine interessante Emotion zu diesem Thema. Dass eine spezielle Suchmaschine aus dieser \‘dominierenden\’ Rolle herauskommt ist aber nicht in meinem Konzept drin, d.h. wir mache es auch nicht besser. Siehst du irgendwie eine Form der Suchergebnisdarstelltung (oder was anderes), die den Benutzer nicht wie einen dominierten sondern beratenden empfinden lässt?



die vielen filter möglichkeiten von der yacy search geben mir eine art kontrolle und die find ich sehr gut.
vielleicht eine info wie die relevanz algorithmisch berechnet wird.

aber ich muss yacy einfach mehr benutzen.
nach einem jahr ixquick.com und komplett ohne google.com war das suchen sehr erfrischend und ich hatte absolut keine probleme etwas nicht zu finden.
moechte jetzt yacy auf mehreren debian server installieren und verwenden.

zum thema fand ich das buch
The Filter Bubble von Pariser sehr interessant und erschreckend.

Statistik: Verfasst von veto — So Apr 20, 2014 4:51 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-20 06:05:55

Orbiter hat geschrieben:\ debian.yacy.net is not yet moved to the new hoster. I will try to do that soon, hold on.\



thanks
i\’m really desperate waiting to installed it on 3 new servers

still saying:
%09debian_archive_needs_to_be_moved_to_new_hoster_please_wait_this_will_be_back_soon

if you need a mirror site let me know

Statistik: Verfasst von veto — So Apr 20, 2014 5:05 am


English • Results randomly vanish and reappear in consecutive searches

Date: 2014-04-20 09:10:47

I have a Python script set to collect all YaCy results (and their ranking) for a given query, by using the JSON API. I\’m grabbing results 100 at a time (which appears to be YaCy\’s limit), and incrementing the pagecount until the resulting JSON has zero results.

This mostly works, but I noticed that some results randomly disappear on some of the searches, and reappear when I repeat the search. I\’m doing this in Stealth Mode, so misbehaving network code or remote nodes aren\’t suspects. I reset the Solr ranking weights to a constant set of test weights each time I do the search (and wait 5 seconds afterward), if that matters.

Is there any known issue that would cause results to randomly appear and disappear from a search for a given query? Any suggestions on how I might be able to fix this strange behavior?

Thanks.

Statistik: Verfasst von biolizard89 — So Apr 20, 2014 8:10 am


Hilfe für Einsteiger und Anwender • Installation auf virtuellem Server beim Provider

Date: 2014-04-20 17:40:54

Ist yacy für die Installation auf einem Webserver (virtueller Server) bei meinem Provider geeignet?
Falls ja, wie installiere ich unter Linux?
Mit *.bat-Dateien wird das wohl nicht klappen :-)

Statistik: Verfasst von token — So Apr 20, 2014 4:40 pm


Hilfe für Einsteiger und Anwender • http://debian.yacy.net/

Date: 2014-04-20 18:46:35

Hello
Tell me when the package

Statistik: Verfasst von mass — So Apr 20, 2014 5:46 pm


Hilfe für Einsteiger und Anwender • Re: Installation auf virtuellem Server beim Provider

Date: 2014-04-21 09:30:10

Ich lasse YaCy auch auf einem Vserver laufen.
Dazu habe ich einen eigenen User angelegt und in dessen Home-Verzeichnis das Archiv entpackt.
Dann einfach ./startYACY.sh im Verzeichnis yacy aufrufen.
Fertig.
PS: Das \“überlebt\” natürlich nicht den Neustart des Servers.

Statistik: Verfasst von otter — Mo Apr 21, 2014 8:30 am


Hilfe für Einsteiger und Anwender • Re: http://debian.yacy.net/

Date: 2014-04-21 21:06:03

Hi,

I just copied the release files from the old server to the new server.
Because I cannot test that right now, please tell me as soon as possible if this is working or not.

Statistik: Verfasst von Orbiter — Mo Apr 21, 2014 8:06 pm


Hilfe für Einsteiger und Anwender • Re: http://debian.yacy.net/

Date: 2014-04-22 06:20:20

Hi
unfortunately did not happen
Downloaded from http://debian.yacy.net/binary/yacy_1.71.9012_all.deb
set manually

Statistik: Verfasst von mass — Di Apr 22, 2014 5:20 am


English • Re: impossible te open an administration page

Date: 2014-04-22 19:57:56

Hi,

Sorry for this delayed answer, I was busy elsewhere... And the Debian Yacy repository was not available these last days.

So I used your commands, and that works fine now !

Thank you very much, Orbiter !

Statistik: Verfasst von jihell — Di Apr 22, 2014 6:57 pm


Hilfe für Einsteiger und Anwender • Re: http://debian.yacy.net/

Date: 2014-04-23 09:31:08

I was now able to test the debian update repository myself and was successful.
Please test again and follow the steps as described in http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink}

Statistik: Verfasst von Orbiter — Mi Apr 23, 2014 8:31 am


Hilfe für Einsteiger und Anwender • Re: http://debian.yacy.net/

Date: 2014-04-23 10:17:27

Yes happened to install
thank you

Statistik: Verfasst von mass — Mi Apr 23, 2014 9:17 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-23 12:10:38

debian.yacy.net is back !
Thx

Statistik: Verfasst von Guims — Mi Apr 23, 2014 11:10 am


English • Re: impossible te open an administration page

Date: 2014-04-23 12:11:54

debian.yacy.net is back :-)

Statistik: Verfasst von Guims — Mi Apr 23, 2014 11:11 am


English • re-load error 4xx or 5xx

Date: 2014-04-23 12:24:57

Hello,

I try on english support because i have no anwser in german

What is the best way to re-load page with error 4xx or 5xx.
I have more 7 millions pages and approximately 100 thousand fail crawl.
I don\’t want to re-crawl 400 web sites.
there is a button re-load 404 but it\’s not enough.
i have already demand for improvement for re-load other type error .. but not anwser
I am alone in this situation ?

Actually i can extract all urls fail with request SOLR.

Thx for ur help

Statistik: Verfasst von Guims — Mi Apr 23, 2014 11:24 am


Fragen und Antworten • Re: yacy.net nicht erreichbar

Date: 2014-04-23 16:19:38

sorry for the support gap..

...unfortunately the debian repository is currently a bit \‘static\’ and I am not able to provide recent git updates in the debian repository until next week. That should not hurt soo much. I just want to mention that. It\’s on my worklist.

Statistik: Verfasst von Orbiter — Mi Apr 23, 2014 3:19 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-04-25 09:09:48

http://www.sz-online.de/ratgeber/die-be ... 25194.html{.postlink}

Statistik: Verfasst von Orbiter — Fr Apr 25, 2014 8:09 am


YaCy Coding & Architektur • Re: #OPENDDB - Hackathon Projekt zur DDB

Date: 2014-04-26 03:22:24

es gibt nun eine Webseite dazu: http://openddb.yacy.net/

Helfer, die auf dieser Webseite auf \“Mitmachen\” klicken, kommen hier hin :)
also: willkommen! Das hier könnten wir als Hilfe von den Coding Davinci Teilnehmern gebrauchen:

- DDB-Cliententwickler sollen die Adresse zum Server konfigurierbar machen (den ganzen Pfadrumpf), so dass man z.B. vor dem API-Pfad ein \“http://localhost:8090/ddb/" voran setzen kann

- DDB-Client-Entwickler sollen den Kontakt aufnehmen, damit wir die potentiellen Nutzer und Tester kennen (einfach hier schreiben und link zu ihrem Projekt posten)

- Solr-Entwickler, die bei der Entwicklung von Result Writern sich beteiligen wollen sind sehr willkommen!

Statistik: Verfasst von Orbiter — Sa Apr 26, 2014 2:22 am


Hilfe für Einsteiger und Anwender • Search portal for your own web pages - get my indexed shared

Date: 2014-04-26 07:33:41

i setup a \“Search portal for your own web pages\“(option 2), and i wanna create a topic-oriented search portal only for the \“jewelry world\“.
http://jewelry.support
my question is quite simple: will the collected results from my spiders be shared to the distributed yacy network?
i cannot find docs about it and no time to look into the code yet.
thanks

Statistik: Verfasst von veto — Sa Apr 26, 2014 6:33 am


English • Severe slowness for retrieving results

Date: 2014-04-27 21:47:40

I\’m encountering an issue with the speed at which results are returned. I\’m using Stealth Mode, so my local YaCy node shouldn\’t need to contact any remote YaCy nodes. When I try to retrieve a page of 100 results, YaCy is often quite fast immediately after booting (about 0.2 seconds to retrieve 100 results), but after running the exact same search continuously for 10-15 minutes, YaCy takes 10-15 seconds to give a page of 100 results. When I use more than one search query (e.g. search for one query, wait for results, then search for another query), it\’s even slower -- YaCy often takes over a minute to provide a page of 100 results, and in this case rebooting doesn\’t help much. I\’m using the JSON API if this matters, and I\’m also doing the search using Solr ranking parameters that have not been used before in this YaCy node (no idea why this would matter).

Any idea why this is happening?

Statistik: Verfasst von biolizard89 — So Apr 27, 2014 8:47 pm


Hilfe für Einsteiger und Anwender • Logo in Suchergebnisseiten

Date: 2014-04-29 12:58:43

In der aktuellen Version wird in Suchergebnisseiten das Logo oben links mit max-width:200px; max-height:32px; eingebunden. Das ist nicht unbedingt ein passendes Seitenverhältnis für ggf. vorhandene Logos.
Ich frage mich gerade, ob es Sinn macht, vorhandene Logo-Bilddateien zu überarbeiten und an dieses Bildverhältnis anzupassen (mit dem Risiko, dass sie nach zukünftigen Aktualisierungen des Suchseitenlayouts wieder nicht passen), oder ob es eine relativ einfache Möglichkeit irgenddwo gibt, diese Einstellungen irgendwo anzupassen, so dass ein vorhandenes Logo wieder einigermaßen aussieht. In der ConfigSearchPage_p.html u.a. habe ich dazu keine Möglichkeit gefunden.

Viele Grüße, M. Behrens

Statistik: Verfasst von mbehrens — Di Apr 29, 2014 11:58 am


Hilfe für Einsteiger und Anwender • Re: Logo in Suchergebnisseiten

Date: 2014-04-29 13:11:46

Die neue Logo-Größe orientiert sich an dem neuen Design der bootstrap.css-Headline; insofern sollte sich das nicht soo oft ändern (und war längst überfällig). Ich habe zuvor andere Größen ausprobiert und es sah immer hässlich aus. Daher nahm ich an, dass es besser sei wenn sich die Logo-Größe dem Design \‘unterwirft\’ und habe die max-width und max-height Attribute genommen damit eine gewisse automatische Anpassungsfähigkeit da ist. Das Konzept bei der Anpassung eines Logos müsste also sein, das gewünschte Logo in ein Format zu bringen so dass es hier passt.

Ich gebe zu dass dies nicht so richtig flexibel ist, aber die notwendigen Designanpassungen an ein Logo kann ein Automatismus nicht übernehmen. Oder doch? Was wären denn einfache Anpassungen, die hier die Arbeit vereinfachen?

Statistik: Verfasst von Orbiter — Di Apr 29, 2014 12:11 pm


English • Re: Results randomly vanish and reappear in consecutive sear

Date: 2014-04-29 14:12:41

YaCy has some safety functions which protect the peer from too strong remote search requests. If you made your searches from the same IP, then that should not trigger that functions. Did you made the requests from the same or different IP?

Statistik: Verfasst von Orbiter — Di Apr 29, 2014 1:12 pm


English • Re: Results randomly vanish and reappear in consecutive sear

Date: 2014-04-29 19:04:14

Orbiter hat geschrieben:\ YaCy has some safety functions which protect the peer from too strong remote search requests. If you made your searches from the same IP, then that should not trigger that functions. Did you made the requests from the same or different IP?\



All of these requests were made from localhost.

Statistik: Verfasst von biolizard89 — Di Apr 29, 2014 6:04 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-30 00:59:39

I have started working on an API and I have just commited my code to the git repository. I have onyl implemented some very basic things so far and I have only implemented them for XML so far. I used the existing APIs for inspiration.

Get a list of all blacklists:
http://localhost:8090/api/blacklists/get_metadata_p.xml

Get a specific blacklist:
http://localhost:8090/api/blacklists/get_list_p.xml?name=url.default.black

Add a new entry to a blacklist:
http://localhost:8090/api/blacklists/add_entry_p.xml?blacklist=url.default.black&entry=.example.org/shop/.*

Delete an entry from a blacklist:
http://localhost:8090/api/blacklists/delete_entry_p.xml?blacklist=url.default.black&entry=.example.org/shop/.*

Does this look OK for a start? I\’ll try to create a WIki page as quick as possible, but for now I have to quit and get some sleep.

edit: Just noticed an inconsitency in the naming: \“name\” and \“blacklist\” is the same thing with two different names. I will fix that tomorrow.

Statistik: Verfasst von Low012 — Di Apr 29, 2014 11:59 pm


English • How to make a search regardless of word suffixes?

Date: 2014-04-30 10:51:58

For example, I want to query \“differential forms\” and expect yacy to return results for any of the following:

differentials form
differential\’s form
differential forms
differential form\’s
differential-form
differential-formed
etc

Statistik: Verfasst von kindlychung — Mi Apr 30, 2014 9:51 am


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-04-30 11:58:28

great! thats really useful!

Statistik: Verfasst von Orbiter — Mi Apr 30, 2014 10:58 am


English • Re: re-load error 4xx or 5xx

Date: 2014-05-02 10:17:10

Any answer ?

Statistik: Verfasst von Guims — Fr Mai 02, 2014 9:17 am


Fragen und Antworten • Re: Add Button to re-load error 4xx or 5xx

Date: 2014-05-02 10:18:06

Orbiter u have not a tips for me ?

viewtopic.php?f=23&t=5191{.postlink-local}

Statistik: Verfasst von Guims — Fr Mai 02, 2014 9:18 am


Fragen und Antworten • Re: Add Button to re-load error 4xx or 5xx

Date: 2014-05-02 11:29:48

I just made the last day was 1.719135 and I just saw \“Re-load load-failure docs (404s etc).\”
Re-load also affects 5xx errors?

Thx :-)

Statistik: Verfasst von Guims — Fr Mai 02, 2014 10:29 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-04 10:07:33

Auf der Seite
http://www.telefoniert-nach-hause.de/in ... nbetreiber{.postlink}

wird unter der Rubrik \‘Suchmaschinenbereiber\’ u.a. auch Yacy aufgeführt. Und zwar als
\‘sog. Antispione, also Programme, denen aktuell nachgesagt wird, dass sie in bestimmten Bereichen Hilfestellung gg. einzelne beschriebene Probleme bieten können.\’

Gruß
lux

Statistik: Verfasst von lux — So Mai 04, 2014 9:07 am


Fragen und Antworten • Re: Frage Ex- und Import

Date: 2014-05-04 11:10:56

Ich glaube es gibt zwar eine Export- aber keine Importfunktion. Um wieviele URLs handelt es sich denn?

Statistik: Verfasst von David — So Mai 04, 2014 10:10 am


Hilfe für Einsteiger und Anwender • Re: Search portal for your own web pages - get my indexed sh

Date: 2014-05-04 11:30:09

veto hat geschrieben:\ will the collected results from my spiders be shared to the distributed yacy network?\


No. As far as I know, you would have to choose the option \“Community-based web search\“.

Statistik: Verfasst von David — So Mai 04, 2014 10:30 am


English • Re: How to make a search regardless of word suffixes?

Date: 2014-05-04 11:53:28

That\’s a good question.

Statistik: Verfasst von David — So Mai 04, 2014 10:53 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-05 00:35:17

Ich habe leider Donnerstag und Freitag anderweitige Termine. Ich schaue mal, ob ich Samstag nach Berlin komme.

Statistik: Verfasst von Huppi — So Mai 04, 2014 11:35 pm


Hilfe für Einsteiger und Anwender • Re: Search portal for your own web pages - get my indexed sh

Date: 2014-05-05 07:22:52

David hat geschrieben:\ >
> > veto hat geschrieben:will the collected results from my spiders be > shared to the distributed yacy network?\ > >


No. As far as I know, you would have to choose the option \“Community-based web search\“.



but when i switch to commuity-based than the search results on this(my) portal will be my search index and from the community - a mix result, not a specific i try to create. right?
or can i restrict the the search on on my portal to use only the local index but still be on the community based web search
thanks

Statistik: Verfasst von veto — Mo Mai 05, 2014 6:22 am


Hilfe für Einsteiger und Anwender • Heavy loading

Date: 2014-05-05 16:16:20

hello
The second day yacy process CPU time by 70-90%
Greatly slows down the web interface.
Rebooting does not help yacy

Statistik: Verfasst von mass — Mo Mai 05, 2014 3:16 pm


YaCy Coding & Architektur • Java 1.6 Kompatibilität

Date: 2014-05-05 16:20:45

Hallo alle zusammen,

nachdem ich das in Chemnitz schon mit Michael diskutiert habe, und weil sich inzwischen auch einige andere Dinge weiter entwickelt haben, möchte ich eine Diskussion vom Zaun brechen ob es sinnvoll ist die Java 1.6 Kompatibilität noch weiter beizubehalten.

Meine persönliche Meinung dazu ist, [nein]{style=“font-weight: bold”}, aus folgenden Gründen:

- Java 1.6 ist out of Support - jedenfalls bei Orache
- eine der wichtigsten Kern-Komponenten von YaCy, Apache Solr ist seit Version 4.80 nur noch Java 1.7 Kompatibel...
Auszug aus der Solr-Homepage:
- 4.8.0 (requires minimum Java 7)
- 4.7.2 (last Java 6 compatible version)

es ist damit zu rechnen das für Solr 4,7.xx nur noch kleinere Bugfixes erscheinen werden, Alle größeren Verbesserungen wird es nur noch für 4.8.x und höher geben - inzwischen werden vom Solr Team sogar Java 8.0 Features getestet. Soweit müssen wir nicht gehen, aber Java 1.7 ist inzwischen ausgereift und stabil - und für alle Plattformen verfügbar. Was denk Ihr ?

Grüße aus Dresden,
Thomas

Statistik: Verfasst von Vega — Mo Mai 05, 2014 3:20 pm


YaCy Coding & Architektur • Re: Java 1.6 Kompatibilität

Date: 2014-05-05 16:41:36

Hallo Thomas,

ich habe YaCy schon länger nur noch mit >1.6 laufen und kann nicht behaupten das es zu irgendwelchen Problemen deswegen kam.
Das aktuelle Jetty erfordert auch ein 1.7, wenn ich das recht erinnere.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 05, 2014 3:41 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-05 17:41:44

mass hat geschrieben:\ java.lang.OutOfMemoryError\


It seems like you are running out of RAM. Your index is probably getting too big :-(

Statistik: Verfasst von David — Mo Mai 05, 2014 4:41 pm


Hilfe für Einsteiger und Anwender • Re: Search portal for your own web pages - get my indexed sh

Date: 2014-05-05 17:51:35

veto hat geschrieben:\ but when i switch to commuity-based than the search results on this(my) portal will be my search index and from the community - a mix result, not a specific i try to create. right?\


Yes.

veto hat geschrieben:\ \...can i restrict the the search on my portal to use only the local index but still be on the community based web search\ thanks\


Yes. Select \“Community-based web search\“, and under \”Network Configuration{.postlink}\“, select \“Robinson Mode / Public Peer\“.

Statistik: Verfasst von David — Mo Mai 05, 2014 4:51 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-05 17:59:31

ie do not use the hard disk? And directly with RAM.
If so, how can I fix it?

Statistik: Verfasst von mass — Mo Mai 05, 2014 4:59 pm


Fragen und Antworten • Accept remote Index Transmissions

Date: 2014-05-05 18:37:48

Die Einstellung unter

[http://127.0.0.1:8090/ConfigNetwork_p.html Index Receive / Accept remote Index Transmissions. / reject
]{style=“font-style: italic”}
wird ignoriert, oder soll das nicht mehr möglich sein?

Die Seite
http://127.0.0.1:8090/CrawlResults.html?process=3 wird auch nicht im Menü unter http://127.0.0.1:8090/CrawlResults.html angezeigt.

Statistik: Verfasst von gaston — Mo Mai 05, 2014 5:37 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-05 19:13:01

mass hat geschrieben:\ I do not use the hard disk? And directly with RAM.\


No. Some parts of the index need to be loaded in the RAM, or your search engine won\’t work. And if your index grows, it requires not only more hard disk space, but also more RAM.

mass hat geschrieben:\ how can I fix it?\


Unfortunately, I know only these two solutions: Add more RAM to your computer, or make your index smaller by removing some parts:
http://localhost:8090/IndexDeletion_p.html

Statistik: Verfasst von David — Mo Mai 05, 2014 6:13 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-05 20:28:58

Interestingly, before this time (about a year - a half ago) index was more than 100 million and enough RAM.
Increased RAM 3GB. Did not help.
very strange

Statistik: Verfasst von mass — Mo Mai 05, 2014 7:28 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-05 21:06:44

It needs more RAM, because the developers have added Solr, which makes yacy more powerful, but also more resource hungry.

http://blog.yacy-websuche.de/2012/11/08 ... plus-solr/{.postlink}
https://en.wikipedia.org/wiki/Solr

Statistik: Verfasst von David — Mo Mai 05, 2014 8:06 pm


Suchmaschinen • Java Open Source Search Engines

Date: 2014-05-05 21:12:38

Interesting...
http://www.java-opensource.com/open-sou ... gines.html{.postlink}

Statistik: Verfasst von David — Mo Mai 05, 2014 8:12 pm


YaCy Coding & Architektur • Re: Java 1.6 Kompatibilität

Date: 2014-05-05 21:18:33

Selbst im aktuellen Debian 7.0 \“Wheezy\” gibt es Java 7, für das Java 6 von Oracle gibt es überhaupt keinen offiziellen Support mehr – ich wüsste also nicht, warum Java 6 noch unterstützt werden sollte.

Statistik: Verfasst von gTSj — Mo Mai 05, 2014 8:18 pm


English • Re: impossible te open an administration page

Date: 2014-05-05 22:20:28

Hi,

I have the same problem, but in my case I have installed the current version (available in your site) in a Ubuntu 14.04 headless server/OpenJDK-6-JRE.

The symptoms are exaclty the same as jihell\’s.

I executed the passwd script and apparently it ran ok, stating that the password for admin user had been reset to \’\‘.

I then tried entering in the administrative page, first with a blank passwd, then trying to set my own, but nothing, the same authentication window would show up again.

Can you help me on that?

Thanks

Statistik: Verfasst von oneaty — Mo Mai 05, 2014 9:20 pm


English • Using yacy for create local distributed crawler

Date: 2014-05-05 22:59:19

Hi,
I am a new user to yacy. I was wondering is there any way to configure yacy in a way that it can be installed on local cluster without any help from other yacy peers around the world? I mean I want to have my own peer list (on local network) and I need some kind of load balancer for this cluster of yacy. I dont want to give each crawler peer the static list of web sites that should be crawled! I want to give them a list of whole sites and load balancer assign them to each peer. Also is there any way that I can integrate yacy with NOSQL databases such as Hbase? If yes is there any tutorial available for doing that?
Regards.

Statistik: Verfasst von mr_aliagha — Mo Mai 05, 2014 9:59 pm


English • Re: impossible te open an administration page

Date: 2014-05-05 23:07:34

ooops, sorry, my fault.

I ran reconfigureYACY.sh and I could set the administrative user/password.

Please disregard the previous message

Statistik: Verfasst von oneaty — Mo Mai 05, 2014 10:07 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-05-05 23:19:19

I just added JSON support and renamed a parameter (\“entry\” is \“item\” now). The API looks like this now:

Get a list of all blacklists:
http://localhost:8090/api/blacklists/get_metadata_p.xml
http://localhost:8090/api/blacklists/get_metadata_p.json

Get a specific blacklist:
http://localhost:8090/api/blacklists/get_list_p.xml?list=url.default.black
http://localhost:8090/api/blacklists/get_list_p.json?list=url.default.black

Add a new entry to a blacklist:
http://localhost:8090/api/blacklists/add_entry_p.xml?list=url.default.black&item=.example.org/shop/.*
http://localhost:8090/api/blacklists/add_entry_p.json?list=url.default.black&item=.example.org/shop/.*

Delete an entry from a blacklist:
http://localhost:8090/api/blacklists/delete_entry_p.xml?list=url.default.black&item=.example.org/shop/.*
http://localhost:8090/api/blacklists/delete_entry_p.json?list=url.default.black&item=.example.org/shop/.*

It would be great if somebody could check the JSON for validity since I am not too familiar with it\’s syntax.

Statistik: Verfasst von Low012 — Mo Mai 05, 2014 10:19 pm


English • Yacy server performance monitoring

Date: 2014-05-06 01:59:08

In an old, headless AMD Athlon 64 PC, 2GB ram, 160 GB HD, I installed Ubuntu Server 14.04, Cacti 0.8.8b and Yacy 1.7 for GNU/Linux.

I would like to share some graphs produced by Cacti showing the overall server performance for a two-hour time span (from 18:00 to 20:00) running Yacy on senior mode, 1 crawl.

Bild
Bild

Some notes:

1) In the CPU Usage graph, the green area corresponds to nice usage

2) In the Load Average graph, the three colors represent, from yellow to red, 1, 5 and 15 minute load average.

2) From 12:00 to 17:00, the server was only running Cacti

3) The smaller peaks at 17:00 represent my first attempt at running Yacy, where I had a small issue regarding administrative access, after which I stopped it until 18:00, when I solved the issue.

Statistik: Verfasst von oneaty — Di Mai 06, 2014 12:59 am


Fragen und Antworten • Re: Accept remote Index Transmissions

Date: 2014-05-06 06:16:16

gaston hat geschrieben:\ Die Einstellung unter\ \ [http://127.0.0.1:8090/ConfigNetwork\_p.html\ Index Receive / Accept remote Index Transmissions. / reject\ ]{style="font-style: italic"}\ wird ignoriert, oder soll das nicht mehr möglich sein?\


was genau wird dort ignoriert bzw. was meinst du mit ignoriert?

gaston hat geschrieben:\ Die Seite wird auch nicht im Menü unter angezeigt.\


Das war ein Bug, habs gefixt!

Statistik: Verfasst von Orbiter — Di Mai 06, 2014 5:16 am


Fragen und Antworten • Re: Accept remote Index Transmissions

Date: 2014-05-06 07:55:43

Orbiter hat geschrieben:\ >
> > gaston hat geschrieben:Die Einstellung unter\ > \ > [http://127.0.0.1:8090/ConfigNetwork\_p.html\ > Index Receive / Accept remote Index Transmissions. / reject\ > ]{style="font-style: italic"}\ > wird ignoriert, oder soll das nicht mehr möglich sein?\ > >


was genau wird dort ignoriert bzw. was meinst du mit ignoriert?


Wenn ich unter [Index Receive / Accept remote Index Transmissions reject]{style=“font-style: italic”} auswähle sieht man im Log das die eigentlich geblockte Seite trotzdem indexiert wird. Zumindest steht im Log, z.B. \“I 2014/05/05 18:12:35 Fulltext indexing: Fulltext indexing:\”... geblockte Seite.

Statistik: Verfasst von gaston — Di Mai 06, 2014 6:55 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-06 10:18:33

guckt euch den Live-Stream von der re:publica an
http://re-publica.de/
da sind wir auch übermorgen!! Der letzte re:publica-Tag ist der erste Linuxtag-Tag und wir sind im gleichen Gebäude!

Zum Glück habe ich ausreichend viele neue YaCy-Flyer{.postlink} drucken lassen, diesmal 2500 Stück..

Hier ist der Standplan, wir sind in Halle 6 Stand A03
YaCy-Stand-Linuxtag-2014-Messeplan.jpg

Ich habe inzwischen auch ein Brandschutzzertifikat für das große Banner bekommen, weiss aber nicht ob wir das da überhaupt unterbringen können...

Statistik: Verfasst von Orbiter — Di Mai 06, 2014 9:18 am


YaCy Coding & Architektur • Re: Java 1.6 Kompatibilität

Date: 2014-05-06 10:33:39

Ich sehe auch keinen Grund, noch an 1.6 festzuhalten.

Statistik: Verfasst von Low012 — Di Mai 06, 2014 9:33 am


YaCy Coding & Architektur • Re: Java 1.6 Kompatibilität

Date: 2014-05-06 12:24:20

sieht so aus als wäre ein Umstieg auf 1.7 angebracht. Ich hab ja immer einen ziemlichen Gap bei den Peer-Zahlen gesehen wenn wir umgestiegen sind und ich bin eher dafür da etwas älteres zu benutzen damit mehr Leute unsere Software benutzen können, aber ein Umstieg von Solr auf 1.7 ist wohl dann ein guter Grund.

Es könnte nur einen ganz wesentlichen \‘Showstopper\’ für Java 1.7 geben: wenn es nicht mehr auf meinem alten schwarzen Macbook laufen sollte! :mrgreen:
Hab aber eben gecheckt, da soll es auch ein Java 7 geben.

Eine andere Sache ist die Java-Unterstützung auf Macs allgemein: Apple hat Java nur bis 1.6 selbst im Mac OS integriert{.postlink}, dann aber ab Mac OS 10.9 ganz entfernt. So weit ich weiss kommt unter Mac OS 10.9 ein popup, das fragt ob Java nachinstalliert werden soll, das installiert dann aber wieder nur 1.6 von Apple. Man muss das 1.7 direkt von Oracle selber installieren, das ist eine schwere Hürde für Mac-YaCy User. Davon gibts aber nicht so viele. Wir bräuchten dafür dann ein Readme im Mac-Release, das erklärt was zu tun sei.

Ich schlage vor dass ich noch ein YaCy Release 1.7.2 für Java 1.6 mache (sehr schnell, ggf. noch heute!) und dann gehen wir auf Java 1.7.

Statistik: Verfasst von Orbiter — Di Mai 06, 2014 11:24 am


English • Yacy server performance Testing

Date: 2014-05-06 14:57:55

I have YaCy 1.719150 installed on a 1.6 GHz Notebook about 15 months old (A cheap one) and have been doing more stress testing with my Robot keyboard.

I would like to create a list of hardware speed and specs VS Remote QPH also coupled with search complexity eg one word, two words three words.

PC Type Linux/Win QPH 1 word 2 word 3 word
Core 2 duo 1.6 GHz Win7 64 10000 500 need search list

I have a video of such a test looking at 2 PC\’s on one screen half each.
https://www.youtube.com/watch?v=DvRJ-i9Df3g

If anyone would like a Free Stress Test on there YaCy Server PM with details.
Note I am limited by ADSL 2 + download bandwidth so a 1 word search may not load your server up.

Statistik: Verfasst von smokingwheels — Di Mai 06, 2014 1:57 pm


English • Peer downgaded from Sr to Jr. Why??

Date: 2014-05-06 21:56:27

Hi,
Yesterday I installed Yacy over a fresh Ubuntu 14.04 Server.

I left it running overnight and now, looking at /Network.html, I realized that my peer has been downgraded from Sr. to Jr.

Also, in /Status.html, there\’s a warning stating that I can\’t be reached from the outside (which, I believe, has something to do with the downgrading).

However, I double checked the server\’s (ufw) and the router\’s firewall (dd-wrt) and both are showing Yacy\’s port as opened.

Besides, both http://www.portcheckers.com/ and http://www.yougetsignal.com/tools/open-ports/ services show port 8090 as opened.

Is there any way to identify the moment when my peer was downgraded, any kind of log where I can look for any clue?

Thanks

Statistik: Verfasst von oneaty — Di Mai 06, 2014 8:56 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-06 22:07:17

David hat geschrieben:\ It needs more RAM, because the developers have added Solr, which makes yacy more powerful, but also more resource hungry.\ \ [http://blog.yacy-websuche.de/2012/11/08 \... plus-solr/](http://blog.yacy-websuche.de/2012/11/08/yacy-1-2-plus-solr/){.postlink}\ \


Thank you
Add more RAM to 2 GB
Earned.
A run indexer rss http://localhost:8091/Load_RSS_p.html could not.
Displays a blank page.

Statistik: Verfasst von mass — Di Mai 06, 2014 9:07 pm


Hilfe für Einsteiger und Anwender • Re: Logo in Suchergebnisseiten

Date: 2014-05-07 10:24:11

Wenn\’s eine Möglichkeit über die Oberfläche gäbe, diese z.Zt. vermutlich hardkodierten Paramter max-width:200px; max-height:32px anzupassen, würde das schon helfen.
Ansonsten werden wir probieren, unser Logo in dieses Seitenverhältnis zu pressen...
Es ist natürlich viel wichtiger, dass eine Software funktioniert, als solche Kleinigkeiten. Leider gibt es zumindest unter unseren Benutzern überraschend viele, die auf solche Kleinigkeiten (zu viel) Wert legen...

Statistik: Verfasst von mbehrens — Mi Mai 07, 2014 9:24 am


Hilfe für Einsteiger und Anwender • YaCy configureren op lokale cluster van crawler

Date: 2014-05-09 11:17:03

Hi,
Ik ben een nieuwe gebruiker aan YaCy. Ik vroeg me af is er een manier om YaCy configureren op een manier die het op de lokale cluster kan worden geïnstalleerd zonder enige hulp van andere YaCy leeftijdsgenoten over de hele wereld? Ik bedoel, ik wil mijn eigen peer-lijst (op het lokale netwerk) en ik hebben een soort van load balancer voor dit cluster van YaCy. Ik wil niet elke crawler intercollegiale de statische lijst van websites die moeten worden doorzocht te geven! Ik wil dat ze een lijst van hele sites en load balancer toewijzen aan elke peer to geven. Ook is er een manier die ik YaCy kan integreren met NOSQL databases zoals HBase? Zo ja is er een tutorial beschikbaar om dat te doen?
Groeten.

Sorry for poor Dutch, I use Google translator for that. Unfortunately I did not get any answer in English forum. I will be very happy if you could guide me through that.

Statistik: Verfasst von mr_aliagha — Fr Mai 09, 2014 10:17 am


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-09 13:23:19

aaaaaaaaaaargh!{.postlink}

Orbiter hat geschrieben:\ Raum und Zeit stehen auch schon fest:\ >
> > You are scheduled for the presentation\ > Lass mich, ich kann das selbst! -- Selbstverteidigung von > Privatsphähre und Datenschutz (\#20069)\ > New Event in room Saal A on 10.05.2014 from 17:00 to 17:30.\ > >


Das ist der letzte Termin, da fahren ja alle schon heim :cry:



Saaländerung: ich hab nun die Main Stage{.postlink}!
:o :? bibber

Statistik: Verfasst von Orbiter — Fr Mai 09, 2014 12:23 pm


Hilfe für Einsteiger und Anwender • Re: YaCy configureren op lokale cluster van crawler

Date: 2014-05-09 19:13:30

Hi,

The main language of this forum is German, not Dutch. However, I was thinking about replying to your original thread{.postlink} a few days ago, but unfortunately I don\’t know a proper solution for your question.

Statistik: Verfasst von David — Fr Mai 09, 2014 6:13 pm


English • Re: Using yacy for create local distributed crawler

Date: 2014-05-09 19:19:02

On the settings page \“Network Configuration\“, theres an option \“Public Cluster\“. Maybe this is the right thing for you.

http://localhost:8090/ConfigNetwork_p.html

mr\_aliagha hat geschrieben:\ Also is there any way that I can integrate yacy with NOSQL databases such as Hbase?\


I have no clue.

Statistik: Verfasst von David — Fr Mai 09, 2014 6:19 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-10 13:01:17

Sehr cool! Viel Erfolg!

Statistik: Verfasst von Huppi — Sa Mai 10, 2014 12:01 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-05-10 13:05:55

Great! Do you have experience with performance?

Statistik: Verfasst von Huppi — Sa Mai 10, 2014 12:05 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-10 13:14:20

Hab\’s mal positiv markiert und weitergeleitet.

Statistik: Verfasst von Huppi — Sa Mai 10, 2014 12:14 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-10 15:58:50

Hier ist die Präsentation, das Ding ist voller Animationen und Töne!
Im pdf fehlt das aber. Hinter jedem Icon sind die Links zu den Tools!

http://yacy.net/material/Linuxtag_Berli ... 140510.pdf{.postlink}
#digitaleselbstverteidigung

Statistik: Verfasst von Orbiter — Sa Mai 10, 2014 2:58 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-10 19:28:51

Orbiter hat geschrieben:\ http://yacy.net/material/Linuxtag\_Berlin\_2014\_digitaleselbstverteidigung\_20140510.pdf\


Wow!

Statistik: Verfasst von David — Sa Mai 10, 2014 6:28 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-10 20:19:54

hello

sometimes CPU 90%
and writes in the log

Code:
CollectionConfiguration collection - postprocessed 800 from 1018332 documents; 0 docs/second; 45308 minutes remaining


it is necessary to wait so long? :)

Statistik: Verfasst von mass — Sa Mai 10, 2014 7:19 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-05-10 22:36:59

which kind of performance do you mean?

I\’ve not tested crawling on that machine, but with the jdk-1.8 the interface feel much faster und search-requests are finished in less of a time.

Statistik: Verfasst von sixcooler — Sa Mai 10, 2014 9:36 pm


English • Needs admin

Date: 2014-05-11 05:08:42

This idea is great, but how can you expect widespread adoption if the client requires admin rights. There goes all the researchers that are on work PCs. That is probably one of the biggest barriers to adoption.

Statistik: Verfasst von phly95 — So Mai 11, 2014 4:08 am


YaCy Coding & Architektur • Using YaCy with centralized storage

Date: 2014-05-11 11:52:06

Dear YaCy developers,
Hi,
I recently got familiar with YaCy. From what I saw, I think YaCy is strong distributed crawler. But I want to make some changes to YaCy based on my demands. As far as I found out YaCy uses a embedded storage in each peers. Since I going to run a distributed local search portal using YaCy I need to have a central database (Relational or NOSQL ones) for all local peers. Could you please give me some hints about how that is possible with YaCy?
Regards.

Statistik: Verfasst von mr_aliagha — So Mai 11, 2014 10:52 am


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-11 12:51:55

Hello mr_aliagha,

I think what you whant could be done by using an external Solr as central DB and attach your YaCy-Peers to that Solr.
Have a look at your /IndexFederated_p.html - there ist also a wiki-page http://www.yacy-websearch.net/wiki/index.php/Dev:Solr describing a solr-setup.

cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mai 11, 2014 11:51 am


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-11 12:58:18

Thank you very much for you reply. But how can I use external storage for the pages that are fetched? I mean before do any parsing?
Regards.

Statistik: Verfasst von mr_aliagha — So Mai 11, 2014 11:58 am


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-11 13:33:31

Hello mr_aliagha,

sorry - I don\’t understand what your\’re trying to do.
YaCy doesn\’t store pages that are fetched bevore they are parsed.
Why should there be a storage for that?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mai 11, 2014 12:33 pm


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-11 14:47:57

So here is what I thought about YaCy and integration with external Solr:
YaCy uses its in-memory data-structure(probably DHT?) to fetch web pages and it can uses external Solr with Hbase database to store indexed contents. Now my question is how indexed contents could be retrieve from Hbase (for search) that I am going to use for storing Solr indexed contents?
Regards.

Statistik: Verfasst von mr_aliagha — So Mai 11, 2014 1:47 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-11 15:01:06

Hi,

hier eine kurze Zusammenfassung vom Linuxtag-2014 in Berlin.

Die Ausstellung fand diesmal gemeinsam mit der Droidcon in neuer Umgebung statt, nämlich in der \‘Station\’ in Kreuzberg. Vieles war anders, aber nicht unbedingt besser. Die bessere Verkehrsanbindung war jedoch in jedem Fall ein Plus.

Der 1. Tag (Do.) fiel mit dem letzten Tag der R:publica zusammen, die auf dem gleichen Gelände stattfand. Viele Republikaner nutzten die Gelegenheit und statteten dem Linuxtag einen Besuch ab. Am ersten Tag war es daher recht voll, was auch an der kleineren Ausstellungsfläche lag.

Am 2. Tag (Fr) war wenig los. Das lag gewiss an dem hohen Ticketpreis, der viele potenzielle Besucher ferngehalten hat. Ein 3-Tage Ticket kostete immerhin rund 150,- EURO.

Der 3. Tag (Sa) war dann wieder gut besucht. Für 10,- EUR Eintritt hatte man Gelegenheit die Ausstellung und die Vorträge zu besuchen. Orbiters Vortrag war einer der besten und fand beim Publikum reges Interesse. Viele Besucher zeigten Interess an Yacy, etliche haben vor, es auszuprobieren.

Es gab aber auch einiges zu bemängeln. Die Zahl der Aussteller und Projekte war in diesem Jahr deutlich kleiner als in früheren Jahren. Die Akustik bei den Vorträgen und an den Ständen war einfach katastrophal. Die Organisation lief nicht rund, was sicher auch daran lag, dass nur 4 Aktive das gesamte Management des Linuxtags stemmen mussten (der Linuxtag sucht dringend Helfer). Die Organisatoren hoffen, dass der schlechte Verlauf eine Ausnahme war.

Zum Schluss ein Foto vom Yacy-Stand
linuxtag-2014.png

Gruß
lux

Statistik: Verfasst von lux — So Mai 11, 2014 2:01 pm


English • Browser preferred language in Yacy search

Date: 2014-05-11 18:08:24

Hello all forum users,
I am quite new in the field of Yacy but I am definitely supporting it. I have been running a senior node 247 for a few weeks now (dome_cirrus) and I could crawl a few million pages of French + English wikipedia and various newspapers.

The most frustrating thing for me is the language management in the search. When I look for, let\’s say, Obama, I will have the wikipedia results in many languages, which is absurd. I want the results in the languages I can read (namely French, English and a bit of German).
The solution would be to add /language/XX at the end of the search request. But I don\’t want to do it. It is not user friendly at all.

[[Easy]{style=“font-style: italic”} solution suggested to developers:]{style=“font-weight: bold”} get the browser preferred language, as DuckDuckGo does, to present the results in that language (user\’s language, let\’s say German), then in English (universal language), then in French/Russian/Spanish/... (other languages than browser\’s preferred that the general user will generally not understand)

Is it feasible?

This idea leads to a concept of language sub-networks. When someone makes a search in French, it would be good to ask French peers first if they have results for the query. It may not apply with English, of course, as everybody indexes some English pages.
I have no idea if such a tuning of the DHT system is feasible.

Thank you for reading. Please reply if you have better solutions. I would be glad to have some feedback on these points.

PS: I copy-pasted my original message from http://www.yacy-forum.org/ as there does not seem to be much activity there.

Statistik: Verfasst von sto — So Mai 11, 2014 5:08 pm


English • How to set max disk usage for YaCy?

Date: 2014-05-11 18:31:52

As in topic. I\’m worry about available HDD space on my VM and would like restrict YaCy to use e.g. 50GB...

post to delete - I found it ;)

Statistik: Verfasst von krzyszp — So Mai 11, 2014 5:31 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-11 22:25:17

Danke für den Bericht vom Linux-Tag. Es ist schade, daß ich Orbiter\’s Vortrag verpaßt habe.

Statistik: Verfasst von Huppi — So Mai 11, 2014 9:25 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-05-11 22:28:44

I am interested in stability and response times. Heavy crawling is probably not something you want to do with a RasPi.

Statistik: Verfasst von Huppi — So Mai 11, 2014 9:28 pm


Mitmachen • Re: Hilfe gesucht für die de. Übersetzung des Yacy Interface

Date: 2014-05-11 22:30:46

Auf Google+ gibt es einen Freiwilligen für eine italienische Übersetzung.
https://plus.google.com/b/110283375734521017806/109098684258584576851/posts?cfem=1

\ why don\'t you use something like Transifex to let people translate? You would reach many more people and it could even work as an advertisement to the whole project.\ Plus, I would be willing to help with the Italian translation. ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile") I\'ve helped translating other projects like surespot.\

Statistik: Verfasst von Huppi — So Mai 11, 2014 9:30 pm


Mitmachen • Re: Übersetzung

Date: 2014-05-11 22:32:21

Auch hier kurz der Hinweis auf einen Interessierten für eine italienische Übersetzung:

\ why don\'t you use something like Transifex to let people translate? You would reach many more people and it could even work as an advertisement to the whole project.\ Plus, I would be willing to help with the Italian translation. ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile") I\'ve helped translating other projects like surespot.\



https://plus.google.com/b/110283375734521017806/109098684258584576851/posts?cfem=1

Statistik: Verfasst von Huppi — So Mai 11, 2014 9:32 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-05-11 22:57:52

The machine has currently an uptime of YaCy of about 28 days.
A local search takes about less than 6 sec. to finish loading of yacysearch.html.

While thats sounds quite nice, I\’ve also to say that processing theses huge Images diplaying the freeworld (eg. Network.html) cause YaCy to crash with OOM on my Pi.

Statistik: Verfasst von sixcooler — So Mai 11, 2014 9:57 pm


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-11 23:04:30

Hello mr_aliagha,

I\’m verry sorry, but I don\’t understand anything of your question.

\@all: is anybody out there to help us here please?

Could you perhaps describe the setup of your peers and what you\’re missing for that?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mai 11, 2014 10:04 pm


Mitmachen • Re: Übersetzung

Date: 2014-05-11 23:08:36

Transifex kenne ich nicht, mir sind da auf deren Homepage auch ein wenig zu viele merkwürdige Icons.
Ich hab auch keinen google+-Account, und ohne kann man nicht sehen was da steht.
Wenn er übersetzen will ist er sehr willkommen, ist doch auch einfach das hier zu schreiben?

Statistik: Verfasst von Orbiter — So Mai 11, 2014 10:08 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-05-12 17:17:07

Many thanks \@Orbiter fixing this crashing at Network.html.

v1.73-9014 let me look at the network-picture on my Pi.

Statistik: Verfasst von sixcooler — Mo Mai 12, 2014 4:17 pm


Mitmachen • Re: Übersetzung

Date: 2014-05-13 19:58:03

Transifex kenne ich auch nicht, aber es gibt noch andere Dienste, wie z.B. https://crowdin.net/, was in der Android-Community recht beliebt zu sein scheint. Das habe ich aber auch noch nicht benutzt.

Was man aber bei all diesen Diensten braucht, ist eine Vorlage für die Übersetzung. Diese Vorlage müsste idealerweise automatisch aus den englischen HTML-Dateien erzeugt werden. Außerdem haben wir noch Strings in JavaScript-Dateien. Ein paar Strings gibt es auch im Java-Code, wobei man die wahrscheinlich erstmal vernachlässigen könnte. Ich würde gerne ein Programm schreiben, da so eine Vorlage erzeugen kann, aber ich habe bis jetzt weder ein besonders durchdachtes Konzept noch die Zeit, mich ernsthaft dran zu setzen.

Wie machen das denn eigentlich die ganzen Websites, die verschiedene Sprachen anbieten. Weiß jemand, ob es da Best Practices gibt? Ich kenne nur die Internationalisierung von Android und da läuft alles über IDs, also ganz anders als bei YaCy zur Zeit.

Omar habe ich mal gefragt, ob er hier auch einen Account hat.

Statistik: Verfasst von Low012 — Di Mai 13, 2014 6:58 pm


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-13 23:28:16

Hi,
I meant suppose we have 4 different task in YaCy: crawling, indexing, storing and retrieving. Assume we want to use YaCy for crawling, index and storing. But we want to use our own portal for retrieving. My question would be is there anyway API or client available for cached page results and indexes from YaCy? Can we use any kind of database connection for access to stored caches? If yes how?
Regards.

Statistik: Verfasst von mr_aliagha — Di Mai 13, 2014 10:28 pm


YaCy Coding & Architektur • Re: Using YaCy with centralized storage

Date: 2014-05-14 00:06:07

Hello mr_aliagha,

there\’re many APIs - see: http://www.yacy-websuche.de/wiki/index.php/Dev:API
If you\’re using a central external Solr (for more than one instance of YaCy) you can also use the Solr-API for your search-portal.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Mai 13, 2014 11:06 pm


English • Re: Yacy server performance monitoring

Date: 2014-05-14 14:09:30

An update after a week of (almost) 24x7 Yacy server running.

(\“Almost\” because I had a power outage - see the memory graphs, in blue, where the outage shows as a gap - that last a couple of minutes, and one unnecessary Yacy reset)

According to the Cacti graphs below (and the fact that the server didn\’t present any strange behaviour), Yacy shows up as a very stable and sustainable application (although a little bit resource consuming, but this is due to Java, I guess).

Bild

Bild

Bild

Notes:

1) The last two and a half graphs shows bandwidth usage. The first referring to the last day and the next to the last week. Due to those two connection bursts, the weekly graph scale got too high to show a comprehensible view, so I present a 24 hour graph to give an idea of Yacy\’s bandwidth usage: the rightmost part of the graph, with higher bandwidth usage, referrs to a running crawl.

2) In regards to the CPU usage graph, the growth of the blue area (user processes) referrs to a new Cacti template I added - Percona MySQL monitoring - that is CPU-consumming; the growth in the green area (nice) referrs to running crawls

Statistik: Verfasst von oneaty — Mi Mai 14, 2014 1:09 pm


Wunschliste • Debian-Repository mit leicht überprüfbarem Schlüssel

Date: 2014-05-15 00:16:02

Hallo,

laut http://www.yacy-websearch.net/wiki/inde ... ianInstall{.postlink} wird das Debian-Repository mit dem GnuPG-Schlüssel 03D886E7 (gehört Michael Peter Christen)
signiert. Dieser Schlüssel besitzt aber keine weiteren Signaturen, sodass man dessen Gültigkeit nur durch ein Treffen mit dem Schlüsselbesitzer überprüfen kann. Wäre es möglich, diesen Schlüssel von ein paar anderen Leuten unterschreiben zu lassen (die möglichst auch ihren Schlüssel von einem größeren Personenkreis bestätigt haben lassen) oder einen Schlüssel von einem Mit-Entwickler zu nehmen, der schon einige Signaturen besitzt?

Viele Grüße,
Benedikt

Statistik: Verfasst von bwildenhain — Mi Mai 14, 2014 11:16 pm


Mitmachen • Yacy-Stammtisch Berlin

Date: 2014-05-15 13:35:38

Hi,
wir sind 4 Leute aus Moabit und Reinickendorf, die Interesse daran hätten so etwas wie einen Yacy-Stammtisch einzurichten. Uns schwebt vor, sich regelmäßig - ca. 1-mal im Monat (u.U. auch öfter) - zu treffen und Erfahrungen im Umgang mit Yacy (Hardware + Software) auszutauschen. Ein Ziel könnte sein, Yacy-Workshops zu planen und durchzuführen, um andere Gruppen und Interessierte für Yacy zu begeistern.

Wer hat Lust, mitzumachen?

lux

Statistik: Verfasst von lux — Do Mai 15, 2014 12:35 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-05-15 13:49:51

Hallo,

ich bin dabei - bin aber eh schon einer der oben gemeinten.
Ich freue mich mal ein paar Berliner YaCy-User kennen zu lernen!

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 15, 2014 12:49 pm


English • Settings & previous crawl data lost after power outage

Date: 2014-05-15 14:24:42

I\’m setting my Yacy server to automatically restart after a power outage.

After changing some BIOS settings, I simulated a power outage by powering off the room while the server (and Yacy) was running. After some minutes, I turned the room\’s power on again and the server automatically boot.

However, Yacy didn\’t start.

After some research, I found out that the file /DATA/SETTINGS/yacy.conf was empty, causing startYACY.sh to misspell the command line that would bring Yacy up.

The command line was showing this:

\ /usr/bin/java - - -server -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.directoryFactory=solr.MMapDirectoryFactory -classpath .:htroot:lib/J7Zip-modified.jar:lib/activation.jar:lib/apache-mime4j-0.6.jar:lib/bcmail-jdk15-145.jar:lib/bcprov-jdk15-145.jar:lib/commons-codec-1.7.jar:lib/commons-compress-1.4.1.jar:lib/commons-fileupload-1.2.2.jar:lib/commons-io-2.1.jar:lib/commons-jxpath-1.3.jar:lib/commons-lang-2.6.jar:lib/commons-logging-1.1.3.jar:lib/fontbox-1.8.4.jar:lib/geronimo-stax-api\_1.0\_spec-1.0.1.jar:lib/guava-16.0.1.jar:lib/htmllexer.jar:lib/httpclient-4.3.3.jar:lib/httpcore-4.3.2.jar:lib/httpmime-4.3.3.jar:lib/icu4j-core.jar:lib/jakarta-oro-2.0.8.jar:lib/jaudiotagger-2.0.4-20111207.115108-15.jar:lib/jcifs-1.3.17.jar:lib/jcl-over-slf4j-1.7.2.jar:lib/jempbox-1.8.4.jar:lib/jetty-client-8.1.14.v20131031.jar:lib/jetty-continuation-8.1.14.v20131031.jar:lib/jetty-http-8.1.14.v20131031.jar:lib/jetty-io-8.1.14.v20131031.jar:lib/jetty-security-8.1.14.v20131031.jar:lib/jetty-server-8.1.14.v20131031.jar:lib/jetty-servlet-8.1.14.v20131031.jar:lib/jetty-servlets-8.1.14.v20131031.jar:lib/jetty-util-8.1.14.v20131031.jar:lib/jetty-webapp-8.1.14.v20131031.jar:lib/jetty-xml-8.1.14.v20131031.jar:lib/jsch-0.1.50.jar:lib/json-simple-1.1.1.jar:lib/jsoup-1.6.3.jar:lib/log4j-over-slf4j-1.7.2.jar:lib/lucene-analyzers-common-4.6.1.jar:lib/lucene-analyzers-phonetic-4.6.1.jar:lib/lucene-classification-4.6.1.jar:lib/lucene-codecs-4.6.1.jar:lib/lucene-core-4.6.1.jar:lib/lucene-facet-4.6.1.jar:lib/lucene-grouping-4.6.1.jar:lib/lucene-highlighter-4.6.1.jar:lib/lucene-join-4.6.1.jar:lib/lucene-memory-4.6.1.jar:lib/lucene-misc-4.6.1.jar:lib/lucene-queries-4.6.1.jar:lib/lucene-queryparser-4.6.1.jar:lib/lucene-spatial-4.6.1.jar:lib/lucene-suggest-4.6.1.jar:lib/metadata-extractor-2.6.2.jar:lib/noggit-0.5.jar:lib/pdfbox-1.8.4.jar:lib/poi-3.9-20121203.jar:lib/poi-scratchpad-3.9-20121203.jar:lib/servlet-api-3.0.jar:lib/slf4j-api-1.7.2.jar:lib/slf4j-jdk14-1.7.2.jar:lib/solr-core-4.6.1.jar:lib/solr-solrj-4.6.1.jar:lib/spatial4j-0.3.jar:lib/webcat-0.1-swf.jar:lib/wstx-asl-3.2.9.jar:lib/xercesImpl.jar:lib/xml-apis.jar:lib/yacycore.jar:lib/zookeeper-3.4.5.jar: net.yacy.yacy\



(Note that the first two parameters after /usr/bin/java are empty, thus preventing java from executing)

After that, I reinstalled Yacy in a temporary directory, just to produce a new yacy.conf file.

After that, I copied this file back into /DATA/SETTINGS and could finally get Yacy running again.

But then I realized that all data regarding previous crawls were missing, as if I were running Yacy for the first time.

My questions are:

1 - Is there a way to recover previous crawl data?

2 - What files/directories should I backup so that I\’m able to restore Yacy to its prior status?

[Note]{style=“font-weight: bold”}

The piece of startYACY.sh that failed due to the empty yacy.conf was

\ if \[ -f \$CONFIGFILE \]\ then\ \# startup memory\ for i in Xmx Xms; do\ j=\"\`grep javastart\_\$i \$CONFIGFILE \| sed \'s/\^\[\^=\]\*=//\'\`\";\ if \[ -n \$j \]; then JAVA\_ARGS=\"-\$j \$JAVA\_ARGS\"; fi;\ done\ \ \# Priority\ j=\"\`grep javastart\_priority \$CONFIGFILE \| sed \'s/\^\[\^=\]\*=//\'\`\";\ \ if \[ ! -z \"\$j\" \];then\ if \[ -n \$j \]; then JAVA=\"nice -n \$j \$JAVA\"; fi;\ fi\ \ PORT=\"\`grep \^port= \$CONFIGFILE \| sed \'s/\^\[\^=\]\*=//\'\`\";\ \ \# for i in \`grep javastart \$CONFIGFILE\`;do\ \# i=\"\${i\#javastart\_\*=}\";\ \# JAVA\_ARGS=\"-\$i \$JAVA\_ARGS\";\ \# done\ else\ JAVA\_ARGS=\"-Xmx600m -Xms180m \$JAVA\_ARGS\";\ PORT=\"8090\"\ fi\

Statistik: Verfasst von oneaty — Do Mai 15, 2014 1:24 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-05-15 14:58:44

ihr seid super! Ich hab mal auf Twitter nachgefragt: https://twitter.com/yacy_search/status/ ... 4628789248{.postlink}

Statistik: Verfasst von Orbiter — Do Mai 15, 2014 1:58 pm


English • Re: Settings & previous crawl data lost after power outage

Date: 2014-05-15 15:24:54

In regards to \“missing crawls\“, I have some new facts:

1 - What led me to think they were missing was the message that shows up whenever I hover the mouse over System Status, in the left vertical bar \”[You did not yet start a web crawl! You do not see all monitoring options here, because some belong to crawl results monitoring. Start a web crawl to see that.]{style=“font-style: italic”}\”

2 - However, in /Crawler_p.html, all the \“missing crawls\” are showing and running.

So, apparently, the sudden power off seems to have created an inconsistency.

I still keep my previous questions:

1 - Is there a way to recover previous crawl data? (Now I would rephrase, \”... to create consistency among crawling data and the System Status information\“)

2 - What files/directories should I backup so that I\’m able to restore Yacy to its prior status?

Statistik: Verfasst von oneaty — Do Mai 15, 2014 2:24 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-05-15 16:10:35

Hi!

Ich scließe mich sixcooler im Wortlaut an ;)

Statistik: Verfasst von SILVA — Do Mai 15, 2014 3:10 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-05-15 20:28:52

Hallo,
ich gehöre wohl auch zu den 4 bereits genannten Interessenten,obwohl ich als Speckegürtel-Brandenburgerin nur beinahe aus Berlin bin.
Ich fände es toll, wenn sich dauerhaft eine kleine Gruppe findet. Ich habe selbst eine Menge Fragen, aber zu wenig Zeit alles selbst auszutüfteln.
Gruss Uhura

Statistik: Verfasst von Uhura — Do Mai 15, 2014 7:28 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-15 20:31:45

Hier scheint es eine Audio-Aufzeichnung zu geben: https://voicerepublic.com/venues/223/talks/958

Ich hatte leider noch keine Gelegenheit rein zu hören.

Statistik: Verfasst von Low012 — Do Mai 15, 2014 7:31 pm


Hilfe für Einsteiger und Anwender • Re: Heavy loading

Date: 2014-05-16 20:07:15

\@mass: seems like you try to generate a very big index. Try to reduce the index size by indexing less websites.

Statistik: Verfasst von gTSj — Fr Mai 16, 2014 7:07 pm


Mitmachen • Re: LinuxTag 2014

Date: 2014-05-17 14:17:13

c\’t 122014 Seite 50: Bericht über den Linuxtag, Titel \“LinuxTag schrumpft\“. Auf dem Bild zum Artikel ist der YaCy-Stand zu sehen!

Statistik: Verfasst von Huppi — Sa Mai 17, 2014 1:17 pm


Hilfe für Einsteiger und Anwender • Indexierung SMB Shares

Date: 2014-05-17 20:32:22

Hallo,

ich bin durch einenTipp ganz neu mit Yacy in Berührung gekommen. Ich bin ehrlich, die http Indexierung ist zwar toll und habe ich ausprobiert. Sie ist für mich aber nicht so spannend. Mich juckt die File Indexierung, speziell via SMB. Nun habe ich etliches versucht, kriege es aber nicht auf die Reihe.

Ich habe:


Selbstverständlich läuft dann Yacy im Intranet Modus.

Nun führte ich erst auf Linux (Ubuntu, Mint beide sehr aktuell) Yacy aus und wollte per smb://host/share indexieren - geht nicht. Naja, die Frage ist natürlich mit was für Credentials mein Linux beim SMB Share daherkommt. Wahrscheinlich ja nicht mit den gleichen, wie ich am AD via Linuxclient authentifiziert bin. Ok nächster Versuch.

Das gleiche auf dem Mac, Yaci aufgeführt. Mac ist auch Member im AD und mit dem angemeldeten User bin ich am AD authentifiziert (inkl. Roaming Profile). Geht auch nicht. Selbiges Problem. Komisch ist nur, dass

Code:
smb://user:pw@host/share

auch nicht geht.

Ok, nehmen wir einen Windowsclient. Hier sehe ich, dass Javagedöns :-) Prozesse unter meinem AD User laufen. Auf die Schnelle würde ich behaupten, dass die von Yacy stammen und somit eigentlich der Zugriff klappen müsste - ist aber nicht so.

Also, berechtigte ich auf einem Share mal mit Everyone. Und siehe da, es wurde eine Indexierung gemacht. Aber leider nur einmal und nachher nie wieder.
Besser wäre natürlich, wenn man bestimmen könnte unter welchem lokalen oder AD Benutzer der Crawl laufen soll.

Leider finde ich über dieses Thema im Forum nichts, auch nichts als Doku oder so. Aber vielleicht hat jemand einen guten Tipp?

Bin dankbar dafür
Fabian

Statistik: Verfasst von clipboard — Sa Mai 17, 2014 7:32 pm


Hilfe für Einsteiger und Anwender • Recovery from crash

Date: 2014-05-18 17:01:38

Hello,

Sorry invading the deutsch forum with an english request for help, but my previous post (http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5211) on the english forum didn\’t get any reply.

My problem is that while running 24x7 Yacy 1.7 for GNU/Linux over an Ubuntu Server 14.04, whenever the server goes down due to a power outage, Yacy doesn\’t restart.

I found out that the computer crash always corrupts the file Yacy.conf, leaving an empty file as result, thus preventing startYACY from executing.

A possible workaround is to backup Yacy.conf and to have a startup script that tests if it is empty and have it restored, before calling startYACY.sh. I have already implemented this and it works.

There is only a small issue (I guess) with restoring Yacy.conf that way: whenever I hover the mouse over the Monitoring section of the left vertical column, I get the message \”[You did not yet start a web crawl! You do not see all monitoring options here, because some belong to crawl results monitoring. Start a web crawl to see that]{style=“font-style: italic”}.\“, which is false, because I had already started crawls.

So, my questions is: Is my Yacy.conf restoring procedure correct, or should I backup/restore other files and eventually take other steps before calling startYACY.sh?

Statistik: Verfasst von oneaty — So Mai 18, 2014 4:01 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-18 20:08:29

http://www.justinzane.com/yacy-another-example-of-why-java-sucks.html

BildBildBild

Statistik: Verfasst von Low012 — So Mai 18, 2014 7:08 pm


English • Your peer cannot be reached from outside. Yes, it can!

Date: 2014-05-18 22:51:58

I\’m being told in the basic config menu that the peer cannot be reached from outside.

I\’m running on a VPS, and am accessing the config panel from a remote connection.

How do I stop it from lying?

Liam

Statistik: Verfasst von liamwli — So Mai 18, 2014 9:51 pm


Hilfe für Einsteiger und Anwender • http- und https-Adresse erzeugen doppelte Treffer

Date: 2014-05-19 14:59:23

Unsere Sites sind oft sowohl über http-, als auch über https-Verbindungen erreichbar und auf verschiedenen Seiten ggf. auch über beide Protokolle verlinkt.
Problem hierbei ist, dass die entsprechenden URLs dadurch doppelt in allen Suchergebnissen auftauchen: einmal als http://..., und dann auch als https://...

Leider können wir zur Lösung des Problems nicht einfach einen Blacklist-Filter auf _alle_ https://... Urls einbauen, weil einige nur über https erreichbar sind.
Gibt es eine Möglichkeit, https://-Urls aus den Suchergebnissen herauszufiltern, wenn die gleiche URL als http://-Url im Index vorhanden ist?

Vielen Dank!

Mit freundlichen Grüßen, M. Behrens

Statistik: Verfasst von mbehrens — Mo Mai 19, 2014 1:59 pm


Fragen und Antworten • SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 15:50:12

Hello,

For an update, I have several times a day, an error on YaCy / solr.
Indeed Yacy running Solr self-optimization.
After 10 minutes of hard disk optimization my RAID 1 is 50MB I / O.
I am obliged to killYACY.sh and restart YaCy.
SOLR currently weighs 85 GB 8462504 urls

Here is an excerpt of the log before saturation of the disk

Code:
I 2014/05/19 12:14:06 RESOURCE OBSERVER resources okI 2014/05/19 12:14:06 SWITCHBOARD cleanup post-processed 0 documentsI 2014/05/19 12:14:06 NoticedURL CLEARING ALL STACKSI 2014/05/19 12:14:06 SWITCHBOARD Solr auto-optimization: idleSearch=8214933, idleAdmin=8204933, deltaOptimize=8204933, proccount=0I 2014/05/19 12:14:06 SWITCHBOARD Solr auto-optimization: running solr.optimize(1)S 2014/05/19 12:26:35 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:35 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:36 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:38 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:38 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:38 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:39 BusyThread Thread 'BusyThread net.yacy.peers.Network.peerPing' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:39 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteCrawlLoaderJob' runs high load cycle. current: 10.15 max.: 10.0S 2014/05/19 12:26:40 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:41 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:41 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:42 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:44 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:44 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:44 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.22 max.: 10.0S 2014/05/19 12:26:46 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:47 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:47 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:48 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:49 BusyThread Thread 'BusyThread net.yacy.search.Switchboard.surrogateProcess' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:49 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteCrawlLoaderJob' runs high load cycle. current: 10.44 max.: 10.0S 2014/05/19 12:26:50 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:50 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:50 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:52 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:53 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:53 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:54 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.49 max.: 10.0S 2014/05/19 12:26:56 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:56 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:56 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:58 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:59 BusyThread Thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:59 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:59 BusyThread Thread 'BusyThread net.yacy.search.Switchboard.dhtTransferJob' runs high load cycle. current: 10.21 max.: 10.0S 2014/05/19 12:26:59 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteCrawlLoaderJob' runs high load cycle. current: 10.21 max.: 10.0



did you offer me a solution for my problem?
thank you in advance for your help

Best regards

Statistik: Verfasst von Guims — Mo Mai 19, 2014 2:50 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 17:12:58

Hello Guims,

the optimization starts after all crawls finished and your machine ist idle.
The optimization causes load on your machine, thats why other tasks are paused.
The optimization merges the URLs to one Segment / 5M URLs.
So it looks ok to me.

But I wonder that you\’ve 85GB for 8.5 M URLs. This means te index gets merged to a singe Segment of 85GB.
This will take a long time!

\@all: What is the diskusage of the Solr-direktory at which count of URLs?
(I\’ve 60GB / 41 M URLs)

\@Orbiter: perhaps we have to change the count of Segments / URLs on optimization.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 19, 2014 4:12 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 17:39:42

Sixcooler thank you for your reply.
You have 60 GB for 41 million urls o_O
You use Solr default scheme?
(If yes, then I have a big problem)

PS: i\’m in 1.739017

The default merge is not 10 segments ?

Statistik: Verfasst von Guims — Mo Mai 19, 2014 4:39 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 18:03:44

Hello Guims,

yes I\’m using the defaul tscheme.
But no - yout don\’t have a problem.

On other, smaller Peers I have, there is also about 1GB / 0.1 M URLs.

So I think your volume of data seams to be normal and my big Peer is the strange one :-)

Perhaps this is because it is very old and the index is filled by dht and only light crawling.

I\’ve changed to optimize to 1 Segment / 1 M URLs in 1.73-9029.
So please try this update.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 19, 2014 5:03 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 18:26:16

Thx Sixcolor, I will try this.
I will go back with result

Do you think to update ( commit ) debian.yacy.net ?

Statistik: Verfasst von Guims — Mo Mai 19, 2014 5:26 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-19 19:09:27

Hello Guims,

I\’m sorry. I\’m only able to commit code to the repo.
Other guys will generate the packages.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 19, 2014 6:09 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-19 20:52:58

http://www.abendblatt.de/ratgeber/multi ... mfort.html{.postlink}

Statistik: Verfasst von Orbiter — Mo Mai 19, 2014 7:52 pm


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-05-19 20:54:34

Sorry for the delay. I have just committed an updated version.

Statistik: Verfasst von Low012 — Mo Mai 19, 2014 7:54 pm


Mitmachen • Re: 30C3

Date: 2014-05-19 21:07:51

beim 30C3 hab ich der Wau Holland Stiftung eine Projektvorstellung gegeben, da die uns zu dieser Zeit vor hatten zu unterstützen. Ich nehme an der aktuelle Zustand ist so \‘hold on\‘. Der Input von #wauland war aber schon recht gut und kann uns tatsächlich etwas professioneller machen, allerdings nur mit viel mehr Aufwand zu dem ich alleine nicht in der Lage bin. Man könnte halt mit Kryptografie ganz viel machen.
iframe

Statistik: Verfasst von Orbiter — Mo Mai 19, 2014 8:07 pm


English • Renaming Yacy

Date: 2014-05-19 22:00:37

Hi,
I find Yacy is written everywhere in the code. Even for images we can fin the tag alt=Yacy.

I wished to change it for my own logo. And I also wondered if there was a way to change yacysearch.html to something more customized.
I tried but got some errors and can\’t figure out what failed.
Thanks.

Statistik: Verfasst von GreyV — Mo Mai 19, 2014 9:00 pm


Hilfe für Einsteiger und Anwender • Peer lists too old

Date: 2014-05-20 10:21:00

Hi,
ich habe meinen peer nun 12 Stunden laufen. er ist immernoch virgin.
Im log erhalte ich nur:

Code:
yacy011.log:I 2014/05/20 10:07:13 YACY BOOTSTRAP: 0 seeds known from previous run, concurrently starting seedlist loaderyacy011.log:I 2014/05/20 10:07:13 YACY BOOTSTRAP: seed-list URL http://www.lulabad.de/seed.txt too old (5 days)yacy011.log:I 2014/05/20 10:07:13 YACY BOOTSTRAP: seed-list URL http://www.yacy.de/seed.txt too old (45 days)yacy011.log:I 2014/05/20 10:07:13 YACY BOOTSTRAP: seed-list URL http://img.homepage.bluewin.ch/352348/seed.txt too old (11 days)yacy011.log:I 2014/05/20 10:07:13 YACY BOOTSTRAP: seed-list URL http://lingvini.hu/yacy/gshuszrg00/seed.txt too old (16 days)yacy011.log:I 2014/05/20 10:07:14 YACY BOOTSTRAP: 0 seeds from seed-list URL http://low.audioattack.de/yacy/seed.txt, AGE=687hyacy011.log:I 2014/05/20 10:07:14 YACY BOOTSTRAP: 0 seeds from seed-list URL http://www.elso.sk/yacy/seed.txt, AGE=14h



Ist es normal das ich überhaupt keine seeds erhalte?
Gruß
Cronix

Statistik: Verfasst von Cronix — Di Mai 20, 2014 9:21 am


Hilfe für Einsteiger und Anwender • Re: Peer lists too old

Date: 2014-05-20 12:55:56

Probier es doch bitte jetzt nochmal. In meinem Peer war die Konfiguration für das Hochladen der Seeds verschwunden.

Zumindest von http://low.audioattack.de/yacy/seed.txt solltest du jetzt etwas bekommen.

Statistik: Verfasst von Low012 — Di Mai 20, 2014 11:55 am


Hilfe für Einsteiger und Anwender • Re: Peer lists too old

Date: 2014-05-20 13:01:21

hi, tatsächlich, viele von den seedlist-URLs waren outdated. Meiner ebenso den ich vergessen hatte nach dem Serverumzug mit neuen Logindaten zu versehen.… Sollte aber jetzt wieder gehen.

Statistik: Verfasst von Orbiter — Di Mai 20, 2014 12:01 pm


English • Re: Renaming Yacy

Date: 2014-05-20 13:38:24

you can easily change all appearances of texts and logos in /ConfigPortal.html
However, the servlet name \“yacysearch.html\” will stay ;) If you like to change the search interface completely, you can also do so by creation of your own search page. Please see the forum search of _this_ forum as an example, it uses a YaCy search but with a completely new interface.

Statistik: Verfasst von Orbiter — Di Mai 20, 2014 12:38 pm


English • Re: Renaming Yacy

Date: 2014-05-20 14:08:38

Just a small addition to Orbiter\’s posting: If you have changed the theme of this forum from \“prosilver\” to \“subsilver2\“, you will not see the integrated YaCy search.

Statistik: Verfasst von Low012 — Di Mai 20, 2014 1:08 pm


English • Re: Renaming Yacy

Date: 2014-05-20 15:36:06

I mean this: http://projectsearch.yacy.de/yacysearch/index.html
which uses a combination of different tools from https://gitorious.org/yacy/searchpage_template_yaml4/ which again has many \‘yacy\’ inside, but you can easily remove them all as that is an outside front-end to YaCy

Statistik: Verfasst von Orbiter — Di Mai 20, 2014 2:36 pm


Hilfe für Einsteiger und Anwender • Re: Running yacy from a third party server

Date: 2014-05-20 16:22:47

Hello

I would like to give my customers the ability to search the Internet via my server and website using yacy. Would I be able to run yacy from my Apache server 2.4.9 website directly. Would I still be able to administrate it from the control panel.

Thanks

Scott

Statistik: Verfasst von scott — Di Mai 20, 2014 3:22 pm


English • Re: Renaming Yacy

Date: 2014-05-21 00:51:22

Thank you.
But I need the search page to look the same that the home page.
So if I create a new home page i need to customize the search page or to get the search page\’s css wich is I don\’t know where.
If I don\’t do this i\’ll get an ugly site

Statistik: Verfasst von GreyV — Di Mai 20, 2014 11:51 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-05-21 16:50:04

\“all posters except posters about posters being prohibited are prohibited\”{.postlink}
Bild

Statistik: Verfasst von Orbiter — Mi Mai 21, 2014 3:50 pm


Fragen und Antworten • Re: SOLR error auto-optimization Max Disk I/O

Date: 2014-05-22 10:03:34

The last commit solve my problem,

Thx sixcooler !!

Statistik: Verfasst von Guims — Do Mai 22, 2014 9:03 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 11:53:03

Momentan funktioniert das Einloggen in die geschützten Bereiche komplett nicht. :( So kann ich meinen Peer nicht administrieren. Passwort habe ich schon zichmal per ./reconfigureYACY.sh gesetzt (und Peer vorher heruntergefahren).

Mir geht dabei hierum:
http://mantis.tokeek.de/view.php?id=374

Statistik: Verfasst von Quix0r — Do Mai 22, 2014 10:53 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 12:26:13

das ist gefixt und sollte gehen. Bitte aktuelles Release benutzen.

Statistik: Verfasst von Orbiter — Do Mai 22, 2014 11:26 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 12:48:21

Orbiter hat geschrieben:\ das ist gefixt und sollte gehen. Bitte aktuelles Release benutzen.\


1.739035 habe ich hier. Nein, auch mit neustem rc1/master geht es nicht. :(

Statistik: Verfasst von Quix0r — Do Mai 22, 2014 11:48 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 13:08:03

./reconfigureYACY.sh habe ich nicht probiert aber bin/passwd.sh <pw> sollte gehen. (während YaCy läuft!)

Statistik: Verfasst von Orbiter — Do Mai 22, 2014 12:08 pm


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 13:18:54

Ah, das klappte. Danke dir. :)

Statistik: Verfasst von Quix0r — Do Mai 22, 2014 12:18 pm


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 13:30:49

prima, jetzt müssen wir nur noch rausfinden, warum /reconfigureYACY.sh nicht geht...

Statistik: Verfasst von Orbiter — Do Mai 22, 2014 12:30 pm


Hilfe für Einsteiger und Anwender • Re: Wie YaCy headless einrichten?

Date: 2014-05-22 15:06:30

Bei mir funktioniert die Passwortänderung mit ./reconfigureYACY.sh. Was darin kaputt ist, ist die Änderung des Ports, weil es in der config jetzt zwei Einträge für ports gibt (http und https) und ich noch nicht dazu gekommen bin, das Skript entsprechend anzupassen.

Gibt es sonst noch Probleme in reconfigureYACY.sh?

Statistik: Verfasst von Low012 — Do Mai 22, 2014 2:06 pm


English • Re: Your peer cannot be reached from outside. Yes, it can!

Date: 2014-05-23 23:05:13

The same here, even with a public IP: http://yacy-websuche.mxchange.org:8090

Statistik: Verfasst von Quix0r — Fr Mai 23, 2014 10:05 pm


Off-Topic • Re: Minecraft...

Date: 2014-05-24 00:18:42

Der von Vega scheint down zu sein, meinen gibt es unter mxchange.org (ohne http! ;-) )

Statistik: Verfasst von Quix0r — Fr Mai 23, 2014 11:18 pm


Fragen und Antworten • Can\’t install YaCy

Date: 2014-05-25 16:24:06

I have a problem on VPS with YaCy installer:

Code:
Exception in thread "main" java.lang.UnsupportedClassVersionError: net/yacy/cora/order/Base64Order : Unsupported major.minor version 51.0        at java.lang.ClassLoader.defineClass1(Native Method)        at java.lang.ClassLoader.defineClass(ClassLoader.java:643)        at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)        at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)        at java.net.URLClassLoader.access$000(URLClassLoader.java:73)        at java.net.URLClassLoader$1.run(URLClassLoader.java:212)        at java.security.AccessController.doPrivileged(Native Method)        at java.net.URLClassLoader.findClass(URLClassLoader.java:205)        at java.lang.ClassLoader.loadClass(ClassLoader.java:323)        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:294)        at java.lang.ClassLoader.loadClass(ClassLoader.java:268)Could not find the main class: net.yacy.cora.order.Base64Order. Program will exit.dpkg: error processing yacy (--configure): subprocess installed post-installation script returned error exit status 1Errors were encountered while processing: yacyE: Sub-process /usr/bin/dpkg returned an error code (1)


Any advise?

Statistik: Verfasst von krzyszp — So Mai 25, 2014 3:24 pm


Hilfe für Einsteiger und Anwender • \“Zweitport\” angeben

Date: 2014-05-25 20:19:39

Mein Peer läuft auf Port 8090, ist aber auch über Port 80 und 443 erreichbar. Die beiden Ports werden von einer lighttpd-Instanz zur Verfügung gestellt, die Anfragen an YaCy an der (Sub-)Domain (yacy.allesehersonerdshier.net) erkennt.

Ich würde YaCy nun gerne anweisen, den Port 8090 im HTML-Userinterface nicht zu referenzieren. Mir ist egal, ob jemand den Port kennt oder nicht, aber ich kann nicht immer und überall auf Port 8090 zugreifen. Port 8090 wird z.B. auf \“yacysearch.html\” referenziert (Zeile 45):

Code:
<link rel="search" type="application/opensearchdescription+xml" title="YaCy Search on 'allesehersonerdshier'" href="http://yacy.allesehersonerdshier.net:8090/opensearchdescription.xml" />

Statistik: Verfasst von Low012 — So Mai 25, 2014 7:19 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-26 12:09:05

http://www.youtube.com/watch?v=s6dxdLsyY7Q
http://www.hackplayers.com/2014/05/yacy ... o-p2p.html{.postlink}
http://www.framablog.org/index.php/post ... -recherche{.postlink}
http://www.ehow.co.uk/slideshow_1229856 ... using.html{.postlink}

Statistik: Verfasst von Orbiter — Mo Mai 26, 2014 11:09 am


YaCy Coding & Architektur • Re: Chrome extension

Date: 2014-05-26 12:28:53

i\’m a noob so there is a chrome plugin to download? ive downloaded from github it from the github page but how to install?

Statistik: Verfasst von cheech — Mo Mai 26, 2014 11:28 am


YaCy Coding & Architektur • Als Entwickler Erweiterungen anbieten. (background-Fragen)

Date: 2014-05-26 17:47:51

Servus

zwei Fragen.

1. Wodurch ist abgesichert, dass das gut gemeinte Projekt nicht früher oder später für ein paar Milliarden von einer beliebigen Firma, bspw. mit Hauptsitz in Mountain View - Kalifornien, aufgekauft wird und langsam aber stetig immer mehr seine ursprüngliche Intention verfehlt?

2. Ist es mir trotz eigentlicher open source license von YaCy möglich Erweiterungen anzubieten dessen source code ich [nicht ]{style=“font-weight: bold”} öffentlich zu Verfügung stelle?
Ich arbeite zzt. an einigen komplexeren Themen im Bereich Bildanalyse, die für eine Suchmaschine extrem nützlich sein könnte und die ich auch gerne frei anbieten würde.
Ich möchte allerdings nicht den gesamten Quelltext offen legen.

Statistik: Verfasst von xumbu — Mo Mai 26, 2014 4:47 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-26 18:03:31

deine beiden Fragen beantworten sich gewissermaßen gegenseitig:
1) man kann Unternehmen gründen und aufkaufen lassen, aber wenn es dabei um einen Source Code geht der schon vorher GPL war, dann bleibt er das auch, auch wenn ein Unternehmen drumherum gegründet und aufgekauft wurde
2) du kannst YaCy erweitern und den Code unveröffentlicht lassen, wenn du deine Erweiterung selber betreibst aber nicht binaries veröffentlichst. Wenn das möglich wäre, wäre 1) damit auch beantwortet.

Aber wir können Techniken im Bereich Bildanalyse sehr gut gebrauchen, die Metadatenanreicherung von Bildern ist nämlich bei uns aufgrund von Bildinhalten nicht vorhanden. Kannst du hier was zu beisteuern? Wenn nicht Code, dann Konzepte?

oder.. schau mal was du einbauen kannst, der Einstiegspunkt ist ganz einfach hier: https://gitorious.org/yacy/rc1/source/6 ... arser.java{.postlink}

Statistik: Verfasst von Orbiter — Mo Mai 26, 2014 5:03 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-26 18:13:08

Orbiter hat geschrieben:\ Aber wir können Techniken im Bereich Bildanalyse sehr gut gebrauchen, die Metadatenanreicherung von Bildern ist nämlich bei uns aufgrund von Bildinhalten nicht vorhanden. Kannst du hier was zu beisteuern? Wenn nicht Code, dann Konzepte?\



Ja.

Statistik: Verfasst von xumbu — Mo Mai 26, 2014 5:13 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-26 18:42:56

Zum Thema Metadatenanreicherung:

Hab ihr denn, zumindest abstrakte, Ideen oder Ansätze mit denen man arbeiten kann?
Das ganze ist natürlich sehr umfangreich.
Also man muss erstmal schauen wo man überhaupt anfängt.
Erste konkrete Vorstellungen wären super!

Wenn noch gar nichts im Bereicht Bildanalyse da ist, wären ja schon sehr simple Sachen wie Farbe, Farbvielfalt, Bildschärfe, Detailumfang etc. hilfreich.
Also bevor man anfängt komplexeres zu entwickeln, wie Einordnung in Kategorien bis hin zu Gesichtserkennung etc.




Für die weniger aufwendigen Sachen kann ich auf jeden Fall ein bisschen Zeit aufbringen!

Wenn ihr also schon bestimmte Vorstellungen oder \“Wünsche\” habt kannst du mir ja mal ne PM schicken.
Am besten mit na kleinen Liste.

Zwei Punkte die mir Spontan einfallen:

[]{style=“font-weight: bold”}




Die Liste könnt ihr beliebig erweitern. Ich werde dann sehen was sich machen lässt.



Und nochmal zurück zum anderem Punkt und der Aussage \“Open Source bleibt Open Source\”:
Ja der ursprüngliche Code bleibt OpenSource. Was allerdings neben dem Quelltext noch mit gekauft wird sind die Nutzer und der Name.
Das ganze Projekt ist ja auch Abhängig von seinen Usern. Das Unternehmen könnte also anfangen das ganze so umzuschreiben, dass am Ende doch Nutzerdaten gesammelt werden, Werbung geschaltet wird und was denen noch so einfällt. Der Großteil der Benutzer wird sich drüber aufregen, aber nicht reagieren fals sie sich erstmal an die neue Suchmaschine gewöhnt haben.
Und schon ist die tolle Grundidee für die Katz.


Und

\ du kannst YaCy erweitern und den Code unveröffentlicht lassen, wenn du deine Erweiterung selber betreibst aber nicht binaries veröffentlichst.\


Genau das meinte ich. Also kompilierte librarys zur Verfügung zu stellen wäre mir bei bestimmten Sachen am liebsten.

Statistik: Verfasst von xumbu — Mo Mai 26, 2014 5:42 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-26 21:34:57

http://www.voodooalert.de/board/index.p ... post360483{.postlink}

Statistik: Verfasst von Orbiter — Mo Mai 26, 2014 8:34 pm


Hilfe für Einsteiger und Anwender • yacy fail nach upgrade mit debian

Date: 2014-05-27 06:20:11

hi,
gerade der zweite server wo yacy nach upgrade nicht mehr startet.
ein /etc/init.d/yacy restart geht auch nicht mehr
hier die meldung nach einem apt-get upgrade



Setting up yacy (1.73.9056) ...
Starting YaCy P2P Web Search: failed.
invoke-rc.d: initscript yacy, action \“start\” failed.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
E: Sub-process /usr/bin/dpkg returned an error code (1)

Statistik: Verfasst von veto — Di Mai 27, 2014 5:20 am


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-27 06:44:27

wenn du libraries ohne source code veröffentlichst wird das niemand aus einem freien Projekt verwenden weil die Verwendung aus dem freien Projekt ein unfreies machen würde. Es ist nicht so dass ich das nicht darf, ich kann deine unfreie Library wieder in einem eigenen Projekt oder für eine Webseite verwenden aber ich kann es nicht re-publizieren, nicht integrieren und deswegen würde weder ich noch ein anderer Entwicker das anfassen...


Zum bisherigen Konzept bei der Bilderkennung: Für die Bilder wird ein Textfeld vorgesehen, wo Tags rein kommen sollen die sich aus der Bilderkennung ergeben haben. Die Tags können bsp. aus Farbanalyseheuristiken kommen. Ich hatte die Idee, Farbschemas in einer Matrix über dem Bild zu erkennen.
Meine Idee war, die Farbe pro Rasterfeld zu mitteln und auf wenige Bits zu schrumpfen, z.B. 2 bit je für Rot, Grün und Blau was dann mit einem b64-Character repräsentierbar wäre. Bei einem 3x3-Raster hätten ich dann 9 Zeichen, die das Bild charakterisieren; ich nenne das mal Bild-Token.
Mit so einem Bild-Token könnte man auf Patterns matchen; z.B.
\“in der Mitte hautfarben\” -> Portrait
\“oben hellblau, mitt blau oder grau, unten ocker\” -> Strand mit Meerblick
Man müsste eine abgegrenzte Token-Liste für die Szenentypen entwickeln und dann die Patterns anlernen.
Dann kommen diese Szenetypen, wenn sie erkannt wurden, in den String für die Bild-Metadaten und man kann eine Suchfacette dazu machen.

Das ist nur eine Idee und ich weiss nicht inwiefern so etwas schon erfolgreich eingesetzt wird.

Statistik: Verfasst von Orbiter — Di Mai 27, 2014 5:44 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 06:48:06

Das einzige was tiefgreifend anders ist, ist die Dependency auf Java 7. Das müsste da aber automatisch nachgezogen werden.

Gucke bitte mal was in /var/log/apt/term.log steht

Statistik: Verfasst von Orbiter — Di Mai 27, 2014 5:48 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-27 08:42:18

Hahah! Ich freue mich gerade, weil GrandAdmiralThrawn sich so freut! :)
Das Video wurde mittlerweile auch schon über 16000 Mal angesehen. Nicht schlecht für so ein Nischenthema (mehr oder weniger).

Statistik: Verfasst von Low012 — Di Mai 27, 2014 7:42 am


Fragen und Antworten • Игры про bmx на андроид

Date: 2014-05-27 09:36:22

Игры про bmx на андроид Скачать на андроид зомби против растений Темы для go launcher андроид
Bild
Игры про bmx на андроид
Bild{.postlink}
Bild
А тем временем Министерство начинает принимать меры против тех, кто рожден от маглов. Csr racing unlimited money android Киндер сюрприз энгри бердз ютуб{.postlink} Мы укрывались в расщелинах и за валунами, чтобы преследователи не заметили нас снизу. http://android-apps.cao6.ru/viewtopic.php?f=2&t=7268 Angry birds space oyunlar? Oyna.
Слишком поздно, мадам! Angry birds space обои на рабочий стол Скачать на андроид ассасин крид{.postlink} У них каждый наш окоп пристрелян. http://android-apps.cao6.ru/viewtopic.php?f=2&t=5090 Фонарик android 2.1.
Возможно, это было бы самым благоразумным решением. Пдд андроид 4pda Angry birds space код активации бесплатно{.postlink} Это была вполне естественная холодность. http://android-apps.cao6.ru/viewtopic.php?f=2&t=12588 Drag racing android рекорды.
Прочитанное ошеломило его! «Мне всегда казалось, что я — ниоткуда. Android музыка через wifi Angry birds скачать звуки{.postlink} выкрикнул Рон, и чары развеялись. http://android-apps.cao6.ru/viewtopic.php?f=2&t=7348 Go launcher android themes.
Присутствие джека, внушая ему глухое беспокойство, заставило его оставаться на месте, которое он занимал. Скачать игру говорящая собака на андроид Скачать приколы для себя на андроид{.postlink} Да я ее больше года не пробовал. http://android-apps.cao6.ru/viewtopic.php?f=2&t=42 Энгри бёрдз картинки всех птиц.
Если б вы оказались той, за кого я в первую минуту вас принял, я расстался бы с вами без особой печали. Hungry shark 2 android скачать бесплатно Subway surfer rome на компьютер{.postlink} Его голос звенел от ярости и боли. http://android-apps.cao6.ru/viewtopic.php?f=2&t=445 Speedx 3d онлайн.
Чертушка белогривый! - говорит он, глядя на коня загоревшимися глазами. - Выжил, сокол ты мой ясный! Покажись, покажись, Чертушка! Блазнится мне, что твои дед и прадед носили меня по войнам-раздорам... Крокодильчик свомпи 2 играть онлайн бесплатно на компьютере Subway surfers скачать взломанную версию на компьютер{.postlink} Среди прочих таймс осудила агентство томпсона. http://android-apps.cao6.ru/viewtopic.php?f=2&t=11561 Скачать minecraft pro full на андроид.
игра sims 4 на андроид бесплатно Sims 4 скачать на мобильный{.postlink} http://sims4.cao6.ru/viewtopic.php?f=2&t=427 играть в симс 4 скачать бесплатно
скачать игру симс 4 для андроид Что за игра симс 4{.postlink} http://sims4.cao6.ru/viewtopic.php?f=2&t=567 sims 4 скачать для андроид
скачать симс 4 видео Игра симс 4 что это{.postlink} http://sims4.cao6.ru/viewtopic.php?f=2&t=493 скачать бесплатно симс 4 игру
играть в игру симс 4 Скачать симс 4 онлайн бесплатно на русском без регистрации{.postlink} http://sims4.cao6.ru/viewtopic.php?f=2&t=521 есть ли игра sims 4
Ты смотри, Вить, как все лихо закручивается! Сугробова, Розен, Горностаева, — сказал Губарев, вызвав к себе Витьку. ягоды годжи отзывы{.postlink} А чтобы дело возбудили, мне придется за ними хвостом таскаться и ныть или упрашивать на коленях. ягоды годжи где купить https://vk.com/yagody_godji_ua ягоды годжи отзывы
Пусть будет эта, заключил робер, между тем как джек отвел глаза, в которых против воли сверкнула радость. ягоды годжи отзывы{.postlink} До тех пор, пока доступ к технологии остается ограниченным физически или экономически, то есть вследствие высокой стоимости, государственного регулирования или отсутствия навыков применения, отдельные компании могут использовать ее для создания конкурентного преимущества. ягоды годжи купить челябинск https://vk.com/yagody_godji_kz ягоды годжи цена
За стеклышками, вправленными в створки, блестели живые глаза два красивых темных глаза, какие были, наверное, у Тома Реддла до того, как они стали красными, с вертикальным зрачком. ягоды годжи купить{.postlink} Первым всегда просил перерыва евмен, не отличавшийся ни атлетическим сложением, ни ловкостью воина ребята, хватит. ягоды годжи купить в ставрополе https://vk.com/yagody_godji_belarus ягоды годжи цена
Он вытащил мантиюневидимку и пропустил ее сквозь пальцы. ягоды годжи цена{.postlink} Ах ты старый лиходей! Была бы моя воля, я бы так тряханул твои старые кости, что они, как труха, посыпались бы из твоей поганой дряхлой шкуры! Скуизем. где купить ягоды годжи в серпухове https://vk.com/bestgoji ягоды годжи купить
Разместив там армию, мы установили бы господство над большей частью сего мира – от моря и до моря. ягоды годжи купить{.postlink} когда она вот так сломалась… ягоды годжи купить в барнауле https://vk.com/gojiberriesclub ягоды годжи цена
Не весь жир в организме одинаков. ягоды годжи в Киеве{.postlink} Хочу создать бригаду конных стрелков, о которой ты когда-то рассказывал. ягоды годжи и похудение https://vk.com/yagody_godji_ua Ягоды Годжи в Луцке
А вот и джентльмен, о котором я говорил! Констант. ягоды годжи в Туркестане{.postlink} Пошлем вертушку, а там ее \“душки\” цап-царап!.. ягоды годжи другое название https://vk.com/yagody_godji_kz Ягоды Годжи в Кульсарах
Например, в празднике участвовали токотин, прибывшие по специальному приглашению с побережья океана, из земель тотонаков. ягоды годжи в Бобруйске{.postlink} Разбойник? усмехнулся он. Да, это так. ягоды годжи купить в орске https://vk.com/yagody_godji_belarus Ягоды Годжи в Слуцке
По-моему, четыре недели назад я нравился тебе несколько больше, холодно заметил Ник. ягоды годжи в Каскелене{.postlink} Интенсивность выполнения упражнения не субъективна. ягоды годжи сколько в день https://vk.com/bestgoji Ягоды Годжи в Ставрополе
Но где, тысяча карабинов, где. ягоды годжи в Херсоне{.postlink} Десцендо! ягоды годжи купить в днепропетровске https://vk.com/gojiberriesclub Ягоды Годжи в Владивостоке
http://www.ichangwu.com/home.php?mod=space&uid=14089
http://www.shejiwanjia.com/home.php?mod ... uid=131018{.postlink}
http://www.runword.com/home.php?mod=space&uid=109250

http://airjordanshoesformen.cheap-bestm ... 745&extra={.postlink}
http://therapnetwork.com/forums/showthr ... post213132{.postlink}
http://foro.metin2like.es/viewtopic.php?f=12&t=3380

http://www.0850.com/space-uid-427768.html
http://www.objectarx.net/home.php?mod=space&uid=361503
http://diendanseo.vn/members/170966-EtebyBeer

http://god02693618.sclub.tw/viewthread. ... 804&extra={.postlink}
http://www.zhongdeng.net.cn/bbs/forum.p ... 042&extra={.postlink}
http://huxijianfei.com/forum.php?mod=vi ... 245&extra={.postlink}

Statistik: Verfasst von Trutrierb — Di Mai 27, 2014 8:36 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 10:42:49

Hi,

ich hatte kürzlich einen ähnlichen Fehler nach der Installation desDebian-package auf einem RaspberryPi, weil \‘openjdk-7-jre-headless\’ nicht installiert war. Ob das hier auch der Fall ist - vielleicht.

Gruß
lux

Statistik: Verfasst von lux — Di Mai 27, 2014 9:42 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 17:09:32

Same error for me.
And today i have an error on debian.yacy.net
Forbidden
You don\’t have permission to access / on this server.

Statistik: Verfasst von Guims — Di Mai 27, 2014 4:09 pm


English • Crawl isnt really starting

Date: 2014-05-27 17:41:44

Hi,
I\’m just new to this, so please bear with my errors :) I\’m a windows user trying to crawl a new website, the crawl seems to start, but never get pages nor load nor ..anything
According to Twitter user, i already checked the deleted pages, but it\’s empty
pic related
Bild
Actually it\’s been running for more than 3 hours wihtout a result so idk
If it may be browser related (no visual update from ajax), i\’m running FF29.0
Any hint welcomed :)
Edit :
My firsts try were to start a crawl trhough the main domain URL, crawling thanks to a sitemap seems to work

Statistik: Verfasst von Wardormeur — Di Mai 27, 2014 4:41 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 18:46:00

Guims hat geschrieben:\ And today i have an error on debian.yacy.net\ Forbidden\ You don\'t have permission to access / on this server.\


:oops: fixed that right now, sorry.

Is there anything in /var/log/apt/term.log which could give a hint what went wrong?

Statistik: Verfasst von Orbiter — Di Mai 27, 2014 5:46 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 20:03:33

Hello Orbiter.

Thx for debian.

I post the last line of term.log
Sorry it\’s in french

Préparation du remplacement de yacy 1.73.9059 (en utilisant .../yacy_1.73.9060_all.deb) ...
not running.
Dépaquetage de la mise à jour de yacy ...
Paramétrage de yacy (1.73.9060) ...
Starting YaCy P2P Web Search: failed.
invoke-rc.d: initscript yacy, action \“start\” failed.
dpkg: erreur de traitement de yacy (--configure) :
le sous-processus script post-installation installé a retourné une erreur de sortie d\‘état 1
Des erreurs ont été rencontrées pendant l\‘exécution :
yacy

Statistik: Verfasst von Guims — Di Mai 27, 2014 7:03 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 20:22:00

thank you! hm, that does not give more info. But I found a dependency problem in the debian configuration which was not updated after the migration to java 7. Please try an update again :roll:

Statistik: Verfasst von Orbiter — Di Mai 27, 2014 7:22 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 20:31:13

Unfortunately apt-get update && apt-get upgrade does not change.
0 update

I tried to remove and install again yacy .… but it\’s not succefull.
I do not have yacy in /etc/init.d ( yacy: unrecognized service )
I have no other idea

Statistik: Verfasst von Guims — Di Mai 27, 2014 7:31 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-27 20:37:25

http://www.karim-geiger.de/yacy-p2p-suchmaschine/

Statistik: Verfasst von Orbiter — Di Mai 27, 2014 7:37 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-27 20:40:33

Paramétrage de yacy (1.73.9060) ...
Exception in thread \“main\” java.lang.UnsupportedClassVersionError: net/yacy/cora /order/Base64Order : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:643)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:14 2)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)
at java.net.URLClassLoader.access\$000(URLClassLoader.java:73)
at java.net.URLClassLoader\$1.run(URLClassLoader.java:212)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:205)
at java.lang.ClassLoader.loadClass(ClassLoader.java:323)
at sun.misc.Launcher\$AppClassLoader.loadClass(Launcher.java:294)
at java.lang.ClassLoader.loadClass(ClassLoader.java:268)
Could not find the main class: net.yacy.cora.order.Base64Order. Program will exi t.
dpkg: erreur de traitement de yacy (--configure) :
le sous-processus script post-installation installé a retourné une erreur de

I have this error when i retry to install

Statistik: Verfasst von Guims — Di Mai 27, 2014 7:40 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-27 23:17:48

Ja im Ansatz auf jeden Fall gut. So in der Art wird das in der Praxis auch gemacht, bzw man kann es so machen.
Es gibt noch allgemeinere Techniken, die aber im Grunde auf sowas hinaus laufen.

Ich hab dir mal ne PM geschrieben.

Statistik: Verfasst von xumbu — Di Mai 27, 2014 10:17 pm


Fragen und Antworten • YaCy restartet nicht bei Update?

Date: 2014-05-28 12:17:27

Hallo,
ich nutze seit kurzem YaCy und lege derzeit fleißig einen suchindex an, bin mittlerweile bei etwa 360.000 Documents und 2.555.000 DHT Words.

Ich habe aber ein Problem.
Über die YaCy autoupdate page habe ich mal einen update auf die aktuellste dev version angestupst,
ein crawl von etwa 4 Seiten 3 level tief lief währenddessen.
Dann war YaCy nicht mehr erreichbar, nach 10 weiteren Stunden hat sich das Verhalten noch nicht eingestellt.
Daraufhin habe ich killYACY.sh ausgeführt und siehe da, YaCy hat sich gestartet, als aktuellste Version.
Ich nehme an das Update.sh script welches währenddessen lief hat das zu verantworten.

Wieso hat YaCy sich nicht geschlossen? Geht das während eines crawls nicht? Und wenn nein, wieso wird YaCy dann frühzeitig unerreichbar?
Hier mal die letzten Zeilen von yacy00.log bis etwa 10 Stunden nix passiert ist.

Code:
I 2014/05/28 01:20:52 HeapReader using a dump of the index of /var/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140527232052114.blob.I 2014/05/28 01:21:22 HeapReader close HeapFile text.index.20140527232052114.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:275) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:322) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkBestSmallFiles(ReferenceContainerArray.java:403) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:191) -> net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)I 2014/05/28 01:21:22 HeapReader close HeapFile text.index.20140527231052054.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:275) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:323) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkBestSmallFiles(ReferenceContainerArray.java:403) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:191) -> net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)I 2014/05/28 01:21:22 RICELL-shrink1 unmountBestMatch(2.0, 67108864)I 2014/05/28 01:21:22 IODispatcher appended merge job of files text.index.20140527231052054.blob, text.index.20140527232052114.blob to text.index.20140527232122119.blobI 2014/05/28 01:21:22 BLOBArray merging text.index.20140527231052054.blob with text.index.20140527232052114.blobI 2014/05/28 01:21:22 HeapWriter wrote a dump for the 74685 index entries of text.index.20140527232122119.blob in 26 milliseconds.I 2014/05/28 01:21:22 HeapReader saturation of text.index.20140527232122119.blob.0psHJVn5AZWq.idx: keylength = 4, vallength = 4, size = 74685, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MBI 2014/05/28 01:21:22 HeapReader using a dump of the index of /var/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140527232122119.blob.I 2014/05/28 01:21:22 BLOBArray merged text.index.20140527231052054.blob with text.index.20140527232052114.blob into /var/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140527232122119.blob

Statistik: Verfasst von r00t — Mi Mai 28, 2014 11:17 am


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-28 12:25:31

You need a newer version of Java, as some Ubuntu board suggests, jre 1.6 would be sufficient.

You might want to do a quick \“java -version\” on your server and tell us the version, as well as maybe your OS.

My version which works like a charm:

Code:
java version "1.7.0_55"OpenJDK Runtime Environment (IcedTea 2.4.7) (7u55-2.4.7-2)OpenJDK 64-Bit Server VM (build 24.51-b03, mixed mode)



Package on Debian: openjdk-7-jre-headless:amd64

Statistik: Verfasst von r00t — Mi Mai 28, 2014 11:25 am


Hilfe für Einsteiger und Anwender • Status Junior

Date: 2014-05-28 12:48:24

Hallo,

ich habe YaCy auf meinen Root Server installiert. Ich kann ohne Probleme auf das Webinterface von außen zugreifen. Leider sagt mit YaCy das die Ports nicht freigegeben wären und entsprechend habe ich nur den Junior Status.

Woran könnte dies liegen?


Gruß
Lazybone

Statistik: Verfasst von Lazybone — Mi Mai 28, 2014 11:48 am


Hilfe für Einsteiger und Anwender • Re: Status Junior

Date: 2014-05-28 12:55:53

Ok ich habe selbst den Fehler gefunden. Ich hatte im Admin Interface \“Protection of all pages\” aktiviert. Gibt es eine Möglichkeit das Admin Interface per Passwort zu schützen aber die eigentliche Suche nicht?

Gruß
Lazybone

Statistik: Verfasst von Lazybone — Mi Mai 28, 2014 11:55 am


Hilfe für Einsteiger und Anwender • Index verschieben

Date: 2014-05-28 15:14:02

Hallo,

Bin im Rahmen meiner Vision alles nach Möglichkeit auf dezentrale Netzwerke unter voller Userkontrolle umstellen zu wollen jetzt endlich auf YaCy gestoßen. Da all meine Linux und UNIX Maschinen aber leider hinter Firewalls sitzen die sich meiner Kontrolle entziehen, läuft meine private Installation aktuell auf einer 247 Windows Box (XP x64, das per Server 2003 Updates aktuell gehalten wird).

Jetzt ist es so, daß ich YaCy auf meiner System-SSD installiert habe, war zwar bzgl. Speed sicher super ist, aber hier ist nicht endlos Platz, und der Index wächst rasch.

Daher dachte ich mir, ich schiebe den Index einfach auf mein dickes RAID-6 rüber, da kann er noch lange wachsen bis er zum Problem wird.

Nur: Wie gehe ich richtig vor, wenn ich die Installation von YaCy so lassen möchte wie/wo sie jetzt ist? Kann ich irgendwie den Index wegschieben, und einfach in einem Configfile angeben wo er liegt? Per Symbolic Links gehts ja leider auf meiner Plattform nicht, weil NT 5.2 denk ich nur Junctions (Hardlinks) hat, die nicht aus dem Dateisystem rauszeigen können.

Ich könnte YaCy natürlich auch einfach de-/reinstallieren wenn nötig. Kann ich den alten Folder (samt Settings und Index) dann einfach drüberkopieren? Oder überschreibt er dann wichtige Configfiles?

Best practice?

Danke!

Statistik: Verfasst von GrandAdmiralThrawn — Mi Mai 28, 2014 2:14 pm


Hilfe für Einsteiger und Anwender • Re: Index verschieben

Date: 2014-05-28 16:11:21

Hallo GrandAdmiralThrawn,

mangels XP-Erfahrungen kann ich hier leider nur grob etwas zu sagen:
in DATA/SETTINGS/yacy.conf gibt es den Eintrag zu \‘indexPrimaryPath\‘, welcher per default zu DATA/INDEX führt.

Es sollte also gehen, das man YaCy herunterfährt, DATA/INDEX irgendwo anders hinschiebt und den \‘indexPrimaryPath\’ entsprechend ändert.
Nur habe ich es weder jemals probiert noch weiss ich wie man den Pfad unter Win korrekt angibt - da musst Du etwas probieren.
Mit einem gesicherten Index kann aber wenig schiefgehen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Mai 28, 2014 3:11 pm


Hilfe für Einsteiger und Anwender • Re: Index verschieben

Date: 2014-05-28 18:12:19

Hey sixcooler,

Super, danke! Das hat mir einiges an Rumsucherei erspart und ich hab meine RAID Disks gleich losrattern gehört beim Start. ;) Habe auch gleich noch den HTCACHE umgebogen, weil der bei mir auch ziemlich groß wird. Habe ihm 32GB HTCACHE und der JVM 32GB RAM erlaubt (ich hab 48GB).

Bei 8.4GB RAM sowas hat YaCy dann aufgehört zu wachsen, und residiert jetzt so zwischen 4 und 8GB mitm RAM. Das is akzeptabel, sonst brauch ich die ganze Fülle eh nur selten.

Das Umbiegen scheint 1A zu klappen. Habe mir jetzt noch einen \“YaCy\” User eingerichtet, alle Directories dem gegeben, und führe YaCy mit diesem User mit reduzierten Rechten aus (Mein eigener User hat mehr Rechte als YaCy je brauchen wird).

Damit ist denke ich alles soweit, kann ich die Crawler ordentlich rausschicken! :mrgreen:

Übrigens frisst die yacy.conf auf Windows (XP x64, Vista/7/8.x und deren Serverversionen werden kaum anders sein) neben den POSIX-kompatiblen Pfaden auch Zeug wie [E:\Data\YaCy\INDEX]{style=“font-style: italic”} oder [E:\Data\YaCy\HTCACHE]{style=“font-style: italic”}. Kein Problem! :)

Statistik: Verfasst von GrandAdmiralThrawn — Mi Mai 28, 2014 5:12 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-05-28 18:39:24

Was mir zu den Image-tags einfällt ist, dass wir da ein feststehendes Vokabular haben sollten damit nicht jeder Tags vergibt und wir wieder dazu Synonyme finden müssten. Gibt es so etwas wie eine Termsammlung zu Bildtypen bereits?

Statistik: Verfasst von Orbiter — Mi Mai 28, 2014 5:39 pm


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-29 02:19:46

I have resolved this problem by upgrading Ubuntu from 12.04 to 14.04, but now I have another problem:

\ HTTP ERROR: 403\ \ Problem accessing /. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\ Powered by Jetty://\



This happens with default install from repository - nothing adjusted jet...

Statistik: Verfasst von krzyszp — Do Mai 29, 2014 1:19 am


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-29 02:27:45

Hello krzyszp,

how did you call your YaCy?

Do You get this by requesting http://localhost:8090/Status.html ?
Or does this come by accesing Your YaCy from outside?

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 29, 2014 1:27 am


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-29 02:33:42

No, I have domain for it, so I call it - http://startsearch.info:8090 or http://startsearch.info:8090/Status.html - same result.

Statistik: Verfasst von krzyszp — Do Mai 29, 2014 1:33 am


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-29 02:45:16

Hello krzyszp,

for a workaround try putting Yor domain-name \‘startsearch.info\’ into Your /etc/hosts for Your local asdress.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 29, 2014 1:45 am


Fragen und Antworten • Re: Can\’t install YaCy

Date: 2014-05-29 04:14:22

Already got it, part of hosts:

\ 192.166.218.170 krzyszp.uh.net.pl 7authors.com poloniagb.co.uk krzyszp ebookconverter.eu startsearch.info\


(I have multiple domains on this host)

It works now... I have no idea what happens :/

Statistik: Verfasst von krzyszp — Do Mai 29, 2014 3:14 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-29 07:12:07

Orbiter hat geschrieben:\ Das einzige was tiefgreifend anders ist, ist die Dependency auf Java 7. Das müsste da aber automatisch nachgezogen werden.\ \ Gucke bitte mal was in /var/log/apt/term.log steht\



i remove yacy (not purched)
than i auto remove all not used packages
than i install yacy again with apt-get install yacy:
das hier steht im /var/log/apt/term.log :

Log started: 2014-05-29 07:07:49
Selecting previously unselected package sudo.
(Reading database ... 95130 files and directories currently installed.)
Unpacking sudo (from .../sudo_1.8.5p2-1+nmu1_amd64.deb) ...
Selecting previously unselected package yacy.
Unpacking yacy (from .../yacy_1.73.9060_all.deb) ...
Processing triggers for man-db ...
Setting up sudo (1.8.5p2-1+nmu1) ...
Setting up yacy (1.73.9060) ...
Starting YaCy P2P Web Search: failed.
invoke-rc.d: initscript yacy, action \“start\” failed.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
Log ended: 2014-05-29 07:08:10

das hier ist mein console output:
Preconfiguring packages ...
Selecting previously unselected package sudo.
(Reading database ... 95130 files and directories currently installed.)
Unpacking sudo (from .../sudo_1.8.5p2-1+nmu1_amd64.deb) ...
Selecting previously unselected package yacy.
Unpacking yacy (from .../yacy_1.73.9060_all.deb) ...
Processing triggers for man-db ...
Setting up sudo (1.8.5p2-1+nmu1) ...
Setting up yacy (1.73.9060) ...
Starting YaCy P2P Web Search: failed.
invoke-rc.d: initscript yacy, action \“start\” failed.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy

Statistik: Verfasst von veto — Do Mai 29, 2014 6:12 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-29 07:17:29

just now
apt-get remove --purge yacy
and installed again:


# apt-get remove --purge yacy
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages will be REMOVED:
yacy*
0 upgraded, 0 newly installed, 1 to remove and 0 not upgraded.
1 not fully installed or removed.
After this operation, 48.9 MB disk space will be freed.
Do you want to continue [Y/n]? y
(Reading database ... 96885 files and directories currently installed.)
Removing yacy ...
not running.
Purging configuration files for yacy ...


# apt-get install yacy
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following NEW packages will be installed:
yacy
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded.
Need to get 0 B/38.0 MB of archives.
After this operation, 48.9 MB of additional disk space will be used.
Preconfiguring packages ...
Selecting previously unselected package yacy.
(Reading database ... 95190 files and directories currently installed.)
Unpacking yacy (from .../yacy_1.73.9060_all.deb) ...
Setting up yacy (1.73.9060) ...
Exception in thread \“main\” java.lang.UnsupportedClassVersionError: net/yacy/cora/order/Base64Order : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:643)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)
at java.net.URLClassLoader.access\$000(URLClassLoader.java:73)
at java.net.URLClassLoader\$1.run(URLClassLoader.java:212)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:205)
at java.lang.ClassLoader.loadClass(ClassLoader.java:323)
at sun.misc.Launcher\$AppClassLoader.loadClass(Launcher.java:294)
at java.lang.ClassLoader.loadClass(ClassLoader.java:268)
Could not find the main class: net.yacy.cora.order.Base64Order. Program will exit.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
E: Sub-process /usr/bin/dpkg returned an error code (1)




cat /var/log/apt/term.log

Log started: 2014-05-29 07:14:24
Selecting previously unselected package yacy.
(Reading database ... 95190 files and directories currently installed.)
Unpacking yacy (from .../yacy_1.73.9060_all.deb) ...
Setting up yacy (1.73.9060) ...
Exception in thread \“main\” java.lang.UnsupportedClassVersionError: net/yacy/cora/order/Base64Order : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:643)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)
at java.net.URLClassLoader.access\$000(URLClassLoader.java:73)
at java.net.URLClassLoader\$1.run(URLClassLoader.java:212)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:205)
at java.lang.ClassLoader.loadClass(ClassLoader.java:323)
at sun.misc.Launcher\$AppClassLoader.loadClass(Launcher.java:294)
at java.lang.ClassLoader.loadClass(ClassLoader.java:268)
Could not find the main class: net.yacy.cora.order.Base64Order. Program will exit.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
Log ended: 2014-05-29 07:14:42

Statistik: Verfasst von veto — Do Mai 29, 2014 6:17 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-29 10:30:46

\“Unsupported major.minor version 51.0\”
means that you have an outdated java. apt-get update && apt-get upgrade should fix this. Try also to remove and reinstall java. The latest debian package for YaCy should do that themself but I don\’t know if this works if a version 51 Java 7 is already preinstalled.

Statistik: Verfasst von Orbiter — Do Mai 29, 2014 9:30 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-05-29 10:51:04

yes i did this, i installed the latest debian java-sdk 7 what comes with a lot of other stuff
than i tried to install yacy again.
same failed result, actually the last error i put.

as i know that debian is quite conservative and carefully with latest updates.
maybe i need to install a not debian revised java packet.

Statistik: Verfasst von veto — Do Mai 29, 2014 9:51 am


Hilfe für Einsteiger und Anwender • http://www.yacyweb.de/peers.htm

Date: 2014-05-29 14:10:17

What exactly means this page: http://www.yacyweb.de/peers.htm?

And why doesn\’t my peer show up in there? (according to my peer\’s console page, it is running in Senior mode)

Statistik: Verfasst von oneaty — Do Mai 29, 2014 1:10 pm


Hilfe für Einsteiger und Anwender • Re: http://www.yacyweb.de/peers.htm

Date: 2014-05-29 14:52:16

Hello oneaty,

that ist not an \‘official page\’ or list of the peers, but a but a quite nice page of a supporter of YaCy.
I don\’t know how this list is filled, but I guess it is taken from a peer-list of a running YaCy.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 29, 2014 1:52 pm


Hilfe für Einsteiger und Anwender • Re: http://www.yacyweb.de/peers.htm

Date: 2014-05-29 15:46:04

Thanks sixcooler.
I\’ll keep waiting for a definite answer.

Statistik: Verfasst von oneaty — Do Mai 29, 2014 2:46 pm


Hilfe für Einsteiger und Anwender • Yacy stats SNMP trapping

Date: 2014-05-29 15:56:06

I\’m interested in trapping Yacy System Status via SNMP and graph those stats in Cacti.

Questions:

1 - Are there any OID\’s defined for Yacy?

2 - If the above is NO, is there any shell script available that returns those stats?

If #1 is Yes, then graphing Yacy stats in Cacti is pretty straightforward.

If #1 is NO, then if I had a script that returns those stats, I could easily create a custom OID so that Cacti could read it.

Statistik: Verfasst von oneaty — Do Mai 29, 2014 2:56 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-05-29 16:46:01

SemperVideo hat noch mal nachgelegt: Yacy - Fragen und Antworten

http://www.youtube.com/watch?v=stvNABuz ... 2JEmS7zvQw{.postlink}

Statistik: Verfasst von sixcooler — Do Mai 29, 2014 3:46 pm


YaCy Coding & Architektur • Re: KI in der Suchmaschine

Date: 2014-05-29 20:57:30

Code:
Oder anders gefragt: kann hier jemand Prolog und würde das interessant finden?



Ich behersche Prolog und hätte auch hier Interesse mich mit einzubringen. - So wie eigentlich bei allen Problemen rund um Kognitive Informatik.

Gibt auch, wie für fast alles, ne gute Java-API
http://www.gnu.org/software/gnuprologjava/

Ich hab YaCy jetzt auch mal gecloned auf gitorious.
Was mir allerdings unglaublich helfen würde ist ne genaue Software-Documentation über die gesamte Architektur.
Gibt es da etwas, was mehr in die Tiefe geht als die Wiki? Hab grad auf die schnelle nichts gefunden

Statistik: Verfasst von xumbu — Do Mai 29, 2014 7:57 pm


Hilfe für Einsteiger und Anwender • Freigabe Port 8090 auf Ubuntu 14.04

Date: 2014-05-29 21:38:30

Hallo.

Ich habe mir Yacy gerade eben auf 2 meiner Rechner installiert. Einmal auf Win7 und einmal auf Ubunu 14.04 LTS.

Den Port 8090 habe ich über mein Fritzbox freigegeben. Soweit alles i.O.

Auf meinen Win7 PC läuft alles prima und ich bin im Senior Modus, so wie ich das wollte.

Jetzt habe ich das ganze auf Ubuntu installiert, es läuft, doch leider bekomm ich hier den Port 8090 nicht frei. Also bin im noch im Junior Modus.

Kann mir jemand helfen?

Habe noch über \” sudo ufw disable\” die Firewall von Ubuntu abgeschalten. Es funktioniert leider nicht.

Muss dazu sagen, dass ich Ubuntu erst seit paar Monaten nutze.

Viele Grüße
Daniel

Statistik: Verfasst von _daniel_ — Do Mai 29, 2014 8:38 pm


Hilfe für Einsteiger und Anwender • Re: Freigabe Port 8090 auf Ubuntu 14.04

Date: 2014-05-30 01:31:17

Hallo _daniel_ ,

in einem (NAT-)Router wie Du es sicher hast, kann man nur einmal einen Port an einen Rechner forwarden / freigeben.
Um mehr als ein YaCy laufen zu lassen, stellst Du einfach unter http://localhost:8090/ConfigBasic.html auf einem Rechner unten einen anderen Port ein und startest YaCy neu.
Es sollten alle Ports >1024 funktionieren. Viele zählen einfach um 1 hoch.
Von da an ist dieses YaCy dann unter dem neuen Port erreichbar und Du kannst diesen neuen Port in Deinem Router forwarden / freigeben.

Welche Firewall Ubuntu mitbringt oder wie man da am besten den Port auf macht, weiss ich leider nicht.
Dazu wird Dir bestimmt hier schnell jemand, der sich Ubuntu auskennt, weiterhelfen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Mai 30, 2014 12:31 am


Hilfe für Einsteiger und Anwender • Re: Freigabe Port 8090 auf Ubuntu 14.04

Date: 2014-05-30 09:12:54

sixcooler hat geschrieben:\ Hallo \_daniel\_ ,\ \ in einem (NAT-)Router wie Du es sicher hast, kann man nur einmal einen Port an einen Rechner forwarden / freigeben.\ Um mehr als ein YaCy laufen zu lassen, stellst Du einfach unter auf einem Rechner unten einen anderen Port ein und startest YaCy neu.\ Es sollten alle Ports \>1024 funktionieren. Viele zählen einfach um 1 hoch.\ Von da an ist dieses YaCy dann unter dem neuen Port erreichbar und Du kannst diesen neuen Port in Deinem Router forwarden / freigeben.\ \ Welche Firewall Ubuntu mitbringt oder wie man da am besten den Port auf macht, weiss ich leider nicht.\ Dazu wird Dir bestimmt hier schnell jemand, der sich Ubuntu auskennt, weiterhelfen.\ \ Cu, sixcooler.\



Guten Morgen,

VIELEN Dank für den Hinweis! Ich habe einfach den anderen PC aus dem Router gelöscht und das ganze nochmal auf dem Ubunu PC freigegeben, jetzt klappt das!!!

Wenn ich das Netzwerk unterstützen möchte, sollte dann der Rechner 24h am Tag laufen, oder?

Nochmal DANKE!!!!

Gruß
Daniel

Statistik: Verfasst von _daniel_ — Fr Mai 30, 2014 8:12 am


Hilfe für Einsteiger und Anwender • Re: Freigabe Port 8090 auf Ubuntu 14.04

Date: 2014-05-30 16:28:01

Hallo Daniel,

freut mich das es geklappt hat.

Es ist natürlich besser wenn Peers möglichst viel laufen, aber es hilft auch wenn es überhaupt läuft und Zeitweise aus ist.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Mai 30, 2014 3:28 pm


Hilfe für Einsteiger und Anwender • Re: Freigabe Port 8090 auf Ubuntu 14.04

Date: 2014-05-30 17:30:51

sixcooler hat geschrieben:\ Hallo Daniel,\ \ freut mich das es geklappt hat.\ \ Es ist natürlich besser wenn Peers möglichst viel laufen, aber es hilft auch wenn es überhaupt läuft und Zeitweise aus ist.\ \ Cu, sixcooler.\



Hi!

Ja, es läuft jetzt! :D Da ich das Netbook eh 24h laufen hab, um NXT zu forgen, mach das Sinn, gleich den \“Peer\” noch mit laufen zu lassen und somit 2 Sachen gleichzeitig zu unterstützen.

Bis dahin
Daniel

Statistik: Verfasst von _daniel_ — Fr Mai 30, 2014 4:30 pm


English • Re: Browser preferred language in Yacy search

Date: 2014-05-31 09:21:00

sto hat geschrieben:\ Hello all forum users,\ I am quite new in the field of Yacy but I am definitely supporting it. I have been running a senior node 24/7 for a few weeks now (dome\_cirrus) and I could crawl a few million pages of French + English wikipedia and various newspapers.\ \ The most frustrating thing for me is the language management in the search. When I look for, let\'s say, Obama, I will have the wikipedia results in many languages, which is absurd. I want the results in the languages I can read (namely French, English and a bit of German).\ The solution would be to add /language/XX at the end of the search request. But I don\'t want to do it. It is not user friendly at all.\ \ [[Easy]{style="font-style: italic"} solution suggested to developers:]{style="font-weight: bold"} get the browser preferred language, as DuckDuckGo does, to present the results in that language (user\'s language, let\'s say German), then in English (universal language), then in French/Russian/Spanish/\... (other languages than browser\'s preferred that the general user will generally not understand)\ \ Is it feasible?\ \ This idea leads to a concept of language sub-networks. When someone makes a search in French, it would be good to ask French peers first if they have results for the query. It may not apply with English, of course, as everybody indexes some English pages.\ I have no idea if such a tuning of the DHT system is feasible.\ \ Thank you for reading. Please reply if you have better solutions. I would be glad to have some feedback on these points.\ \ PS: I copy-pasted my original message from as there does not seem to be much activity there.\



Personally I wouldn\’t want the HTTP header to determine what results I get. I think it would be reasonable for YaCy to support a set of configurable \“default languages\” so that if I choose French and English as my default languages, YaCy should automatically include those constraints on searches unless I choose otherwise for that specific search. It would also be fine with me if YaCy detected my HTTP header languages the first time I used it, and asked me if I wanted to use those as the default languages for future searches.

Statistik: Verfasst von biolizard89 — Sa Mai 31, 2014 8:21 am


English • YaCy equivalent of Solr\’s debugQuery?

Date: 2014-05-31 09:44:48

In Solr, you can use the debugQuery field to get information on how each result\’s ranking was calculated: https://wiki.apache.org/solr/SolrReleva ... 22wings.22{.postlink}

Is something similar available for YaCy\’s ranking? I\’d really like to be able to get YaCy results and see how the ranking was calculated (both Solr and RWI).

Statistik: Verfasst von biolizard89 — Sa Mai 31, 2014 8:44 am


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2014-05-31 09:56:23

good point. You can of course use the Solr API in YaCy to get Solr query results including debugQuery information but you point out that there is no transparency in connection with RWI ranking and you are right. I will see how I can add this in the same fashion as Solr does with debugQuery; i.e. in the opensearch API

Statistik: Verfasst von Orbiter — Sa Mai 31, 2014 8:56 am


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2014-05-31 10:08:14

Orbiter hat geschrieben:\ good point. You can of course use the Solr API in YaCy to get Solr query results including debugQuery information but you point out that there is no transparency in connection with RWI ranking and you are right. I will see how I can add this in the same fashion as Solr does with debugQuery; i.e. in the opensearch API\



Excellent, thank you.

Statistik: Verfasst von biolizard89 — Sa Mai 31, 2014 9:08 am


Hilfe für Einsteiger und Anwender • Rootserver Yacy, findet keine peers

Date: 2014-05-31 20:31:26

Hallo,

Ich könnte Yacy auf 10 Rootservern installieren, so das es die dort jeweils nicht genutzten Resourcen verwendet. Jeweils 4-8 Kerne, Trafficflat 1.5 TB (freier) Storage.

Hab das mal unter Debian7/Ubuntu14.4 (server) laufen lassen, connected selbst nach vielen Stunden zu keinerlei peers. Warum das so ist, keine Ahnung bekomme ja keine Fehlermeldung angezeigt.
Also macht es ja jetzt keinen Sinn das auf meine server zu packen wenn es jeweils nur solo läuft. Ne vorgeschaltete Firewall existiert ja bei nem Rootserver nicht, daran kanns also wohl kaum liegen.
Er zeigt ja auch andere peers an, nutzt diese aber nicht zur Suche.

Im Webinterface steht schließlich auch \“Your peer can be reached by other peers\“. Dennoch wird keine (dauerhafte) Verbindung nach außen aufgebaut.

\“You are running a server in senior mode and you support the global internet index, which you can also search yourself.\”

Wenn ich suche werden aber nur die ergebnisse aus den lokal gecrawlten Index angezeigt, kein einziger Treffer von anderen Peers egal was ich suche.

http://localhost:8090/yacy/hello.html:
\“version=1.72 uptime=1 yourip=127.0.0.1 yourtype=virgin mytime=20140531152955 message=no post or no enviroment \”

System
YaCy version 1.729000
Uptime: 0 days 02:19
Processors: 4
Load: 18.17
Protection
password-protected
Unrestricted access from localhost. [Configure]
Address
Host: 89.163.224.10:8090 | SSL: enabled (port -1)
Public Address: http://89.163.224.10:8090
YaCy Address: http://anonphoton.yacy
Proxy
Transparent off URL off
Remote: not used
Auto-popup on start-up
Enabled [Disable]
Tray-Icon
Experimental
Memory Usage
RAM used:252.95 MB
RAM max:533.5 MB
DISK used:(approx.) 15.27 MB
DISK free:585.56 GB


Evtl hat ja jemand ne Ahnung woran das liegen könnte ? Wenn es läuft würde ich nämlich mehr Peers einrichten.

Viele Grüße,

CraWler

Statistik: Verfasst von CraWler — Sa Mai 31, 2014 7:31 pm


Panorama • Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-01 00:13:40

Das EuGH Urteil zum Recht auf Löschung von personenbezogenen Daten in Suchmaschinen betrifft nicht nur Google sondern alle Suchportalbetreiber. Das bringt nun YaCy tatsächlich in unser \‘Panorama\‘-Bereich hinein, denn wir werden inzwischen als Gestalter im Bereich Informationsfreiheit genannt:

https://twitter.com/Boomel/status/472736642747596800 hat geschrieben:\ \@GoogleDE ist nun eine Depublikationsmaschine. Alternativen wie das dezentrale \#YaCy hören sich gut an \



Irgendwann in der Vergangenheit sagte ich mal \‘was wir machen sollte immer legal sein\‘. Das \‘wir\’ bezieht sich auf \‘uns als Softwarehersteller\‘, aber die Frage kann sich ja auch jeder YaCy-Nutzer und -Portalbetreiber stellen. D.h. hier muss früher oder später die Frage auftauchen, ob wir nun auch ein \‘Löschformular\’ anbieten sollen/müssen.

Ich schlage dazu vor, so etwas als per-default nicht eingeschaltete Option einzubauen. Das soll für den YaCy-Betreiber möglichst einfach zu warten sein, d.h. er muss nichts tun. Wer als YaCy-Portalnutzer (nicht der admin) eine Seite löschen will, soll da in ein Webformular rein schreiben:
- Name
- URL
.. und dann wird geprüft ob der Name auf der Seite vorkommt und dann wird die Seite ggf. einfach gelöscht. Naja, ist die einfachste Zensurschnittstelle die man sich vorstellen kann.

Ich vermute folgendes passiert:
- aktiviert keiner
- falls es aktiviert wird, benutzt es keiner
- falls es massiv benutzt wird, merkt jeder was für ein Mist dieses Urteil ist.

Oder wie sollen wir hier vorgehen?

Statistik: Verfasst von Orbiter — Sa Mai 31, 2014 11:13 pm


Hilfe für Einsteiger und Anwender • Re: Rootserver Yacy, findet keine peers

Date: 2014-06-01 00:15:48

also das ist merkwürdig. Offensichtlich funktioniert es ja bei den meisten. Wir müssen rausfinden was bei dir anders ist.
Hast du ggf. eine IPv6 Konfiguration die hier für YaCy unerwartete Prämissen setzt? Bei IPv6 ist bei YaCy nämlich nur ein \‘sollte gehen, aber richtig getestet ists nicht\‘.
Wer hat eine Idee?

Statistik: Verfasst von Orbiter — Sa Mai 31, 2014 11:15 pm


Fragen und Antworten • Blacklist löschen Fehlersuche

Date: 2014-06-01 11:13:20

Hallo zusammen

Ich prüfe derzeit Yacy für ein Projekt, das in nächster Zeit ansteht.
Bei der Arbeit mit den Blacklisten habe ich ein kleines Problem.
Die Yacy-Version ist 1.73.9060 auf einem Ubuntu Server 12 32bit.

Ich hatte zum Testen eine Blackliste

Code:
url.laika.int.black

angelegt, die als Inhalte mehrere Einträge in der Form

Code:
*.laika.int/index/nn/.*

hatte. Das funktionierte auch so, wie gedacht.

Anschliessend habe ich die Blacklist komplett über

Code:
http://yacy:8090/Blacklist_p.html >> Enstellungen dieser Liste >> Liste löschen

gelöscht. Die Liste verschwand dann auch auf der GUI.
Leider greifen die in der Liste definierten Regeln immer noch.
Ein Neustart von Yacy brachte keine Änderung.

Eine Prüfung in \‘http://yacy:8090/BlacklistTest_p.html' ergab

Code:
Die getestete URL war http://www.laika.int/index/nn/bla.txtis not blocked


Eine Kontrolle unter \‘http://yacy:8090/IndexCreateParserErrors_p.html' zeigt

Code:
http://www.laika.int/index/nn/profil/show-310/cat/82.txtFINAL_LOAD_CONTEXT url in blacklist



Habe ich da was übersehen?

Danke für die Antworten : Athea

Statistik: Verfasst von athea — So Jun 01, 2014 10:13 am


Hilfe für Einsteiger und Anwender • Re: Rootserver Yacy, findet keine peers

Date: 2014-06-01 12:53:55

Also die Hauptadresse ist IPv4. Hier lokal funktionierts ja nur auf ner langsamen DorfDSL leitung frists mir zuviel Bandbreite weg.

Statistik: Verfasst von CraWler — So Jun 01, 2014 11:53 am


Fragen und Antworten • Re: Blacklist löschen Fehlersuche

Date: 2014-06-01 16:05:58

Kleines Update:

Wenn man die regeln einzeln löscht, funktioniert es tadellos. Nur halt eine komplette Blacklist löschen klappt nicht.

Grüße : Athea

Statistik: Verfasst von athea — So Jun 01, 2014 3:05 pm


Mitmachen • Autonomous infrastructures for a free Internet

Date: 2014-06-02 01:33:19

Hey,

When I was told about this today, I couldn\’t help thinking that maybe Yacy should attend:

http://backbone409.calafou.org/index.en.html

Let\’s get more people know about Yacy

Statistik: Verfasst von oneaty — Mo Jun 02, 2014 12:33 am


Panorama • Re: Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-02 01:34:28

Als aktivierbare Option scheint mir einen gute Art zu sein damit umzugehen.
Wie sollte man dann als Betreiber vorgehen?
Ich meine wie kann man überprüfen das der, der einen Auffordert etwas zu löschen, auch anrecht darauf hat weil geschädigt ist?
Wohlmöglich kommt der Kram dann ratzfatz via dht in den Peer - man bräuchte wohl eine Möglichkeit eine Seite zu löschen und gleich einen Filter zu setzen - oder?

Statistik: Verfasst von sixcooler — Mo Jun 02, 2014 12:34 am


Off-Topic • Re: Musik-Portale, Internet-Radio, freie Musik

Date: 2014-06-02 01:45:11

gute Chiptunes
http://randomizer.se/tunes/
http://yerzmyey.i-demo.pl/

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 12:45 am


Panorama • Re: Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-02 01:56:16

sixcooler hat geschrieben:\ wie kann man überprüfen das der, der einen Auffordert etwas zu löschen, auch anrecht darauf hat weil geschädigt ist?\


gar nicht :? :P
Ich würde eine Zeitsperre für eine IP drüber legen, so dass man das nicht scripten kann. So etwa: 1 URL pro 24h von der gleichen IP ist \‘erlaubt\‘.

sixcooler hat geschrieben:\ Wohlmöglich kommt der Kram dann ratzfatz via dht in den Peer - man bräuchte wohl eine Möglichkeit eine Seite zu löschen und gleich einen Filter zu setzen - oder?\


genau.

Allerdings schwebt mir noch folgendes vor: eine Veröffentlichung (!) der Sperrliste :D :D :D - wer soll mir verbieten Links zu setzen? Sind ja nicht in einem Suchergebnis. Oder darf ich als Suchmaschinenbetreiber nie wieder Links setzen zu Seiten die existieren? Das würde die Option bieten, gesperrte URLs per API abzurufen. Ich vermute das wäre \‘nur\’ absurd aber nicht illegal. Wie kann man so eine These überprüfen?

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 12:56 am


Hilfe für Einsteiger und Anwender • Re: Rootserver Yacy, findet keine peers

Date: 2014-06-02 01:59:53

in twitter{.postlink} war auch so ein Problem, hat sich gelöst weil es an der Uhr der Rechner lag. Stimmt die Zeit?

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 12:59 am


Mitmachen • Re: Autonomous infrastructures for a free Internet

Date: 2014-06-02 02:04:03

good idea but that is already in two weeks and that is too far away for a \‘fun trip\’ at the weekend..
Maybe someone in spain can represent us there in some way. I will ask on twitter for that tomorrow.

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:04 am


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-06-02 02:13:12

unfortunately there is no such interface in YaCy, but monitoring is definitely an issue. Usage of Cacti for that would be nice.
Is there a minimum example how such an OID/SNMP interface shall look like?

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:13 am


Fragen und Antworten • Re: YaCy restartet nicht bei Update?

Date: 2014-06-02 02:16:29

ein Restart im Rahmen eines Upgrades sollte auch beim Crawlen gehen, jedoch weiss man nie ob nicht da irgendwo ein Deadlock ist (wo keiner sein soll) und es daran hängen bleibt.

Wenn du so etwas reproduzierbar hast, dann starte YaCy mal mit der Option -l, reproduziere den Hänger und mache ein kill -3 auf den Java-Prozess. Im YaCy-Homeverzeihnis hast du dann eine yacy.log wo hinten dran ein Thread dump ist wo man sehen kann wo der Hänger ist. Das würde helfen den zu fixen.

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:16 am


English • Re: Crawl isnt really starting

Date: 2014-06-02 02:18:12

if a crawl does not start then problably something happend that is reported in /IndexCreateParserErrors_p.html
Please have a look there;

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:18 am


Hilfe für Einsteiger und Anwender • Re: \“Zweitport\” angeben

Date: 2014-06-02 02:20:29

Wenn du irgendwas vor YaCy hast, was von Port 80 auf 8090 umleitet (ein nginx z.B.) dann würde das Sinn machen.
Da musst du nur eine Option einbauen und überall entsprechend im Interface drauf testen und dann mit/ohne Port ausgeben...

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:20 am


Wunschliste • Re: Debian-Repository mit leicht überprüfbarem Schlüssel

Date: 2014-06-02 02:29:50

ja das ist mein Schlüssel und das müsste ich wohl dann mal machen... Ich schaue mal wo ich eine keysigningparty finde...

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:29 am


Hilfe für Einsteiger und Anwender • Re: Indexierung SMB Shares

Date: 2014-06-02 02:33:10

SMB shares mit Accounts zu indexieren läuft immer in die gleiche Logik: wenn man einen Account nimmt, brauch man den auch zum Suchen, sonst sind Suchergbnisse sinnlos. Dann müsste man den Account aber allen suchenden geben, damit wäre es überhaupt sinnlos einen Account zu nehmen.

Ein \‘richtige\’ Lösung müsste im Suchinterface auch den suchenden authentifizieren und damit müsste in YaCy ein neues Auth-Modul rein, das z.B. ActiveDirectory-Verbindungen bauen kann. Das kann hier aber offenbar keine programmieren. Kannst du?

Statistik: Verfasst von Orbiter — Mo Jun 02, 2014 1:33 am


Fragen und Antworten • Re: Blacklist löschen Fehlersuche

Date: 2014-06-02 10:19:16

Ich werde mal schauen, ob ich das Verhalten reproduzieren kann.

Hast du YaCy über das deb-Paket installiert oder einfach nur das tar.gz entpackt?

Im zweiten Fall schau mal unter \$YACY_VERZEICHNIS/DATA/LISTS nach, ob du dort die Datei \“url.laika.int.black\” findest und was da drin steht.

Im ersten Fall weiß ich leider eben aus dem Kopf nicht, wo YaCy die Daten ablegt. Aber wenn du das LISTS-Verzeichnis findest, wäre es ebenfalls super, wenn du kurz nachsehen könntest, was noch in der Datei steht (sofern vorhanden).

Statistik: Verfasst von Low012 — Mo Jun 02, 2014 9:19 am


Hilfe für Einsteiger und Anwender • Re: \“Zweitport\” angeben

Date: 2014-06-02 10:27:34

OK, muss ich mal schauen, wann ich das schaffe. Ich dachte, so etwas hätte schonmal gegeben, da habe ich mich wohl geirrt.

Statistik: Verfasst von Low012 — Mo Jun 02, 2014 9:27 am


Hilfe für Einsteiger und Anwender • Re: Indexierung SMB Shares

Date: 2014-06-02 11:14:18

vielen Dank für deine Antwort!

Andere Produkte im Windows-Umfeld indexieren mit einem hoch privilegiertem User. Damit dieser alles crawlen kann. Die Suchergebnisse werden aber nach entsprechenden Rechten des angemeldeten Users ausgegeben. Also mit den gleichen Rechten, die der User/Gruppe sowieso schon auf die Dateien hat.

Genau das hast du im letzten Satz eigentlich geschrieben. Das wäre eine \“richtige\” Lösung.…

Wenn ich könnte, würde ich sofort helfen. Aber leider habe ich keinen Plan vom Programmieren.

Grüsse

Statistik: Verfasst von clipboard — Mo Jun 02, 2014 10:14 am


Fragen und Antworten • deutsche yacy browser geht nicht

Date: 2014-06-02 17:40:55

deutsche yacy browser suchen maschine 64 bit geht nicht --------- nur installieren und fertig geht nicht und auch andere softwaren musste ich installieren bis zu 5 installationen

Statistik: Verfasst von lopoooo8 — Mo Jun 02, 2014 4:40 pm


Fragen und Antworten • Re: Blacklist löschen Fehlersuche

Date: 2014-06-02 20:57:39

Hi und danke für die Antwort.
Ich kann den Fehler selbst leider nicht mehr nachstellen. Ich hatte yacy aus dem Repository debian.yacy.net installiert. Gestern gab es da noch ein Update auf 1.73.9069 zu installieren. Heute funktioniert alles erst mal wieder soll.
Sorry für die Mühen.

Btw: Auf der Blacklist/Filter-Seite steht, dass man die einzelnen Listen (de)aktivieren kann. Leider finde ich nur die Funktion Blacklist freigeben/nicht freigeben.

Fehlt da was oder habe ich ein Guck-Problem? ;)
Grüße : Athea

Statistik: Verfasst von athea — Mo Jun 02, 2014 7:57 pm


Fragen und Antworten • Crawl einer \“file://\” URL führt zu HTTP Error 500

Date: 2014-06-02 21:07:31

Hallo,

Ich habe YaCy auf dem Raspberry Pi installiert. Als Anwendungszweck habe ich \“Intranet Indexierung\” eingestellt. Damit sollte es doch auch möglich sein, ein (verteiltes) Dateisystem zu indizieren. Ich möchte an den RPI eine externe Festplatte anschließen, auf der verschiedene Dokumente liegen, die ich mit YaCy dann durchsuchen möchte.
Dabei muss ich, wenn ich es richtig verstanden habe, eine URL vom Typ file:// angeben. Zu Testen habe ich das Verzeichnis \“/home/pi/files\” erstellt. Wenn ich allerdings die URL \“file:///home/pi/files\” crawle erhalte ich einen HTTP Error 500.
Diesen Fehler erhalte ich auch, wenn ich nur \“file:///\” crawle, was ja unter Linux das Hauptverzeichnis ist.
Auf dem Raspberry Pi läuft das aktuelle Raspbian.

Hier nochmal die komplette Fehlermeldung:

Code:
HTTP ERROR 500Problem accessing /Crawler_p.html. Reason:    Server ErrorCaused by:javax.servlet.ServletException: /home/pi/yacy/DATA/LOCALE/htroot/de/Crawler_p.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:755)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at org.eclipse.jetty.server.Server.handle(Server.java:370)   at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)   at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982)   at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043)   at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865)   at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240)   at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)   at java.lang.Thread.run(Thread.java:745)YaCy 1.72 - powered by Jetty -



Danke für eure Hilfe

Johnathan316

Statistik: Verfasst von Johnathan316 — Mo Jun 02, 2014 8:07 pm


Fragen und Antworten • Re: Blacklist löschen Fehlersuche

Date: 2014-06-03 18:37:27

Wenns erstmal klappt ists ja gut, aber wenn es wieder Probleme gibt, poste einfach wieder in diesem Thread, dann bekomme ich eine E-Mail-Benachrichtigung und kann nochmal schauen.

Mit dem (De-)Aktivieren ist das an-/abhaken für die unterschiedlichen Teile von YaCy gemeint, wo die Blacklisteinträge berücksichtigt werden können (siehe Screenshot). Eine Option wie \“freigeben/nicht freigeben\“, die unabhängig von den Einstellungen über die Haken für die ganze Liste gilt, gibt es nicht.

xxxxxxxxxxxxxxxxx.png

Statistik: Verfasst von Low012 — Di Jun 03, 2014 5:37 pm


Fragen und Antworten • Re: Blacklist löschen Fehlersuche

Date: 2014-06-04 06:24:00

Hiho,

danke für Info und Support. Einen schönen Tag noch.

Athea

Statistik: Verfasst von athea — Mi Jun 04, 2014 5:24 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-06-04 09:06:10

http://level-23.cc/forum/showthread.php ... rch-Engine{.postlink}

Auf einer französischen Linuxseite sind wir nun in der Empfehlungslisze an DDG und Startpage vorbeigezogen. Seeks landet auf erster Stelle, obwohl das Projekt offensichtlich (leider!) tot ist _und_ weniger Votes bekommen hat.
http://linuxfr.org/news/se-passer-de-go ... -recherche{.postlink}

Statistik: Verfasst von Orbiter — Mi Jun 04, 2014 8:06 am


English • Re: Your peer cannot be reached from outside. Yes, it can!

Date: 2014-06-04 10:37:31

Same problem with an IPv6 only node: the web interface can be reached, the node can talk with other nodes over the net, but it is locked in Junior mode because it is declared unreachable.

Statistik: Verfasst von dClauzel — Mi Jun 04, 2014 9:37 am


English • How to get the list of indexed url by a crawl?

Date: 2014-06-04 10:47:59

I am looking for a way to get the list of all URl indexed by a craw, so I can check what has (not) been collected in order to refine the exclusion rules.

I looked into the Index administration (IndexControlURLs_p.html) it looks like there is no way to do that.

How to get the list of indexed url by a crawl?

Statistik: Verfasst von dClauzel — Mi Jun 04, 2014 9:47 am


English • Re: How to get the list of url indexed by a crawl?

Date: 2014-06-04 12:20:22

well, that is finally easy :) - assign a collection name to your crawl start which identifies the crawl (just give any name, see field \“Add Crawl result to collection(s)\“)
- use the solr search interface to get a list restricted to that collection. I.e, if the collection name was \‘crawl1\‘, then get the url with path

Code:
/solr/collection1/select?q=collection_sxt:crawl1&defType=edismax&start=0&rows=100&fl=sku


you can adopt the start number and rows number here to get all or parts of the list.

Statistik: Verfasst von Orbiter — Mi Jun 04, 2014 11:20 am


English • Re: How to get the list of url indexed by a crawl?

Date: 2014-06-04 15:52:47

That\’s perfect. Thanks!

We really need more web interface to explore the index. I can work with xml, but the non-technical users… :/

Statistik: Verfasst von dClauzel — Mi Jun 04, 2014 2:52 pm


English • Re: Browser preferred language in Yacy search

Date: 2014-06-04 22:23:49

Thanks for your feedback, this solution looks 100% OK to me.

Statistik: Verfasst von sto — Mi Jun 04, 2014 9:23 pm


Hilfe für Einsteiger und Anwender • Re: Indexierung SMB Shares

Date: 2014-06-05 00:24:30

\@clipboard: Nein, da bin ich anderer Meinung. Mit erhöhten Rechten für die Suche indizieren ist ein Sicherheitsrisiko, das man nicht eingehen sollte.
Es geht lediglich darum, sicher zu stellen, dass die Verbindung zum SMB share hergestellt ist, wenn die Indizierung stattfindet.

Statistik: Verfasst von gTSj — Mi Jun 04, 2014 11:24 pm


Hilfe für Einsteiger und Anwender • Re: http- und https-Adresse erzeugen doppelte Treffer

Date: 2014-06-05 00:41:44

Ich halte zwei Lösungen für diesen Fall (http und https sind verfügbar und Websiten haben den gleichen Inhalt) für sinnvoll:
1. nur https-URL im Index speichern und als Suchergebnis anzeigen
2. eine der beiden URLs (konsistent) und dazu ein flag („kann http und https”) speichern. Per Einstellungen kann man dann

Ich tendiere zur ersten Lösung, weil es keinen Grund gibt, unverschlüsselt Daten zu übertragen, die verschlüsselt übertragen werden können.

Allerdings besteht bei der Anzeige von https-Verbindungen immer das Risiko, dass der TrustStore für SSL-Zertifikate zwischen Yacy-Instanzen (TrustStore von Java oder dem Betriebssystem) und Browsern (TrustStore des Browsers oder des Betriebssystems) zu viel variieren, so dass manche Seiten unerreichbar werden.
Die saubere Lösung wäre wohl, die verschiedenen TrustStores zu vergleichen und daraus eine Liste „üblicher” Zertifizierungsstellen zu generieren. (Aufwand!)

Statistik: Verfasst von gTSj — Mi Jun 04, 2014 11:41 pm


English • Some questions before try out

Date: 2014-06-05 07:02:29

I have a few questions before I try out Yacy;

1. Is it possible to crawl only specific website(ex. only my websites)
and don\’t crawl other websites
and distribute my webpage to other peers?

2. Does Yacy read \“Sitemap:\” in robots.txt?

3. I heard that Yacy eats up CPU power - it is safe to use Yacy on a laptop?

Thanks.

Statistik: Verfasst von wolfenstein — Do Jun 05, 2014 6:02 am


English • Re: Some questions before try out

Date: 2014-06-05 07:56:57

wolfenstein hat geschrieben:\ I have a few questions before I try out Yacy;\ \ 1. Is it possible to crawl only specific website(ex. only my websites)\ and don\'t crawl other websites\ and distribute my webpage to other peers?\ \ 2. Does Yacy read \"Sitemap:\" in robots.txt?\ \ 3. I heard that Yacy eats up CPU power - it is safe to use Yacy on a laptop?\ \ Thanks.\



1. Yes, you can choose to only crawl certain websites, and those websites will be added to the global index.
2. Pretty sure it does, but I\’m not 100% certain.
3. I\’ve used it under a variety of circumstances on a laptop, with mixed results. Under some circumstances it works great; under other (more demanding) circumstances it can be a problem. My advice: try it, see if it works for you, if it doesn\’t then stop using it and file a bug report.

Statistik: Verfasst von biolizard89 — Do Jun 05, 2014 6:56 am


Mitmachen • YaCy für \“GNU/Linux\” (Link auf YaCy.net)

Date: 2014-06-05 09:04:50

Hallo!

Da YaCy ja auf Java basiert, habe ich mir gedacht \“eigentlich müßte das ja so gut wie überall laufen\“. Also die \“GNU/Linux\” Version gesaugt, und einfach Mal auf Oracle Solaris 11.1 und PC-BSD UNIX 9.2 getestet, in ersterem Fall mit der Oracle JRE, und im zweiteren mit OpenJDK, jeweils Version 7 natürlich. Auch unter CentOS Linux hab ich Mal mit OpenJDK und auch Oracles JDK probiert, das rennt mit beiden scheints wunderbar (Auf Windows isses ja auch Oracles JRE die man verwendet).

Jetzt ist es so, daß der Downloadlink auf YaCy.net explizit \“GNU/Linux\” und OpenJDK 7 vorschreibt. Ich will jetzt natürlich niemandem einreden, man solle die Oracle JDK/JRE statt dessen verwenden, beim besten Willen nicht. Aber vielleicht sollte man doch sowas wie \“GNU/Linux and UNIX\” oder so schreiben, oder drunter anmerken, daß YaCy eben auch auf anderen unixoiden Systemen und JREs sauber läuft.

Ist nur eine Idee am Rande..

Statistik: Verfasst von GrandAdmiralThrawn — Do Jun 05, 2014 8:04 am


English • Re: Some questions before try out

Date: 2014-06-05 09:43:57

Hi, thanks for a reply. I\’m trying it now, but...

My Current config:
Basic Config = Search portal for your own web pages
System Administ - Remote Proxy (optional) = HTTP Proxy is set

1. Why \“Robinson mode\“? (Set automatically)
System Administ - Network Configuration = Robinson mode
Should I change to P2P mode to distribute my results?

2. Can I restrict what to crawl by YaCy? (ex. \“Deny *.*; Allow my.domain.com)

Statistik: Verfasst von wolfenstein — Do Jun 05, 2014 8:43 am


English • Re: Some questions before try out

Date: 2014-06-05 10:48:47

wolfenstein hat geschrieben:\ Hi, thanks for a reply. I\'m trying it now, but\...\ \ My Current config:\ Basic Config = Search portal for your own web pages\ System Administ - Remote Proxy (optional) = HTTP Proxy is set\ \ 1. Why \"Robinson mode\"? (Set automatically)\ System Administ - Network Configuration = Robinson mode\ Should I change to P2P mode to distribute my results?\ \ 2. Can I restrict what to crawl by YaCy? (ex. \"Deny \*.\*; Allow my.domain.com)\



If you want your crawls to be shared with the public index then you don\’t want \“Search portal for your own web pages\”... there should be an option somewhere to join the \“freeworld\” network.

YaCy will only crawl what you tell it to crawl. If you use the HTTP proxy that it provides, it will index every page you visit, but that\’s entirely optional (and it sounds like you don\’t want to do that). So don\’t use the proxy and you should be fine. There\’s a place in the admin interface where you can tell it to start crawling certain websites.

Statistik: Verfasst von biolizard89 — Do Jun 05, 2014 9:48 am


Hilfe für Einsteiger und Anwender • Benutzer

Date: 2014-06-05 12:48:18

Hallöchen,

Sagt mal ist es möglich die Suche nur für Benutzer zu erlauben? D.h. Erst Login dann suche?

Gruß Marcel

Statistik: Verfasst von DarkVampir — Do Jun 05, 2014 11:48 am


Hilfe für Einsteiger und Anwender • Connections

Date: 2014-06-05 13:28:09

I\’m starting to graph some Yacy status variables on Cacti, but I don\’t understand the meaning of \“connects\“, that show in /Network.xml page.

Bild

Does it have any relationship with \“Incoming Connections\” that show on the System Status frame at /Status? If not, is there any xml page where I can get these Incoming connections count?

Bild

Statistik: Verfasst von oneaty — Do Jun 05, 2014 12:28 pm


Hilfe für Einsteiger und Anwender • Mit Yacy Rechner lahme Kiste - System Ressourcen weg

Date: 2014-06-05 15:37:42

Grundsätzlich finde ich die Idee hinter Yacy gut, und habe auch zunächst enthusiastisch alles eingerichtet.
Doch leider läuft nun Yacy, aber für meine sonstigen normalen Gebrauch sind keine System Ressourcen mehr übrig.
Überhaupt habe ich das Gefühl nur noch störender Gast auf dem Rechner zu sein. Die Surfgeschwindigkeit ist nur noch mit
einem uralt Netbook zu vergleichen. :o Nach 3 Tagen war meine HDD derart fragmentiert dass Defrag 6 std. brauchen um das Chaos
zu entwirren. :o
Ach ja, der Service (win32) fliegt regelmäßig raus, was yacy aber nicht weiter hindert Daten zu schaufeln.
Tja, 800 Euro im Jahr Strom für einen Proliant Server zu zahlen, ist mir zu teuer, obwohl ich glaube dass richtig wäre für Yacy. :roll:

:ugeek:

Könnte man nur den Ressourcen Hunger von Yacy drosseln, dann ging dass ja so im Hintergrund auf einem Arbeitsrechner.

Statistik: Verfasst von Drapper — Do Jun 05, 2014 2:37 pm


Hilfe für Einsteiger und Anwender • Re: Mit Yacy Rechner lahme Kiste - System Ressourcen weg

Date: 2014-06-05 16:40:27

Hallo Drapper,

schau mal unter http://localhost:8090/Crawler_p.html und http://localhost:8090/PerformanceQueues_p.html
Dort lassen sich die Crawl-Geschwindigkeit (ppm) und weiter delays zu den Prozessen einstellen.
Experimentiere ein wenig mit den Werten herum um ein Setting zu finden das die richtige Menge an Resourcen für Dich übrig lässt.

Zum Win32-Service kann ich mangels Erfahrung auf der Plattform leider nichts sagen.
Das YaCy zu heftiger fragmentierung führt sollte eigentlich nicht sein. Indexdateien werden immer am Stück geschrieben und sollten so auch nicht fragmentiert sein.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jun 05, 2014 3:40 pm


Hilfe für Einsteiger und Anwender • Tag- und Kategorie-Seiten in den Suchergebnissen abwerten?

Date: 2014-06-05 18:43:13

Hallo Yacy-Community,

ich betreibe unter http://tuxsucht.de eine Google-CSE, die nur deutschsprachige Inhalte rund um Linux und freie Software abbildet. Schon länge schiele ich darauf auf Yacy umzusteigen -- rein vom Gefühl her ist auf der Seite Google fehlt am Platz ;) Nun habe ich auf einem kleinen Server testweise Yacy eingerichtet. Unter http://linuxandi.net:8090 lässt sich das schon aufrufen. Nun bin ich dabei ein paar Seiten zu indexieren, was schon einmal gut klappt.

Woran ich mir aber aktuell die Zähne ausbeiße ist ein brauchbares Ranking, bei sehr generischen Suchbegriffen wie Ubuntu (Siehe http://linuxandi.net:8090/yacysearch.html?query=ubuntu) Die obersten Treffer sind allesamt Kategorie und Tag-Seiten wie blog.example.com/cat/... oder blog.example.com/tag/... \“Richtige\” Beiträge finden sich erst sehr weit hinten. Ich habe schon verschiedene Solr-Boosts-Einstellungen probiert, aber diese Seiten landen immer ganz vorne. Könnte mich hier jemand an die Hand nehmen, und mir ein paar Tipps geben, wie das richtig zu konfigurieren ist?

Danke
Christoph

Statistik: Verfasst von Chrissss — Do Jun 05, 2014 5:43 pm


Hilfe für Einsteiger und Anwender • Re: Tag- und Kategorie-Seiten in den Suchergebnissen abwerte

Date: 2014-06-05 19:03:11

Ich antworte mir mal schnell selber... Ich habe entsprechend viewtopic.php?f=18&t=5192#p29956{.postlink-local} auf \“Gemeinschafts-basierte Web Suche\” als Anwendungsfall umgestellt und dann den Robinson-Modus aktiviert. So sehen die Ergebnisse jetzt besser aus. Zufall? Musste ich warten bis der Index ordentlich gefüllt war?

Statistik: Verfasst von Chrissss — Do Jun 05, 2014 6:03 pm


Fragen und Antworten • Regex Escape Sequences

Date: 2014-06-05 19:37:15

Hallo!

Ich bitte es zu entschuldigen, falls ich wo Dokumentation übersehen haben sollte, aber ich wollte fragen, welchen Regex \“Slang\” YaCy spricht. Ich würd mir gern ein paar Advanced Crawler für Foren zurechtstoppeln, aber bevor ich die losschicke:

Weiß jemand, welche Zeichen ich in YaCy escapen muß? . ist Mal klar, / und * wohl auch. | ebenso und () schätze ich, aber was ist mit Dingen wie & oder \’ oder \“? Oder Ticks und Backticks, also ´ und `?

Gibt\’s wo eine Liste der Escape Sequences oder einen Link zur Regex Syntax für YaCy?

Danke!

(Habe auch das Forum durchsucht, aber leider ohne Ergebnis).

Statistik: Verfasst von GrandAdmiralThrawn — Do Jun 05, 2014 6:37 pm


Fragen und Antworten • Re: Regex Escape Sequences

Date: 2014-06-05 20:56:54

Habs grad eilig, daher nur ganz kurz: Die Regex-Syntax müsste eigentlich überall den Java-Syntax entsprechen, da die regulären Ausdrücke meistens einfach an Java weitergeleitet werden.

Statistik: Verfasst von Low012 — Do Jun 05, 2014 7:56 pm


Fragen und Antworten • Re: Regex Escape Sequences

Date: 2014-06-05 21:47:06

genau, hier der Link zur Doku: http://docs.oracle.com/javase/7/docs/ap ... ttern.html{.postlink}

Statistik: Verfasst von Orbiter — Do Jun 05, 2014 8:47 pm


Hilfe für Einsteiger und Anwender • Re: Tag- und Kategorie-Seiten in den Suchergebnissen abwerte

Date: 2014-06-06 01:51:09

der wesentliche Unterschied zwischen dem Portalmodus und dem P2P-Modus mit Robinsoneinstellung ist das Ranking, welches durch die RWI-Postranking nach den Solr-Rankingregeln aufgebracht wird. Das ganze wird noch ein wenig gewürzt dadurch, dass im aktuellen 1.72 Release die RWIs im Portalmodus versehentlich eingeschaltet waren... :oops:

Also meine Empfehlung: Wie in den Portalmodus schalten, dann in /IndexFederated_p.html kontrollieren dass das Flag \“support peer-to-peer index transmission (DHT RWI index)\” AUS ist, dann Ranking-Tests machen und Boosts in /RankingSolr_p.html \‘nachschrauben\‘.
Im Boost Query experimentiere ich ja mit der Option \“crawldepth_i:0\^0.8 crawldepth_i:1\^0.4\“, was kürzeren Pfaden, bzw. solchen die \“näher\” am Crawl Start dran sind einen kleinen Kick nach oben gibt. Eventuell die Werte vergrößern...

Du hast noch mehr Optionen: ggf. kommen die tag-Seiten so hoch, weil der Suchbegriff in der URL ist. Das kannst du abschalten, indem du \“url_paths_sxt\” ausschaltest.
Oder du rankst URLs, die kein \‘tag\’ drin haben höher, also eine Boost Query mit -url_paths_sxt:tag\^10 (hab das nicht getestet, probier mal).

Statistik: Verfasst von Orbiter — Fr Jun 06, 2014 12:51 am


Panorama • Re: Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-06 13:15:05

Hab jetzt das hier{.postlink} gefunden:

http://www.vdi-nachrichten.com/Technik-Gesellschaft/Google-beginnt-zu-loeschen hat geschrieben:\ Nichtkommerzielle Suchmaschinenbetreiber wie Metager sind von dem Urteil nicht betroffen.\

Statistik: Verfasst von Orbiter — Fr Jun 06, 2014 12:15 pm


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-06-06 13:30:43

Yes.
Like I suggested above, there are two possible aproaches when you want to use Cacti for monitoring: by collecting monitoring data thru any SNMP OID (either pre-package or custom ones) or thru a script.
I\’ve chosen the second alternative (not exactly sure why :roll: ) and I\’ve been collecting and monitoring Yacy data from two sources: http://myserver:8090/Network.xml and http://myserver:8090/PerformanceMemory_p.xml.
Below follow some screenshots of what you get, as well as attachments for the Cacti templates and the scripts for those who want to try.
DISCLAIMER: Those two C scripts were my first C programs (I\’m an old COBOL programmer 8-) so they probably can be optimized and better stylished. Nevertheless, they\’re running smoothly (at least in my Ubuntu 14.04 server).

Bild

Bild

(Note: The vertical gap in the graphs is a power outage that happened yesterday)

In Cacti, you can expand any of the graphs above by clicking on them. Below, a screenshot of one of them:

Bild

Also, I had some minor issues regarding file locks, when executing the scripts, due to the way I designed the data collecting process: instead of directly reading the web xml produced by Yacy (too much for my zero knowledge in C), I chose to create two crontab entries to download the xml from Yacy to local files aimed to be the script inputs. The issue was that sometimes Cacti was executing the scripts at the exact same time as wget, so sometimes they were not producing any data. I solved this by using a temporary file and delaying the download process by some seconds. The two crontab entries are:

* * * * * sleep 30; wget -O /home/user/bin/tmp.xml http://ipaddress:8090/Network.xml > /home/user/log/yacy_wget.log 2>&1; mv /home/user/bin/tmp.xml /home/user/bin/Network.xml
* * * * * sleep 30; curl -o /home/user/bin/tmp1.xml -u admin:password http://ipaddress:8090/PerformanceMemory_p.xml > /home/user/log/yacy_curl.log 2>&1; mv /home/user/bin/tmp1.xml /home/user/bin/PerformanceMemory_p.xml

(you may want to customize user, ipaddress and password to your linux user, server ip and yacy admin password, respectively)

The scrips run every minute to be in sync with Cacti polling interval, which, in my case, is a 1 minute interval.

Statistik: Verfasst von oneaty — Fr Jun 06, 2014 12:30 pm


Panorama • Re: Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-06 13:48:59

Damit ist die Sache zum Glück ja Gelöst. :D

Orbiter hat geschrieben:\ Hab jetzt [das hier](http://www.vdi-nachrichten.com/Technik-Gesellschaft/Google-beginnt-zu-loeschen){.postlink} gefunden:\ >
> > http://www.vdi-nachrichten.com/Technik-Gesellschaft/Google-beginnt-zu-loeschen > hat geschrieben:Nichtkommerzielle Suchmaschinenbetreiber wie Metager > sind von dem Urteil nicht betroffen.\ > >


Yacy ist eine Nichtkommerzielle Suchmaschine und daher nicht Betroffen. :D Hatte schon Angst bekommen, wenn nun auch bei Yacy über Zensur nachgedacht würde - dass würde mit nicht Gefallen.

Statistik: Verfasst von Drapper — Fr Jun 06, 2014 12:48 pm


English • Monitoring Yacy in Cacti

Date: 2014-06-06 14:08:20

After using Cacti to monitor the server(http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5201), I started monitoring Yacy itself.
There are two possible aproaches when you want to use Cacti for monitoring: by collecting monitoring data thru any SNMP OID (either pre-package or custom ones) or thru a script.
I\’ve chosen the second alternative (not exactly sure why :roll: ) and I\’ve been collecting and monitoring Yacy data from two sources: http://myserver:8090/Network.xml and http://myserver:8090/PerformanceMemory_p.xml.
Below follow some screenshots of what you get, as well as attachments for the Cacti templates and the scripts for those who want to try.
DISCLAIMER: Those two C scripts were my first C programs (I\’m an old COBOL programmer 8-) so they probably can be optimized and better stylished. Nevertheless, they\’re running smoothly (at least in my Ubuntu 14.04 server).

Bild

Bild

(Note: The vertical gap in the graphs is a power outage that happened yesterday)

In Cacti, you can expand any of the graphs above by clicking on them. Below, a screenshot of one of them:

Bild

Also, I had some minor issues regarding file locks, when executing the scripts, due to the way I designed the data collecting process: instead of directly reading the web xml produced by Yacy (too much for my zero knowledge in C), I chose to create two crontab entries to download the xml from Yacy to local files aimed to be the script inputs. The issue was that sometimes Cacti was executing the scripts at the exact same time as wget, so sometimes they were not producing any data. I solved this by using a temporary file and delaying the download process by some seconds. The two crontab entries are:

* * * * * sleep 30; wget -O /home/user/bin/tmp.xml http://ipaddress:8090/Network.xml > /home/user/log/yacy_wget.log 2>&1; mv /home/user/bin/tmp.xml /home/user/bin/Network.xml
* * * * * sleep 30; curl -o /home/user/bin/tmp1.xml -u admin:password http://ipaddress:8090/PerformanceMemory_p.xml > /home/user/log/yacy_curl.log 2>&1; mv /home/user/bin/tmp1.xml /home/user/bin/PerformanceMemory_p.xml

(you may want to customize user, ipaddress and password to your linux user, server ip and yacy admin password, respectively)

The scrips run every minute to be in sync with Cacti polling interval, which, in my case, is a 1 minute interval.

Statistik: Verfasst von oneaty — Fr Jun 06, 2014 1:08 pm


Fragen und Antworten • Re: Regex Escape Sequences

Date: 2014-06-06 14:41:28

Danke!

Habe hierzu auch eine Seite von einem Kollegen geschickt bekommen, wo man Java Regex super testen kann: [Link{.postlink}]. :)

Statistik: Verfasst von GrandAdmiralThrawn — Fr Jun 06, 2014 1:41 pm


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-06-06 14:55:23

Now I realize I didn\’t answer Orbiter\’s question.

As far as my SNMP knowledge goes, an SNMP interface for a specific package like Yacy means creating new OID\’s for each variable you want to monitor.
Example: a OID for Free Memory, a OID for Used Memory, etc.
You can create new OID\’s by adding directives in snmpd.conf file, much like as in here (http://www.zwamneus.nl/creating-a-custom-snmp-oid-for-a-bash-script/)

But as far as Cacti (and other monitoring tools like Zabix) is concerned, a SNMP OID as data input method is one of the alternatives, the other being a stand-alone script like the ones I showed above.

So, in summary, if you want to let Yacy be monitored by tools like Cacti, make sure you provide xml pages with as many attributes as you may want to monitor.

In my humble opinion, you don\’t need to focus in creating a SNMP interface since you already provide the xml interfaces that can easily act as data input methods for those tools.

My suggestion would be, maybe, to add some more attributes to Network.xml (or create a new xml for those new attributes), for example, disk usage, or any other attribute that currently doesn\’t show in the xmls but is already present in the /Status pages.

Statistik: Verfasst von oneaty — Fr Jun 06, 2014 1:55 pm


Fragen und Antworten • Re: Regex Escape Sequences

Date: 2014-06-06 19:50:40

oh für den gleichen Zweck ist auch ein regex checker in YaCy drin!

/RegexTest.html

Statistik: Verfasst von Orbiter — Fr Jun 06, 2014 6:50 pm


English • Re: Monitoring Yacy in Cacti

Date: 2014-06-06 20:09:12

very impressive! good work!
I need some time to test that all...

Statistik: Verfasst von Orbiter — Fr Jun 06, 2014 7:09 pm


Hilfe für Einsteiger und Anwender • Re: Mit Yacy Rechner lahme Kiste - System Ressourcen weg

Date: 2014-06-06 22:53:11

Hallo Sixcooler,
danke für den Tipp. Habe Experimentiert ein wenig mit den Werten und tatsächlich habe ich den Ressourcenhunger etwas drosseln können, auch wenn meine Internet Leitung nicht gerade schneller wird. (24Mb/sec Down 1,8Mb/sec Up)

Wenn man von gelegentlichen Bluescreen´s :lol: absieht läuft es jetzt ganz gut. Nur die Fragmentierung macht mir Kummer:

Code:
Fragmente       Dateigröße      Am stärksten fragmentierte Dateien849             60 MB           \Dokumente und Einstellungen\xpuser\Eigene Dateien\Eigene Musik\ARTPOP - Lady Gaga.mp3446             40 MB           \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_za.fdt176             22 MB           \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_za_Lucene41_0.tim121             11 MB           \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_yz.fdt81              7 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_zl.fdt78              9 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_za_Lucene41_0.pos65              6 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_100.fdt64              1,024 KB        \System Volume Information\_restore{A44D02C2-E5B8-4EB7-A50D-39365452ABA9}\RP56\change.log.4164              1,024 KB        \System Volume Information\_restore{A44D02C2-E5B8-4EB7-A50D-39365452ABA9}\RP56\change.log.4363              7 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_yz_Lucene41_0.tim56              7 MB            \Dokumente und Einstellungen\xpuser\Lokale Einstellungen\Anwendungsdaten\Google\Chrome\User Data\WidevineCDM\1.4.4.600\_platform_specific\win_x86\widevinecdm.dll51              808 KB          \System Volume Information\_restore{A44D02C2-E5B8-4EB7-A50D-39365452ABA9}\RP56\change.log48              6 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_za_Lucene41_0.doc35              964 MB          \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20140606190122343.blob34              4 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_zl_Lucene41_0.tim34              4 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_100_Lucene41_0.tim33              1,024 KB        \System Volume Information\_restore{A44D02C2-E5B8-4EB7-A50D-39365452ABA9}\RP56\change.log.4031              489 KB          \System Volume Information\_restore{A44D02C2-E5B8-4EB7-A50D-39365452ABA9}\RP56\change.log.4429              2 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_zw.fdt27              1 KB            \WINDOWS\system32\config\software.LOG26              1 KB            \WINDOWS\system32\config\system.LOG26              3 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_zx.fdt25              108 KB          \Dokumente und Einstellungen\xpuser\Lokale Einstellungen\Anwendungsdaten\Google\Chrome\User Data\Default\Cache24              3 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_yz_Lucene41_0.pos24              3 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_47\collection1\data\index\_z3.fdt21              1 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\LOG\yacy06.log21              1 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\LOG\yacy012.log21              1 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\LOG\yacy04.log21              1 MB            \Dokumente und Einstellungen\xpuser\YaCy\DATA\LOG\yacy013.log


Die letzte Defragmentierung war Vorgestern !

Nun habe ich Yacy auf meinem Linux Mint, aus den Paket-quellen installiert. Dass ist erstaunlich gut vorkonfiguriert, und es lief sofort ohne große Anpassung oder Gefrickel. Gerade die Ressourcen sind gut Konfiguriert eine den aktuellen *.deb Paket.
Mit Linux hatte ich bisher nur eine Bluesecreen... :lol:

Frage, kann man die vorhanden Daten im DATA Verzeichnis, irgendwie zusammenführen? Es wäre auch gut ein gemeinsames DATEN Verzeichnis für beide Betriebssysteme einzurichten.
Schätze ich muss dann nur einige Pfade anpassen im Yacy.ini

Das Kuriose ist, hab einen HP Proliant DL360 G4 2xDualcore Xeon 3,8Ghz, zu Spaß hier rumstehen.
hp-dl360-g4-front-rear-flying-386.jpg
Der wäre ja wie geschaffen dafür. Nur, nach meiner Rechnung würde mich das c.a. 600 Eu Strom im Jahr kosten - aua-huuu.…

:geek:

Statistik: Verfasst von Drapper — Fr Jun 06, 2014 9:53 pm


Hilfe für Einsteiger und Anwender • Re: Mit Yacy Rechner lahme Kiste - System Ressourcen weg

Date: 2014-06-07 02:50:57

Hallo Drapper,

das die Solr-Dateien so sehr fragmentiert sind, wundert mich.
Es sollte aber auch nicht weiter wild sein, da diese alle Nase lang mit anderen zusammen zu neuen gemerged werden.

Ich habe es zwar nie probert, bin mir aber recht sicher das es irgendwo knallt wenn man irgendwie ein DATA Verzeichniss für mehr als einen Peer nutzn wurde.
Was aber geht ist den Index eines Peers in einem Anderen zu nutzen.
Oder aber einen externen Solr für mehr als einen Peer zu nutzen.
All das geht in http://localhost:8090/IndexFederated_p.html

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Jun 07, 2014 1:50 am


Hilfe für Einsteiger und Anwender • Re: Indexierung SMB Shares

Date: 2014-06-07 13:02:52

gTSj, kein Problem wenn man anderer Meinung ist. Aber im MS Umfeld wird das in etwa so gemacht z.B. der Crawler von Sharepoint. Ich bin auch kein Fan davon. Alles was indexiert werden darf, bekommt darauf der Crawler die Rechte (lesen reicht ja eigentlich) auf den SMB-Share und/oder noch auf NTFS...

Aber eigentlich gehts mir auch nicht darum, ob das besonders gut ist oder nicht. Ich wollte eigentlich nur wissen, wie das mit yacy angefacht ist einen entfernten SMB-Share zu indexieren und habe dabei erklärt, wie ich es im Windows-Umfeld jeweils antreffe.

Leider habe ich das bis jetzt noch nicht hingekriegt. Leider.…

Statistik: Verfasst von clipboard — Sa Jun 07, 2014 12:02 pm


English • Re: Monitoring Yacy in Cacti

Date: 2014-06-07 13:37:23

Please, take note that this is not a comprehensive step-by-step guide.

It assumes you already have a Cacti installation up and running and the minimum knowledge on Cacti as well as on basic Linux permissions concepts (specially required when installing Cacti).

(Take your time to learn a bit about those; it will save time later)

Cacti installation can be a little tricky, but once installed, [it runs smoothly and is very stable]{style=“font-weight: bold”} (mine is running for almost a year without issues).

Also take note that you can change the graphs templates that come within the host template tar (to be imported in Cacti) after you created graphs based on them, but if you don\’t want to loose previous data, you have to restrict them to cosmetics (color, type of graph - line, area, stack... - and the many check-boxes at bottom). If you add or remove any data input attribute, the graphs created from that template will stop graphing. You should delete and recreate them (the graphs, not the template).

Statistik: Verfasst von oneaty — Sa Jun 07, 2014 12:37 pm


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-06-07 13:37:57

Please, take note that this is not a comprehensive step-by-step guide.

It assumes you already have a Cacti installation up and running and the minimum knowledge on Cacti as well as on basic Linux permissions concepts (specially required when installing Cacti).

(Take your time to learn a bit about those; it will save time later)

Cacti installation can be a little tricky, but once installed, [it runs smoothly and is very stable]{style=“font-weight: bold”} (mine is running for almost a year without issues).

Also take note that you can change the graphs templates that come within the host template tar (to be imported in Cacti) after you created graphs based on them, but if you don\’t want to loose previous data, you have to restrict them to cosmetics (color, type of graph - line, area, stack... - and the many check-boxes at bottom). If you add or remove any data input attribute, the graphs created from that template will stop graphing. You should delete and recreate them (the graphs, not the template).

Statistik: Verfasst von oneaty — Sa Jun 07, 2014 12:37 pm


Hilfe für Einsteiger und Anwender • Yacy beschleunigen bzw schneller machen

Date: 2014-06-07 16:22:53

Guten Tag Forum,

ich teste euer Programm nun ein paar Stunden und muss sagen mir gefällt das sehr.
Habe es so nebenbei am Rechner laufen und Crawle so paar Seiten vor mich hin.

Jetzt habe ich zb solche Werte:
Bild

Irgendwie kommt mir das aber wenig vor, weil Ram bis auf die 5400, noch genug zur verfügung steht.
Die Anbindung ist nicht am Limit.
SSD sowie RamDisk haben nichts gebracht, liegt jetzt wieder auf der HDD.

Ich verstehe das nicht so ganz, von was hängt das ab, ich habe sogar viele URL zum Crawlen eingegeben mit etwas Tiefe damit die Server der Seiten mich nicht blocken oder ausbremsen.

Kann man da was in der Config anpassen oder habt Ihr ein paar Vorschläge?

Statistik: Verfasst von ab29 — Sa Jun 07, 2014 3:22 pm


English • Re: Monitoring Yacy in Cacti

Date: 2014-06-08 11:11:29

a step-by-step guide in our wiki{.postlink} would be phantastic!

I just twittered this topic with a link to this forum: https://twitter.com/yacy_search/status/ ... 1145468928{.postlink}

Statistik: Verfasst von Orbiter — So Jun 08, 2014 10:11 am


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-06-08 12:15:14

Ich hatte das selbe Problem, habe aber eine Lösung gefunden.
Bei mir waren openjdk-6 und openjdk-7 parallel installiert!
Nach einem

Code:
apt-get remove openjdk-6-jre-headless

ging auch die yacy installation ohne Probleme!

Statistik: Verfasst von ban.squidy — So Jun 08, 2014 11:15 am


English • Re: Monitoring Yacy in Cacti

Date: 2014-06-08 12:22:26

I will try to make that guide in the following two weeks.

For those who don\’t want to wait, a very small high level guide would be:

1 - Install SNMP. Although my solution to monitoring Yacy doesn\’t use SNMP, it\’s important to install it so that you can create some basic Cacti graphs like Memory Usage and CPU Usage, just to check that your Cacti installation is correct.
After installing SNMP, make sure it is up and running by issuing the following command:

Code:
snmpwalk -v 1 -c public localhost



That should produce a list of OID\’s and their current values. (Please refer to the wikipedia article on OID in what it refers to SNMP: http://en.wikipedia.org/wiki/Object_identifier)

2 - Install Cacti and Cacti Spine. (Spine is an enhanced poller written in C, thus much more efficient than the default Cacti poller cmd.php)

After installation, make sure you change Cacti and Spine conf files (as per Cacti wiki) to reflect the database name, user and password.

3 - In your browser, go to http://127.0.0.1/cacti, follow the instructions for first login and if everything is ok, add a device to monitor.
You will typically add your own machine. This is only to produce those graphs I mentioned before, to make sure everything is ok.
Just fill in a name and the ipaddress (if your own machine, 127.0.0.1). In host template drop-down menu, choose Local Linux Machine.
After saving, the left top corner of the screen will show some basic information about the machine (or an SNMP error, if something is wrong)

4 - In the device\’s screen, click on Create Graphs for This Host.
Select one graph, click create. (try to select as many as you can).

5 - Go to the Graphs tab.

You will have to wait around 5 to 10 minutes before the graph begins to show up.

6 - If Cacti is working, then proceed with this.

7 - Download and compile the C scripts (I did it with gcc -O binary-name source-name).
Execute the binaries to make sure everything is ok. You should see some yacy stats filled with values.

8 - Move the binary to Cacti scripts folder.

9 - In Cacti, import the templates attached in my first post.

10 - After that, you should have a new device named Yacy Server, and when you try to create graphs for them, you should see a list of graphs like SNMP Peer ... and SNMP Yacy .…

11 - The scripts are currently sending its output also to syslog, in case you want to check if they\’re running and producing values.

I\’ll get back

Statistik: Verfasst von oneaty — So Jun 08, 2014 11:22 am


Fragen und Antworten • Unterverzeichnisse dauerhaft ignorieren

Date: 2014-06-08 19:04:58

Hallo!

Es handelt sich bei mir nicht um einen Bug. Ich möchte gerne, das bestimmte \‘Unterverzeichnisse\’ beim Crawlen (dauerhaft) nicht berücksichtigt werden. Was ich damit meine beschreibe ich mal in einem Beispiel: Ich crawle http://www.atlas.de/ (fiktive Adresse). Ich möchte aber nicht http://www.atlas/vorschaubilder/ und http://www.atlas/kommentare/ mitcrawlen.
Es reicht mir auch nicht, das ich nach dem Crawlen nachträglich diese Verzeichnisse löschen kann. Yacy soll auch bei zukünftigen Aktualisierungen wissen, das es diese Verzeichnisse nicht durchsuchen soll.

Geht das? Und wenn ja, wie kann ich das realisieren?

Gruß, Karsten

Statistik: Verfasst von Arbol01 — So Jun 08, 2014 6:04 pm


Hilfe für Einsteiger und Anwender • Re: yacy fail nach upgrade mit debian

Date: 2014-06-09 06:37:18

ban.squidy hat geschrieben:\ Ich hatte das selbe Problem, habe aber eine Lösung gefunden.\ Bei mir waren openjdk-6 und openjdk-7 parallel installiert!\ Nach einem Code: : `apt-get remove openjdk-6-jre-headless` ging auch die yacy installation ohne Probleme!\



yes! this was working:
apt-get remove openjdk-6-jre-headless --purge
apt-get remove openjdk-6-jre --purge
apt-get remove openjdk-6-jdk --purge
apt-get remove yacy --purge


apt-get install openjdk-7-jdk openjdk-7-jre yacy

jetzt laeuft die yacy engine wieder
danke!

Statistik: Verfasst von veto — Mo Jun 09, 2014 5:37 am


Hilfe für Einsteiger und Anwender • Re: Yacy beschleunigen bzw schneller machen

Date: 2014-06-09 22:04:46

YaCy läd pro Domäne nicht mehr als 120 Dokumente pro Minute um nicht \‘versehentlich\’ ein (D)DoS auf den gecrawlten Seiten zu machen.
Bei mehr Domänen im Crawler steigt der Durchsatz aber an, weil diese round-robin durchgegangen werden. Je mehr Domänen gleichzeitig im Crawler sind, desto schneller kann das werden, muss aber nicht weil auch noch die robots.txt und die durchschnittliche Antwortzeit der Server zusätzliche Bremsen in YaCy triggern können.
Die Bremse ist aber im Intranet nicht da.

Statistik: Verfasst von Orbiter — Mo Jun 09, 2014 9:04 pm


Hilfe für Einsteiger und Anwender • Wie rufe ich Yacy auf?

Date: 2014-06-10 01:24:44

Hallo, ich habe gerade Yacy installiert. Wie kann ich es in Firefox aufrufen?

Statistik: Verfasst von Bogie — Di Jun 10, 2014 12:24 am


Hilfe für Einsteiger und Anwender • Re: Yacy beschleunigen bzw schneller machen

Date: 2014-06-10 11:40:01

Das habe ich nun im Forum nachgelesen und es mit 50 Adressen versucht, doch leider musste ich feststellen das es einen Bug gibt.
Wen der Crawler eine zeit lang läuft steigt das PPM sagen wir mal auf 15k obwohl die grenze bei 10k liegt und das System läuft nicht mehr.
Weder die Ram/Disk Sparte zeigt noch was noch lässt sich der Crawler pausieren.
Unter Peer to Peer habe ich riesige Ringe um meinen roten Punkt herum und viele Verbindungen.

Aber das habe ich beim ersten mal gelöst indem ich den gesamten Index gelöscht habe.

Statistik: Verfasst von ab29 — Di Jun 10, 2014 10:40 am


Hilfe für Einsteiger und Anwender • Re: Wie rufe ich Yacy auf?

Date: 2014-06-10 17:44:54

Dein YaCy läuft als Serverprozess auf deinem Rechner. Die Adresse ist
http://localhost:8090

Statistik: Verfasst von Orbiter — Di Jun 10, 2014 4:44 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-06-10 18:20:43

http://blog.milsystems.de/2014/06/suchm ... ot-server/{.postlink}
http://disp.cc/b/21-7LVz

Statistik: Verfasst von Orbiter — Di Jun 10, 2014 5:20 pm


Hilfe für Einsteiger und Anwender • Re: Wie rufe ich Yacy auf?

Date: 2014-06-10 19:12:19

Fehler: Verbindung fehlgeschlagen

Firefox kann keine Verbindung zu dem Server unter localhost:8090 aufbauen.

Die Website könnte vorübergehend nicht erreichbar sein, versuchen Sie es bitte später nochmals.
Wenn Sie auch keine andere Website aufrufen können, überprüfen Sie bitte die Netzwerk-/Internetverbindung.
Wenn Ihr Computer oder Netzwerk von einer Firewall oder einem Proxy geschützt wird, stellen Sie bitte sicher, dass Firefox auf das Internet zugreifen darf.

Statistik: Verfasst von Bogie — Di Jun 10, 2014 6:12 pm


Presse • PC Magazin Professional - Personal & Mobile Computing 314

Date: 2014-06-10 21:20:46

In den Themenschwerpunkten:
http://www.pc-magazin.de/ratgeber/servi ... 50928.html{.postlink}

\ OpenSource-Suchmaschine Yacy\ \ Wer heute vom Suchen im Web redet, meint zumeist Google. Doch das Open-Source-Projekt Yaci zeigt, dass auch ohne amerikanische Firmen und Überwachung ein komfortables Suchen im Netz möglich ist.\


..wieso schafft man es, \“Yacy\” in der Überschrift (fast) richtig, im Text aber falsch zu schreiben?

Statistik: Verfasst von Orbiter — Di Jun 10, 2014 8:20 pm


Hilfe für Einsteiger und Anwender • Sicherheit Yacy Peer mit offenem Port 8090 Angriffe von Auße

Date: 2014-06-11 10:10:12

Hi.

Wie verhält es sich in Bezug auf die Sicherheit eines offenen Ports 8090, wo der Yacy Peer im Senior-Modus läuft. Ach so, mein Netbook läuft mit Ubuntu 14.04 LTS.

Kann das zu Sicherheitslücken führen?

Da ich gleichzeitig noch NXT Coins forge, sollte ich das lieber auf nem separaten Rechner tun?

Vielen Dank im Voraus,

Gruß
Daniel

Statistik: Verfasst von _daniel_ — Mi Jun 11, 2014 9:10 am


YaCy Coding & Architektur • Problem mit Git push (gitorious.org)

Date: 2014-06-11 15:26:16

Hi!
Ich hoffe das ist nicht zu off-topic!
Es geht allerdings speziell um mein YaCy-Fork.


über [ssh]{style=“font-weight: bold”}:

\ \$ git clone :yacy/xumbu-yacy.git\ Cloning into \'xumbu-yacy\'\...\ Permission denied (publickey).\ fatal: The remote end hung up unexpectedly\


Habe es schon mit dem \‘rsa_id\’ file in \’\’~/.ssh\’ versucht. Wenn ich aufgefordet werde den passphrase einzugeben wird dieser allerdings denied. Ist aber devinitiv korret. Hab es mit puttyGen geprüft. Eingetragen unter meinen SSH-Keys bei gitorious.org ist er auch.



Also das ganze über [https ]{style=“font-weight: bold”} - auch ohne Erfolg:

\ \$git clone \ Cloning into \'xumbu-yacy\'\...\ fatal: not found: did you run git update-server-info on the server?\



Und:
mit dem [git ]{style=“font-weight: bold”}protokoll funktioniert das clonen zwar, ist allerdings read only.



Gleiches Problem besteht bei GitHub und GitLab [nicht]{style=“font-weight: bold”}!


Was macht gitorious.org anders? Was muss ich beachten?

Statistik: Verfasst von xumbu — Mi Jun 11, 2014 2:26 pm


Fragen und Antworten • Re: Unterverzeichnisse dauerhaft ignorieren

Date: 2014-06-11 16:24:22

Ich würde das über die Blacklist machen:

1. auf http://localhost:8090/Blacklist_p.html gehen
2. neue Blacklist anlegen (z.B. mit dem nahmen \“Crawler\“)
3. für gewünschte Use-Cases aktivieren (auf jeden Fall \“crawler\“)
4. die folgenden Einträge einfügen:

Statistik: Verfasst von Low012 — Mi Jun 11, 2014 3:24 pm


Hilfe für Einsteiger und Anwender • Re: Wie rufe ich Yacy auf?

Date: 2014-06-11 16:28:40

Um den Fehler eingrenzen zu können:

Welches Betriebssystem benutzt du denn?

Hast du YaCy per *.exe-Date, *.dm-g oder *.deb-Paket installiert oder einfach die tar.gz-Datei heruntergeladen und entpackt?

Statistik: Verfasst von Low012 — Mi Jun 11, 2014 3:28 pm


Hilfe für Einsteiger und Anwender • Re: Mit Yacy Rechner lahme Kiste - System Ressourcen weg

Date: 2014-06-12 00:26:03

Danke für die Tipps.

Habe es nun fertig gebracht den DL360 zu starten, Bild siehe oben, der gute Hp Proliant hört sich an, als säße ich im Hubschrauber mit Turbine im Leerlauf, und EON freut sich... :o (abheben kann man auch - virtuell)

Hab nach langem überlegen, mich entschlossen ihn als Debian Server (6.9) aufzusetzen, Squeeze war mir die beste Lösung.
Yacy ist unter 6.9 Debian prima ans laufen zu bringen. Habe mir Java 7 gegönnt.
Da ich ihn aber als LAMPP Webserver aufgesetzt habe, bin ich nun dabei mich mit Iptables &Co herumzuschlagen... :? Auch die Hosts für den Apache 2 und so was. Eigentlich ist 2 Apachen ja doppelt gemoppelt.

Grüße Drapper

Statistik: Verfasst von Drapper — Mi Jun 11, 2014 11:26 pm


Hilfe für Einsteiger und Anwender • Crawler schläft ständig ein

Date: 2014-06-12 23:43:03

Hallo,
ich beschäftige mich seit einigen Tagen mit YaCy und habe nun leider das Problem, dass das Crawling nicht mehr so richtig will. Ich schätze, es gibt einem Zusammenhang mit diesem Thema: http://forum.yacy-websuche.de/viewtopic.php?f=18&t=5163
Wenn ich auf CrawlStartExpert.html gehe und dort eine oder mehrere URLs eingebe, kommt sofort der grüne Haken. Die Linkliste (automatische Sitemap) dadrunter kommt aber nicht mehr, stattdessen nur dieses kreiselnde Wartesymbol. Früher war das anders und da hat YaCy auch ordentlich gecrawlt, sodass ich sogar aufpassen musste, nicht zu viele PPMs zu erreichen (wegen Exceptions).

Wenn ich den Crawl Job dann starte, ruft der Crawler tatsächlich ein paar Seiten auf, aber nach spätestens einer Minute hört er auch schon wieder auf bzw. lädt nur noch ca. 1 mal pro Minute eine neue URL. Weder Festplatte, noch CPU oder Internetleitung sind dabei ausgelastet. Das ganze passiert unabhängig davon, ob ich nur einen oder viele Crawl Jobs habe. Interessanterweise kann ich den Crawler aber kurzzeitig manuell wieder in Schwung bringen, indem ich ein HTTP-Seite über den YaCy-Proxy lade. Das muss allerdings eine Seite sein, die auch indexiert wird. Wenn der Proxy-Indexer anspringt, wird der Crawler-Indexer also auch kurz angestoßen.

Hat jemand eine Idee, wie ich das beheben kann?

Statistik: Verfasst von ausgerutscht — Do Jun 12, 2014 10:43 pm


Mitmachen • Re: Raspberry Pi

Date: 2014-06-13 06:04:15

The YaCyPi project has obviously delivered: https://twitter.com/osterzl/status/477200719179575298
looks nice!

Statistik: Verfasst von Orbiter — Fr Jun 13, 2014 5:04 am


Hilfe für Einsteiger und Anwender • Re: Crawler schläft ständig ein

Date: 2014-06-13 06:09:27

der crawler beachtet die crawl-delay Zahl in der robots.txt, läd nicht mehr als 120 Seiten Pro Minute von der gleichen Domäne und richtet sich ausserdem nach der Antwortzeit des Zielservers: antwortet der langsam, crawlt YaCy auch langsam(er). Details dazu siehst du, wenn du auf /IndexCreateQueues_p.html?stack=LOCAL gehst und dann den API-Knopf oben rechts drückst (oder direkte URL: /api/latency_p.xml ) Im latency_p.xml siehst du die durchschnittlichen response times; YaCy macht bei der Abfrage mindestens eine genau so große Pause wie die response time ist.

Statistik: Verfasst von Orbiter — Fr Jun 13, 2014 5:09 am


YaCy Coding & Architektur • Re: Problem mit Git push (gitorious.org)

Date: 2014-06-13 06:13:00

Ok
[fatal: https://git.gitorious.org/yacy/xumbu-yacy.git/info/refs not found]{style=“font-weight: bold”}
war tatsächlich nen Server-Fehler.

Login über SSH funktioniert allerdings immer noch nicht. Anscheinend akzeptiert gitorious die normalen User Login-Daten nicht!
Und mein SSH key wird immer noch denied..

Schon neue Keys generiert etc. - Kein Erfolg. Wie gesagt bei Gitlab und Github nie ähnliche Probleme gehabt. Ich krieg echt die Kriese :evil:

Wie kam überhaupt die Entscheidung gitorious und nicht eine der größeren Anbieter zu nutzen??

Statistik: Verfasst von xumbu — Fr Jun 13, 2014 5:13 am


YaCy Coding & Architektur • Re: Problem mit Git push (gitorious.org)

Date: 2014-06-13 06:21:28

du musst natürlich den id_rsa.pub nehmen, deinen öffentlichen Schlüssel, nicht deinen privaten!
gitorious funktioniert problemlos und das ganze ist auch kein gitorious-Problem. Du kannst sowieso deinen clone überall hosten wo du willst, das ist ja das gute an git. Sogar wenn du dein yacy clone auf einem vserver einfach per ssh hostest könnte man daraus einen merge (ins YaCy main) machen.

Statistik: Verfasst von Orbiter — Fr Jun 13, 2014 5:21 am


YaCy Coding & Architektur • Re: Problem mit Git push (gitorious.org)

Date: 2014-06-13 06:37:20

[alles klar hat sich erledigt. ;)]{style=“font-style: italic”}

Statistik: Verfasst von xumbu — Fr Jun 13, 2014 5:37 am


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2014-06-13 07:24:57

Ich hatte die Fehlermeldung auch
Darauf hab ich den Proxy angeschaltet (wie drauf hingewiwesen usw.) und bekomme nun folgende Fehlermeldung wenn ich versuche über meinen dyndns dienst von aussen zuzugreifen:

Code:
Ops!Message: Client can't execute: Verbindungsaufbau abgelehnt duration=8java.io.IOException: Client can't execute: Verbindungsaufbau abgelehnt duration=8   at net.yacy.cora.protocol.http.HTTPClient.execute(HTTPClient.java:717)   at net.yacy.cora.protocol.http.HTTPClient.GET(HTTPClient.java:417)   at net.yacy.http.ProxyHandler.handleRemote(ProxyHandler.java:162)   at net.yacy.http.AbstractRemoteHandler.handle(AbstractRemoteHandler.java:134)   at org.eclipse.jetty.server.handler.HandlerList.handle(HandlerList.java:52)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1088)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1024)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at org.eclipse.jetty.server.Server.handle(Server.java:370)   at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)   at org.eclipse.jetty.server.AbstractHttpConnection.headerComplete(AbstractHttpConnection.java:971)   at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.headerComplete(AbstractHttpConnection.java:1033)   at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:644)   at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)   at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)   at java.lang.Thread.run(Thread.java:745)



Was könnte die Nachricht verursachenß
Lokal Zugriff auf YACY ist möglich

Statistik: Verfasst von Laomak — Fr Jun 13, 2014 6:24 am


English • What do I have wrong with my setup using freedns.org

Date: 2014-06-13 11:17:14

When I test my yacy servers using http://smokingwheels.mooo.com:8090 I get an error 403 proxy use not allowed on the remote testing site but when I use the IP address it works fine.
I use http://www.webpagetest.org/ as the remote host to make sure it is accessible.

What do I need to do to fix it?

My home page is http://smokingwheels.mooo.com with a YaCy search portal on and have no real way of testing it.

Statistik: Verfasst von smokingwheels — Fr Jun 13, 2014 10:17 am


Hilfe für Einsteiger und Anwender • Re: Crawler schläft ständig ein

Date: 2014-06-13 11:37:35

Vielen Dank für deine Antwort. Dass YaCy Pausen macht, um DoS-Attacken zu vermeiden, ist mir bekannt und das ist auch richtig so. Aber das erklärt nicht, warum der Crawler immer wieder einschläft. Und vor allem erklärt es nicht, warum er wieder kurz aufwacht, sobald man Seiten (auch von Domains, die nicht in Crawler-Jobs enthalten sind) über den Proxy aufruft.

Um nochmal zu verdeutlichen, was ich mit \“einschlafen\” meine:
- Als Crawler PPM wird über lange Zeiten 0 angezeigt. Wenn es hoch kommt, wird die Zahl mal zweistellig.
- Auch wenn der Crawler eigentlich über 10 Jobs hat, jeder davon auf anderen Domains, besucht der Crawler immer nur dieselben 2-3 Domains. Die anderen werden ignoriert, als wären die Jobs schon erledigt.
- Wird der Crawler durch den Proxy kurz angestoßen, kommt es kurzfristig schonmal zu 400 oder 500 PPM, aber dann schläft der Crawler wieder ein.

[Edit:]{style=“font-weight: bold”} Hier mal ein Screenshot: http://imageshack.com/a/img823/1152/j2xk.png

Aus der /api/latency_p.xml werde ich übrigens nicht schlau. Ich kann nur vermuten, was genau <count>, <average>, <robots> und <flux> in diesem Zusammenhang heißen. Das ist übrigens eine generelle Schwäche von YaCy. Überall stehen irgendwelche Fachbegriffe, aber nirgens werden sie ordentlich erklärt.

Statistik: Verfasst von ausgerutscht — Fr Jun 13, 2014 10:37 am


YaCy Coding & Architektur • Loadprereq-Parameter ohne Neustart persistieren?

Date: 2014-06-16 22:04:00

Hallo,

gibt es eine Möglichkeit die gesetzten Loadprereq-Parameter evtl. ohne einen Peer-Neustart zu persistieren? Ich frage deshalb, weil bei meinem Hauptpeer schon seit über 80 Tagen ein Solr Reindex läuft und oft stehen

Code:
S 2014/06/16 22:24:33 BusyThread Thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' runs high load cycle. current: 15.06 max.: 9.0S 2014/06/16 22:24:33 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.coreCrawlJob' runs high load cycle. current: 15.06 max.: 8.0S 2014/06/16 22:24:33 BusyThread Thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' runs high load cycle. current: 15.06 max.: 8.0S 2014/06/16 22:24:33 BusyThread Thread 'reindexSolr' runs high load cycle. current: 15.06 max.: 9.0



solche Einträge im log. Da ich aber einen \“16-Kerner\” (2x Physische CPU á 8 Kerne) habe, verhält sich hier die Load Average anders als bei einem System mit nur einer physischen CPU / wenig Kerne, siehe

Code:
stefan@endeavour:$ iostat -mLinux 2.6.32-custom (endeavour)         06/16/2014      _x86_64_        (16 CPU)avg-cpu:  %user   %nice %system %iowait  %steal   %idle           3.24    7.85   11.14    2.57    0.00   75.19Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtnsda              74.92         0.19         0.96    2304060   11821134sdf             156.72         5.12         0.55   62709107    6694700sdg               9.17         0.02         0.10     215554    1223289dm-0             26.79         0.02         0.10     215547    1223289dm-1             26.79         0.02         0.10     215546    1223289dm-2             26.79         0.02         0.10     215545    1223289dm-3             68.42         0.17         0.25    2084480    3049962dm-4             68.42         0.17         0.25    2084479    3049962dm-5             68.42         0.17         0.25    2084478    3049962sdc               1.71         0.02         0.05     273853     559612



Über 70% Cpu-idle :-) Der Reindex ist fast abgeschlossen, ich will meinen Peer jetzt wirklich nicht beenden :-)

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Mo Jun 16, 2014 9:04 pm


Panorama • Re: Umsetzung des #EuGH Urteils in YaCy

Date: 2014-06-17 09:56:03

Wieso kann der jenige Nutzer nicht zum Webseiten-Webmaster direkt hingehen, wo ja sein Name steht, anstelle zum Suchmaschinenbetreieber?

Ist das #EuGH-Urteil ein erster Schritt in Richtung \“Censorship Made In Europe\“?

Nur so ein paar wchtige Fragen ...

Statistik: Verfasst von Quix0r — Di Jun 17, 2014 8:56 am


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-06-18 15:24:56

Hello smokingwheels,

this looks to me, as your peer doesn\’t know its hostname.
Try to put smokingwheels.mooo.com in your /etc/hosts, restart YaCy and test again.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jun 18, 2014 2:24 pm


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-06-18 19:27:12

The graphs above are now turned public at http://cactibr.noip.me/cacti (guest/guest for user/passwd)

You may want to click on the Thumbnails checkbox to get a broader view, or click on \“Servidor\” (on the left vertical panel) to see the performance graphs of the linux server where Yacy is running.

You can also click on any graph to have a detailed view of each of them.

Statistik: Verfasst von oneaty — Mi Jun 18, 2014 6:27 pm


English • Re: Monitoring Yacy in Cacti

Date: 2014-06-18 19:28:01

The graphs above are now turned public at http://cactibr.noip.me/cacti (guest/guest for user/passwd)

You may want to click on the Thumbnails checkbox to get a broader view, or click on \“Servidor\” (on the left vertical panel) to see the performance graphs of the linux server where Yacy is running.

You can also click on any graph to have a detailed view of each of them.

Statistik: Verfasst von oneaty — Mi Jun 18, 2014 6:28 pm


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2014-06-18 23:09:13

Hallo,

zu diesem Fehler kann es kommen, wenn YaCy den verwendeten Hostnamen nicht kennt.
Versucht den dyndns-Hostnamen in die /etc/hosts einzutragen, dann sollte es nach einemNeustart von YaCy gehen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jun 18, 2014 10:09 pm


YaCy Coding & Architektur • Re: Loadprereq-Parameter ohne Neustart persistieren?

Date: 2014-06-19 13:34:03

Hallo Stefan,

die max-Load-Werte der meisten Threads kann man ja in http://localhost:8090/PerformanceQueues_p.html ändern und sollten auch ohne neustart greifen. Leider kann man den max-Load für das Reindexen nicht ändern - da wird soweit ich weiss das default von 9.0 genommen.
Den Reindex-Job kann man aber auch problemlos unterbrechen (z.B. um den Peer zu Rebooten). Starten man den Reindex-Job macht er weiter wo er aufgehört hat.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jun 19, 2014 12:34 pm


Fragen und Antworten • Re: Yacy als Crawler für eigene Seiten

Date: 2014-06-19 17:10:21

Die Extension geht voran und ich werde Sie warscheinlich nächsten Monat veröffentlichen.

Ich habe allerdings noch eine Frage betreffend ein Feature das ich mir gerne wünsche.

Ich hätte gerne wenn ein Redakteur in Typo3 Content anlegt, das yacy diese Seite automatisch crawled.

Gibt es die Möglichkeit yacy per API mitzuteilen eine bestimmte Seite zu crawlen?
So was wie: http//:meinyacserver.de/Crawler_p.html?startCrawl=1&url=www.typo3.org/neue-seite

In der API docu im wiki hab ich nichts dazu gefunden. Gibt es generell ein Übersicht an API befehlen die man benutzen kann?

Statistik: Verfasst von Eike — Do Jun 19, 2014 4:10 pm


Fragen und Antworten • Yacy und Mutliuser

Date: 2014-06-19 17:21:06

Hi,

ich würde gerne yacy als Dienstleistung für eigene Seiten anbieten.
Es gibt also mehrere Menschen die verschieden Domains indexieren wollen.
Ich frage mich aber wie kann ich das Backenend von yacy unterschiedlichen Benutzern zugänglich machen?

Benötige ich für jeden Benutzer eine eigene Instanz von yacy oder kann ich auch mehrere Benutzer anlegen?

Ziel dabei soll schon sein ein Benutzer seine Crawls starten/planen/etc kann ohne etwas von den andern Benutzern mitzukommen.

Statistik: Verfasst von Eike — Do Jun 19, 2014 4:21 pm


Fragen und Antworten • Yacy startet nicht wegen zu wenig Speicher

Date: 2014-06-19 19:53:51

Hallo,
folgendes, wahrscheinlich sehr einfaches Problem: Um zu testen, wie gut YaCy damit klarkommt, habe ich den maximalen Ram-Verbrauch von YaCy per Webinterface auf 200 MB eingestellt. Die Folge ist, dass YaCy nun nicht mehr startet. Beim Ausführen von \“startYaCy.sh\” steigt der RAM-Verbrauch um ca. 200 MB und die CPU ist dauerhaft zu 100% ausgelastet. Auch nach 10 min war noch immer kein Webinterface erreichbar. Ich würde die Einstellung gerne einfach wieder rückgängig machen. Nur wie mache ich das ohne Webinterface? Habe mir die conf-Dateien im YaCy-Verzeichnis angesehen und konnte keinen passenden Eintrag finden.

Vielen Dank für Ratschläge!

Statistik: Verfasst von ausgerutscht — Do Jun 19, 2014 6:53 pm


Fragen und Antworten • Re: Yacy startet nicht wegen zu wenig Speicher

Date: 2014-06-19 20:20:49

Hallo,

in der DATA/SETTINGS/yacy.conf den Eintrag zu Xmx suchen und ändern.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jun 19, 2014 7:20 pm


Fragen und Antworten • Re: Yacy startet nicht wegen zu wenig Speicher

Date: 2014-06-19 21:25:49

Ja, genau das, was ich gesucht habe. Dankeschön!

Statistik: Verfasst von ausgerutscht — Do Jun 19, 2014 8:25 pm


English • Yacy @ Darknet

Date: 2014-06-20 13:00:36

Hi,

i\’m sorry to inform that all the Yacy peers in the DarkNet are down :-( I followed the Howto at our Wiki{.postlink} but all Onion-Adresses seemed to be down :-(

Following the howto and using OnionCat{.postlink} as a VPN-Adapter, I set up a new peer. It\’s reachable via http://2niilu7gjv2cpae4.onion:8482 as well as


Your\’re welcome to contribute own services.

Nice greetings

Martin

Statistik: Verfasst von Marty1986 — Fr Jun 20, 2014 12:00 pm


Hilfe für Einsteiger und Anwender • OpenStreetMap-Tiles

Date: 2014-06-20 15:08:05

Moin,
gibt es eine Möglichkeit, bestimmte URLs vom Indexieren, aber nicht vom Proxy auszuschließen? Ich war nämlich gerade auf http://www.openstreetmap.org/ unterwegs, wobei ich den Proxy von YaCy eingeschaltet hatte. Dabei werden die Tiles der Karte in Form von PNG-Dateien via HTTP nachgeladen. Die Folge: All die Kacheln werden von YaCy indexiert, was ich ziemlich unsinnig finde. Wenn ich jedoch in die Blacklist folgende Regel eintrage:

Code:
*.tile.openstreetmap.org/.*


dann kann ich OSM nicht mehr über den Proxy benutzen, weil das Laden der Tiles von YaCy unterbunden wird.

Jemand \‘ne Idee?

Statistik: Verfasst von ausgerutscht — Fr Jun 20, 2014 2:08 pm


YaCy Coding & Architektur • Re: Loadprereq-Parameter ohne Neustart persistieren?

Date: 2014-06-20 15:13:06

Großartig! Vielen Dank!

Statistik: Verfasst von Marty1986 — Fr Jun 20, 2014 2:13 pm


YaCy Coding & Architektur • Re: Loadprereq-Parameter ohne Neustart persistieren?

Date: 2014-06-20 17:52:56

Großartig! Vielen Dank!

Statistik: Verfasst von LA_FORGE — Fr Jun 20, 2014 4:52 pm


Hilfe für Einsteiger und Anwender • Wie YaCy von Brute-Force-Schutz

Date: 2014-06-21 13:50:32

Ich erhalte von meinem YaCy, dass jemand versucht, die geschützte Seiten zugreifen.
Ist es gefährlich, und wie man sich gegen das Erraten von Passwörtern und die Schaffung eine unnötige Belastung für meine YaCy schützen?

Bild

Statistik: Verfasst von Kai — Sa Jun 21, 2014 12:50 pm


Hilfe für Einsteiger und Anwender • Re: OpenStreetMap-Tiles

Date: 2014-06-22 13:20:26

Hallo,

In den Blacklist-Einstellungen (http://localhost:8090/Blacklist_p.html) kann man für jede Blacklist definieren für welche Bereiche von Yacy sie gelten soll (Crawler, Proxy, DHT, News, etc.).

Statistik: Verfasst von David — So Jun 22, 2014 12:20 pm


Hilfe für Einsteiger und Anwender • Re: Sicherheit Yacy Peer mit offenem Port 8090 Angriffe von

Date: 2014-06-22 13:25:09

Hallo,

Solange du keine (veraltete) Version von Yacy oder Java benutzt, die bekannte Sicherheitslücken aufweist, ist die Gefahr über Yacy erfolgreich angegriffen zu werden eher gering.

Statistik: Verfasst von David — So Jun 22, 2014 12:25 pm


Fragen und Antworten • Re: Yacy und Mutliuser

Date: 2014-06-22 13:40:32

Eike hat geschrieben:\ Ziel dabei soll schon sein ein Benutzer seine Crawls starten/planen/etc kann ohne etwas von den andern Benutzern mitzukommen.\


Ich glaube das kann man im Moment nur mit separaten Yacy-Instanzen bewerkstelligen.

Statistik: Verfasst von David — So Jun 22, 2014 12:40 pm


English • chocolatey.org

Date: 2014-06-22 13:53:07

Please could you add Yacy to Chocolatey{.postlink}? It would make installing it on Windows a lot easier and could even perhaps raise its profile a bit. ;)
Thanks

Statistik: Verfasst von Fenweruha — So Jun 22, 2014 12:53 pm


Hilfe für Einsteiger und Anwender • Re: Sicherheit Yacy Peer mit offenem Port 8090 Angriffe von

Date: 2014-06-22 18:02:47

David hat geschrieben:\ Hallo,\ \ Solange du keine (veraltete) Version von Yacy oder Java benutzt, die bekannte Sicherheitslücken aufweist, ist die Gefahr über Yacy erfolgreich angegriffen zu werden eher gering.\



Hallo David,

danke für die Info!!!

Werde ich berücksichtigen!

LG
Daniel

Statistik: Verfasst von _daniel_ — So Jun 22, 2014 5:02 pm


Hilfe für Einsteiger und Anwender • Re: OpenStreetMap-Tiles

Date: 2014-06-22 18:49:02

Ja, das weiß ich. Aber wenn ich den Haken bei \“Proxy\” wegnehme, werden die Tiles nicht nur nicht indexiert, sondern eben gar nicht mehr vom Proxy durchgelassen. Es fehlt eine Möglichkeit, nur den Indexer auszuschließen.

Statistik: Verfasst von ausgerutscht — So Jun 22, 2014 5:49 pm


Hilfe für Einsteiger und Anwender • Lesezeichen

Date: 2014-06-22 19:00:09

In den Suchergebnissen habe ich die Option, ein Suchergebnis zu bookmarken. Was ich leider nicht herausgefunden habe, ist, wo ich dieses Lesezeichen dann finde, und wo ich es redigieren un verschlagworten kann. (Windows 8, Chrome). Kann mir vielleicht jemand einen Tipp geben? Vielen Dank!

(Ach ja, und bei der Gelegenheit wüsste ich auch gerne, was geschieht, wenn ich auf \“empfehlen\” klicke.)

Statistik: Verfasst von aidadmadsu — So Jun 22, 2014 6:00 pm


English • Advice for running peer

Date: 2014-06-24 05:52:33

Hi,

I just started running a peer on a remote dedicated server. What advice would you give to do this most efficiently without exceeding the bandwidth/storage limits of the hosting provider?

I observed that the \“Sent DHT Word chunks\” and \“Sent URLs\” are zero for my peer. Is this normal when doing heavy crawling? Do I need to change any settings?

Thanks.

Statistik: Verfasst von filsdelhomme — Di Jun 24, 2014 4:52 am


English • Disable crawl visualization

Date: 2014-06-24 10:30:07

is there any way to disable the site crawl visualization on the crawl monitor page? It makes my browser slow for large number of links.

Statistik: Verfasst von filsdelhomme — Di Jun 24, 2014 9:30 am


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-06-24 12:36:36

Ich wäre auch gerne mit dabei. Gab es schon ein Treffen?
Ansonsten könnte man ja mal eins für nächsten Monat an planen.



Bis denne, Eike

Statistik: Verfasst von Eike — Di Jun 24, 2014 11:36 am


Hilfe für Einsteiger und Anwender • Re: Lesezeichen

Date: 2014-06-24 15:45:05

In früheren Versionen konnte man die Lesezeichen unter http://localhost:8090/YMarks.html einsehen. Aber das scheint jetzt nicht mehr so recht zu funktionieren.

Statistik: Verfasst von David — Di Jun 24, 2014 2:45 pm


English • Too high memory usage

Date: 2014-06-25 05:30:17

Hi,

My yacy peer is using too much memory while crawling, which is causing the interface to hang sometimes (does not open at all). The free command shows that around 10M of memory is free and this machine is dedicated for yacy. The machine has 1GB of RAM.

I have tried reducing the memory reserved for JVM from 600 to 300 but there is no difference in memory usage reported by OS tools. Also, the interface now shows \“RAM Max\” as 290 MB, so where is the rest of the memory being used for?

Statistik: Verfasst von filsdelhomme — Mi Jun 25, 2014 4:30 am


Hilfe für Einsteiger und Anwender • Re: Lesezeichen

Date: 2014-06-25 21:30:03

Hallo,

ja sorry die Bookmarks wurden von mir nicht aus Prinzipgründen rausgeworfen sondern deswegen weil die Migration nach Backbone CSS dort nicht so einfach geklappt hat. Speziell das YMarks hat da irgendwie einen Fehler, ich glaube es liegt an jquery, bin mir da aber nicht sicher.
Ich würde die auch wieder gerne da drin haben. Kann ggf. jemand mit jquery-Kenntnissen mithelfen? Das YMarks.html kann man ja aufrufen, rendert aber von Stil nicht richtig. Vielleicht ist es ja nur eine Kleinigkeit.

Statistik: Verfasst von Orbiter — Mi Jun 25, 2014 8:30 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-06-26 09:01:52

Hi Eike,

willkommen an Bord.
Nein, bislang hat noch kein Treffen stattgefunden, was vielleicht auch ein wenig der Fussball-WM geschuldet ist. Für Juli ist aber ein Stammtisch angedacht.

Viele Grüße
lux

Statistik: Verfasst von lux — Do Jun 26, 2014 8:01 am


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-06-27 07:49:50

I did what you said to HOSTS File but the proxy access settings was blocking the ip\’s I just put a * in IP-Number filter on http://localhost:8090/Settings_p.html?page=ProxyAccess
Plus disabled Accounts: underneath.

Also I set
Transparent Proxy: on
Send \“Via\” Header: on
Send \“X-Forwarded-For\” Header: on

Thanks for the Reply Sixcooler

Statistik: Verfasst von smokingwheels — Fr Jun 27, 2014 6:49 am


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-06-27 12:42:12

Hello smokingwheels,

the setting you changed enables everyone to use your YaCy as proxy.
I think this is not what yout whanted to do.

Solving your should be possible by letty yout YaCy know its name.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Jun 27, 2014 11:42 am


English • Re: Advice for running peer

Date: 2014-06-27 22:39:46

Hi!

filsdelhomme hat geschrieben:\ I observed that the \"Sent DHT Word chunks\" and \"Sent URLs\" are zero for my peer. Is this normal when doing heavy crawling?\


I think with the standard settings this is normal, yes.

Statistik: Verfasst von David — Fr Jun 27, 2014 9:39 pm


Fragen und Antworten • Yacy startet nur sporadisch

Date: 2014-06-28 00:58:55

Hallo,

ich habe Yacy vor einiger Zeit bereits in Windows benutzt, wo es durchaus sehr gut funktionierte. Mittlerweile bin ich jedoch mit meinem Arbeitssystem auf Ubuntu 14.04 umgestiegen und hier ergeben sich doch einige Probleme mit Yacy. Ich habe es auf eine Extraplatte gelegt, die mit Ext4 formatiert ist und sonst nichts anderes enthält. Ubuntu hat penjdk-7 (7u55-2.4.7-1ubuntu1) installiert. Soweit zum Setup.

Leider musste ich feststellen, dass Yacy einerseits nicht immer startet, selbst nach einem Systemneustart startet es oft nicht. Ich poste mal eine Ausgabe des Terminals, bei einem fehlgeschlagenem Start.

Code:
/media/rootix/Yacy/yacy$ ./startYACY.sh -l****************** YaCy Web Crawler/Indexer & Search Engine *********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                ****  STOP         YaCy: execute stopYACY.sh and wait some seconds             ****  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 << rootix@Nextu:/media/rootix/Yacy/yacy$ E 2014/06/28 00:37:54 org.apache.solr.core.SolrCore [webgraph] Solr index directory '/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_47/webgraph/data/index/' is locked.  Throwing exceptionE 2014/06/28 00:37:54 org.apache.solr.core.SolrCore [collection1] Solr index directory '/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_47/collection1/data/index/' is locked.  Throwing exceptionE 2014/06/28 00:37:54 org.apache.solr.core.CoreContainer Unable to create core: collection1org.apache.solr.common.SolrException: Index locked for write for core collection1   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:844)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:630)   at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:258)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:250)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:744)Caused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core collection1   at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:496)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:761)   ... 11 moreE 2014/06/28 00:37:54 org.apache.solr.core.CoreContainer Unable to create core: webgraphorg.apache.solr.common.SolrException: Index locked for write for core webgraph   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:844)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:630)   at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:258)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:250)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:744)Caused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core webgraph   at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:496)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:761)   ... 11 moreE 2014/06/28 00:37:54 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Unable to create core: collection1   at org.apache.solr.core.CoreContainer.recordAndThrow(CoreContainer.java:989)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:606)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:258)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:250)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:744)Caused by: org.apache.solr.common.SolrException: Index locked for write for core collection1   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:844)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:630)   at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)   ... 8 moreCaused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core collection1   at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:496)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:761)   ... 11 moreE 2014/06/28 00:37:54 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Unable to create core: webgraph   at org.apache.solr.core.CoreContainer.recordAndThrow(CoreContainer.java:989)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:606)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:258)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:250)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:744)Caused by: org.apache.solr.common.SolrException: Index locked for write for core webgraph   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:844)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:630)   at org.apache.solr.core.CoreContainer.createFromLocal(CoreContainer.java:562)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:597)   ... 8 moreCaused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core webgraph   at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:496)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:761)   ... 11 more



Soweit ich das richtig verstehe, kann Yacy auf ne Menge Dateien nicht zugreifen, aber ich mag mich auch irren.

Desweiteren musste ich feststellen, dass auch wenn Yacy mal erfolgreich startet, der Crawler nach einiger Zeit, aber auch eher sporadisch und ohne nachvollziehbaren Grund das Arbeiten einstellt, obwohl Yacy fleissig weiter CPU in Anspruch nimmt.

Jetzt stellt sich die Frage, woran es liegt und wie man es beheben kann.

Statistik: Verfasst von Rootix — Fr Jun 27, 2014 11:58 pm


English • Re: Advice for running peer

Date: 2014-06-28 04:35:26

Since I have 20 GB of space on the server, it is filling up fast. How can I go on running the peer without any problems?

Statistik: Verfasst von filsdelhomme — Sa Jun 28, 2014 3:35 am


Fragen und Antworten • Yacy auf WIndows Server

Date: 2014-06-30 17:22:42

Guten Tag,

Ich möchte Yacy auf einem WIndows Server als Dienst betreiben. Das ganze funktioniert auch, allerdings stehe ich noch vor ein paar Verständnis Problemen.

Ich möchte die Yacy Suche als Website verfügbar machen. Port auf 443 ändern und SSL Zertifikat importieren sollte ja machbar sein.

Jetzt stellt sich die Frage nach der Administration. Diese sollte nur mit Benutzername und Passwort verfügbar sein. Die Normale suche Website sollte ohne Anmeldung verfügbar sein da ich die suche von überall aus nutzen möchte und der Server im RZ steht.

Jetzt ist mir beim Berechtigungskonzept nicht ganz klar was ich machen muss um alle Administrativen Funktionen nur per Login ermöglichen zu können.

Oder ist die Grundidee nicht sinnvoll (die Suchwebsite Public und die Administration Privat) und ich sollte Yacy auf jedem Client installieren?

Des weiteren würde ich Yacy aufgrund von Port 443 und SSL gerne an eine IP binden, habe aber noch nicht so ganz herausgefunden wie das möglich ist.

Danke schonmal für die Hilfe

Mit freundlichen Grüßen

Trufax

Statistik: Verfasst von Trufax — Mo Jun 30, 2014 4:22 pm


Fragen und Antworten • Re: Yacy auf WIndows Server

Date: 2014-06-30 18:08:22

Hallo Trufax,

die Suche ohne Login zu verwenden und alles administrative nur mit Login sollte eigentlich als default funktionieren, wenn man unter http://localhost:8090/ConfigAccounts_p.html ein Admin-Account gesetzt hat.
Etwas verwirrend ist evtl. das die viele Admin-oberflächen auch ohne Login einsehbar sind.
Änderungen und Schützenwertes ist aber nur mit dem Login nutzbar.
Dieses ist so, das Installation jedem als Anschauungsobjekt dient - denn das primäre Ziel ist es ja das viele sich ein eigenes YaCy installieren.

Zum ssl gibt es einen Artikel im Wiki: http://yacy-websuche.de/wiki/index.php/ ... 9CberHTTPS{.postlink}
Ob und unter welchen Bedingungen das mit dem privelegierten Port (<1024) unter Windows funktioniert müsste jemand hier beistuern der sich mit Windows auskennt. Evtl. sind besondere Berechtigungen nötig.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jun 30, 2014 5:08 pm


Fragen und Antworten • Re: Yacy auf WIndows Server

Date: 2014-06-30 18:11:47

Hallo danke das mit dem Account und dem SSL hilft mir sehr weiter danke!

Bleibt nur noch die Frage der IP Bindung. Hintergrund: auf dem Server laufen mehrere Dienste unter 443 und eigener ip

Statistik: Verfasst von Trufax — Mo Jun 30, 2014 5:11 pm


Fragen und Antworten • Re: Yacy auf WIndows Server

Date: 2014-06-30 18:44:35

Sorry, YaCy unterstützt keine IP Bindung.
Einige machen das daher mti einem Reverse-Proxy.

Evtl. ist aber auch eine Einbettung in eine Bestehende Site das richtige: http://localhost:8090/ConfigPortal.html

Statistik: Verfasst von sixcooler — Mo Jun 30, 2014 5:44 pm


English • Re: Yacy @ Darknet

Date: 2014-07-01 14:01:48

There is another YaCy at http://wsdzqx22thy3qs77.onion:8181 but I’m unable to download the seedlist from because the mentioned path htroot/seed.txt at Status.html is invalid :-(

All other Darknet Peers mentioned in the wiki article are down :-(

Statistik: Verfasst von Marty1986 — Di Jul 01, 2014 1:01 pm


Hilfe für Einsteiger und Anwender • Re: Wie YaCy von Brute-Force-Schutz

Date: 2014-07-01 17:51:45

dieses Signal zeigt nur dass eine Zugriffsfrequenz überschritten wurde. Es gibt verschiedene Alarmstufen bei denen der YaCy server immer langsamer antwortet, und somit ein PW brute force verhindern versucht. Diese Herunterreglung ist der Schutz gegen das Erraten, weil das Erraten somit immer länger dauert, um so schneller man versucht das PW zu erraten.

Statistik: Verfasst von Orbiter — Di Jul 01, 2014 4:51 pm


English • Re: Disable crawl visualization

Date: 2014-07-01 17:53:40

At this time: no. But: the number of nodes is limited somehow, so crawling more will not create more load on that page. You can do the following hack to prevent that the live visualization is shown: start a second crawl! If more than one crawl is running, only a static network image is shown.

Statistik: Verfasst von Orbiter — Di Jul 01, 2014 4:53 pm


Hilfe für Einsteiger und Anwender • Re: Yacy stats SNMP trapping

Date: 2014-07-01 20:08:22

Since early this morning, the link to my Cacti server referred in the previous message was taken down by Microsoft, one among many others that were using the free DNS No-IP service.

The story can be read in deeper details here: http://www.theregister.co.uk/2014/07/01/microsoft_takes_over_noip_domains_to_block_malware_marketing/

If Microsoft feels it has the right to seize a legal service because two persons were abusing it, why can\’t I seize hotmail domain, since it is also obviously misused by spammers and other types of \“cybercriminals\“?

Statistik: Verfasst von oneaty — Di Jul 01, 2014 7:08 pm


English • Re: Monitoring Yacy in Cacti

Date: 2014-07-01 20:08:57

Since early this morning, the link to my Cacti server referred in the previous message was taken down by Microsoft, one among many others that were using the free DNS No-IP service.

The story can be read in deeper details here: http://www.theregister.co.uk/2014/07/01/microsoft_takes_over_noip_domains_to_block_malware_marketing/

If Microsoft feels it has the right to seize a legal service because two persons were abusing it, why can\’t I seize hotmail domain, since it is also obviously misused by spammers and other types of \“cybercriminals\“?

Statistik: Verfasst von oneaty — Di Jul 01, 2014 7:08 pm


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-07-02 14:52:13

sixcooler hat geschrieben:\ Hello smokingwheels,\ \ the setting you changed enables everyone to use your YaCy as proxy.\ I think this is not what yout whanted to do.\ \ Solving your should be possible by letty yout YaCy know its name.\ \ cu, sixcooler.\



I have unlimited traffic and not very many hits on the server at the moment so what are the implications of what I have done?

Statistik: Verfasst von smokingwheels — Mi Jul 02, 2014 1:52 pm


English • Any one interested in tracking users on Social networks?

Date: 2014-07-02 15:15:15

If you want to crawl a Twitter profile then here are some setting I have found work.
Use Https://mobile.twitter.com/username eg the results are better for tweets

Advanced Crawler
No Page Count eg unticked
Restrict to sub-path(s) only
Delete only old eg set time frame to keep history for 14 days is fine
No Doubles

Start Crawl

Crawl Monitor > Scheduler and Profile
[Activate scheduler for no less than 3 hours...]{style=“font-weight: bold”}

The search results for tweets are best if you search username action site:twitter.com

Statistik: Verfasst von smokingwheels — Mi Jul 02, 2014 2:15 pm


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-07-02 17:47:57

Hello smokingwheels,

just as I wrote:
Wit a Setting of enabled Proxy + * as IP-filter + no Proxy-Account will enable everyone to use your machine as proxy.
And there could be many since the hostadress is written here :-)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jul 02, 2014 4:47 pm


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-07-05 09:03:50

Ok Thanks I may have a problem with my old \$1.00 router not really sure just yet.
I now have Transparent off URL off and is accessible externally.
I did find every man and his dog started to use my proxy so I have a list now just thought I would post it here.
For the url.default.black file in the Yacy\data\lists folder.
I will edit the list as time goes on.

check.proxyhttp.net/.*
work.a-poster.info/.*
http://www.zengimcell.az/.*
http://www.easybytez.com/.*
static.exoclick.com/.*
check2.zennolab.com/.*
chek.zennolab.com/.*
chekfast.zennolab.com/.*
cnsoccpr.turbobytes.net/.*
httpheader.net/.*
http://www.torrenting.com/.*
iptorrents.com/.*
d3dc2aopftfkeo.cloudfront.net/.*
http://www.wikipedia.org/.*
ds.serving-sys.com/.*
66.220.7.244/.*
http://www.ligastars.com/.*
u.mdotlabs.com/.*
85.25.146.11/.*
teamskeetimages.com/.*
http://www.melomania.az/.*
cdn.adnxs.com/.*
69.64.48.172/.*
http://www.proxy-listen.de/.*
cdn.x1cdn.com/.*
zhidao.baidu.com/.*
http://www.teamskeetimages.com/.*
http://www.trafficg.com/.*
sciencefly.com/.*
aussiefuckbook.com/.*
live2100.com/.*
cdn.manage.com/.*
ysear.ch/.*
media.go2speed.org/.*
goldenpirates.org/.*
trafficg.com/.*
bhawara-it.web.id/.*
http://www.sflforums.com/.*
cnsoccpr.goecart.net/.*
http://www.ideasgames.com/.*
cinemageddon.net/.*
http://www.foxleech.com/.*
http://www.alexa.com/.*
ac5.racegames9.com/.*
http://www.outfox.tv/.*
game-trailer.net/.*
vht.tradedoubler.com/.*
213.136.76.234/.*
cdn1.ads.contentabc.com/.*
e1.static.hoptopboy.com/.*
rm.lomark.cn/.*
cache.btrll.com/.*
pub.clicksor.net/.*
knoxville.en.craigslist.org/.*
proxy247.net/.*
members.becanada.com/.*
http://www.datacollectionsettlement.net/.*
http://www.ip-adress.com/.*
creative.cpxcenter.com/.*
s0.2mdn.net/.*
adshorten.pl/.*
sso.kink.com/.*
chaturbate.com/.*
southcoast.en.craigslist.org/.*
plattsburgh.en.craigslist.org/.*
img.tradedoubler.com/.*
http://www.bubblews.com/.*
http://www.stanjames.com/.*
york.en.craigslist.org/.*
194.58.98.171/.*
lazys.ru/.*
cloud.cashtrafic.info/.*
westslope.en.craigslist.org/.*
tulsa.en.craigslist.org/.*
brainerd.en.craigslist.org/.*
http://www.seoesc.com/.*
pennstate.en.craigslist.org/.*
creative2cdn.mobfox.com/.*
ip.cc/.*
lp.imesh.com/.*
img-cdn.mediaplex.com/.*
albany.en.craigslist.org/.*
luclix.net/.*
proxyjudge.us/.*
http://www.frameptp.com/.*
http://www.gilego.com/.*
42.121.29.35/.*
http://www.usagmonline.com/.*
121.199.31.193/.*
ligastars.com/.*
http://www.nsegame.com/.*
216.245.216.60/.*
http://www.ptp24.com/.*
images.colo.com/.*
click.healthnewscare.com/.*
click.howaboutrealestateinvesting.com/.*
click.shoppingforcellphones.com/.*
forexpeoples.biz/.*
boys-here.com/.*
click.taxfreeinvest.com/.*
click.requestdsl.com/.*
click.pointsearches.com/.*
click.trafficflatrate.com/.*
click.strawbaby.com/.*
click.nultiplication.com/.*
lilcutie440.tripod.com/.*
click.twinspruce.com/.*
click.compuuterhardware.com/.*
click.cityclubcasinos.com/.*
http://www.techopus.com/.*
click.fondazionedivittorio.com/.*
click.bullabong.com/.*
click.homemovieprojectors.com/.*
click.bookpate.com/.*
click.businesssmallopportunity.com/.*
click.paintcoat.com/.*
click.gamblingchances.com/.*
hdbits.org/.*
http://www.allover30.com/.*
click.allvirtualoffice.com/.*
click.dinnerware101.com/.*
weeb.tv/.*
click.autmotiverepair.com/.*
click.alphazet.com/.*
click.sonamarg.com/.*
click.gruendungsoffensive.com/.*
http://www.ingosander.net/.*
click.airplanelandingfield.com/.*
click.lastlender.com/.*
click.theviolator.com/.*
click.burberryperfume.com/.*
click.baconblog.com/.*
click.maniacpsycho.com/.*
click.qwicky.com/.*
click.creditcardsbestoffer.com/.*
click.chocholatebars.com/.*
click.n64world.com/.*
click.innshotel.com/.*
ct1.addthis.com/.*
googleads.g.doubleclick.net/.*
spys.ru/.*
click.giftedshopping.com/.*
infcdpcl1.turbobytes.net/.*
video.i-beta.com/.*
savannah.en.craigslist.org/.*
http://www.ftvgirls.com/.*
windsor.en.craigslist.ca/.*
api.wipmania.com/.*
suacuacuongiare.com/.*
proxyhttp.net/.*
www3.static.militaria.pl/.*
http://www.myfreecams.com/.*
allbacklinks.com/.*
gameonplayer.com/.*
imageadnet.com/.*
affiliates.onetravel.com/.*
pc.bestcxo.com/.*
sanangelo.en.craigslist.org/.*
208.100.54.79/.*
keysoftware.art-soft.net/.*
http://www.seekbang.com/.*
check.sysmagic.com/.*
http://www.cybersyndrome.net/.*
http://www.unwantedattraction.com/.*
community.mybb.com/.*
harrisburg.en.craigslist.org/.*
bramkiproxy.pl/.*
santafe.en.craigslist.org/.*
ifconfig.me/.*
http://www.proxyserverfinder.com/.*
http://www.gold-super-markt.de/.*
http://www.becanada.com/.*
carlabusularo.tumblr.com/.*
cn.turbobytes.net/.*
click.collagne.com/.*
http://www.soso.com/.*
myexternalip.com/.*
ql.addtiques.com/.*
icanhazip.com/.*
collect.vansto.com/.*
home2.pasqualesnest.de/.*
click.virtualtome.com/.*
click.c21listings.com/.*
click.wwwsnap.com/.*
click.bettyroom.com/.*
icollegeinfo.com/.*
click.blueountain.com/.*
manchester.co.nf/.*
ferhot.info/.*
http://www.goldenpirates.org/.*
hat.en.craigslist.ca/.*
click.tunafree.com/.*
favicon.colo.com/.*
4usd2014.com/.*
searchfeed4you.com/.*
click.kostenbeheersing.com/.*
redding.en.craigslist.org/.*
click.xenography.com/.*
click.officeface.com/.*
click.accoona.com/.*
tippecanoe.en.craigslist.org/.*
nashville.en.craigslist.org/.*
146.185.165.11/.*
sportsnewsbiz.com/.*
http://www.xhaus.com/.*
s1-checker.com/.*
sunshine.en.craigslist.ca/.*
torpedo.oiloja.com.br/.*
ip.proxy.lc/.*
ryanstefan.com/.*
click.europeandbeyond.com/.*
p.goldbet.net/.*
click.ucows.com/.*
click.market83.com/.*
azenv.net/.*
click.orangeparadise.com/.*
click.bankruptcy4me.com/.*
click.musicandlyric.com/.*
91.11.82.174/.*
webmasterquest.com/.*
catskills.en.craigslist.org/.*
cachefly.cachefly.net/.*
adn.impactradius.com/.*
s1.2mdn.net/.*
content.yieldmanager.edgesuite.net/.*
http://www.superficialgirl.com/.*
http://www.tagjunction.com/.*
tagjunction.com/.*
http://www.weddinglockers.com/.*
http://www.hiddencoupon.com/.*
chdbits.org/.*
oneptp.com/.*
twptp.com/.*
ac4.racegames9.com/.*
http://www.twentyfirstcenturyart.com/.*
r.edge.inmobicdn.net/.*
internet.yandex.ru/.*

Statistik: Verfasst von smokingwheels — Sa Jul 05, 2014 8:03 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-07-05 20:36:28

Brin+Page haben Angst vor Terminatoren...
https://www.google.com/killer-robots.txt

Statistik: Verfasst von Orbiter — Sa Jul 05, 2014 7:36 pm


English • Configure data path to an other drive

Date: 2014-07-08 21:58:25

Hi,

I\’ve only got a limited main SSD system drive for my Ubuntu, and I\’d like to use an alternative muti-terabyte disk I\’ve got on my machine. Is it possible to use an other DATA path than /var/lib/yacy? It is already taking a few Gb and growing fast.

Statistik: Verfasst von wrecked — Di Jul 08, 2014 8:58 pm


Mitmachen • Re: QR-Codes

Date: 2014-07-10 08:27:18

i have used Zxing barcode java, ID Automation Barcode Library, right now i am using this [java qr code generator]{style=“color: #000000”}{.postlink}, working great for me.

Statistik: Verfasst von didmiller — Do Jul 10, 2014 7:27 am


English • Russian data retention and notification laws

Date: 2014-07-10 10:00:49

Since 1 Aug 2014, a law goes into effect that requires


Sites that do not retain data and are not excluded might be blocked in Russia.

Links to the law and drafts of the separate laws with details: http://rublacklist.net/7954/

Statistik: Verfasst von ktplulo — Do Jul 10, 2014 9:00 am


YaCy Coding & Architektur • Yacy database schema?

Date: 2014-07-11 10:36:32

Hi,
I\’m building a piece of software (GPL of course) which builds on certain elements of Yacy. In particular I am interested in the database, which I gather is a NOSQL variant. Is the database schema (or whatever it is called in NoSQL-land) published anywhere I can see it? I\’ve searched the forums and wiki, but nothing has turned up, I wonder if \“schema\” is the right word to use, or if that concept even translates from relational to NoSQL databases?

Cheers,

Robin

Statistik: Verfasst von robinpaulson — Fr Jul 11, 2014 9:36 am


YaCy Coding & Architektur • Re: Yacy database schema?

Date: 2014-07-11 14:07:54

Hi robinpaulson, interesting, what kind of software are you developing?

During the long development time of YaCy we created, used and discarded a lot of self-made data structures. There are now mainly three data storage systems in use:
- Solr, for local search indexes and as metadata store of the RWI (see below)
- a self-made reverse word index (RWI) data structure for index fragments that are stored in the distributed hash table in the peer network{.postlink}.
- a self-made schema-less data structure \‘MapHeap\’ which you can use to throw in any map{.postlink}; it will be retrieved using a primary key

What do you want to store in your database?

Statistik: Verfasst von Orbiter — Fr Jul 11, 2014 1:07 pm


English • Filter specific urls from scarping

Date: 2014-07-12 20:32:43

Hi, I noticed than when scraping en.wikipedia.org and stackoverflow.com many requests were for signup and login pages, with a re-direct to the original site. Is it possible to black-list or white-list specific URLs?

Statistik: Verfasst von wrecked — Sa Jul 12, 2014 7:32 pm


English • Re: Configure data path to an other drive

Date: 2014-07-13 12:26:49

As far as I know, you can\’t configure an alternate path for the data directory within the yacy settings, but theoretically you should be able to accomplish this with a symbolic link: http://www.tech-recipes.com/rx/172/crea ... ris_linux/{.postlink}

Or you could move the whole yacy directory to the bigger disk.

Statistik: Verfasst von David — So Jul 13, 2014 11:26 am


English • Re: Filter specific urls from scarping

Date: 2014-07-13 12:36:11

Hello,

I think the most login and signup pages on the internet contain an \“?\” in the URL, and the yacy crawler ignores such pages by default (somewhere in the advanced crawler settings, you can tell yacy to index them anyways).

wrecked hat geschrieben:\ Is it possible to black-list or white-list specific URLs?\


Blacklists can be created in the menu \“Filter & Blacklists\“.
http://localhost:8090/Blacklist_p.html

Statistik: Verfasst von David — So Jul 13, 2014 11:36 am


Hilfe für Einsteiger und Anwender • YaCy nicht im Internet erreichbar

Date: 2014-07-13 22:31:13

Hallöchen zusammen!

Ich habe heute YaCy [(version 1.739172)]{style=“font-style: italic”} lokal auf meinem Rechner [(Kubuntu 14.04)]{style=“font-style: italic”} installiert und es funktioniert soweit auch alles wie gewollt, nur folgendes Problem habe ich:


Leider kann ich das derzeit nur hinter meinem Router [(FRITZ!Box Fon WLAN 7570 vDSL)]{style=“font-style: italic”} mit 3 verschiedenen Geräten und mehreren VM\’s testen, aber die IP ist diejenige, die ich von meinem Provider zugewiesen bekomme. Das hat natürlich den Fehler, daß sich diese täglich ändert! UPnP und Portfreigabe sind entsprechend eingerichtet, daran [sollte]{style=“font-weight: bold”} es also nicht liegen.

Könnte es daran liegen, daß ich hinter einem Router bin? Könnte da jemand anderer vielleicht mal auf der obigen Adresse vorbei sehen? Der Rechner ist normaler Weise 247 online, daran soll es mal nicht scheitern! ;)
Viele Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — So Jul 13, 2014 9:31 pm


English • Re: Filter specific urls from scarping

Date: 2014-07-13 22:56:46

For example I started crawling on \“http://askubuntu.com/questions", and on path I selected the \“load only files in a sub-path of given url\” option. I also added \“askubuntu.com/users/*\” to blacklists, but crawling monitor still displayed user URLs like \“http://askubuntu.com/users/163406/user1945827" in the list of scraped URLs.

It also reported crawling URLs like \“http://askubuntu.com/questions?page=2&sort=newest", so I guess that \“?\” filter is not being applied.

At askubuntu.com you can choose to list 15, 30 or 50 questions / page. I wonder if Yacy is smart enough to avoid scraping this list tree times instead of once. On the other hand questions themselves have been scraped already, so it isn\’t too bad to go over this list multiple times. Correct me if I\’m wrong...

Statistik: Verfasst von wrecked — So Jul 13, 2014 9:56 pm


English • Re: Configure data path to an other drive

Date: 2014-07-13 23:18:40

Thanks for the tip, this has worked great so far (I\’m posting this for future reference):

Code:
sudo bashservice yacy stopcd /var/libcp -r yacy /media/big-disk/binchmod -R yacy:yacy /media/big-disk/bin/yacymv yacy yacy_oldln -s /media/big-disk/bin/yacy yacyservice yacy startexit

Statistik: Verfasst von wrecked — So Jul 13, 2014 10:18 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-14 09:19:13

Hallo!

TmoWizard hat geschrieben:\ Laut dem Admincenter sollte sie aber unter [[]{style="font-style: italic"}]{style="font-weight: bold"} erreichbar sein [(Adresse nicht gefunden)]{style="font-style: italic"}\


Solche .yacy-Domains kann man nur anschauen, wenn man in den Browser-Einstellungen Yacy als Proxy eingetragen hat. Ähnlich wie bei den .onion-Domains des Tor-Netzwerks: https://de.wikipedia.org/wiki/.onion

Wenn du für deinen Yacy kostenlos eine Domain registrieren willst, die du dann z.B. deinen Freunden und Bekannten mitteilen kannst, kannst du das z.B. unter https://www.noip.com/ machen.

Statistik: Verfasst von David — Mo Jul 14, 2014 8:19 am


Off-Topic • Congratulations!

Date: 2014-07-14 16:11:24

Hey guys in Germany, congratulations for the World Cup!

Nice campaign from the German team, deserved result from the work that have been doing for years in the German football.

Below, a photo from the classic Flamengo x Fluminense (Fla x Flu) in 1963, when Maracanã stadium (the stadium where you guys conquered the Cup) reached its maximum capacity ever: 194,603 persons. (Since then, the stadium has been reengineered and its current maximum capacity is something around yesterday\’s decision, that is, 74,000.)

Bild

Statistik: Verfasst von oneaty — Mo Jul 14, 2014 3:11 pm


Off-Topic • Re: Congratulations!

Date: 2014-07-14 23:14:01

Thanks. With neymar, the brazilian team would have won the semifinal 7:1.

Statistik: Verfasst von David — Mo Jul 14, 2014 10:14 pm


Fragen und Antworten • uPNP-Probleme

Date: 2014-07-15 00:04:46

Hallo!

Ich habe jetzt auf mehreren Rechnern Yacy installiert.

Wenn man sich viel und lange und intensiv mit der Installation und der Benutzeroberfläche beschäftigt, kriegt man es auch hin!

Technisch habe ich eine Frage:
Kann es sein, das dass autamtische Öffnen eines Ports nur schwer klappt? Ich muß das jetzt immer manuel öffnn bei meinem Laptop..


Imnhaltlich:
Es ist sehr aufwendig Yacy auf einem normalen Rechner zu installieren.
Nach dem Start muß man auswählen, als was er laufen soll und einen Peernamen vergeben. OK
Dann geht es los...
1. Den Proxy einschalten. Den Browser konfigurieren. Die Dyndns-Adresse im Programm eintragen.
Den Proxy konfigurieren. Die Blacklist einpflegen.
Diese Punkte in der oberfläche zu finden ist sehr verwirrend und kompliziert.

Ist evtl geplant, eine 2. oberfläche zu gestalen?
Also eine simple Benutzeroberfläche und eine mit den ganzen Details, welche der Normale user nicht braucht? (Expertenmodus, den man jederzeit zuschalten kann)

Ist evtl geplant einen Installer zu gestalten, der die o.g. Punkte bereits enthält bzw bei der Installation zwingen abfragt (Name des neuen Client) und z.b. den Proxy im Windowssystem für den Nutzer setzt, eine Standartblacklist hinterlegt, den Proxy einschaltet etc?

Ich denke, Yacy wird sich viel stärker verbreiten, wen man mehr eine \“Install and forget\“-Installation hinbekäme!
Vielen Dank vorab!

Statistik: Verfasst von Adama — Mo Jul 14, 2014 11:04 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-15 09:15:36

Hallöchen David,

vielen Dank für deine Antwort!

David hat geschrieben:\ Solche .yacy-Domains kann man nur anschauen, wenn man in den Browser-Einstellungen Yacy als Proxy eingetragen hat. Ähnlich wie bei den .onion-Domains des Tor-Netzwerks: \



Das war mir schon bekannt:

Bild

Außerdem ist YaCy als [[System-Proxy]{style=“font-style: italic”}]{style=“font-weight: bold”} mit [[127.0.0.1]{style=“font-style: italic”}]{style=“font-weight: bold”} eingerichtet und alle meine Browser verwenden diesen auch. Was mich allerdings gerade ebenfalls verwundert ist, daß ich trotz täglicher Zwangstrennung meines Providers seit [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} Tagen immer noch die selbe IP habe und mein YaCy auch weiterhin selbst auf einem Fremdrechner [(gestern getestet)]{style=“font-style: italic”} unter [[dieser Adresse{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} erreichbar ist! :shock:

Ansonsten muß ich sagen, daß mir dieses Konzept sehr gut gefällt! Da mein Rechner selten viel zu tun hat ist es ja kein Problem, daß YaCy hier im Hintergrund mitläuft. Das ist ja nicht viel anders wie bei BOINC, dort mache ich ja ebenfalls mit. :mrgreen:

Viele Grüße aus Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Di Jul 15, 2014 8:15 am


Hilfe für Einsteiger und Anwender • Re: Tag- und Kategorie-Seiten in den Suchergebnissen abwerte

Date: 2014-07-15 11:11:43

Eine andere Möglichkeit wäre, die .../tag/... Seiten über die Blacklist Einstellungen zu blockieren. Hier könnte man noch überlegen, ob man solche Seiten generell blockt oder eben nur bei der Suche.

Ein Blacklist Eintrag könnte z.B. so aussehen:

Code:
.*.*/tag/*.*



Diese Eintrag sollte alle URLs die /tag/ enthalten blocken.

Die Variante mit der Blacklist hätte auch den Vorteil, das dadurch die Solr-Rankingregeln übersichtlicher bleiben.

Statistik: Verfasst von freak — Di Jul 15, 2014 10:11 am


English • Index Transfer

Date: 2014-07-15 16:47:08

Where is the former IndexTransfer_p feature (to send all the index to other nodes) now?

Statistik: Verfasst von ktplulo — Di Jul 15, 2014 3:47 pm


English • Re: Index Transfer

Date: 2014-07-15 19:40:15

commit 04ec42e1d0564feeb0de067af621ce7cc7198bf0
Author: orbiter <orbiter\@6c8d7289-2bf4-0310-a012-ef5d649a1542>
Date: Sun May 10 21:00:39 2009 +0000

removed index Transfer, because it does not make sense any more to do a complete index transfer using the DHT methods. It is far easier and faster to just copy the whole index files from the source to the target peer. To do this, copy all files from DATA/INDEX/<network>/TEXT/RICACHE and DATA/INDEX/<network>/TEXT/METADATA from the source to the destination peer.
Future versions of YaCy will have different file structures than given here, because of the new index segment concept, where each peer may have several indexes (called segments) for each network definition. A copy from one peer to another will then create a new index segment.
To track changes for this feature, see forum discussion at
viewtopic.php?p=14728#p14728{.postlink-local}

git-svn-id: https://svn.berlios.de/svnroot/repos/yacy/trunk@5945 6c8d7289-2bf4-0310-a012-ef5d649a1542

Statistik: Verfasst von ktplulo — Di Jul 15, 2014 6:40 pm


English • Re: Index Transfer

Date: 2014-07-15 19:41:09

I am shutting my peer down. Should I just disconnect it from freeworld?

Statistik: Verfasst von ktplulo — Di Jul 15, 2014 6:41 pm


English • Re: Index Transfer

Date: 2014-07-15 19:53:23

If you want to copy or move your index, you have to shut down yacy.

Statistik: Verfasst von David — Di Jul 15, 2014 6:53 pm


English • Re: Index Transfer

Date: 2014-07-15 19:56:15

I\’m thinking of what will happen to the crawl results of the recent days (or weeks). Have they all been sent out to the global network already? Or should I do something to force them to be sent out faster?

Statistik: Verfasst von ktplulo — Di Jul 15, 2014 6:56 pm


English • Re: Index Transfer

Date: 2014-07-15 20:08:28

If yacy is crawling, then the distribution of the index data is automatically slowed down. So, if you want to make sure that most of your index is distributed to other peers, you have to stop crawling and keep your peer running for a few more days or weeks. It also depends on how big your index is.

Statistik: Verfasst von David — Di Jul 15, 2014 7:08 pm


English • Re: Index Transfer

Date: 2014-07-15 20:16:42

If you want to make sure that your work wasn\’t in vain, you could also upload your SEGMENTS-folder (yacy/DATA/INDEX/freeworld) to a website like mediafire.com{.postlink} and then post the download links here. Maybe someone will grab it and merge it with his own.

Statistik: Verfasst von David — Di Jul 15, 2014 7:16 pm


Off-Topic • Free video chat with Russian girls

Date: 2014-07-16 08:48:27

Free video chat with Russian girls: http://runetki.com/685691

Statistik: Verfasst von Quentinlego — Mi Jul 16, 2014 7:48 am


Wunschliste • ?????? eigentum? mal Guken

Date: 2014-07-17 01:51:03

[[ich habe mich gefragt wenn ich ein Video habe das ich mir geDownload habe und ich es sichern will dann frage ich mich wie und meine frage ist.… wenn ich ein Download habe und ich das Videoes sichern will frage ich mich ob es nicht doch ein yacy möklichkeit gibt]{style=“text-decoration: underline”}]{style=“font-size: 150%; line-height: 116%;“} :geek:

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 12:51 am


Hilfe für Einsteiger und Anwender • hilfe was heist Peernamen

Date: 2014-07-17 03:13:52

Ihr Peername wurde noch nicht angepasst; bitte setzen Sie einen eigenen Peernamen ein (......................…)?????

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 2:13 am


Wunschliste • zu schwer

Date: 2014-07-17 03:58:17

[[ich habe jetzt schon ein wenig Erfahrung :mrgreen: aber ich finde viele Dinge immer noch nicht im Internet oder sie sind so schwer beschrieben deswegen wollte ich fragen ob es nicht möglich keiten gibt yacy ein wenig besser zu gestaltet es gibt doch nicht so viele Infos wie man sich das erhofft zum Beispiel weiß nicht jeder was...
1.Gemeinschaft-basierte Web Suche
2.Suchportal für Ihre eigene Internetseiten
3.Intranet Indexierung
heißt. :mrgreen: und der übersetzen ist ja woll ein Flop :!: zu viel englisch und bei englisch fehlt ein ©... :D was ich meine gucken sie sich doch einmal die web Seite der targobank an https://www.targobank.de/de/index.html naja da müssen sie sich erst mal anmelden aber ich finde misch zurecht und bin nicht überfordert weil es physiologisch aufgebaut ist Frühjahr habe ich angst gehabt das ich irgendwas nicht verstanden habe aber als ich die targobank gefunden habe war meine angst weg der aufbau ist perfekt :ugeek:]{style=“font-size: 150%; line-height: 116%;“}]{style=“text-decoration: underline”}

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 2:58 am


Wunschliste • Re: IPv6

Date: 2014-07-17 04:05:37

[[ich weiß ja was das IPv6 ist aber verstanden habe ich das ding noch nie kannst du das mal erläutern danke ]{style=“text-decoration: underline”}]{style=“font-size: 150%; line-height: 116%;“} :mrgreen:

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 3:05 am


Wunschliste • Re: https-Proxy

Date: 2014-07-17 04:14:52

Orbiter hat geschrieben:\ while biolizard89 is fully right about indexing of https connections (not possible because its encrypted), it should still be possible to use YaCy as https proxy. In that case YaCy does what all https proxies do: just passing the data.\


du spricht englisch und nicht deutsch ich habe deutsch an warum sprichst du in englisch

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 3:14 am


Wunschliste • Re: https-Proxy

Date: 2014-07-17 04:15:34

Orbiter hat geschrieben:\ while biolizard89 is fully right about indexing of https connections (not possible because its encrypted), it should still be possible to use YaCy as https proxy. In that case YaCy does what all https proxies do: just passing the data.\


du spricht englisch und nicht deutsch ich habe deutsch an warum sprichst du in englisch :evil:

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 3:15 am


Wunschliste • Re: https-Proxy

Date: 2014-07-17 04:16:27

biolizard89 hat geschrieben:\ >
> > zottel hat geschrieben:Just looking in here after some time.\ > \ > Why, biolizard, that\'s perfect, thanks! > ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile") > Already installed it. I don\'t really need a proxy, but wanted the > possibility to have every page indexed I am visiting. Which is what > that script does.\ > \ > Thanks a lot!\ > >



Great, happy to hear it worked for you.


[[du spricht englisch und nicht deutsch ich habe deutsch an warum sprichst du in englisch :evil: ]{style=“text-decoration: underline”}]{style=“font-size: 150%; line-height: 116%;“}

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 3:16 am


Suchmaschinen • Re: Linksammlung

Date: 2014-07-17 04:20:52

thq hat geschrieben:\ Da wir sowas schon im Wiki haben sollten diese Liste auch dort weiter führen.\ \ [http://www.findenstattsuchen.info/wiki/ \... chmaschine](http://www.findenstattsuchen.info/wiki/index.php/Suchmaschine){.postlink}\


[[dein ling geht nicht mehr]{style=“text-decoration: underline”}]{style=“font-size: 150%; line-height: 116%;“} :mrgreen:

Statistik: Verfasst von lopoooo8 — Do Jul 17, 2014 3:20 am


Hilfe für Einsteiger und Anwender • Re: hilfe was heist Peernamen

Date: 2014-07-17 09:02:12

Das ist der Name deiner Yacy-Suchmaschine im Netzwerk. Du kannst irgendein Fantasienamen eingeben, oder ihn einfach so lassen wie er ist.

Statistik: Verfasst von David — Do Jul 17, 2014 8:02 am


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-07-17 11:07:34

Hi!

Ich habe beim ersten Treffen am 15.7. ein wenig Protokoll geführt. Hier ist das Ergebnis (der Abend ist nicht ganz so chronologisch verlaufen wie das Protokoll suggeriert. Ich habe mir erlaubt, Themen zu bündeln):

1. Stammtisch [15. Juli 2014]
==============================

1. Idee: Steckbrief fürs schwarze Brett bei IN-Berlin

2. Wie oft treffen? / Persönliche Erwartungen an den Stammtisch, Zeitbudget der Teilnehmer
* zeitlicher Ryhthmus
* 1. Dienstag im Monat (nächstes Treffen 5. August 2014, 19:00 Uhr)

* persönliche Erwartungen
* Sabine (Uhura): Erfahrungsaustausch für den Betrieb eines eigenen Peers
* Sebastian (sixcooler): Anlaufpunkt bieten für Leute, die eigenen Peer starten wollen
* lux: Anlaufpunkt (wie Sebastian (sixcooler))
* Arne (SILVA): Verständnis der Technologie verbessern

3. lux vermisst ein stable-release, das verlässlich für Einsteiger funktioniert
* Sebastian (sixcooler) meint, dass YaCy nie ein \“idiotensicheres\” Produkt werden wird, war auch nie das Ziel
* Idee einen USB-Stick mit laufendem YaCy auf Messen oder anderen Gelegenheiten zu verteilen (Kosten: ca. 5€/Stk.)
* kleiner handlicher Guide (nicht mehr als A5) mit Anwendungsbeispielen dazu
* zu teuer um einfach so zu verteilen, vielleicht \“Brennstation\” aufstellen (Rechner, der USB-Sticks mit YaCy+HowTo flasht)

4. Fragen zur YaCy-Technologie an Sebastian (sixcooler)
* Es ist theoretisch möglich, mit anderen Programmen auf den YaCy-Solr-Index zuzugreifen.
* Sebastian (sixcooler) betreibt ein kleines Raspberry Pi-Cluster mit statischem Index, da vor allem die Schreibzugriffe auf die SD-Karte langsam sind. Seine Theorie ist, dass User auch deswegen YaCy den Rücken kehren, weil der Index unendlich wächst und irgendwann zu viel Platz frisst
* Das Löschen alter Indizes könnte komfortabler integriert werden (Nachtrag, ist es: http://localhost:8090/IndexDeletion_p.html)
* YaCy wird nicht Google ersetzen können, hat aber für bestimmte Fälle große Vorteile
* z.B. der transparente HTTP-Proxy, der alle Seiten, die man ansurft mit einer bestimmten Crawltiefe crawlt -> bei Dingen wie Recherche sehr nützlich

5. Themenvorschlag für das nächste Treffen
* HTTP-Proxy erklären, Verbesserungsvorschläge
* Peer auf \“normalem Rechner\” vs. Raspberry Pi oder ähnlichem

Statistik: Verfasst von SILVA — Do Jul 17, 2014 10:07 am


English • meanings of \“DOCUMENTS\” and \“DHT WORDS\“, \“URLs\” and \“RWIs\”

Date: 2014-07-17 12:49:00

On the Status.html page, there are numbers: \“Documents\” and \“DHT Words\“. What exactly do they mean?

How necessary are the things counted? How safe are they to delete? Is one of them used only for ranking?

At IndexControlURLs_p.html, if I click \“Generate Statistics\“, I can delete things for a domain, what do I lose then? I\’ve deleted all domains, and now sending at http://yacy.local:8090/IndexControlRWIs_p.html sends \“0\” words, while all URLs are \“not found\“. How do I delete all the URLs without words then, or all words without URLs?

At IndexControlRWIs_p.html, I can delete a word. There are two checkboxes, one of which says it\’s safe to delete the URLs, although it will produce something unresolved. The other one says it\’s very extensive. What does that mean?

Statistik: Verfasst von ktplulo — Do Jul 17, 2014 11:49 am


English • Re: meanings of \“DOCUMENTS\” and \“DHT WORDS\“, \“URLs\” and \“RWI

Date: 2014-07-17 15:53:26

Hello ktplulo,

by \“Documents\” we mean the information of pages, pictures, files, etc, that where indexed. Sometimes we use \‘URLs\’ as synonym for that
By \“DHT Words\” we mean database-entrys of (hashed) words from Documents an where to find them in the documents-database. That why it also called RWI (reverse word index).
Counting these values is just an information for people, looking at them :-)

The more documents you have - the more entrys could be found on your local-machine.
The dht-words are primary used to be distributed in the p2p-network in order to concentrate documents for words on machines in the network.

YaCy is robust against deleting the one ore other, but deleted dht-words can\’t be distributed and deleted documents can\’t be found or distributed.
Since we switched to store documents in solr every document can also be found - even if there is no dht-word pointing at them.

If you delete things for a domain you delete the documents for a domain.
If you deleted all domains your index shoud be very smal now :-)

The delete-options for words may be a little outdated. If your realy whant to delete a word it is ok to do it without any options.
If you also whant delete the documents for a word use that option.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jul 17, 2014 2:53 pm


English • Re: meanings of \“DOCUMENTS\” and \“DHT WORDS\“, \“URLs\” and \“RWI

Date: 2014-07-17 17:06:41

Thanks. It might be helpful to add it to the wiki.

Statistik: Verfasst von ktplulo — Do Jul 17, 2014 4:06 pm


Fragen und Antworten • YaCy (webserver) antwortet nicht

Date: 2014-07-18 14:01:05

Hallo,

habe gestern YaCy auf meinem CentOS 6.5 64bit dedizierten Server installiert und Memory auf ca. 4GB gestellt.
Danach hab ich gleich über zehn Seiten zum Crawlen eingetragen. Alles hat gepasst und super funktioniert.

Heute aber wenn ich auf das Interface zugreifen will (<ip>:8090) lädt es nur noch und nach einer Weile \“Timed out\“. Der YaCy Prozess zeigt 95% cpu usage (laut \“ps aux\” output) aber der Unixload ist nur bei ~1.2 sowie am Tag davor.

YaCy version: 1.72 (main)
Java: 1.7-jdk
Server RAM: 8gb

Ich könnte zwar YaCy killen und neustarten aber das würde auf Dauer ja nichts bringen...

Wäre sehr dankbar wenn mir da jemand weiterhelfen könnte, danke!

Statistik: Verfasst von Mellnik — Fr Jul 18, 2014 1:01 pm


Fragen und Antworten • Re: YaCy (webserver) antwortet nicht

Date: 2014-07-18 14:22:21

Hallo Mellnik,

hast Du etwas vom Logfile für uns um Dir zu helfen?

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Jul 18, 2014 1:22 pm


Fragen und Antworten • Re: YaCy (webserver) antwortet nicht

Date: 2014-07-18 15:23:47

Leider nicht, weiß auch gar nicht nach was ich da suchen müsste. Mittlerweile habe ich YaCy neugestartet.. wenn ich nun auf \“Peer-to-Peer Network\” oder \“Crawler Monitor\” klicke gibts wieder einen Timeout. Alle anderen Seiten laufen normal.
Habe versucht etwas aus den Logs heraus zubekommen aber die füllen sich so schnell..

Statistik: Verfasst von Mellnik — Fr Jul 18, 2014 2:23 pm


Hilfe für Einsteiger und Anwender • IP 6 Anbindung

Date: 2014-07-18 16:16:45

Hallo

Ich habe folgendes Problem.
YaCy läuft bei mir nur als junior ich habe
es über eine dyn alias Adresse porobiert
http://stille1983.dynalias.com:8090/
ich kann das suchportal auch aufrufen aber er zeit immer noch als junior an mit der Fehlermeldung

hr Peer kann nicht von außen erreicht werden. Ein möglicher Grund ist, dass Sie sich hinter einer Firewall, NAT oder einem Router befinden. Trotzdem können Sie das Internet durchsuchen, indem Sie den globalen Index der anderen Peers von Ihrer Suchseite aus benutzen. Wir möchten Sie ermutigen den Port, den Sie für YaCy eingestellt haben (Vorgabe: 8090) in Ihrer Firewall zu öffnen, oder einen \“virtuellen Server\” in Ihrem Router aufzusetzten (oft auch DMZ genannt). Bitte seien Sie fair und tragen Sie Ihren Teil zum globalen Index bei!

Statistik: Verfasst von STILLE1983 — Fr Jul 18, 2014 3:16 pm


Fragen und Antworten • Suchfeld und Trefferseite getrennt

Date: 2014-07-18 22:05:19

Hallo miteinander,

ich bin ein newbee in yacy und hätte eine Frage zum Einbinden der Suche in eine bestehende Webseite.

Für gewöhnlich findet man auf Webseiten eine Suchfeld, das auf allen Seiten integriert ist und wenn man nach etwas sucht landet man auf einer Suchergebnisseite mit den Treffern.
Wie kann ich dies mit yacy realisieren?
Gibt es hierfür Widgets die dies ermöglichen? (Eins für das Suchfeld und eins für die Treffer)

Bisher habe ich nur gefunden das komplette Suchfeld inklusive Treffern per Iframe einzubinden. Aber nicht wie ich Suchfeld und Treffer getrennt einbinden kann.

Vielleicht kann mir einer von euch eine Tipp geben?

Viele Grüße
Tofu

Statistik: Verfasst von tofu — Fr Jul 18, 2014 9:05 pm


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-18 22:24:58

Hallo tofu,

guck mal unter http://localhost:8090/ConfigSearchBox.html Deines Peers - das sollte doch das sein was Du suchst - oder?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Jul 18, 2014 9:24 pm


English • Re: Index Transfer

Date: 2014-07-19 15:52:24

Apparently the \“Dump and Restore of Solr Index\” feature overwrites the whole index: viewtopic.php?f=5&t=4615&p=27690{.postlink-local}

Merging two indices needs 3rd-party (or less easy) tools: viewtopic.php?f=5&t=4857&p=28763{.postlink-local}

Statistik: Verfasst von ktplulo — Sa Jul 19, 2014 2:52 pm


English • Re: Index Transfer

Date: 2014-07-19 15:53:19

OK, thanks, David.

Statistik: Verfasst von ktplulo — Sa Jul 19, 2014 2:21 pm


English • Re: Index Transfer

Date: 2014-07-19 16:10:25

Would it make sense, and is it possible, to use DHT Words from one network (freeworld) in another one (webportal mode)?

Statistik: Verfasst von ktplulo — Sa Jul 19, 2014 3:10 pm


English • Re: Index Transfer

Date: 2014-07-19 16:12:06

If I revert my profile to an old copy, will the DHT Words be distributed in the same order (mostly wasting time), or is it randomized?

Statistik: Verfasst von ktplulo — Sa Jul 19, 2014 3:12 pm


English • Re: Index Transfer

Date: 2014-07-19 16:12:39

____

Statistik: Verfasst von ktplulo — Sa Jul 19, 2014 2:36 pm


Fragen und Antworten • Re: Yacy startet nur sporadisch

Date: 2014-07-20 03:58:51

Ich habe mittlerweile noch ein wenig rumprobiert und festgestellt, dass sobald ich einen Crawl-Job starte und dann Yacy stoppe, es sich nicht mehr starten laesst. Eigentlich schade, das solch eine Software auf Windows problemloser laeuft als in Linux. Noch viel schlimmer ist aber, dass es hier wochenlang einfach keine Antwort, ja nichtmal Rueckfragen bei Problemen mit der Software gibt.

Statistik: Verfasst von Rootix — So Jul 20, 2014 2:58 am


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-20 08:31:13

Hallo sixcooler,

danke für deinen Tipp. Auf dieser Konfigurationsseite war ich auch schon, bin aber daraus nicht schlau geworden.
Egal welche Einstellungen ich oben mache, die Code Schnippsel für das Iframe beleiben davon völlig unberührt.
Brauche ich den nicht zwei unterschiedliche Code Schnippsel. Eins für das Suchfeld und eins die Ergebnisseite?

Ich stell mir den Code Schnippsel für das Suchfeld in meiner Navigationsleiste etwa so vor

Code:
  <iframe name="target"       src="http://127.0.0.1:8090/index.html?display=2&resource=local"target="http://www.test.de/suchergebnisseite.html"       width="100%"       height="410"       frameborder="0"       scrolling="auto"       id="target">       </iframe> 



Kennst du eventuell ein funktionierendes Beispiel, das ich mir anschauen könnte.

Viele Grüße
Tofu

Statistik: Verfasst von tofu — So Jul 20, 2014 7:31 am


Hilfe für Einsteiger und Anwender • Re: IP 6 Anbindung

Date: 2014-07-20 13:43:27

Auf der folgenden Seite kannst du überprüfen, ob du die Portweiterleitung richtig konfiguriert hast: http://www.canyouseeme.org/. Deinen Yacy-Port eingeben und dann auf \“Ckeck Port\” klicken.

Statistik: Verfasst von David — So Jul 20, 2014 12:43 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-20 13:51:09

Hast du eigentlich schon probiert, ob du die yacy-Domain von jemand anderem öffnen kannst? Falls nicht, kannst du auf die Seite mit den aktiven Peers gehen: http://localhost:8090/Network.html?page=1&maxCount=1000. Die Peernamen sind alles Links zu yacy-Domains.

Statistik: Verfasst von David — So Jul 20, 2014 12:51 pm


Fragen und Antworten • Re: uPNP-Probleme

Date: 2014-07-20 14:03:23

Hallo!

Adama hat geschrieben:\ Technisch habe ich eine Frage:\ Kann es sein, das dass autamtische Öffnen eines Ports nur schwer klappt? Ich muß das jetzt immer manuel öffnn bei meinem Laptop..\


Ich weiss nicht wie es mit der aktuellen Version aussieht. Aber bei früheren Versionen war es definitiv so, dass UPNP nicht richtig funktioniert hat, zumindest nicht auf meinem Rechner.

Hier noch ein Paar weiter Informationen: viewtopic.php?t=4723&p=29749{.postlink-local}

Statistik: Verfasst von David — So Jul 20, 2014 1:03 pm


English • Re: Index Transfer

Date: 2014-07-20 14:30:49

ktplulo hat geschrieben:\ Merging two indices needs 3rd-party (or less easy) tools: [viewtopic.php?f=5&t=4857&p=28763](http://forum.yacy-websuche.de/viewtopic.php?f=5&t=4857&p=28763){.postlink-local}\


Oh, ok. But you can merge the RWI (reverse word index), which gets created in parallel to the solr-index, by simply copying the files to the folder:
[/DATA/INDEX/freeworld/SEGMENTS/default/]{style=“font-weight: bold”}
Just make sure to shut down yacy first.

ktplulo hat geschrieben:\ Would it make sense, and is it possible, to use DHT Words from one network (freeworld) in another one (webportal mode)?\


As far as I know, if you switch from the p2p-mode to the webportal mode, the RWI gets deactivated, since this index is mainly used for the distribution and receiving of index data from other peers, and in the webportal mode you don\’t communicate with other peers.

ktplulo hat geschrieben:\ If I revert my profile to an old copy, will the DHT Words be distributed in the same order (mostly wasting time), or is it randomized?\


I think it happens in a random fashion.

Statistik: Verfasst von David — So Jul 20, 2014 1:30 pm


English • Re: Index Transfer

Date: 2014-07-20 23:49:23

some month ago I implemented an import method which stretches out to the complete Solr Schema within the so-called surrogate input process. That means that this process can now read in complete Solr XML exports if there would be any process that produces such output... I will implement that if there is time left which is not at this time. With such an full Solr-to-XML export it would then be possible to merge indexes again in the same way as it was possible in the past before the usage of Solr.

Statistik: Verfasst von Orbiter — So Jul 20, 2014 10:49 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-07-20 23:53:49

das ist ja sehr spannend was ihr da treibt! Schade dass ich nicht auch zum Stammtisch kommen kann :(

Statistik: Verfasst von Orbiter — So Jul 20, 2014 10:53 pm


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-21 16:15:48

Hallo tofu,

unter http://localhost:8090/ConfigSearchBox.html unten ist ja ein Bespiel, das Du auch gleich ausprobieren kannst.

Es ist kein Iframe, sondern einfach nur ein Text-input den man zu http://localhost:8090//yacysearch.html abfeuert.
Die Ergebnisse bekommt man dann auf der normalen YaCy-Such-Seite.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jul 21, 2014 3:15 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-21 22:35:56

Hallöchen!

David hat geschrieben:\ Hast du eigentlich schon probiert, ob du die yacy-Domain von jemand anderem öffnen kannst?\



Wie geschrieben geht das nicht, nur über [[die IP{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}!

David hat geschrieben:\ Falls nicht, kannst du auf die Seite mit den aktiven Peers gehen: . Die Peernamen sind alles Links zu yacy-Domains.\



Die Liste kenne ich bereits, dort wird mein Peer [(tmowizard.yacy){.postlink}]{style=“font-style: italic”} auch aufgeführt. Ein klick darauf: [[Seiten-Ladefehler - Adresse nicht gefunden]{style=“font-style: italic”}]{style=“font-weight: bold”}

Öhm...

Gerade versucht, geht da überhaupt einer? :?: Ich habe jetzt auf die Schnelle keinen funktionierenden Link dort gefunden!

Statistik: Verfasst von TmoWizard — Mo Jul 21, 2014 9:35 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-21 23:49:07

TmoWizard hat geschrieben:\ Gerade versucht, geht da überhaupt einer?\


Ja, so ziemlich alle gehen.

TmoWizard hat geschrieben:\ Außerdem ist YaCy als [[System-Proxy]{style="font-style: italic"}]{style="font-weight: bold"} mit [[127.0.0.1]{style="font-style: italic"}]{style="font-weight: bold"} eingerichtet und alle meine Browser verwenden diesen auch.\


Heisst das, dass du in deinen Betriebssystem-Einstellungen Yacy als Proxy konfiguriert hast und nicht in deinen Browser-Einstellungen?

Statistik: Verfasst von David — Mo Jul 21, 2014 10:49 pm


Fragen und Antworten • Re: Yacy startet nur sporadisch

Date: 2014-07-22 01:28:05

Hallo Rootix,

ich kann Deinen Unmut ja verstehen hier keine Reaktion zu erhalten.
Aber ich kann hier auch nur Raten das wohl mal etwas beim herunterfahren von YaCy nicht gestimmt hat und den Lock hinterlassen hat.
Ich fürchte das keiner dieses Problem bisher hatte und eine Idee dazu hätte was er Dir hier schreiben kann.

Wenn solche \‘Index locked ...\’ Dinger auftauchen würde ich den YaCy Prozess beenden und \‘/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_47/collection1/data/index/write.lock\’ und \‘/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_47/webgraph/data/index/write.lock\’ löschen und es erneit versuchen.

Was Deinen Rechner gerade so heftig beschäftigt sieht man gut in einem Threaddump unter http://localhost:8090/Threaddump_p.html.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jul 22, 2014 12:28 am


Fragen und Antworten • Re: Yacy startet nur sporadisch

Date: 2014-07-22 08:40:07

\ Index locked for write\


heisst dass da noch ein YaCy läuft während du versuchst es neu zu starten.

Statistik: Verfasst von Orbiter — Di Jul 22, 2014 7:40 am


Off-Topic • Re: Congratulations!

Date: 2014-07-22 12:19:05

hummm, not so sure.
He\’s good but he\’s nothing without a team.
Many in Brazil say that this was [the selfie team]{style=“font-style: italic”}: it seems they were more worried in taking selfies and perform well on the social networks than in the pitch.
There was also those (ridiculous) performances like entering the pitch hand in hand and shouting, not just singing, the national hymn, as if they were playing some kind of religious, nationalist act, not just play a good football.
I totally agree with Lotthar Mattäus when he says the Brazilian team cried too much, as if they were babys, not men. (http://www1.folha.uol.com.br/internacional/en/sports/worldcup/2014/07/1485630-brazilians-always-cry-says-ex-captain-of-germany.shtml)

Statistik: Verfasst von oneaty — Di Jul 22, 2014 11:19 am


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-22 23:35:28

Hallo sixcooler,

danke nachmals für deine Antwort. Wenn ich das aber einfach nur das Formular einbinde, bekomme ich natürlich keine Suchtreffervorschläge während dem Eintippen.
Es fehlen somit die ganzen javaScript / Ajax Aufrufe während der Eingabe.
So wie in dem IFrame

Code:
<iframe name="target3"       src="http://127.0.0.1:8090/yacyinteractive.html?display=2"       width="100%"       height="180"       frameborder="0"       scrolling="auto"       id="target3">       </iframe> 



Und selbst wenn ich nun auch noch die javaScript Sachen aus dem Iframe einbinden würde, denke das es ebenfalls nicht klappen wird, da das Yacy auf einem anderen Server bzw. Domain läuft und Ajax so viel ich weiss aufrufe von anderen Domains nicht zulässt.

Ich vermute das man hier evtl. mit php Scripten und Curl arbeiten muss um das zu realisieren. Oder täusche ich mich?

Viele Grüße
Tayfur

Statistik: Verfasst von tofu — Di Jul 22, 2014 10:35 pm


Fragen und Antworten • Re: HTTP ERROR 500 - Problem accessing /IndexControlURLs_p.h

Date: 2014-07-23 00:16:04

[[das gleiche auch bei mir ich krige keine antwort

HTTP ERROR 500Problem accessing /yacysearch.html. Reason:
Server Error Caused by:
javax.servlet.ServletException: C:\Users\Thomas\YaCy\DATA\LOCALE\htroot\de\yacysearch.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:735)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:533)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
at org.eclipse.jetty.server.Server.handle(Server.java:370)
at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)
at org.eclipse.jetty.server.AbstractHttpConnection.headerComplete(AbstractHttpConnection.java:971)
at org.eclipse.jetty.server.AbstractHttpConnection\$RequestHandler.headerComplete(AbstractHttpConnection.java:1033)
at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:644)
at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)
at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)
at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)
at org.eclipse.jetty.io.nio.SelectChannelEndPoint\$1.run(SelectChannelEndPoint.java:52)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:543)
at java.lang.Thread.run(Unknown Source)
]{style=“text-decoration: underline”}]{style=“font-size: 150%; line-height: 116%;“} :evil:

Statistik: Verfasst von lopoooo8 — Di Jul 22, 2014 11:16 pm


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-23 00:48:13

Hallo Tayfur,

ah - jetzt verstehe ich Dich wohl endlich .-)

Nun - ich hab es nciht probiert, aber die scripte die in den YaCy-Pages verwendet werden um z.B. die suggestions zu realisieren sollte man auch mit kleinen Anpassungen in andere Seiten bringen können.

Das ist natürlich etwas mehr als cut&paste - aber sollte mit etwas javascript gehen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jul 22, 2014 11:48 pm


Fragen und Antworten • Re: Suchfeld und Trefferseite getrennt

Date: 2014-07-23 08:29:43

Für die Integration in andere Suchseiten kann auch das Projekt https://gitorious.org/yacy/searchpage_template_yaml4/ benutzt werden, das wird z.B. hier in der Forumssuche benutzt. Diese Suchseite rendert ausschliesslich aufgrund der json Suchergebnisse aus der Such-API{.postlink}.

Statistik: Verfasst von Orbiter — Mi Jul 23, 2014 7:29 am


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-23 11:38:29

Hallo, ich habe das Programm installiert. Aber es macht die Web-Seiten nicht auf. Was kann das sein?

Statistik: Verfasst von Balancetist — Mi Jul 23, 2014 10:38 am


Hilfe für Einsteiger und Anwender • Re: IP 6 Anbindung

Date: 2014-07-23 15:55:15

Das geht leider nicht, der übernimmt die ip 4 adresse habe aber einen DS-Lite-Tunnel , IPv4 über DS-Lite es geht bei mir nur über IP 6 was ich über dyn alias realisiert habe .

aber ich habe http://www.subnetonline.com/pages/ipv6- ... canner.php{.postlink} Probiert

Checked port 8090 on Host/IP stille1983.dynalias.com...

The checked port (8090, service ) is online/reachable!

Completed portscan in 0.0635 seconds

Statistik: Verfasst von STILLE1983 — Mi Jul 23, 2014 2:55 pm


Hilfe für Einsteiger und Anwender • Re: IP 6 Anbindung

Date: 2014-07-23 21:34:56

Hi STILLE1983!
Ich hatte letzten Sommer bei den Freifunkern in Kiel die Gelegenheit, YaCy in einer IPv6-only Umgebung zu testen und darin YaCy ans laufen zu bringen. Das ging erst nicht, hab es aber dann beim tracen in einer debugging-Umgebung geschafft zu fixen. Ich vermute aber, dass ich da die Serverport-Einstellung nicht ausprobiert habe und es ist gut möglich dass es da noch ein Problem gibt.
Leider habe ich es seit dem nicht geschafft, eine IPv6-Umgebung herzustellen und hab daher da auch nichts mehr weiter machen können. Wahrscheinlich ist es nur eine Kleinigkeit, aber ich kann das halt immer noch nicht wieder so debuggen wie damals. Was ist deine Empfehlung um so eine IPv6-only-Umgebung aufzubauen? Würde das nämlich auch gerne funktionieren sehen..

Statistik: Verfasst von Orbiter — Mi Jul 23, 2014 8:34 pm


Fragen und Antworten • Re: uPNP-Probleme

Date: 2014-07-23 21:38:26

unser UPnP-Modul ist ein alter Code, den niemand warten kann weil er Fremdcode ist der keinen Maintainer mehr hatte und wir ihn deswegen als Source integriert haben. Ich würde diesen Source gerne wieder loswerden und durch eine Library, der einen Maintainer hat ersetzen. Kennt da irgendjemand was? Jede Aktivität da ist willkommen, kann ich nicht und wohl auch sonst niemand..

Statistik: Verfasst von Orbiter — Mi Jul 23, 2014 8:38 pm


English • Re: Russian data retention and notification laws

Date: 2014-07-23 21:40:46

(I cannot read that russian text..) What kind of activity is required, what functionality in YaCy would cause to circumvent that law?

Statistik: Verfasst von Orbiter — Mi Jul 23, 2014 8:40 pm


English • Re: Any one interested in tracking users on Social networks?

Date: 2014-07-23 21:43:56

since twitter decided to switch off RSS feeds it is not easy any more to integrate tweets in YaCy search results. We would need a twitter scraper which may be possible to set specific crawl filter rules. Someone must invest some work to find out what to do exactly to crawl Twitter accounts in a nice way.
(to everyone): please invest some time to find a solution.

Statistik: Verfasst von Orbiter — Mi Jul 23, 2014 8:43 pm


Hilfe für Einsteiger und Anwender • Re: OpenStreetMap-Tiles

Date: 2014-07-24 21:54:14

Also ich habe gerade mal


OSM kann ich immer noch beliebig über den Proxy laden - und auf http://localhost:8090/IndexCreateParserErrors_p.html (Rejected URLs) sehe ich jede Menge abgelehnte Tiles (s.u.)

Scheint bei mir also zu funktionieren; auch in der Indexverwaltung gibt es zu dieser URL keine Treffer.

Gegenprobe (die neue Blacklist gelöscht, OSM aufgerufen) funktioniert ebenfalls: es werden tiles über den Proxy indexiert.

Statistik: Verfasst von mnbvcx — Do Jul 24, 2014 8:54 pm


Hilfe für Einsteiger und Anwender • Re: YaCy nicht im Internet erreichbar

Date: 2014-07-25 12:35:01

Mahlzeit David!

David hat geschrieben:\ Heisst das, dass du in deinen Betriebssystem-Einstellungen Yacy als Proxy konfiguriert hast und nicht in deinen Browser-Einstellungen?\



Hatte ich kurzfristig, ja. Inzwischen ist aber nur noch mein normaler Browser [(SeaMonkey){.postlink}]{style=“font-style: italic”} auf manuellen Proxy mit YaCy eingerichtet, da einige andere Anwendungen im Hintergrund ganz und gar nicht mit dem Proxy einverstanden waren! Das Thema hat sich aber seit vorgestern aus mir nicht ersichtlichen Gründen erledigt, seit dieser Zeit bekomme ich nun bei der Zwangstrennung vom Provider immer eine neue IP und auch [[http://tmowizard.yacy/ *scheint*]{style=“font-style: italic”}]{style=“font-weight: bold”} seitdem zu funktionieren! :mrgreen:

Bis jetzt bin ich auf jeden Fall begeistert von YaCy, auch wenn die Suchergebnisse manchmal recht dürftig sind. Ich werde das weiter beobachten und melde mich dann wieder, wenn es nochmal Probleme geben sollte.


Viele Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Fr Jul 25, 2014 11:35 am


English • STARTUP YaCy cannot start: String index out of range: -1

Date: 2014-07-26 10:00:32

Hi
I just started using yacy on Windows, and each time I shutdown yacy and reboot Windows I cannot get yacy to start: it returns this error in Yacy\data\log\yacy00.log:

Code:
E 2014/07/26 08:46:25 STARTUP YaCy cannot start: String index out of range: -1java.lang.StringIndexOutOfBoundsException: String index out of range: -1   at java.lang.String.substring(Unknown Source)   at net.yacy.crawler.HostQueue.<init>(HostQueue.java:96)   at net.yacy.crawler.HostBalancer.<init>(HostBalancer.java:83)   at net.yacy.crawler.data.NoticedURL.<init>(NoticedURL.java:67)   at net.yacy.crawler.data.CrawlQueues.<init>(CrawlQueues.java:90)   at net.yacy.search.Switchboard.<init>(Switchboard.java:820)   at net.yacy.yacy.startup(yacy.java:192)   at net.yacy.yacy.main(yacy.java:684)



I completely uninstalled yacy (without keeping the data), then I installed it again, I crawled a few sites for a day, then I shutdown yacy and Windows. After booting the next day I got the same error.

What could be happening?

Thanks

Statistik: Verfasst von Z24 — Sa Jul 26, 2014 9:00 am


Fragen und Antworten • Re: Yacy startet nur sporadisch

Date: 2014-07-26 23:59:16

Hallöchen zusammen!

Passend hierzu durfte ich mehrmals beobachten, daß YaCy erst startete, wenn ich meinen Browser aufrief und einen Tab mit meinem YaCy öffnete! Wenn ich den Browser dann später beende, dann läuft YaCy allerdings weiter. System ist ebenfalls *buntu 14.04 mit OpenJDK 7, welches im Browser allerdings komplett deaktiviert ist!

Dies nur so als Hinweis für den TO. Mich stört das nicht wirklich, da mein Rechner inklusive Browser [(SeaMonkey{.postlink})]{style=“font-style: italic”} sowieso schon seit Jahren 247 durchläuft!


Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Sa Jul 26, 2014 10:59 pm


Panorama • Was genau ist TTIP, CETA und EBI?

Date: 2014-07-27 13:07:14

Hallo, weis hier jemand oder eine was genau TTIP, CETA und EBI ist?

Statistik: Verfasst von Balancetiste — So Jul 27, 2014 12:07 pm


Fragen und Antworten • filetype:apk

Date: 2014-07-27 17:31:23

Könnte man Yacy auch nach APK Dateien suchen lassen?

Wäre vielleicht ganz lustig:)

grüße

Statistik: Verfasst von bbtuxi — So Jul 27, 2014 4:31 pm


Fragen und Antworten • Doppelte Ergebnisse HTTPS HTTP

Date: 2014-07-27 17:45:18

Kann man da irgendetwas machen siehe Anhang.

Finde es etwas blöde gelöst, kann man hier nicht einfach nur HTTPS anzeigen falls vorhanden und HTTP ausblenden?

grüße

Statistik: Verfasst von bbtuxi — So Jul 27, 2014 4:45 pm


Fragen und Antworten • Re: filetype:apk

Date: 2014-07-28 05:48:06

ich habe mich im Kontext mit einem anderen Projekt, das zur Zeit auf hold-on steht, mit der Filestrukur von apk-Dateien befasst. Das sind nur umbenannte zip-Dateien, in denen ein XML ist das alle Konfigurationen der App und auch alle Strings der Applikation drin hat, das Problem ist nur dass es sich um ein dämliches binary-xml Format handelt, für den man noch einen Parser braucht den es in java noch nicht gibt. Meiner ist aber sehr weit fortgeschritten und einen apk-Parser Stumpf gibt es bereits in YaCy, ist aber inaktiv weil noch nicht vollständig.

Ich hoffe dass das andere Projekt im Herbst wieder aufgenommen wird (das liegt nicht an mir, wird aber, wenn es durchgeführt wird was quelloffenes und total geiles mit schöner Presse, das ist jetzt schon sicher!) dann auch in YaCy fertig wird. Wenn das andere Projekt nicht stattfindet mache ich das in YaCy trotzdem fertig, steht aber weil es dringendere Sachen gibt bislang hinten an. Wenn es bis zum Dezember hier noch nix neues gibt kann ja mal jemand hier wieder triggern ;)

Statistik: Verfasst von Orbiter — Mo Jul 28, 2014 4:48 am


Hilfe für Einsteiger und Anwender • Capture & Display the LIVE NUMBER for \“Webgraph Edges\”

Date: 2014-07-28 18:17:58

On page Crawler_p.html
There is a live number being generated, continuously
Under ...
.…. \“Index Size\”
.…. \“Database\”
There is a [LIVE NUMBER]{style=“font-weight: bold”} for [\“Webgraph Edges\“]{style=“font-weight: bold”}
We want to Capture that growing number and Display it on a different webpage of a different website.
How do we [Capture and Display that number AS A LIVE FEED In Real Time]{style=“font-weight: bold”}, say in Joomla or something similar on a separate website.
Thank you!

Statistik: Verfasst von xioc752 — Mo Jul 28, 2014 5:17 pm


Hilfe für Einsteiger und Anwender • Is the free world really shrinking?

Date: 2014-07-28 19:54:37

Well, actually, what I mean is if Yacy\’s freeworld network is shrinking.

After continuously monitoring my Yacy instance for two months, I noticed a significant decrease in the number of peers connected to the freeworld network, as shown in the graphs below.

Bild

and a detailed view from active peers (which I understand are peers running on senior mode)

Bild

Is this only a seasonal behaviour, like people going out on holiday and shutting their Yacy peers down, or is the freeworld network really loosing strength?

Any thoughts about this are welcome.

Statistik: Verfasst von oneaty — Mo Jul 28, 2014 6:54 pm


Hilfe für Einsteiger und Anwender • Re: Capture & Display the LIVE NUMBER for \“Webgraph Edges\”

Date: 2014-07-29 10:39:47

look at the top right corner of the crawler monitor page, there is an orange \‘API\’ sign; klick on that.
You will get the page /api/status_p.xml where the status information is given in xml

Please watch out for this orange \‘API\’ sign on several pages, they are always hints to machine-readable information servlets for your self-made interfaces to YaCy.

Statistik: Verfasst von Orbiter — Di Jul 29, 2014 9:39 am


Hilfe für Einsteiger und Anwender • Re: Is the free world really shrinking?

Date: 2014-07-29 10:55:30

well it is going up and down, somehow unpredictable like stock prices. The following picture is from yacystats
networkplots_qphyear.png
which shows that we have much more peers since last year and that changes with news, politics and perception of good/evil discussions about google and other events.

Unfortunately yacystats is dead (!), can you jump in the gap and provide your graphs on a public server? I have seen the probems with dns you had. Instead of forwarding the graphs to a dyndns account you could just push them frequently using ftp to a web space.

Statistik: Verfasst von Orbiter — Di Jul 29, 2014 9:55 am


Fragen und Antworten • Re: Doppelte Ergebnisse HTTPS HTTP

Date: 2014-07-29 11:04:16

da kann man tatsächlich was machen, hier geht der Dank an die Uni Mainz die dieses Feature über eine Supportanfrage ermöglicht hat!
Dazu gibt es eine schöne Doku im Wiki, so dass ich hier einfach darauf verweise:

Zunächst muss das Feld http_unique_b eingeschaltet werden:
http://www.yacy-websearch.net/wiki/inde ... Host_Names{.postlink}

Dann filter man die nicht-unique Felder mit einer Filter Regel aus den Ergebnissen:
http://www.yacy-websearch.net/wiki/inde ... lter_Query{.postlink}

das gleiche gibts auch für URLs mit/ohne www vorne dran.

Bin mir noch nicht so sicher ob das standardmäßig an sein soll, weil dann wahrscheinlich Leute die automatisch ausgefitlterten URLs vermissen würden (\‘unvollständig\’ ist ein schlechtes Qualitätsmerkmal)

Statistik: Verfasst von Orbiter — Di Jul 29, 2014 10:04 am


English • Re: STARTUP YaCy cannot start: String index out of range: -1

Date: 2014-07-29 11:22:17

this is a strange bug which may appear if you crawl a very large number of different hosts and something gets messed up in your file system.
I made a patch in YaCy 1.73.9216 which should prevent that YaCy stops working but also puts out an error message in your log at DATA/LOG/yacy00.log.

Please watch out for the message \“hostPath name must contain a dot\” in that log file and please post the message here so I can continue with a better bugfix. However, this version should nevertheless fully work (I hope so).

Statistik: Verfasst von Orbiter — Di Jul 29, 2014 10:22 am


Fragen und Antworten • Re: uPNP-Probleme

Date: 2014-07-29 21:01:52

Die von YaCy bisher genutzte Library ist immerhin in Debian enthalten, was auch immer das heißen mag. Ich habe mal ein bisschen geschaut und bin auf Weupnp gestoßen (https://bitletorg.github.io/weupnp/). Ich habe es mal probehalber eingebaut und nach ein bisschen Getüddel (ich habe UPNP bisher immer für Teufelszeug gehalten und daher keine Ahnung :lol:), hat es bei meinem Router (TP-LINK TD-W8970B) funktioniert. Screenshot als Beweis habe ich angehängt. Ich werden den Code gleich hochladen (erst nochmal kurz aufräumen) und hoffe, dass es nicht nur hier funktioniert.

Statistik: Verfasst von Low012 — Di Jul 29, 2014 8:01 pm


English • Re: STARTUP YaCy cannot start: String index out of range: -1

Date: 2014-07-30 00:02:49

Thank you Orbiter!
How do I apply the patch, do I need to compile from source code? ( I\’m just a user, I don\’t know how to do it with java... )
Or I\’ll wait for the 1.73 to be released as a Windows compiled version.

Btw, I crawled 3 hosts but one of them had a lot of links and the crawling process went on for hours.

Statistik: Verfasst von Z24 — Di Jul 29, 2014 11:02 pm


Fragen und Antworten • Re: uPNP-Probleme

Date: 2014-07-30 09:36:03

oh super Marc, genial! Ich bin mal gespannt ob das mehr Senior-Peers produziert...
Hab deinen Commit an die Weupnp-Devs gepusht: https://twitter.com/yacy_search/status/ ... 0837114880{.postlink}
mal schauen ob da noch input kommt, hab deinen Code ja da zum screening abgeladen...

Statistik: Verfasst von Orbiter — Mi Jul 30, 2014 8:36 am


English • P2P mode, dht exchange

Date: 2014-07-30 13:54:29

I\’d like to build own yacy private network. How to do it I know.

Question is how many host with external IP should I have to activate p2p data exchange between them. As I remember ages ago there was minimum limit about 30+ hosts

I am asking (before buy servers) cause I\’d like to have 3 or 4 machines with Yacy installed and no data exchange between machines will be problem for me

If this limit still exist can you tell me where can I change it?

Statistik: Verfasst von zmudzmar — Mi Jul 30, 2014 12:54 pm


Hilfe für Einsteiger und Anwender • Re: Is the free world really shrinking?

Date: 2014-07-30 16:35:51

\ Instead of forwarding the graphs to a dyndns account you could just push them frequently using ftp to a web space.\



Actually, I\’m not forwarding the graphs to a dyndns account, but giving [direct access to my Cacti server]{style=“font-style: italic”}, through a guest account.

Anyway, I like your idea: much simpler, safer and robust.

On my side, I\’m ready to send the graphs somewhere.

As for the web space, do you have already one to which I should ftp the graphs? (I\’m assuming that those graphs will be made public in your site or anywhere else, right?) In this case, I would need to know username/password.

Statistik: Verfasst von oneaty — Mi Jul 30, 2014 3:35 pm


English • Need advice running multiple peers with big index

Date: 2014-07-30 22:18:06

Hi,
i currently have 6 servers, cheap vps\’s, kimsufi dedi + hezner dedi.

My questions are related to crawling and solr index / performance.

1) When Solr index grows over time, lets say to >100gb. Is the performance for search queries affected by RAM or IOPS? And how to improve index speed if its affected?
2) Is it better to run small peers with small indexes vs one peer with enormous index (over 100GB)?

Id like to contribute to yacy network as much as possible but i have to plan using my resources for best QPH / PPM for the network, so advices would be nice.

Br,
Banana

Statistik: Verfasst von banana — Mi Jul 30, 2014 9:18 pm


Hilfe für Einsteiger und Anwender • Re: Capture & Display the LIVE NUMBER for \“Webgraph Edges\”

Date: 2014-07-31 10:52:21

Yes, thank you!
But it contains mountains of information that is inappropriate to show to people.

The [WebGraph Edges is the REAL indicator]{style=“text-decoration: underline”} of the Fine Work that YaCy is doing!

May we please have a [Chopped Down Version]{style=“text-decoration: underline”} that [[ONLY]{style=“text-decoration: underline”}]{style=“font-weight: bold”} shows the WebGraph edges, please?
Obviously [our #1 [next]{style=“text-decoration: underline”} concern]{style=“font-style: italic”} is to have a live feed element that will survive upgrades to YaCy.
It\’s always \‘Better to ask experts,\’ [first]{style=“text-decoration: underline”} :) Thank you, so very much!

Statistik: Verfasst von xioc752 — Do Jul 31, 2014 9:52 am


Hilfe für Einsteiger und Anwender • Re: Is the free world really shrinking?

Date: 2014-07-31 13:08:32

Here\’s what I\’d be sending on an hourly basis (please, see attachment below): a couple of html pages and graph images.

If you start with index.html, you will see four thumbnail graphs.

If you click on each of them, you will be redirected to other html page where you will see details for each graph.

If you don\’t want to use this html structure, only the graph images, you just have to determine which image you want and then pick it from the graphs subdirectory.

Please note that the graphs transmission cycle doesn\’t reflect on the graphs granularity: even if I choose to send the graphs once a day, they will stil get the 1 minute granularity (I set Cacti poller to run every minute)

So, the only thing I need is an ftp account where to send the graphs. Any suggestion on this will be appreciated.

ATTACHMENT: https://drive.google.com/file/d/0B8FDexrYy_FKem5wR2J0MjFvazQ/edit?usp=sharing

Statistik: Verfasst von oneaty — Do Jul 31, 2014 12:08 pm


Hilfe für Einsteiger und Anwender • Zu wenig Arbeitsspeicher!

Date: 2014-07-31 14:09:06

Hallöchen zusammen!

Seit ca. 3 Tagen habe ich ein seltsames Problem hier:

YaCy behauptet felsenfest, daß ich weniger wie 50 MB Arbeitsspeicher zur Verfügung habe!

Problem:

[[Alle anderen Programme und auch mein Taskmanager zeigen eindeutig, daß ich über 3 GB frei habe!]{style=“font-style: italic”}]{style=“font-weight: bold”}

Frage:

Was zeigt mir da YaCy für Unfug an und beendet aus diesem Grund den Crawler?

Die aktuelle Konfiguration meines Rechners bzw. Browsers [sieht man [(ungefähr)]{style=“font-style: italic”} [ hier]{style=“font-weight: bold”}, für mehr Informationen sagt mir einfach Bescheid. Die NSA kennt mein System eh schon, also kann ich das euch auch sagen! ;)

Mike, TmoWizard
{.postlink}]{style=“font-weight: bold”}

Statistik: Verfasst von TmoWizard — Do Jul 31, 2014 1:09 pm


Hilfe für Einsteiger und Anwender • Re: Zu wenig Arbeitsspeicher!

Date: 2014-07-31 15:04:59

Hallo TmoWizard,

YaCy meint nicht das Deinem Rechner der Arbeitsspeicer ausgeht, sondern das ihm der Speicher ausgeht.
Unter http://localhost:8090/Performance_p.html kannst Du Deinem YaCy mehr Speicher zuweisen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jul 31, 2014 2:04 pm


Hilfe für Einsteiger und Anwender • Re: Zu wenig Arbeitsspeicher!

Date: 2014-08-01 01:24:10

Hallöchen sixcooler,

noch einmal extra für dich:

Es sind 3 [[GB]{style=“font-style: italic”}]{style=“font-weight: bold”} frei und YaCy behauptet, es sind weniger wie 50 [[MB]{style=“font-style: italic”}]{style=“font-weight: bold”} frei! YaCy hat auf der von dir verlinkten Seite 600 [[MB]{style=“font-style: italic”}]{style=“font-weight: bold”}, und nochmal extra für dich:

[Es sind 3 [GB]{style=“font-weight: bold”} frei!]{style=“font-size: 200%; line-height: 116%;“}

[[3 GB]{style=“font-style: italic”}]{style=“font-weight: bold”} sind eindeutig sehr viel mehr wie die erlaubten [[600 MB]{style=“font-style: italic”}]{style=“font-weight: bold”} und noch wesentlich mehr wie die in der Meldung erwünschten [[50 MB]{style=“font-style: italic”}]{style=“font-weight: bold”} und werden auch in hundert Jahren wesentlich mehr sein!

Also nochmal:

[[[Was soll der Schmarrn mit zu wenig Speicher!]{style=“font-size: 200%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Edit sagt: Ich habe gestern vergessen zu erwähnen, daß ich diesen angeblich zu geringen Speicher auch schon auf 500 MB erhöht hab. Der Effekt war, daß dann halt die Meldung \“weniger wie 500 MB\” hieß!

Statistik: Verfasst von TmoWizard — Fr Aug 01, 2014 12:24 am


Hilfe für Einsteiger und Anwender • Re: Zu wenig Arbeitsspeicher!

Date: 2014-08-01 09:55:47

TmoWizard hat geschrieben:\ YaCy hat auf der von dir verlinkten Seite 600 [[MB]{style="font-style: italic"}]{style="font-weight: bold"}, und nochmal extra für dich:\ \ [Es sind 3 [GB]{style="font-weight: bold"} frei!]{style="font-size: 200%; line-height: 116%;"}\


naja wenn da immer noch 600 drin steht, dann hast du da nichts geändert, 600 ist ja die default-Freigabe. Deine 3GB werden so lange nicht benutzt, wie du sie nicht freigibst für YaCy. YaCy nimmt sich nicht einfach den Speicher nur weil du ihn hast, du musst ihn explizit freigeben. Schreib doch mal ins Feld \“Memory reserved for JVM\” z.B. 1500 rein, dann hast du die Hälfte deiner 3GB für YaCy freigegeben. Nach dem Eintrag der neuen Speicherfreigabe musst du ein mal YaCy neu starten.

Statistik: Verfasst von Orbiter — Fr Aug 01, 2014 8:55 am


Hilfe für Einsteiger und Anwender • Re: Zu wenig Arbeitsspeicher!

Date: 2014-08-01 16:07:07

Hallöchen \@Orbiter!

Hierzu der passende Wert des Systemmonitor: Java [und]{style=“font-weight: bold”} YaCy belegen [zusammen]{style=“font-weight: bold”} ~810 MB, etwas über 300 MB werden dabei von YaCy verwendet. Das ist also knapp die Hälfte der erlaubten 600 MB.

Ich habe hier noch andere Hintergrunddienste am laufen, unter anderem BOINC. Es ist absolut unmöglich, daß ich für YaCy 1.500 MB zur Verfügung , ich habe nur 6 GB Arbeitsspeicher und möchte mit meinem System auch arbeiten können!

Das große Problem ist ja, daß es vor ein paar Tagen noch einwandfrei lief. Dann kam ein Update von YaCy auf die Version 1.739220 [(über die Paketquellen)]{style=“font-style: italic”} und seit diesem Zeitpunkt spinnt das Ding! Ich weiß ja nicht, was da geändert wurde. Auf jeden Fall war die Änderung ein ganz tiefer Griff in eine Toilettenschüssel, bei der die Spülung nicht funktioniert!

Gut, für mich persönlich reicht YaCy auch so. Es Funktioniert, ich kann halt keine Crawler starten. Das ist zwar schade, aber die Hauptsache ist für mich, daß das mit dem Proxy funktioniert und YaCy nun die besuchten Websites nebenbei crawlt! Das ist in meinen Augen schon sehr viel, da es ja auch hilft, daß YaCy mehr und bessere Suchergebnisse bekommt.

Dank meinem Blog bzw. der Recherche für neue Artikel finde ich eben doch viele Sites, die andere Leute wohl eher selten bis gar nicht suchen oder gar besuchen würden! :mrgreen:

Allerdings gibt es nun ein weiteres Problem, denn YaCy bringt seit ein paar Minuten folgende Meldung:

YaCy hat geschrieben:\ Crawling wurde pausiert! Wenn das Crawling automatisch pausiert wurde, prüfen Sie bitte Ihrer Festplattenspeicher.\



Die Meldung ist natürlich mehr als nur ein geringfügiger Unfug, denn auf der Platte sind über [[50 GB]{style=“font-style: italic”}]{style=“font-weight: bold”} frei und auch der Auslagerungsspeicher ist nicht einmal zu eine Zehntel belegt! Wie geschrieben existieren die Probleme erst seit einem der letzten Updates von YaCy, da wurde also etwas ziemlich gewaltig verbockt!

Ich habe übrigens den Wert auf von 600 MB auf 1 GB erhöht, eine Änderung brachte es jedoch nicht! Höher kann ich den Wert einfach nicht mehr setzen, da ich wie geschrieben mit dem System arbeite und eben noch andere Dienste im Hintergrund laufen. Ich habe hier 6 GB RAM, mehr kann ich mir derzeit nicht leisten. Außerdem schafft das Mainboard laut Hersteller [(soweit ich mich richtig erinnere, das muß ich nochmal überprüfen!)]{style=“font-style: italic”} maximal 8 GB, das würde also wahrscheinlich nicht viel bringen.

Der Rechner ist relativ neu, er ist für meine Zwecke eigentlich sogar übertrieben und ich werde mir auch so schnell garantiert keinen neuen kaufen... schon gar nicht wegen einem einzigen Programm! Wie soll sich YaCy weiter verbreiten, wenn sich die Leute dafür am besten einen hoch getunten Gamingrechner oder noch besser einen eigenen Server dafür kaufen müßen? Ich denke einmal, daß das nicht Sinn und Zweck von YaCy ist!

Grüße nun aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

PS.: Da mir die dahinter stehende Philosophie gefällt werde ich YaCy wenn möglich weiter empfehlen, irgendwie ist die Verbreitung und Werbung dafür derzeit einfach zu gering! Einen eigenen Artikel auf dem Blog wird es [[wahrscheinlich]{style=“font-style: italic”}]{style=“font-weight: bold”} nicht geben, aber ich werde YaCy immer wieder mal in dem einen oder anderen Artikel erwähnen und natürlich auch verlinken! :mrgreen:

Statistik: Verfasst von TmoWizard — Fr Aug 01, 2014 3:07 pm


Hilfe für Einsteiger und Anwender • Portfreigabe

Date: 2014-08-02 01:05:10

Hallo und guten Tag,

ich bin neu im Forum und auch in Sachen YaCy. Leider bekomme ich immer wieder unten stehende Fehlermeldung, obwohl ich in der Fritz.Box 7330SL die Portfreigabe mit 8090 eingestellt habe. Und in der YaCy wird mir das auch angezeigt: Ihren Router für YaCy konfigurieren: hier ist ein Häkchen drinn und auch ein grünes. Kann mir bitte jemand erklären wie das eingestellt wird bei YaCy und in der Box? Ich habe auch versucht die Firewall von Microsoft zu öffnen, aber ich weiss nicht ob man das überhaupt machen muss und wenn ja, wie das dann geht. Hier ist nachfolgend die Hauptfehlermeldung:

[Ihr Peer kann nicht von außen erreicht werden (was nicht schlimm ist, aber anders wäre für das YaCy-Netzwerk noch besser); Bitte öffnen Sie Ihre Firewall auf diesem Port und/oder stellen Sie einen virtuellen Server in Ihrem Router ein um Verbindungen auf diesem Port zu erlauben.]{style=“font-weight: bold”}

Mit freundlichen Grüssen und Danke

1hartmann

Statistik: Verfasst von 1hartmann — Sa Aug 02, 2014 12:05 am


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-02 12:03:33

Guten Tag!

1hartmann hat geschrieben:\ Ihren Router für YaCy konfigurieren: hier ist ein Häkchen drinn und auch ein grünes.\


Mach mal das Häkchen weg und starte Yacy neu. (Die UPnP-Funktion, die mit diesem Häkchen aktiviert wird funktioniert manchmal nicht richtig.)

1hartmann hat geschrieben:\ \... obwohl ich in der Fritz.Box 7330SL die Portfreigabe mit 8090 eingestellt habe.\


Du hast also die Portfreigabe manuell (innerhalb des Fritzbox-Interface) gemacht?

Statistik: Verfasst von David — Sa Aug 02, 2014 11:03 am


English • Re: P2P mode, dht exchange

Date: 2014-08-02 12:26:48

zmudzmar hat geschrieben:\ I\'d like to build own yacy private network. How to do it I know.\


I\’m not quite sure. I have never done this before. I think you have to set the proper settings on the network configuration page: http://localhost:8090/ConfigNetwork_p.html. Maybe you have to create a custom network definition under \“Network and Domain Specification\“.

zmudzmar hat geschrieben:\ Question is how many host with external IP should I have to activate p2p data exchange between them. As I remember ages ago there was minimum limit about 30+ hosts\


For my part, I have never heard of a minimum limit.

Statistik: Verfasst von David — Sa Aug 02, 2014 11:26 am


English • Re: Need advice running multiple peers with big index

Date: 2014-08-02 12:33:38

Hi!

banana hat geschrieben:\ Is it better to run small peers with small indexes vs one peer with enormous index (over 100GB)?\


As far as I know, many small peers are better for the network than a few big peers, because they have a shorter response time.

Statistik: Verfasst von David — Sa Aug 02, 2014 11:33 am


English • Re: STARTUP YaCy cannot start: String index out of range: -1

Date: 2014-08-02 12:37:23

Z24 hat geschrieben:\ How do I apply the patch, do I need to compile from source code?\


You should be able to download and install updates from this page within your yacy settings: http://localhost:8090/ConfigUpdate_p.html

Statistik: Verfasst von David — Sa Aug 02, 2014 11:37 am


Hilfe für Einsteiger und Anwender • Re: Is the free world really shrinking?

Date: 2014-08-02 14:10:49

ok, for now, I managed to upload the graphs to ucoz.com, the only free web hosting company that allows ftp.

On my side, I created a script that uploads the graphs on an hourly basis.

The link is http://yacystats.ucoz.com/

By clicking on each graph, you\’ll get different types of granularity.

I\’m just still not sure if ucoz.com will keep this site forever, or if they will consider that it is not being updated frequently.

Statistik: Verfasst von oneaty — Sa Aug 02, 2014 1:10 pm


English • Re: Any one interested in tracking users on Social networks?

Date: 2014-08-02 21:13:33

Orbiter hat geschrieben:\ since twitter decided to switch off RSS feeds it is not easy any more to integrate tweets in YaCy search results. We would need a twitter scraper which may be possible to set specific crawl filter rules. Someone must invest some work to find out what to do exactly to crawl Twitter accounts in a nice way.\ (to everyone): please invest some time to find a solution.\



Hi,
i looked upon this, just to figure how to scrape twitter. It is possible to scrape twitter via their api, but they have limitations regarding twitter api (terms of service + query restrictions).

There are few do-able solutions:
1)Scrape Twitter streaming JSON API and receive all tweets*, parse it with suitable already existing applications which can turn it to RSS, which yacy can read directly.
2)Same as above but use twitter json/api compatible java library and integrate it to yacy.*

*You receive only ~1% of the tweets per token with streaming api, also theres restrictions what you can do with the data.Its quite easy to do the choice one, but i don\’t know how it will look in search results.
I dont have enough knowledge in programming to do option 2 at this time but flip side, this would be excellent programming experience + learning opportunity.

Of course it would be nice in some cases but also extremely creepy to make social search into yacy which would build social profile for every people based on crawling, like showing profile pictures, all social media accounts and other information like friends etc.

Statistik: Verfasst von banana — Sa Aug 02, 2014 8:13 pm


Hilfe für Einsteiger und Anwender • Re: Zu wenig Arbeitsspeicher!

Date: 2014-08-02 23:10:32

Sehr rätselhaft!

Heute kam ein Update auf Version [[1.739227]{style=“font-style: italic”}]{style=“font-weight: bold”}, seitdem funktioniert alles ohne Probleme! Sogar die CPU-Auslastung ist rapide gesunken, was gerade bei meinem System dank BOINC besonders wichtig ist.

Prüfen kann das aber niemand mehr, aus rechtlichen Gründen habe ich den Namen der Suchmaschine geändert. Unsere Politiker und die gleichgeschalteten Medien drehen mir derzeit zu sehr durch, durch das LSR könnte es da sonst zu viel Ärger geben! Dazu noch das \“Recht auf Vergessen\”...

Lassen wir das besser, meine Artikel auf dem Blog sind heftig genug! Werbung für YaCy ist aber trotzdem notwendig, es machen meiner Meinung nach zu wenig Leute mit!

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Sa Aug 02, 2014 10:10 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 00:15:25

hallo david, danke für deine antwort. ja ich habe die box manuell eingestellt. geht das auch anderst? jetzt habe ich das häkchen rausgemacht und neu hochgefahren. aber es kommt die gleiche meldung:

[Ihr Peer kann nicht von außen erreicht werden (was nicht schlimm ist, aber anders wäre für das YaCy-Netzwerk noch besser); Bitte öffnen Sie Ihre Firewall auf diesem Port und/oder stellen Sie einen virtuellen Server in Ihrem Router ein um Verbindungen auf diesem Port zu erlauben.
Peer-Port: mit SSL (https aktiviert auf Port 8443 )]{style=“font-weight: bold”}

und dann ist noch diese meldung:

[Was Sie als Nächstes tun können:

Sie haben keinen Port in Ihrer Firewall geöffnet oder Ihr Router leitet den Server-Port nicht zu Ihrem Peer weiter. Dies ist jedoch erforderlich, wenn Sie vollständig am YaCy-Netzwerk teilhaben möchten. Sie können Ihren Peer auch nutzen ohne ihn zu öffnen, dies wird jedoch nicht empfohlen.]{style=“font-weight: bold”}

also ich möchte nicht nur webseiten abfragen, sondern auch webseiten anbieten. bis zur nächsten antwort herzlichen dank.

Statistik: Verfasst von 1hartmann — Sa Aug 02, 2014 11:15 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 11:24:08

Wenn du die SSL-Funktion eingeschaltet hast, musst du möglicherweise diesen Port auch noch freigeben (?). Schalte testweise SSL mal ab und versuche ob es dann geht. Zusätzlich könntest du mal auf die Seite http://www.canyouseeme.org/ und den Port 8090 checken. Manchmal kann es vorkommen, dass Yacy geschlossene Ports meldet, obwohl diese geöffnet sind.

Statistik: Verfasst von David — So Aug 03, 2014 10:24 am


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2014-08-03 13:38:21

Ich bin zwar kein Entwickler, aber zum Thema inhaltsbasierte Bildersuche könnten euch möglicherweise die folgenden Seiten weiterhelfen:

Lire - An Open Source Java Content Based Image Retrieval Library
http://www.semanticmetadata.net/lire/

Running Lire image search inside Solr — how?
http://stackoverflow.com/a/21623972

pixolution for Apache Solr
http://www.pixolution.de/index.php?id=60

Statistik: Verfasst von David — So Aug 03, 2014 12:38 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 18:41:10

hallo david, danke für die antwort. ich habe alle deine vorschläge probiert und keinen erfolg gehabt. aber das schaffen wir schon. anbei wieder die snapshoots. nebenbei noch eine andere frage. wenn es dann funktioniert können ja andere user webseiten von mir anfordern. diese muss ich ja erst crawlen. um soviel webseiten anbieten zu können wie google vergehen doch bestimmt jahre? und macht mir das nicht meine festplatte voll? bis dann und danke dir. 1hartmann


Ich habe noch folgende fehlermeldung entdeckt, obwohl im webcrawl der name angezeigt wird:

[Ihr Peer ist dem Netzwerk noch nicht bekannt. Warten Sie noch ein wenig, dies geschieht automatisch]{style=“font-weight: bold”}

[Ihr Peer kann nicht von außen erreicht werden. Ein möglicher Grund ist, dass Sie sich hinter einer Firewall, NAT oder einem Router befinden. Trotzdem können Sie das Internet durchsuchen, indem Sie den globalen Index der anderen Peers von Ihrer Suchseite aus benutzen. Wir möchten Sie ermutigen den Port, den Sie für YaCy eingestellt haben (Vorgabe: 8090) in Ihrer Firewall zu öffnen, oder einen \“virtuellen Server\” in Ihrem Router aufzusetzten (oft auch DMZ genannt). Bitte seien Sie fair und tragen Sie Ihren Teil zum globalen Index bei!]{style=“font-weight: bold”}

Statistik: Verfasst von 1hartmann — So Aug 03, 2014 5:41 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 18:48:15

nochmals eine etwas freudigere meldung. der port 8443 wird im check erkannt.

[Success: I can see your service on 84.57.32.13 on port (8443)
Your ISP is not blocking port 8443]{style=“font-weight: bold”}

Aber leider nicht der port 8090 und die meldungen sind immer noch da.

Statistik: Verfasst von 1hartmann — So Aug 03, 2014 5:48 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 19:34:21

In deinen Fritzbox-Einstellungen würde ich in der \“Liste der UPnP geöffneten Ports\” den Eintrag \“TCP 8090\” entfernen (rechts auf das rote Kreuz klicken). Möglicherweise funktionierts dann. Falls nicht, könntest du mal deine Windows-Firewall kurzfristig deaktivieren und schauen ob es dann geht.

1hartmann hat geschrieben:\ wenn es dann funktioniert können ja andere user webseiten von mir anfordern. diese muss ich ja erst crawlen. um soviel webseiten anbieten zu können wie google vergehen doch bestimmt jahre?\


Wenn zehntausende oder hundertausende Benutzer im Yacy-Netzwerk teilnehmen würden, würde es wahrscheinlich nicht so lange dauern. Wobei noch gesagt werden muss, dass Yacy bereits jetzt eine ganze Menge Vorteile hat im Vergleich zu Google, z.B. existiert bei Yacy keine Zensur und keine Spionage.

1hartmann hat geschrieben:\ und macht mir das nicht meine festplatte voll?\


Das Problem ist eher, dass ziemlich viel RAM benötigt wird, und sobald dein Index eine gewisse Grösse erreicht hat und zuviel RAM benötigt, funktioniert Yacy nicht mehr richtig und lässt sich irgendwann auch nicht mehr starten. Für dieses Problem gibt es im Moment leider noch keine Lösung, soweit ich weiss.

Statistik: Verfasst von David — So Aug 03, 2014 6:34 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 21:26:18

hervorragend david und danke, das war der fehler. ich habe den upn port ausgeschaltet. aber trotzdem verwundert es mich das der portsucher den 8090 nicht erkennt und mit error anzeigt und den port 8443 erkennt.

vielleicht hilfst du mir bitte noch folgende meldung zu beseitigen: [Ihr Peer ist dem Netzwerk noch nicht bekannt. Warten Sie noch ein wenig, dies geschieht automatisch.]{style=“font-weight: bold”}

und kannst du mir bitte ein paar tips zu den letzten vier hinweisen meines snapshootes geben?

das mit dem ram ist sehr schlecht. das merke ich jetzt schon. kann neben yacy nichts anderes, trotzt vierkerner, laufen lassen. viel zu langsam. also da muss was geschehen sonst hat es ja keinen sinn diese suchmaschine. ich will ja nebenbei noch andere programme aufrufen und bearbeiten können. aber es braucht halt alles seine zeit. ich danke dir. viele grüsse von 1hartmann

Statistik: Verfasst von 1hartmann — So Aug 03, 2014 8:26 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 21:31:29

nachtrag, auch die fehlermeldung mit dem suchen des peer netzwerkes hat sich erledigt. ist jetzt auch ok. danke herr profi ;)

Statistik: Verfasst von 1hartmann — So Aug 03, 2014 8:31 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-03 22:09:31

hallo david, habe noch ein paar fragen bitte.

1. wenn ich den rechner ausschalte kann keiner auf meine suchmaschine zugreifen? (wenn dasstimmt müsste wohl eine serverlösung her?)

2. wenn ich den rechner laufen lasse, aber yacy abschalte? laufen dann die suchindexe und abfragen weiter?

3. kann ich yacy, damit meine programme weiterhin zügig laufen, einen bestimmten kern meines vierkernprozessors zuweisen?

4. was ist die beste cralingtiefe?


danke vorerst.

1hartmann

Statistik: Verfasst von 1hartmann — So Aug 03, 2014 9:09 pm


English • Re: STARTUP YaCy cannot start: String index out of range: -1

Date: 2014-08-03 22:44:42

Thanks David.
I had to do a fresh install in another location to load Yacy settings and get the update, and now Yacy starts.

Orbiter, I confirm the 1.73009227 version is working.
Here is the one error I found in the log files:

Code:
I 2014/08/03 15:41:06 HostQueue opened HostQueue H:\YaCy\DATA\INDEX\freeworld\QUEUES\CrawlerCoreStacks\ctv1.ctv.ca.80 with 0 urls.I 2014/08/03 15:41:06 HostQueue opened HostQueue H:\YaCy\DATA\INDEX\freeworld\QUEUES\CrawlerCoreStacks\vancouverisland.ctvnews.ca.80 with 0 urls.W 2014/08/03 15:41:06 ConcurrentLog java.lang.RuntimeException: hostPath name must contain a dot: wwwjava.lang.RuntimeException: hostPath name must contain a dot: www   at net.yacy.crawler.HostQueue.<init>(HostQueue.java:98)   at net.yacy.crawler.HostBalancer.<init>(HostBalancer.java:87)   at net.yacy.crawler.data.NoticedURL.<init>(NoticedURL.java:67)   at net.yacy.crawler.data.CrawlQueues.<init>(CrawlQueues.java:90)   at net.yacy.search.Switchboard.<init>(Switchboard.java:837)   at net.yacy.yacy.startup(yacy.java:191)   at net.yacy.yacy.main(yacy.java:683)I 2014/08/03 15:41:06 HostQueue opened HostQueue H:\YaCy\DATA\INDEX\freeworld\QUEUES\CrawlerNoLoadStacks\download.nullsoft.com.80 with 0 urls.I 2014/08/03 15:41:06 HostQueue opened HostQueue H:\YaCy\DATA\INDEX\freeworld\QUEUES\CrawlerNoLoadStacks\www.codelobster.com.80 with 0 urls.I 2014/08/03 15:41:06 HostQueue opened HostQueue H:\YaCy\DATA\INDEX\freeworld\QUEUES\CrawlerNoLoadStacks\www.nirsoft.net.80 with 0 urls.

Statistik: Verfasst von Z24 — So Aug 03, 2014 9:44 pm


Off-Topic • Re: e-book Reader Umfrage

Date: 2014-08-04 15:55:39

Ich habe mittlerweile eine Tolino Vision{.postlink} und das ist endlich mal ein Gerät, mit dem es mir Spaß macht, zu lesen. Insbesondere die Hintergrundbeleuchtung ist nett, wenn ich nachts mal nicht schlafen kann und kein helles Licht einschalten möchte, um meine Frau nicht zu wecken.

Wird mal Zeit, dass mich ernsthaft an einen epub-Parser für YaCy setze...

Statistik: Verfasst von Low012 — Mo Aug 04, 2014 2:55 pm


Off-Topic • Re: e-book Reader Umfrage

Date: 2014-08-04 16:01:58

epub ist doch \‘nur\’ ein zip mit html drin? (plus Metadaten?) Da könnte es fast reichen dem Zip-Parser zu sagen er solle das mal aufmachen. Natürlich wäre ein richtiger Parser der die Metadaten versteht besser.

Statistik: Verfasst von Orbiter — Mo Aug 04, 2014 3:01 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-04 19:51:10

In der Liste der Portfreigaben (in deinen Fritzbox-Einstellungen) könntest du noch die UDP-Einträge entfernen, da Yacy dieses Protokoll nicht benutzt sind sie überflüssig.

1hartmann hat geschrieben:\ vielleicht hilfst du mir bitte noch folgende meldung zu beseitigen: [Ihr Peer ist dem Netzwerk noch nicht bekannt. Warten Sie noch ein wenig, dies geschieht automatisch.]{style="font-weight: bold"}\


Diese Meldung sollte eigentlich nach einer Weile verschwinden.

1hartmann hat geschrieben:\ und kannst du mir bitte ein paar tips zu den letzten vier hinweisen meines snapshootes geben?\


Meinst du die vier Punkte nach \“Ihre Grundeinstellungen sind vollständig! Sie können jetzt (beispielsweise)\“? Das sind halt Vorschläge was man jetzt als nächstes machen könnte.

1hartmann hat geschrieben:\ 1. wenn ich den rechner ausschalte kann keiner auf meine suchmaschine zugreifen?\


Ja, genau.

1hartmann hat geschrieben:\ Wenn das stimmt müsste wohl eine serverlösung her?\


Nicht unbedingt. Irgendein handelsüblicher Rechner den du 24h am Tag laufen lassen kannst tuts auch. Obwohl du dem Yacy-Netzwerk auch schon hilfst, wenn du ihn nur ein paar Stunden am Tag laufen lässt.

Nur so nebenbei: Falls du möglicherweise Interesse an einem Rechner hast, der nicht so viel Lärm macht bzw. komplett lautlos ist, kann ich die Geräte von http://www.deltatronic.de/ empfehlen. Die könnte man theoretisch im laufenden Betrieb als Kopfkissen benutzen, wenn sie nicht so hart wären.

1hartmann hat geschrieben:\ 2. wenn ich den rechner laufen lasse, aber yacy abschalte? laufen dann die suchindexe und abfragen weiter?\


Nein.

1hartmann hat geschrieben:\ 3. kann ich yacy, damit meine programme weiterhin zügig laufen, einen bestimmten kern meines vierkernprozessors zuweisen?\


Innerhalb von Yacy gibt es dazu keine Einstellmöglichkeiten. Man kann aber irgendwo (zumindest in früheren Versionen) die Prozesspriorität einstellen, die standardmässig auf \“niedrig\” gestellt ist.

Als Windows-Benutzer könntest du für das Zuweisen bestimmter Kerne das folgende Programm verwenden, von dem es auch eine kostenlose Version gibt: https://bitsum.com/processlasso/. Sobald du das Programm gestartet hast, kannst du in der Prozessliste auf den Yacy-Prozess rechts-klicken und dann unter \“CPU affinity\” auswählen wieviele und welche CPUs du für Yacy verwenden willst. Ich muss aber noch erwähnen, dass ich das Programm noch nie in Verbindung mit Yacy getestet habe.

1hartmann hat geschrieben:\ 4. was ist die beste cralingtiefe?\


Im Yacy-Wiki gibt es einige Infos zu diesem Thema: http://www.yacy-websearch.net/wiki/inde ... ling_Tiefe{.postlink}

Statistik: Verfasst von David — Mo Aug 04, 2014 6:51 pm


Off-Topic • Re: e-book Reader Umfrage

Date: 2014-08-04 19:56:27

Ja, das habe ich letzten auch schon mal probiert, aber irgendwie hat es nicht richtig funktioniert. Muss ich mir nochmal anschauen.

Statistik: Verfasst von Low012 — Mo Aug 04, 2014 6:56 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-08-05 00:05:52

Hallo Berliner,

zur Erinnerung: heute 19:00 gibt es wieder ein Treffen!

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Aug 04, 2014 11:05 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-08-05 08:31:16

ich werde auf jeden Fall kommen.
Dann bis heute Abend im
https://in-berlin.de/space/

lux

Statistik: Verfasst von lux — Di Aug 05, 2014 7:31 am


Hilfe für Einsteiger und Anwender • Re: Crawler findet keine Links - Ergänzung!!!

Date: 2014-08-05 13:27:30

Wollte nochmals hören, ob es weitergeht ...

Hasbe gerade den selben Test mit Yacy 1.72 wieder gemacht; aber es geht nicht ...

Grüße

spok

Statistik: Verfasst von spok — Di Aug 05, 2014 12:27 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-08-05 14:03:38

Facebook Party!
https://www.facebook.com/yacy.search.en ... 8181152735{.postlink}

Statistik: Verfasst von Orbiter — Di Aug 05, 2014 1:03 pm


English • Removing old index entries when reindexing a page

Date: 2014-08-20 13:24:48

After YaCy indexed a page, can it remove the entries for that page that had existed before? I am not talking about the manual settings of a particular crawl, that delete everything about a page without caring if it is being indexed.

When YaCy does \“If verification fails, delete index reference\“, does it delete only the search word, or also all other words that are invalid now (because it reindexes the page anyway)?

Statistik: Verfasst von ktplulo — Mi Aug 20, 2014 12:24 pm


English • Removing index entries when a page unavailable temporarily

Date: 2014-08-20 14:25:01

[Problem:]{style=“font-weight: bold”}
\“If verification fails, delete index reference\” is enabled, or anything else from viewtopic.php?f=23&t=5314&p=30466#p30466{.postlink-local} is being done. Data about a page is to be deleted. But the page is actually not available not because it was updated, but because the server is down, or broken, or being blocked (censored) by mistake or otherwise temporarily. It is likely to go up soon, or the block (censorship) is going to be lifted.

[Proposal:]{style=“font-weight: bold”}
A list of strings to detect such cases, and ways of detection (for example, delete only after the URL has been accessed at least 3 times with an interval of at least 3 days, but at most 30 days in sum).

[Problem with the proposal:]{style=“font-weight: bold”}
1. It can be used to increase DoS spam.
[Partial solution:]{style=“font-weight: bold”}
1. Only use for cached pages?

[Another potential problem:]{style=“font-weight: bold”}
2. It can be seen from outside that somebody is searching repeatedly for something intentionally censored.

Statistik: Verfasst von ktplulo — Mi Aug 20, 2014 1:25 pm


Off-Topic • Re: Yacystats offline

Date: 2014-08-20 14:34:44

Hi,

http://mantis.tokeek.de/view.php?id=423

Wird es ein Comeback oder eine andere Lösung geben?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Mi Aug 20, 2014 1:34 pm


Off-Topic • Re: Yacystats offline

Date: 2014-08-20 14:54:33

ich befürchte dass yacystats niicht wieder kommt. wer hier Initiative für eine Alternative zeigen möchte ist wilkommen. Wenn nichts anderes kommt denke ich über eine Schmalspurvariante nach, die Teil von YaCy wird.

Statistik: Verfasst von Orbiter — Mi Aug 20, 2014 1:54 pm


Fragen und Antworten • Re: Symbole an der Admin-Konsole nach der Anmeldung

Date: 2014-08-20 15:28:58

Orbiter hat geschrieben:\ einfach /ConfigUpdate\_p.html aufrufen und Release auswählen! Dazu gibts tatsächlich auch ein Tutorial Video:\


Herzlichen Dank für die Antwort, Orbiter. Sobald ich weiss, wo was zu finden ist, bin ich YaCy-Experte. Und vlt. schafft die YaCy-Community zu diesem Zeitpunkt die Interssenten mit Antworten zu versorgen ohne für den Wettberwerber(Google/ Youtube) Werbung zu machen ;-).

Statistik: Verfasst von flegno — Mi Aug 20, 2014 2:28 pm


Fragen und Antworten • Re: Memory problems- Me Too

Date: 2014-08-20 19:14:13

as\_above\_so\_below hat geschrieben:\ I tried using 64bit windows and linux some time ago but found them lacking in various ways (compatible drivers for example)and so I switched back to 32bit. That was some time ago.\ \ The question would naturally become. What OS set up will be best suited for running yacy?\


In my opinion, YaCy runs pretty good on Linux Mint, and regarding the drivers, it mostly works out of the box. At the moment, it\’s one of the most popular and easiest to use linux distros.

http://www.linuxmint.com/
https://en.wikipedia.org/wiki/Linux_Mint

Statistik: Verfasst von David — Mi Aug 20, 2014 6:14 pm


Hilfe für Einsteiger und Anwender • Themen, Foren beobachten

Date: 2014-08-21 10:35:00

ich sehe im persönlichen Bereich

\ - Du beobachtest keine Foren - Du beobachtest keine Themen \


Habe aber keine Möglichkeit gefunden, eine Beobachtung einzurichten. Gibt es diese Beobachtungsfunktion im [forum.yacy-websuche.de]{style=“font-style: italic”}?

Statistik: Verfasst von flegno — Do Aug 21, 2014 9:35 am


Hilfe für Einsteiger und Anwender • Yacy startet nicht

Date: 2014-08-21 11:59:40

Hallo zusammen,

habe gestern das erste mal Yacy unter Win 7 (64bit) installiert. Machte einen klasse Eindruck und lief offenbar auch ganz prima. Nach dem ich Yacy das zweite mal starten wollte tat sich leider nichts. Leider war auch Debug Modus möglich?? Letztendlich half nur eine Neuinstallation...
Danach lief Yacy wieder einwandfrei. Leider auch nur einmal... denn heute, wieder das selbe Problem und Yacy läßt sich nicht mehr starten - nun wollte ich euch fragen ob möglicherweise jemand einen Rat hat! Beispielsweise wo ich ggf. Log Dateien finde etc.

Vielen Dank

Statistik: Verfasst von lupus — Do Aug 21, 2014 10:59 am


Presse • Re: Blog-Sammel-Thread

Date: 2014-08-21 12:17:40

\“Suchmaschine MetaGer wird nutzerfreundlicher\”

http://www.heise.de/newsticker/meldung/ ... 97435.html{.postlink}

YaCy wird im Artikel erwähnt.

Statistik: Verfasst von Low012 — Do Aug 21, 2014 11:17 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht - Windows-Ereignisprotokoll anschauen

Date: 2014-08-21 12:55:36

was Yacy betrifft bin ich ein Anfänger und mit Windows 7 32 Bit problemlos unterwegs. Nur so eine Idee - evtl. verrät das Windows-Ereignisprotokoll irgendwas, was dich weiter bringt?

Statistik: Verfasst von flegno — Do Aug 21, 2014 11:55 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-08-21 13:08:19

Ich hab mal Yacy versucht händisch zu starten - es scheint so als hätte Yacy einige wichtige Dateien nicht anlegen können aber möglicherweise kann mir jemand genaueres anhand der Ausgabe sagen:

Code:
C:\Users\user\YaCy\lib>java -jar lib\yacycore.jarError: Unable to access jarfile lib\yacycore.jarC:\Users\user\YaCy\lib>java -jar yacycore.jar[ YaCy v1.7, build 20140404 by Michael Christen / www.yacy.net ]-------------------------------------------------------------------------------could not copy yacy.loggingSTARTUP: Trying to load logging configuration from file C:\Users\user\YaCy\lib\DATA\LOG\yacy.loggingcould not find logging properties in homePath=C:\Users\user\YaCy\libAug 21, 2014 12:52:07 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\DATA\LOG\yacy.logging (Das System kann die angegebene Datei nicht finden)java.io.FileNotFoundException: C:\Users\user\YaCy\lib\DATA\LOG\yacy.logging(Das System kann die angegebene Datei nicht finden)        at java.io.FileInputStream.open(Native Method)        at java.io.FileInputStream.<init>(Unknown Source)        at net.yacy.cora.util.ConcurrentLog.configureLogging(ConcurrentLog.java:385)        at net.yacy.yacy.startup(yacy.java:166)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runINFORMATION: loaded globalHosts cache of hostnames, size = 0Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\defaults\yacy.network.freeworld.unitjava.io.FileNotFoundException: C:\Users\user\YaCy\lib\defaults\yacy.network.freeworld.unit        at net.yacy.server.serverSwitch.getConfigFileFromWebOrLocally(serverSwitch.java:578)        at net.yacy.search.Switchboard.overwriteNetworkDefinition(Switchboard.java:1201)        at net.yacy.search.Switchboard.<init>(Switchboard.java:401)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\defaults\solr.collection.schema (Das Systemkann den angegebenen Pfad nicht finden)java.io.FileNotFoundException: C:\Users\user\YaCy\lib\defaults\solr.collection.schema (Das System kann den angegebenen Pfad nicht finden)        at java.io.FileInputStream.open(Native Method)        at java.io.FileInputStream.<init>(Unknown Source)        at com.google.common.io.Files$FileByteSource.openStream(Files.java:126)        at com.google.common.io.Files$FileByteSource.openStream(Files.java:116)        at com.google.common.io.ByteSource.copyTo(ByteSource.java:253)        at com.google.common.io.Files.copy(Files.java:442)        at net.yacy.search.Switchboard.<init>(Switchboard.java:433)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\defaults\solr.collection.schema (Das Systemkann den angegebenen Pfad nicht finden)java.io.FileNotFoundException: C:\Users\user\YaCy\lib\defaults\solr.collection.schema (Das System kann den angegebenen Pfad nicht finden)        at java.io.FileInputStream.open(Native Method)        at java.io.FileInputStream.<init>(Unknown Source)        at java.io.FileReader.<init>(Unknown Source)        at net.yacy.cora.storage.Configuration.<init>(Configuration.java:67)        at net.yacy.cora.federate.solr.SchemaConfiguration.<init>(SchemaConfiguration.java:60)        at net.yacy.search.schema.CollectionConfiguration.<init>(CollectionConfiguration.java:109)        at net.yacy.search.Switchboard.<init>(Switchboard.java:441)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\defaults\solr.webgraph.schema (Das System kann den angegebenen Pfad nicht finden)java.io.FileNotFoundException: C:\Users\user\YaCy\lib\defaults\solr.webgraph.schema (Das System kann den angegebenen Pfad nicht finden)        at java.io.FileInputStream.open(Native Method)        at java.io.FileInputStream.<init>(Unknown Source)        at com.google.common.io.Files$FileByteSource.openStream(Files.java:126)        at com.google.common.io.Files$FileByteSource.openStream(Files.java:116)        at com.google.common.io.ByteSource.copyTo(ByteSource.java:253)        at com.google.common.io.Files.copy(Files.java:442)        at net.yacy.search.Switchboard.<init>(Switchboard.java:465)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runWARNUNG: C:\Users\user\YaCy\lib\defaults\solr.webgraph.schema (Das System kann den angegebenen Pfad nicht finden)java.io.FileNotFoundException: C:\Users\user\YaCy\lib\defaults\solr.webgraph.schema (Das System kann den angegebenen Pfad nicht finden)        at java.io.FileInputStream.open(Native Method)        at java.io.FileInputStream.<init>(Unknown Source)        at java.io.FileReader.<init>(Unknown Source)        at net.yacy.cora.storage.Configuration.<init>(Configuration.java:67)        at net.yacy.cora.federate.solr.SchemaConfiguration.<init>(SchemaConfiguration.java:60)        at net.yacy.search.schema.WebgraphConfiguration.<init>(WebgraphConfiguration.java:77)        at net.yacy.search.Switchboard.<init>(Switchboard.java:470)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)Aug 21, 2014 12:52:14 PM net.yacy.cora.util.ConcurrentLog$Worker runSCHWERWIEGEND: YaCy cannot start: nulljava.lang.NullPointerException        at net.yacy.search.Switchboard.<init>(Switchboard.java:481)        at net.yacy.yacy.startup(yacy.java:192)        at net.yacy.yacy.main(yacy.java:684)



Vielen Dank für eure Hilfe

Statistik: Verfasst von lupus — Do Aug 21, 2014 12:08 pm


Hilfe für Einsteiger und Anwender • Re: Themen, Foren beobachten

Date: 2014-08-21 13:55:29

Hallo flegno,

ganz nach unten scollen - da ist ein Link um die Beobachtung zum aktuellen Thema zu setzen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Aug 21, 2014 12:55 pm


Hilfe für Einsteiger und Anwender • Re: Themen, Foren beobachten

Date: 2014-08-21 16:19:32

Hallo sixcooler,

Danke für die Rückmeldung,

sixcooler hat geschrieben:\ ganz nach unten scollen - da ist ein Link um die Beobachtung zum aktuellen Thema zu setzen.\

Ist es nur bei mir so, dass keine Benachrichtigungen per EMail gesendet werden, wenn beim beobachteten Thema geantwortet wird? Habe jetzt geprüft - tatsächlich unten sind bei Themen, wo ich mitgewirkt habe,beim \“Thema beobachten\” Häkchen gesetzt.

Aber wie eingangs geschrieben habe, ich sehe im persönlichen Bereich

Gruss, flegno

Statistik: Verfasst von flegno — Do Aug 21, 2014 3:19 pm


Hilfe für Einsteiger und Anwender • ConfigPortal.html anpassen

Date: 2014-08-21 17:18:26

Hallo,

habe mit meinen bescheidenen HTML-Kenntnissen nicht geschafft, die ConfigPortal.html anzupassen. Die Suche nach ContfigPortal war auch nicht vom Erfolg gekrönt. Für Tipps, Lösungsansätze wie die Anpassung gemacht wird, bzw. wo man dies nachschlagen kann, wäre ich dankbar.

Statistik: Verfasst von flegno — Do Aug 21, 2014 4:18 pm


Hilfe für Einsteiger und Anwender • Re: Themen, Foren beobachten

Date: 2014-08-21 19:12:12

hast Du mal unten auf \‘Thema beobachten\’ geklickt?
Das Häkchen ist immer im Kästchen - wenn du es bereits beobachtest wird aus dem Link ein \‘Thema nicht mehr beobachten\’

cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Aug 21, 2014 6:12 pm


Off-Topic • Häkchen beim \“Thema beobachten\” hat keine Funktion

Date: 2014-08-21 19:42:56

Hallo,

beim Verweis \“Thema beobachten\” unter dem Thread ist _immer_ ein Häkchen gesetzt, unabhängig davon, ob man das Thema beobachtet oder nicht. Ich empfinde es als Fehler. Für die neue Forum-Nutzer ist so ein Verhalten gewöhnungsbedürftig - glaube ich ;). Und wird vermutlich auch zukünftig Nachfragen verursachen.

Statistik: Verfasst von flegno — Do Aug 21, 2014 6:42 pm


Fragen und Antworten • [gelöst] Navigationsspalte breiter machen

Date: 2014-08-21 20:10:04

Hallo,

auf einem kleineren Bildschirm bekommt die Navigationsspalte einen Scrollbalken, weswegen einige Menüzeilen unschön umgebrochen werden - s. Screenshot. Ist sicherlich kein Fehler, aber vlt. lohnt es sich, der Navigationsspalte so ~ 15px mehr spendieren, damit die Beschriftungen auch mit Scrollbalken nicht nicht ungebrochen werden :?: .

Statistik: Verfasst von flegno — Do Aug 21, 2014 7:10 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-21 20:18:51

hallo david, wieder recht herzlichen dank für deine mühe. in der zwischenzeit habe ich mir einen server aufgebaut und der läuft schon. natürlich viel schneller als mein hauptrechner, da ich auf den server keine nebenprogramme laufen lasse. alles funktioniert, aber leider werden hier keine eingegebenen webseiten aufgeführt und gespeichert, so dass ich diese nachverfolgen kann. das hat wenigstens im hauptrechner funktioniert...wenn auch nur bis zur webseite nr. 11. habe deinen link in die yacy-suche eingegeben, aber da geht nichts auf ausser yacy-peer to peer. ich kann zwar seiten eingeben, aber jedes mal wenn ich yacyneu starte sind die alle wieder weg und ich weiss nicht welche seiten ich eingegeben hatte. also ich rede hier jetzt vom server.

gibt es eine offline-einstellung in yacy? ich möchte yacy nicht immer runterfahren wenn ich mal schneel ein anderes programm ausführen will. wegen der leistung. jetzt meine ich meinen hauptrechner, nicht den server.

nächste frage. wenn ich über yacy in mein ebay konto reingehe können das andere unternehmen dann nicht mehr nachverfolgen wer da reingegangen ist? ausser ebay natürlich selbst...bedingt durch die eingabe meiner logindaten. ich möchte verhindern dass manche personenkreise meine umsätze nachvollziehen können.

weisst du wie ich mit yacy ins darknet oder darkweb kommen kann?

ich wünsche dir einen schönen tag.

Statistik: Verfasst von 1hartmann — Do Aug 21, 2014 7:18 pm


Fragen und Antworten • geschlossenen Schlösser im „Angemeldet\“-Menü?

Date: 2014-08-21 21:11:32

Hallo,

[Navigationsspalte formativeren]{style=“font-weight: bold”}
Habe jetzt mein Formatierungswunsch so gelöst.

\ a.MenuItemLink{\ white-space: nowrap;}\


Ein Paar Zeilen sind zwar abgeschnitten - s. Screenshot - aber damit kann ich leben. Für einen produktiven Enzsatz dieser Lösung könnte man vlt. allen Verweisen einen [title=\“Menüpunkt-Beschriftung\“]{style=“font-style: italic”} verpassen, damit man bei abgeschnittenen Zeilen mit dem Maus-Over den Text lesen kann.

[Frage:]{style=“font-weight: bold”}
Haben die Menüpunkte mit geschlossenen Schlössern eine spezielle Bedeutung? Ich habe nämlich [lockopen.gif]{style=“font-style: italic”} durch grünen Punkt ersetzt, die markierte Menüpunkt haben trotzdem immer noch einen Schloss-Symbol. Ist es so gewollt für „Angemeldet\“-Status?

Statistik: Verfasst von flegno — Do Aug 21, 2014 8:11 pm


Hilfe für Einsteiger und Anwender • Einbinden von Tor

Date: 2014-08-22 00:29:12

Hallo und guten Tag,

kann mir bitte jemand erklären wie ich Tor in yacy einbinde?

Mfg

1hartmann

Statistik: Verfasst von 1hartmann — Do Aug 21, 2014 11:29 pm


Hilfe für Einsteiger und Anwender • Re: die Inhalte der Webseite ConfigPortal.html anpassen

Date: 2014-08-22 05:14:21

Bin nicht gleich darauf gekommen, dass man die Inhalte der Webseite ConfigPortal.html anpassen kann, in dem man die Webseite http://localhost:8090/ConfigPortal.html im Browser öffnet, statt in [ConfigPortal.html]{style=“font-style: italic”} mit Editor rumzufummeln :? .

Statistik: Verfasst von flegno — Fr Aug 22, 2014 4:14 am


Off-Topic • Re: Häkchen beim \“Thema beobachten\” ist irritierend

Date: 2014-08-22 06:02:21

Also jetzt habe ich festgestellt, dass das Häkchen doch sich nach dem Anklicken von Bild zu Bild ändert :? . Also mich interessiert, ob nur ich diese Beschriftung Bild \“Thema beobachten\” so interpretiere, dass das Häkchen mir suggeriert, dass als Status bereits festgelegt ist, dass das Thema XY bereits beobachtet wird ? - s. Screenshot unten.

Ich schlage vor, dass für den Status [\“Das Thema wird noch nicht beobachtet\“]{style=“font-style: italic”} dieses Icon Bild verwendet wird. Und erst nach dem Anklicken für den Status [\“Das Thema wird beobachtet\“]{style=“font-style: italic”}, dieses Icon Bild eingeblendet wird.

Statistik: Verfasst von flegno — Fr Aug 22, 2014 5:02 am


Hilfe für Einsteiger und Anwender • [Info] CPU-Auslastung durch YaCy-Admin-Konsole

Date: 2014-08-22 09:34:13

Die Generierung von Grafiken mit Systemstatus- bzw. Crawler-Statistiken in Echtzeit kann je nach Prozessorleistung zu wesentlicher CPU-Auslastung führen. Ich habe ein Paar Beispiele im YaCy-Wiki eingestellt:

Statistik: Verfasst von flegno — Fr Aug 22, 2014 8:34 am


Hilfe für Einsteiger und Anwender • Re: Themen, Foren beobachten

Date: 2014-08-22 10:30:25

so wie dieses Feature jetzt eingestellt ist, finde ich es irritierend.

Wenn die Checkbox bei \‘Thema beobachten\’ ein Häkchen hat, dann verstehe ich das so, dass das Thema beobachtet wird, anderfalls wäre die Checkbox leer.

Wenn ich die Beobachtung wieder abschalten möchte, klicke ich auf \‘Thema beobachten\’ und das Häkchen verschwindet aus der Checkbox.

Gruß lux

Statistik: Verfasst von lux — Fr Aug 22, 2014 9:30 am


Hilfe für Einsteiger und Anwender • Re: Spracherkennung

Date: 2014-08-22 11:40:03

Hängt das Problem evtl. mit der Einstellung \“crawler.http.acceptLanguage : en-us,en;q=0.5\” in /ConfigProperties_p.html zusammen?

Wenn ja, warum werden überhaupt deutschsprachige Webseiten mit dieser Einstellung indiziert?

Was müsste eingestellt werden, dass jede Sprache akzeptiert wird und defaultmäßig immer jene genommen wird, die die Website defaultmäßig anzeigt?

Danke und LG
hotel24

Statistik: Verfasst von hotel24 — Fr Aug 22, 2014 10:40 am


English • Yacy on Linux with multiple IPs configured

Date: 2014-08-22 14:18:03

I am trying to run Yacy on Arch Linux.

I have multiple IP networks configured on a single ethernet port.

The system is up and running and crawling sites but I am getting the \“You cannot be reached from outside\” message.

I have tracked this down to yacy binding to the last IP address in my configured network list instead of the actual IP of the port that can access the internet.

On the system status page my IP is listed as:
Address
Host: 192.168.0.151:8090
Public Address: http://10.95.4.28:8090

The host address should actually be 10.95.4.28, 192.168.0.151 is the last configured IP address.

Is there any way to force yacy to use the correct IP? or is this a bug?

Statistik: Verfasst von danwood76 — Fr Aug 22, 2014 1:18 pm


Hilfe für Einsteiger und Anwender • Re: Spracherkennung

Date: 2014-08-22 16:15:47

Hallo hotel24,

  1. > > hotel24 hat geschrieben:\ > Eine ergänzende Frage noch dazu. Warum holt sich YaCy bei zb > oder > die englische Version der Seite?\ > >
  2. > > hotel24 hat geschrieben:\ > Hängt das Problem evtl. mit der Einstellung > \"crawler.http.acceptLanguage : en-us,en;q=0.5\" in > /ConfigProperties\_p.html zusammen?\ > >

    Wenn du für [fliegende-koeche.at]{style=“font-style: italic”} und/oder [flugfeld-aspern.at ]{style=“font-style: italic”} in der [ConfigProperties_p.html]{style=“font-style: italic”} mit entsprechenden Werten alternativ zur Einstellung [\“crawler.http.acceptLanguage : en-us,en;q=0.5\“]{style=“font-style: italic”} deine Vermutungen prüfen könntest, dann ist die Fragestellung etwas enger gefasst und man könnte sich mit der Frage

  3. > > hotel24 hat geschrieben:\ > Was müsste eingestellt werden, dass jede Sprache akzeptiert wird > und defaultmäßig immer jene genommen wird, die die Website > defaultmäßig anzeigt?\ > >

    befassen. Wenn du deine Testergebnisse im Wiki-Artikel Spracherkennung{.postlink} public machst, dann profitieren auch andere von deinem Test :) . Und die Bild-Captchas beim Speichern im Wiki zu lösen macht richtig Spaß - ein Erfolgserlebnis ist garantiert :P!

Statistik: Verfasst von flegno — Fr Aug 22, 2014 3:15 pm


Hilfe für Einsteiger und Anwender • Re: Einbinden von Tor

Date: 2014-08-22 17:31:07

Die folgende Seite des YaCyWikis befasst sich mit diesem Thema:
http://www.yacy-websearch.net/wiki/inde ... e:YaCy-Tor{.postlink}

Statistik: Verfasst von David — Fr Aug 22, 2014 4:31 pm


Hilfe für Einsteiger und Anwender • Re: Portfreigabe

Date: 2014-08-22 17:53:07

1hartmann hat geschrieben:\ recht herzlichen dank für deine mühe.\


Gern geschehen.

1hartmann hat geschrieben:\ habe deinen link in die yacy-suche eingegeben, aber da geht nichts auf ausser yacy-peer to peer.\


Meinst du diesen Link? http://localhost:8090/HostBrowser.html?hosts=

Geh mal auf die Startseite deines YaCy (die Seite mit dem grossen Logo und der Suchmaske) und bewege deine Maus oben rechts über das Feld \“Search Interfaces\” und klicke dann auf \“Host Browser\“.

1hartmann hat geschrieben:\ gibt es eine offline-einstellung in yacy?\


Nicht das ich wüsste.

1hartmann hat geschrieben:\ wenn ich über yacy in mein ebay konto reingehe können das andere unternehmen dann nicht mehr nachverfolgen wer da reingegangen ist? ausser ebay natürlich selbst\...bedingt durch die eingabe meiner logindaten. ich möchte verhindern dass manche personenkreise meine umsätze nachvollziehen können.\


http://www.yacy-websuche.de/wiki/index.php/De:Privacy

1hartmann hat geschrieben:\ weisst du wie ich mit yacy ins darknet oder darkweb kommen kann?\


Wenn du einfach nur ins Darknet willst, brauchst du nicht YaCy dafür, sondern z.B. Tor (https://www.torproject.org/) oder Freenet (https://freenetproject.org/?language=de). Es gibt aber sicher noch viele andere solche Werkzeuge.

Wenn du das Darknet mit YaCy crawlen willst, hilft dir wahrscheinlich die folgende Seite des YaCyWiki weiter: http://www.yacy-websearch.net/wiki/inde ... e:YaCy-Tor{.postlink} (Ich habe die ganze Prozedur selber noch nicht getestet.)

Statistik: Verfasst von David — Fr Aug 22, 2014 4:53 pm


English • Re: Removing index entries when a page unavailable temporari

Date: 2014-08-22 19:30:35

Maybe the expression \“failed verification\” is a bit misleading. As far as I know, if a website is offline or overloaded, it doesn\’t count as failed verification. A verification fails, if a page has changed or was updated since it was crawled, and the search term simply isn\’t there anymore, [but I might be wrong]{style=“text-decoration: underline”}.

ktplulo hat geschrieben:\ \"If verification fails, delete index reference\" is enabled, or anything else from [viewtopic.php?f=23&t=5314&p=30466\#p30466](http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5314&p=30466#p30466){.postlink-local} is being done. Data about a page is to be deleted.\


I think if a failed verification occurs, only the URL(s) get removed from the index. The words stay.

Statistik: Verfasst von David — Fr Aug 22, 2014 6:30 pm


Mitmachen • golem.de ist im Index

Date: 2014-08-23 07:36:52

Moin,

in einem Kraftakt habe ich [golem.de]{style=“font-style: italic”} für die YaCy-Community verfügbar gemacht. Die komplette Indexierung hat mit Intel Prozessor 1.3 GHz, 3GB RAM, Windows 7, 32 Bit über 24 Stunden gedauert, aber jetzt ist [golem.de]{style=“font-style: italic”} in der YaCy-Wolke :). Und in diesen 24 Std. ist mein Index um 4 GB gewachsen. Habe im Log-Protokoll geprüft, da ich genau wissen wollte, wann mein Crawler fertig war und bei dieser Gelegenheit habe ich auch im Log-Protokoll Aktivitäten, Einträge entdeckt, von den ich gar nicht begeistert bin.

Gibt es unter den Aktiven und/oder Mitlesenden hier im Forum welche, die Interesse haben in einer Telefon- (Mumble{.postlink}-?) Konferenz sich austauschen, bspw. dazu, welche Strategien in solchen Fällen zielführend sein könnten? Oder gibt\’s bereits ein Kochrezept dafür, wie man unerwünschte Inhalte vom Index fernhalten kann? Dann her da mit dem Link :) .

YaCy ist eine ziemlich neue erfrischende Erfahrung für viele und vieles lässt sich in einem Gespräch immer wieder leichter, entspannter, zeitsparender klären. Auf ein Feedbackwürde ich mich freuen ;) !

Gruss, flegno

Statistik: Verfasst von flegno — Sa Aug 23, 2014 6:36 am


Fragen und Antworten • Differenz zwischen \$results->channels[0]->totalResults ...

Date: 2014-08-23 14:15:57

Hallo
Warum gibt es eine Differenz zwischen \$results->channels[0]->totalResults und tatsächlicher Treffer-Anzeige? Wie kann ich wirkliche Treffer herausbekommen?

Danke Peter

Statistik: Verfasst von hbrks — Sa Aug 23, 2014 1:15 pm


Suchmaschinen • Re: DOMENGO

Date: 2014-08-23 14:16:51

JanOnymous hat geschrieben:\ ich find es grundsätzlich prima, wenn ein deutscher Suchmaschinenanbieter auf YaCy setzt - dass er für den Peer-Betrieb auch eine Gegenfinanzierung durch Werbung nimmt ist soweit OK und nachvollziehbar - solange das technische Fundament bei YaCy offen und für jeden frei zugänglich bleibt, kann es nur begrüßenswert sein, wenn die YaCy-Peers hierüber genutzt werden\


Und ist es sicher, dass Domengo YaCy als Engine im Hintergrund hat? Tatsache ist, dass Domengo zwar den FREEWORLD Index erwähnt{.postlink}, das Wort [YaCy]{style=“font-style: italic”} findet man auf keiner der domengo.de-Webseiten.

hat geschrieben:\ 10. Wir unterstützen den alternativen FREEWORLD Index\

Ein Projekt zu unterstützen und die im Projekt erstellte Software zu nutzen ist doch nicht dasselbe?

Statistik: Verfasst von flegno — Sa Aug 23, 2014 1:16 pm


Suchmaschinen • Re: DOMENGO

Date: 2014-08-23 20:32:31

flegno hat geschrieben:\ Und ist es sicher, dass Domengo YaCy als Engine im Hintergrund hat?\


Domengo betreibt schon seit einiger Zeit Peers die im Freeworld-Netwerk aktiv sind: http://www.yacyweb.de/peers.htm (Ctrl+f, domengo).

Statistik: Verfasst von David — Sa Aug 23, 2014 7:32 pm


Suchmaschinen • Re: DOMENGO

Date: 2014-08-24 08:09:48

David hat geschrieben:\ Domengo betreibt schon seit einiger Zeit Peers die im Freeworld-Netwerk aktiv sind: (Ctrl+f, domengo).\

Danke für den Hinweis. Ich weiss, es mag provokant klingen, aber wir sind uns doch wohl einig, dass es rein technisch machbar ist, die Index-Datenbanken mit einem anderen Framework als YaCy zu generieren und dann im YaCy-Peer-to-Peer-Netzwerk einzubinden.

[Ein Beispiel:]{style=“font-style: italic”} Die Webseiten im Internet wurden mit unterschiedlichsten Editoren erstellt oder werden in Echtzeit aus unterschiedlichsten Datenbanken generiert. Aber alle diese Webseiten lassen sich mit beliebigen Browsern anzeigen. Fur mich liegt es auf der Hand, dass die Index-Datenbanken nicht nur mit YaCy machbar sind. Als Tatsachen zum jetzigen Zeitpunkt kann ich betrachten:

  1. domengo.de ist Teilnehmer im YaCy-Peer-to-Peer-Netzwerk
  2. viele Treffer in der domengo.de-Trefferliste sind mit Quelle: [Fireball.de ]{style=“font-style: italic”} markiert
  3. domengo.de-Treffer mit einem Hinweis Quelle: [YaCy-Netzwerk ]{style=“font-style: italic”} habe ich bis jetzt nicht entdeckt

Es mag vorteilhaft für das Image des YaCy-Projekts sein, dass eine Serverfarm mit 60 Servern mit YaCy angetrieben wird und somit die Grundlage für eine beachtliche Infrastruktur einer Suchmaschinen-Lösung dient, ein Nachweis dazu fehlt mir aber.

Statistik: Verfasst von flegno — So Aug 24, 2014 7:09 am


Fragen und Antworten • Re: Differenz zwischen \$results->channels[0]->totalResults .

Date: 2014-08-24 11:53:25

Hallo Peter,

Willkommen im Forum!

hbrks hat geschrieben:\ Hallo\ 1. Warum gibt es eine Differenz zwischen \$results-\>channels\[0\]-\>totalResults und tatsächlicher Treffer-Anzeige? 2. Wie kann ich wirkliche Treffer herausbekommen? \


wirkliche Treffer \$results->channels[0]->totalResults = [\$wT ]{style=“font-style: italic”}
tatsächlich angezeigte Treffer [\$taT]{style=“font-style: italic”}
Differenz [\$Δ = \$wT - \$taT]{style=“font-style: italic”}

Ohne dass ich deine 2. Frage beantworten kann, da ich wahrscheinlich deine Fragestellung falsch deute - aus deiner Fragestellung leite ich ab, dass du Gelegenheit hasst die Differenz \$Δ zwischen den wirklichen Treffern \$wT und tatsächlich angezeigten Treffern \$taT zu ermitteln. Also sind dir beide Wertelisten \$wT und \$taT bekannt? Kannst du evtl. die 1. Frage anders formulieren bzw. mehr dazu verraten, wie du auf diese Frage gekommen bist?

Gruss, Gustav

Statistik: Verfasst von flegno — So Aug 24, 2014 10:53 am


Hilfe für Einsteiger und Anwender • Re: Suche/Indizierung einschränken

Date: 2014-08-24 13:53:34

seltsam bei mir existiert die \“Filter Query\” nicht. Muss ich die irgendwo einschalten?
Bild{.postlink}

Statistik: Verfasst von tofu — So Aug 24, 2014 12:53 pm


Off-Topic • Re: Yacystats offline

Date: 2014-08-25 07:38:35

Vielen Dank!

>> Wenn nichts anderes kommt denke ich über eine Schmalspurvariante nach, die Teil von YaCy wird.

Fände ich toll. Yacystats.de gehörte für mich, analog zu heise.de zur täglichen Pflichtlektüre :-)

Statistik: Verfasst von LA_FORGE — Mo Aug 25, 2014 6:38 am


Hilfe für Einsteiger und Anwender • Re: Spracherkennung

Date: 2014-08-25 15:31:37

ich habe nun ein paar Einstellungen getestet:

crawler.http.acceptLanguage : en-us,en;q=0.5
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=en

crawler.http.acceptLanguage : de
http://www.fliegende-koeche.at --> language_s=de
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage :
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage : de,en
http://www.fliegende-koeche.at --> language_s=de
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage : en,de
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=en

Darüber hinaus habe ich noch weitere Seiten in anderen Sprachen getestet.

Für mich ergibt sich insgesamt nun folgendes Bild:
* egal ob und was in crawler.http.acceptLanguage eingetragen ist, es werden alle Seiten in allen Sprachen indiziert
* Die Angaben in crawler.http.acceptLanguage kommen dann zu tragen, wenn mehrere Sprachversionen einer Seite vorliegen. Jenachdem welche Sprache der YaCy-Betreiber bevorzugt, lässt sich hier eine Priorität festlegen.
* Wenn jene Sprachversion indiziert werden soll, die der Webseiten-Betreiber defaultmäßig ausliefert (also wenn der Browser keine Headerinformationen zur bevorzugten Sprache zur Webseite schickt), dann ist das Feld crawler.http.acceptLanguage leer zu lassen.

Sind meine Aussagen richtig?

Statistik: Verfasst von hotel24 — Mo Aug 25, 2014 2:31 pm


Hilfe für Einsteiger und Anwender • Re: Spracherkennung

Date: 2014-08-25 17:23:59

hotel24 hat geschrieben:\ Sind meine Aussagen richtig?\

Das sind deine Testergebnisse und diese sind somit richtig - wer diesen Eingebrussen glaubt :) . Habe mit Rücksicht auf Suche/Indizierung einschränken{.postlink} das alles im Wiki Bewertungskriterien{.postlink} zusammengefasst :P .

Bild

Statistik: Verfasst von flegno — Mo Aug 25, 2014 4:23 pm


Fragen und Antworten • Re: Differenz zwischen \$results->channels[0]->totalResults .

Date: 2014-08-25 20:11:32

Hallo Gustav,
danke fuer Dein Willkommen und Deine Antwort ...

Die Frage ist nur warum is dass so?

Meiner Meinung nach gibt es fuer alles ein Loesung (Mein Motto ist: Nothing is impossible) und ich dacht jemand hat da schon was sich ausgedacht. Ich hätte eine Lösung, ist nur etwas zeitaufwendig, ich würde solange weiter die nächsten Treffer im Voraus laden bis ich das wirklich Ende erreiche ;-)

Wenn sich keine bessere Lösung findet werde ich es wohl so machen, es nervt schon ein wenig ...

cu Peter

Statistik: Verfasst von hbrks — Mo Aug 25, 2014 7:11 pm


Fragen und Antworten • Re: Differenz zwischen \$results->channels[0]->totalResults .

Date: 2014-08-26 03:41:56

Moin Peter,

hbrks hat geschrieben:\ Die Frage ist nur warum is dass so?\ \ Meiner Meinung nach gibt es fuer alles ein Loesung (Mein Motto ist: Nothing is impossible) und ich dacht jemand hat da schon was sich ausgedacht.\

Jetzt leuchtet mir ein, dass du eine Gelegenheit hast, die wirkliche Treffer
\$wT =[\$results->channels[0]->totalResults ]{style=“font-style: italic”} mit der dem Anwender präsentierten Liste [\$ta]{style=“font-style: italic”}T zu vergleichen.

hbrks hat geschrieben:\ Ich hätte eine Lösung, ist nur etwas zeitaufwendig, ich würde solange weiter die nächsten Treffer im Voraus laden bis ich das wirklich Ende erreiche ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\

Wenn du verraten kannst:

  1. wie deine existierende Lösung aussieht - technische Details zu \”[nächsten Treffer im Voraus laden\“]{style=“font-style: italic”} und was nervt dich?
  2. wie die Ideale Lösung aussieht?
  3. womit die vorhandene Lösung von der existierenden unterscheidet?

dann habe ich und evtl. weitere Foristen bessere Chancen zielführende Lösungen und Lösungsansätze zu entwickeln.

Statistik: Verfasst von flegno — Di Aug 26, 2014 2:41 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-08-26 12:36:17

Merkwürdigerweise werden beim ersten Start scheinbar benötigte Dateien zwar erzeugt, aber nicht an der richtigen Stelle? Beispielsweise wie es sein sollte:

Code:
C:\Users\user\YaCy\lib\DATA\LOG\yacy.logging



wird hier erzeugt

Code:
C:\Users\user\YaCy\DATA\LOG\yacy.logging



oder:

Code:
C:\Users\user\YaCy\lib\defaults\yacy.network



wird in

Code:
C:\Users\user\YaCy\defaults\yacy.network



Kopiert man die Dateien per Hand läufts leider immer noch nicht? Keiner diese Probleme unter Windows?

Statistik: Verfasst von lupus — Di Aug 26, 2014 11:36 am


Fragen und Antworten • Re: Differenz zwischen \$results->channels[0]->totalResults .

Date: 2014-08-26 13:01:45

Hi

Ist im Moment nur eine Idee, aber ich werde es mir selbst programmieren, kann ich das Limit auf 1000 oder 10000 setzen anstatt nur hundert? Wuerde es einfacher machen festzustellen wieviele wirklich da sind?

Gibt es schon was in der Richtung was ich vieleicht übersehen habe?

P.

Statistik: Verfasst von hbrks — Di Aug 26, 2014 12:01 pm


Suchmaschinen • Re: DOMENGO

Date: 2014-08-26 19:16:59

flegno hat geschrieben:\ Es mag vorteilhaft für das Image des YaCy-Projekts sein, dass eine Serverfarm mit 60 Servern mit YaCy angetrieben wird und somit die Grundlage für eine beachtliche Infrastruktur einer Suchmaschinen-Lösung dient, ein Nachweis dazu fehlt mir aber.\


Rein g\‘rade eben über diesen Hinweis

Orbiter hat geschrieben:\ Das Activity Log ist auch nett: \ In steht auch das sie aktiv das YaCy freeworld Netz unterstützen. Der Menüpunkt kommt aber erst, wenn man vorher auf \'Fragen\' geklick hat.\

gestolpert. Das ist ein Beleg, der mir fehlte. Auf [domengo.de]{style=“font-style: italic”} habe ich keinen Link auf [activity.asp]{style=“font-style: italic”} entdeckt.

\@Orbiter: Wie hast du die Seite https://www.domengo.de/activity.asp entdeckt?
.

Statistik: Verfasst von flegno — Di Aug 26, 2014 6:16 pm


Mitmachen • Re: golem.de ist im Index

Date: 2014-08-26 22:34:59

Sehr gut!

Statistik: Verfasst von Orbiter — Di Aug 26, 2014 9:34 pm


Fragen und Antworten • Re: uPNP-Probleme

Date: 2014-08-26 22:57:06

Ich habe eben nochmal ein bisschen an UPnP rumprogrammiert. Der HTTPS-Port wird jetzt auch gesetzt, wenn YaCy entsprechend konfiguriert ist. Bei mir funktioniert es, aber natürlich sind alle herzlich eingeladen zu testen.

Falls ein Port am Router schon belegt sein sollte, wird noch kein Ausweich-Port gesucht. Mal schauen, wann ich dazu komme.

Statistik: Verfasst von Low012 — Di Aug 26, 2014 9:57 pm


Fragen und Antworten • YaCy zweite Instanz installieren - fehlerhaftes Verhalten?

Date: 2014-08-27 09:14:42

Hallo,

beim Installieren der zweiten Instanz habe ich im Dialog, wo gefragt wird, ob ich einen Eintrag im Startmenü erstellen möchte, mit „Nein\” geantwortet. Nach der Installation der zweiten Instanz ist jetzt der Eintrag für die erste YaCy-Instanz aus dem Startmenü weg.

Zwei Fragen dazu:

  1. kenne mich mit der Installroutine nicht aus. Das von mir beschriebene Verhalten wird von der Installroutine selbst und nicht vom Windows gesteuert, korrekt?
  2. lohnt es sich, dieses Verhalten als Fehler hier http://bugs.yacy.net/ zu erfassen? Ich weiss nicht, wie die Belastung und die Prioritäten im Entwickler-Team sind, vlt. bleibt für solche Schönheitsfehler keine Zeit?

Statistik: Verfasst von flegno — Mi Aug 27, 2014 8:14 am


Fragen und Antworten • Re: YaCy zweite Instanz installieren - fehlerhaftes Verhalte

Date: 2014-08-27 17:57:06

eine Zweite Instanz lässt sich nicht auf diese Art installieren und das ist auch kein Bug. Trotzdem kannst du eine zweite Instanz auf dem gleichen Rechner problemlos betreiben und starten. Dazu muss die zweite Instanz auf einem anderen Port laufen, sonst kollidieren die miteinander.

Mache folgendes:
- lade die tar.gz Version von YaCy runter (die geht nämlich überall, auch unter Windows!)
- entpacke das tar.gz (z.B. mit 7zip)
- öffne das yacy-Verzeichnis
- darin ist ein defaults-Verzeichnis mit yacy.init. Öffne yacy.init und ändere den Wert port=8090 auf (z.B.) port=8091
- starte YaCy mit einem Doppelklick auf startYACY.bat
- die zweite YaCy-Instanz ist dann unter http://localhost:8091/ (öffnet sich auch automatisch)

Statistik: Verfasst von Orbiter — Mi Aug 27, 2014 4:57 pm


Suchmaschinen • Re: DOMENGO

Date: 2014-08-28 03:15:43

flegno hat geschrieben:\ Als Tatsachen zum jetzigen Zeitpunkt kann ich betrachten:\ 1. domengo.de ist Teilnehmer im YaCy-Peer-to-Peer-Netzwerk 2. viele Treffer in der domengo.de-Trefferliste sind mit Quelle: [Fireball.de ]{style="font-style: italic"} markiert 3. domengo.de-Treffer mit einem Hinweis Quelle: [YaCy-Netzwerk ]{style="font-style: italic"} habe ich bis jetzt nicht entdeckt Es mag vorteilhaft für das Image des YaCy-Projekts sein, dass eine Serverfarm mit 60 Servern mit YaCy angetrieben wird und somit die Grundlage für eine beachtliche Infrastruktur einer Suchmaschinen-Lösung dient, ein Nachweis dazu fehlt mir aber.\


Kann sein, dass das Maßverständnis meinerseits einen unerwarteten positiven Nebeneffekt bewirkt hat? [domengo.de]{style=“font-style: italic”} verweist jetzt in der Trefferliste Quelle: [YaCy Freeworld]{style=“font-style: italic”} :) .

Statistik: Verfasst von flegno — Do Aug 28, 2014 2:15 am


YaCy Coding & Architektur • Inline-data:image(Kaskelix) in der Steering.html

Date: 2014-08-28 09:57:09

Hallo,

in der Datei [htroot/Steering.html ]{style=“font-style: italic”}ist das Kaskelix-Bild als [data:image]{style=“font-style: italic”} im HTML-Code eingebettet. Es ist m.E. inkonsistente Datenhaltung, die einen Mehraufwand verursacht, wenn bspw. das Kaskelix-Bild ausgetauscht werden soll. Lohnt es sich, dieses Verhalten als Bug zu erfassen?

Statistik: Verfasst von flegno — Do Aug 28, 2014 8:57 am


YaCy Coding & Architektur • Icon-Beschriftung in der Taskleiste anpassen

Date: 2014-08-28 10:11:07

Hallo,

Wo kann ich die Icon-Beschriftung in der Taskleiste ändern? Ich meine den Text, der beim Mouseover eingeblendet wird. Ist nützlich zu wissen, wenn man mit mehreren Instanzen hantiert.

Statistik: Verfasst von flegno — Do Aug 28, 2014 9:11 am


YaCy Coding & Architektur • Re: Inline-data:image(Kaskelix) in der Steering.html

Date: 2014-08-28 12:44:40

Das Bild ist dort eingebettet weil bei einem Shutdown dann der http Server nicht mehr zur Verfügung steht um das Bild dann von dort nachzuladen und anzuzeigen.

Statistik: Verfasst von Orbiter — Do Aug 28, 2014 11:44 am


Fragen und Antworten • Re: geschlossene Schlösser im „Angemeldet\“-Menü?

Date: 2014-08-28 12:51:01

das war ein Bug, fix ist up.

Statistik: Verfasst von Orbiter — Do Aug 28, 2014 11:51 am


English • Re: Removing old index entries when reindexing a page

Date: 2014-08-28 12:56:45

ktplulo hat geschrieben:\ After YaCy indexed a page, can it remove the entries for that page that had existed before? I am not talking about the manual settings of a particular crawl, that delete everything about a page without caring if it is being indexed.\


\‘entries for that page that had existed before\’: this has two aspects:
- Documents in Solr are simply overwritten
- the p2p index references stay. If they cause that a web page is considered as search hit but the search word does not then appear on the page any more, the rwi entry is removed (that happens during searches). Words that are never searched stay forever.

ktplulo hat geschrieben:\ When YaCy does \"If verification fails, delete index reference\", does it delete only the search word, or also all other words that are invalid now (because it reindexes the page anyway)?\


this has also two faces: the \‘index reference\’ now means that the Solr document is deleted. But the words in the rwi index stay and point now to a document that do not exist any more. If they are for further searches found because someone searched the word, they are deleted whenever no reference can be found.

Statistik: Verfasst von Orbiter — Do Aug 28, 2014 11:56 am


Fragen und Antworten • Client can\’t execute: Connection refused: connect duration

Date: 2014-08-28 16:30:44

Hallo,

habe versucht über dynDNS meine YaCy-Instanz zu erreichen. Habe im Router eine Port-Weiterleitung eingerichtet. Da ich jetzt Yacy-Fehlermeldungen

  1. bug#445: Client can\’t execute: Connection refused: connect duration=1043{.postlink}
  2. bug#446: Client can\’t execute: Connection refused: connect duration=1061{.postlink}

bekomme, gehe ich davon aus, dass die Verbindung vom Router an YaCy weitergereicht wird. Ich bin ich an Lösungen, Lösungsansätzen interessiert, wie ich über ein kostenloses dynDNS Zugriff auf YaCy realisieren kann.

Ach ja, ein Zugriff über dynDNS http://subdomain.xdydns.xx oder http://subdomain.xdydns.xx:80 auf einen XAMPP-Server, der hinter dem gleichen Router eingerichtet ist, klappt problemlos. Ich vermute mal, dass YaCy - warum auch immer - mit dem Header, der vom dynDNS- Anbieter gesendet wird, Probleme hat. Und hier habe ich

Code:
Array(    [0] => HTTP/1.1 500 Server Error    [1] => Date: Thu, 28 Aug 2014 14:14:12 GMT    [2] => Date: Thu, 28 Aug 2014 14:14:13 GMT    [3] => Content-Type: text/plain; charset=ISO-8859-1    [4] => Server: Jetty(9.2.2.v20140723)    [5] => ResponseTimeMillis: 1123    [6] => Connection: close)


mit PHP den Header http://subdomain.xdydns.xx ausgelesen. Wie es aussieht, bekomme ich hier bereits die Header-Daten vom Jetty-Server (YaCy). Weil die Weiterleitung vom dynDNS-Dienstleister http://subdomain.xdydns.xx und über den Router ja geklappt hat. Zum Vergleich der Header vom XAMP-Server nach der Weiterleitung:

Code:
Array(    [0] => HTTP/1.1 302 Found    [1] => Date: Thu, 28 Aug 2014 14:03:45 GMT    [2] => Server: Apache/2.2.21 (Win32) mod_ssl/2.2.21 OpenSSL/1.0.0e PHP/5.3.8 mod_perl/2.0.4 Perl/v5.10.1    [3] => X-Powered-By: PHP/5.3.8    [4] => Location: http://subdomain.xdydns.xx/xampp/    [5] => Content-Length: 0    [6] => Connection: close    [7] => Content-Type: text/html    [8] => HTTP/1.1 200 OK    [9] => Date: Thu, 28 Aug 2014 14:03:46 GMT    [10] => Server: Apache/2.2.21 (Win32) mod_ssl/2.2.21 OpenSSL/1.0.0e PHP/5.3.8 mod_perl/2.0.4 Perl/v5.10.1    [11] => X-Powered-By: PHP/5.3.8    [12] => Content-Length: 594    [13] => Connection: close    [14] => Content-Type: text/html

Statistik: Verfasst von flegno — Do Aug 28, 2014 3:30 pm


Fragen und Antworten • Duplikate ausschließen - wie?

Date: 2014-08-28 20:00:08

Hallo,

ziemlich unschöne Trefferliste site:gimpforum.de Vorgabe Massstab{.postlink}. Duplikate auf zwei Seiten. Was k.m. dagegen tun? Wie fitten? Bzw. was habe ich evtl. beim Crawlen falsch gemacht?

Statistik: Verfasst von flegno — Do Aug 28, 2014 7:00 pm


Fragen und Antworten • Re: Client can\’t execute: Connection refused: connect durati

Date: 2014-08-29 09:01:18

sixcooler [Re: HTTP ERROR: 403 - proxy use not allowed](http://forum.yacy-websuche.de/viewtopic.php?f=5&t=5177#p30234){.postlink} hat geschrieben:\ zu diesem Fehler kann es kommen, wenn YaCy den verwendeten Hostnamen nicht kennt.\ Versucht den dyndns-Hostnamen in die /etc/hosts einzutragen, dann sollte es nach einemNeustart von YaCy gehen.\

Ich zitiere aus diesem HTTP ERROR: 403 - proxy use not allowed{.postlink} Thread, wo es scheinbar um das gleiche Problem geht. Ich habe jetzt in der [etc/hosts-]{style=“font-style: italic”}Datei diese

Code:
    127.0.0.1    subdomain.xdydns.xx    127.0.0.1:8090    subdomain.xdydns.xx    192.168.2.100    subdomain.xdydns.xx    192.168.2.100:8090 subdomain.xdydns.xx

Werte nacheinander getestet, nach jeder Änderung der /hosts den YaCy-Server und den Browser neu gestartet. Hat mich leider nicht weiter gebracht. Ich würde mich freuen, wenn jemand, bei dem das mit hosts geklappt hat, hier exakte Schreibweise, die vom Jetty-Server akzeptiert wird, verraten könnte.

Diese Variante

Quix0r [Re: Einbindung in Website](http://forum.yacy-websuche.de/viewtopic.php?f=5&t=2958#p20830){.postlink} hat geschrieben:\ StaticIP sollte bei dynamischen IPs \... ein DynDNS-Hostname sein (ja, das geht auch):\ - Melde dich (wenn nicht bereits geschehen) bei einem dynamischen DNS-Anbietern (DynDNS ist der beliebteste, vorsicht: die Hostnamen laufen dort ab!)\ - Rufe auf\ - Trage als \"Static IP\" deinen Hostnamen \*ohne\* :8080 ein\ - IP number filter kannst auf \* lassen\

zu testen habe ich nicht gewagt, da ich das Risiko nicht eingehen möchte, vom Server ausgesperrt zu werden - s. dieser Hinweis

[localhost - System Administration - Serverzugangs Einstellungen](http://localhost:8090/Settings_p.html?page=ServerAccess){.postlink} hat geschrieben:\ ACHTUNG: Ihre aktuelle IP wird als \"0:0:0:0:0:0:0:1\" erkannt. Wenn der Wert, den Sie hier eingegeben haben, nicht mit dieser IP übereinstimmt, wird es nicht möglich sein auf die Serverseiten zuzugreifen.\


Gibt es auf der Entwickler-Seite evtl. Absichten, den Zugriff per dynDNS einfacher zu ermöglichen? Ideal wäre, wenn dynDNS-Anbindung mit YaCy ähnlich einfach ginge, wie dies bei mir mit XAMPP funktioniert hat ;).

Statistik: Verfasst von flegno — Fr Aug 29, 2014 8:01 am


Fragen und Antworten • Re: Client can\’t execute: Connection refused: connect durati

Date: 2014-08-29 10:48:21

die \“Static IP\” Konfiguration hat nichts mit dyndns zu tun. Das YaCy p2p-Routing geht für einen Senior Peer immer, wenn der Port hinter dem Router per virtual server Option auf YaCy weitergeleitet wird. Das ist bei dir ja so.

Weiterhin hat die Dyndns-Nutzung auch gar nichts mit YaCy zu tun, da sagt ein DNS-Server ausserhalb deines Intranets deinem Browser dass er deine IP aufrufen soll. Spezielle http Header Anpassungen gibt es da auch nicht.

Ein Problem das ich allerdings hatte war, wenn ich meinen eigenen Peer auf meinem Rechner mit der öffentlichen IP aufrufen will, da streikte nämlich mein Router. Das ist aber bei dir auch nicht so.

Ich empfehle zunächst mal die \“Static IP\” Konfiguration wieder zu entfernen.

Statistik: Verfasst von Orbiter — Fr Aug 29, 2014 9:48 am


Fragen und Antworten • Re: Client can\’t execute: Connection refused: connect durati

Date: 2014-08-29 12:30:13

Orbiter hat geschrieben:\ Ich empfehle zunächst mal die \"Static IP\" Konfiguration wieder zu entfernen.\

Also hier liegt ein Missverstandnis vor - den \“Static IP\“-Wert habe ich nicht angefasst, was ich im letzten Posting explizit betont habe. Den Wert [\“0:0:0:0:0:0:0:1\“]{style=“color: #FF0000”} im Fenster localhost - System Administration - Serverzugangs Einstellungen{.postlink} zeigt YaCy an, wenn man die Menüs mit h[ttp: / / localhost:809]{style=“font-style: italic”}0 aufruft, wenn man das mit [http: / / 127.0.0.1:8090]{style=“font-style: italic”} macht, dann kommt in diesem Text

localhost - System Administration - Serverzugangs Einstellungen hat geschrieben:\ ACHTUNG: Ihre aktuelle IP wird als [\"127.0.0.1\"]{style="color: #FF0000"} erkannt. Wenn der Wert, den Sie hier eingegeben haben, nicht mit dieser IP übereinstimmt, wird es nicht möglich sein auf die Serverseiten zuzugreifen.\

, also 127.0.0.1 anstelle von 0:0:0:0:0:0:0:1. Es ist zwar auch für mich nicht selbsterklärend, aber so macht es YaCy und ich - glaube ich zumindest - habe damit nichts zu tun.

Orbiter hat geschrieben:\ Ein Problem das ich allerdings hatte war, wenn ich meinen eigenen Peer auf meinem Rechner mit der öffentlichen IP aufrufen will, da streikte nämlich mein Router. Das ist aber bei dir auch nicht so.\


Weißt du noch, wie du das Routenproblem gelöst hast bzw. was die Ursache für dein Problem war?

Statistik: Verfasst von flegno — Fr Aug 29, 2014 11:30 am


Hilfe für Einsteiger und Anwender • Yacy Crawler für smb shares

Date: 2014-08-29 13:29:39

Hallo,

ich versuche Yacy als Intranetsuchmaschine einzurichten (zweiter Anlauf nachdem ich bereits vor 1-2 Jahren an der gleichen Stelle gescheitert bin). Durchsuchbar gemacht werden sollen die per Samba freigegebenen Daten eines Linuxservers. Ich kann die entsprechenden Crawler zwar einrichten, es findet aber keine Suche statt.

Mein Setup:
- yacy 1.72 mit java 1.6 auf dem Samba Server installiert
- yacy wird unter einem Benutzeraccount gestartet der auch auf die SMB Shares zugreifen darf
- yacy läuft im Robinson Modus
- als Start-Url für die SMB Crawler habe ich folgende Adresse eingegeben: smb://roberta/scan bzw. smb://roberta/scan/ eingegeben. Der Crawler wird angenommen aber danach passiert gar nichts.

Mache ich was falsch? Gibt es jemanden mit einem funktionierenden smb-Crawler?

Im Log finden sich folgende Einträge:
[egrep smb://roberta/scan/ *.log]{style=“font-weight: bold”}

Code:
yacy00.log:I 2014/08/29 13:19:16 LOADER No parser available in SMB crawler: 'no parser found' for URL smb://roberta/scan/: parsing only metadatayacy00.log:I 2014/08/29 13:19:16 HTCACHE storing content of url smb://roberta/scan/, 16 bytesyacy00.log:I 2014/08/29 13:19:18 Crawl Start reloadIfOlderNumber=3&deleteold=on&crawlingDomMaxPages=10000&intention=&obeyHtmlRobotsNoindex=on&range=domain&indexMedia=on&followFrames=on&recrawl=reload&storeHTCache=on&sitemapURL=&collection=user&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=smb://roberta/scan/&bookmarkTitle=&mustnotmatch=&crawlingDomFilterDepth=-UNRESOLVED_PATTERN-&reloadIfOlderUnit=day&crawlingDomFilterCheck=off&crawlingstart=Starte%20neuen%20Crawl&directDocByURL=off&crawlingDepth=99yacy00.log:I 2014/08/29 13:19:18 APICALL /Crawler_p.html?reloadIfOlderNumber=3&deleteold=on&crawlingDomMaxPages=10000&intention=&obeyHtmlRobotsNoindex=on&range=domain&indexMedia=on&followFrames=on&recrawl=reload&storeHTCache=on&sitemapURL=&collection=user&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=smb://roberta/scan/&bookmarkTitle=&mustnotmatch=&crawlingDomFilterDepth=-UNRESOLVED_PATTERN-&reloadIfOlderUnit=day&crawlingDomFilterCheck=off&crawlingstart=Starte%20neuen%20Crawl&directDocByURL=off&crawlingDepth=99yacy00.log:I 2014/08/29 13:19:18 LOADER No parser available in SMB crawler: 'no parser found' for URL smb://roberta/scan/: parsing only metadatayacy00.log:I 2014/08/29 13:19:18 HTCACHE storing content of url smb://roberta/scan/, 16 bytesyacy00.log:I 2014/08/29 13:19:18 LOADER No parser available in SMB crawler: 'no parser found' for URL smb://roberta/scan/: parsing only metadatayacy00.log:I 2014/08/29 13:19:18 HTCACHE storing content of url smb://roberta/scan/, 16 bytesyacy00.log:I 2014/08/29 13:19:20 LOADER No parser available in SMB crawler: 'no parser found' for URL smb://roberta/scan/: parsing only metadatayacy00.log:D 2014/08/29 13:19:20 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=0, maxDepth=99, must-match=smb://(www.)?\Qroberta\E.*, must-not-match=, initiatorHash=vXzyaJjbS2YC, url=smb://roberta/scan/yacy00.log:I 2014/08/29 13:19:20 SWITCHBOARD CRAWL: ADDED 0 LINKS FROM smb://roberta/scan/, STACKING TIME = 0, PARSING TIME = 10yacy00.log:I 2014/08/29 13:19:20 SWITCHBOARD Excluded 0 words in URL smb://roberta/scan/yacy00.log:I 2014/08/29 13:19:20 Fulltext indexing: XUvvBLPHTB88 smb://roberta/scan/yacy00.log:I 2014/08/29 13:19:20 SWITCHBOARD *Indexed 3 words in URL smb://roberta/scan/ [XUvvBLPHTB88]



Wenn ich einen File-Crawler anlege erscheint übrigens folgende Fehlermeldung:

Code:
javax.servlet.ServletException: /home/shares/transfer/yacy/DATA/LOCALE/htroot/de/Crawler_p.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:755)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:848)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)   at org.eclipse.jetty.server.Server.handle(Server.java:370)   at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494)   at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982)   at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043)   at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865)   at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240)   at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667)   at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)   at java.lang.Thread.run(Thread.java:662)



Danke für Hinweise,
grassu

Statistik: Verfasst von grassu — Fr Aug 29, 2014 12:29 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Crawler für smb shares

Date: 2014-08-29 14:03:24

Hallo,
ja das geht. Ein paar Details lassen das wahrscheinlich bei dir scheitern:

- du musst das ganz aktuelle Developerrelease nehmen, weil vor ein paar Wochen was kaputt war (sorry)
- robinson-Modus ist nicht nötig, weil du das im P2P-Modus sowieso nicht machen kannst, dort sind nur Internetadressen zugelassen, nicht aber Intranetadressen (und da ist dein eigener Server wahrscheinlich). Stelle in der BasicConfig also auf Intranet.
- wenn Dein smb share ein Passwort braucht, dann geht das Crawlen zur Zeit nur über die Laufwerksfreigabe als file-Crawl. Also Das Laufwerk z.B. auf z: mounten und dann starten mit der Adresse \“file://z:\“. Wenn du aber ein ganz offenes smb share hast, dann geht das Crawlen so wie du unten versucht hast.

Das mit dem Laufwerk habe ich diese Woche noch ausprobiert, geht garantiert!

Statistik: Verfasst von Orbiter — Fr Aug 29, 2014 1:03 pm


Fragen und Antworten • Re: Client can\’t execute: Connection refused: connect durati

Date: 2014-08-29 14:10:39

das konnte man nicht lösen weil das die Firmware des Routers so wollte. Das sollte aber nicht relevant sein für dein Problem.

Ich habe das ganze auch mal ausprobiert, hat sofort funktioniert: http://yacy.dyndnss.net/
Ich vermute dein dyndns provider macht da eher ein Problem.

Statistik: Verfasst von Orbiter — Fr Aug 29, 2014 1:10 pm


Fragen und Antworten • GUI-Verschönerung

Date: 2014-08-29 15:07:47

Hallo,

ich empfinde, dass die Kammern in den Menübeschriftungen im http://localhost:8090/Crawler_p.html-Menü ziemlich irritierend sind. Ich habe bis heute angenommen, dass die Ziffer für bestimmte Statistiken, Fallzahlen stehen. Habe dazu ein Ticket erstellt - Ticket #449{.postlink} mit einem Verbesserungsvorschlag.

Je nach dem, ob dies in die Übersetzungsroutine passt, man könnte evtl. auf die Nummerierung ganz verzichten, dann wird die Menüführung übersichtlicher. Und im Text bei Bedarf die selbstsprechende Anfangsbuchstaben statt Menünummer verwenden. Bspw.

\ Diese Seiten wurden von Ihrem Peer indexiert, der Crawl wurde aber von einem anderen Peer initiiert (remote-Crawl). Dies ist der \'Gegensatz\' Prozess zu (R).\

, wobei \‘R\’ für [Rückmeldungen]{style=“font-style: italic”} steht. Da \’S\’ zweimal vorkommt, könnte man \‘S1\’ und \‘S2\’ verwenden.

Statistik: Verfasst von flegno — Fr Aug 29, 2014 2:07 pm


Fragen und Antworten • Re: GUI-Verschönerung

Date: 2014-08-29 15:12:28

wenn du mal auf \‘Überblick\’ guckst, siehst du die Markierungen die die Nummer enthalten.

Statistik: Verfasst von Orbiter — Fr Aug 29, 2014 2:12 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Crawler für smb shares

Date: 2014-08-29 15:53:34

Ah vielen Dank. So funktioniert es. Natürlich sind die SMB Shares Passwortgeschüzt aber mit dem File basierten Crawler geht es.
Ist es geplant auch passwortgeschützte SMB Shares zu unterstützen?

Gruß,
grassu

Statistik: Verfasst von grassu — Fr Aug 29, 2014 2:53 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Crawler für smb shares

Date: 2014-08-29 16:22:22

man kann smb-shares mit Passwort ganz einfach mit einer URL der Form
smb://<user>:<password>@<address>/<path>
aufrufen und auch so indexieren in YaCy. Das ist aber keine Lösung, weil dann die Accountdaten in der URL stehen.

Um so etwas \‘richtig\’ zu machen bräuchte YaCy eine andere Form der Authentifizieren, ggf. mit Kontakt in eine ActiveDirectory Server. So etwas haben wir aber nicht und Know-How dazu ist nirgends vorhanden, was wohl daran liegt dass viele Java Hacker die Windows-Welt meiden.

So weit ich weiss gibt es so etwas auch nirgendswo, ausser in Sharepoint Bild

Falls du einen ActiveDirectory Entwickler kennst der mitmachen will: https://twitter.com/yacy_search/status/ ... 0219815936{.postlink}

Statistik: Verfasst von Orbiter — Fr Aug 29, 2014 3:22 pm


Fragen und Antworten • Re: GUI-Verschönerung

Date: 2014-08-29 16:24:58

Orbiter hat geschrieben:\ wenn du mal auf \'Überblick\' guckst, siehst du die Markierungen die die Nummer enthalten.\


Ich bin jetzt auf News.html, kapiere aber nicht, was du meinst.

Statistik: Verfasst von flegno — Fr Aug 29, 2014 3:24 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Crawler für smb shares

Date: 2014-08-29 17:47:15

\ man kann smb-shares mit Passwort ganz einfach mit einer URL der Form\ \:\@\/\\ aufrufen und auch so indexieren in YaCy. Das ist aber keine Lösung, weil dann die Accountdaten in der URL stehen.\


Das würde für meine Zwecke zunächst ausreichen. Leider funktioniert das aber nicht. Wenn ich einen entsprechenden SMB-Crawler mit user:pass eingebe erscheint im yacy-logfile folgende Fehlermeldung:

\ REJECTED - url does not match must-match filter .)?\\Qroberta\\E.\*\



Any idea?

Statistik: Verfasst von grassu — Fr Aug 29, 2014 4:47 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 00:09:30

Ich habe jetzt das checkindex.sh-Skript in /usr/share/yacy/bin gefunden, aber es funktioniert nicht, weil es offenbar Java-Klassen in lib/ erwartet, aber lib/ gibt es nicht?

Es handelt sich um einen Debian-Server mit dem apt-Paket (aktuellste Version).

Da die Klassen hier anscheinend in /usr/share/java/yacy/ liegen, habe ich das Skript entsprechend angepasst.

Ausgabe:

Code:
root@main:/usr/share/yacy/bin# ./checkindex.shNOTE: testing will be more thorough if you run java with '-ea:org.apache.lucene...', so assertions are enabledOpening index @ DATA/INDEX/freeworld/SEGMENTS/solr_46/collection1/data/index/ERROR: could not read any segments file in directoryorg.apache.lucene.store.NoSuchDirectoryException: directory '/var/lib/yacy/INDEX/freeworld/SEGMENTS/solr_46/collection1/data/index' does not exist   at org.apache.lucene.store.FSDirectory.listAll(FSDirectory.java:218)   at org.apache.lucene.store.FSDirectory.listAll(FSDirectory.java:242)   at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:802)   at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:753)   at org.apache.lucene.index.SegmentInfos.read(SegmentInfos.java:453)   at org.apache.lucene.index.CheckIndex.checkIndex(CheckIndex.java:398)   at org.apache.lucene.index.CheckIndex.main(CheckIndex.java:2051)

Statistik: Verfasst von zottel — Fr Aug 29, 2014 11:09 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 00:34:11

P.S.: Das sind 29 GB Datenbank, wäre echt schade, wenn sie verloren wäre. Wenn es Möglichkeiten gibt, ich habe kein Problem mit der Shell, oder unter Anleitung Befehle in irgendwelche DB-Clients einzugeben oder so. Wenn es mit etwas Aufwand möglich ist, die Datenbank zu retten, und jemand bereit ist, diesen Aufwand mit mir zu treiben, bin ich dabei. :-)

Oder kann ich wegen der P2P-Natur eh davon ausgehen, dass das alles auf irgendwelchen anderen yacys noch vorhanden ist? Dann bleibt die Frage, wie ich meine Datenbank lösche, ohne meine ganze Node neu aufsetzen zu müssen. clearindex.sh?

Statistik: Verfasst von zottel — Fr Aug 29, 2014 11:34 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 00:54:30

Ah, ich musste im Skript auch solr_46 noch auf solr_4_9 ändern. Jetzt läuft der Test, wird aber wohl noch eine Weile dauern. Ich melde mich, wenn er durch ist.

Statistik: Verfasst von zottel — Fr Aug 29, 2014 11:54 pm


Fragen und Antworten • Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 00:56:10

Hallo,

irgendwann heute ist mein yacy auf meinem VPS abgeschmiert, im Log gibt es viele Stack Traces mit Too Many Open Files. Ich habe es jetzt neu gestartet, aber die Suche funktioniert nicht mehr, und ich bekomme (unabhängig davon, ob ich selbst suche oder nicht) viele viele NullPointerExceptions im Log. (Habe es jetzt gestoppt.)

Ich habe kein Backup von der Datenbank, dafür reicht mein Backup-Platz, den ich für den VPS habe, nicht aus. Wäre schade, wenn die Datenbank weg wäre, da waren zuletzt mehr als 26 Millionen Dokumente drin. Gibt es irgendeine Chance, sie zu reparieren?

Wenn nicht, kann ich sie irgendwie löschen und bei null anfangen, ohne meinen Peer komplett neu aufsetzen und konfigurieren zu müssen?

Danke, zottel

Statistik: Verfasst von zottel — Fr Aug 29, 2014 10:20 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 01:29:36

Hm, der Index an sich ist anscheinend ok. Hier die komplette Ausgabe von checkindex.sh:

Code:
root@main:/usr/share/yacy/bin# ./checkindex.shNOTE: testing will be more thorough if you run java with '-ea:org.apache.lucene...', so assertions are enabledOpening index @ DATA/INDEX/freeworld/SEGMENTS/solr_4_9/collection1/data/index/Segments file=segments_69ku numSegments=36 versions=[4.6 .. 4.9] format= userData={commitTimeMSec=1409219437043}  1 of 36: name=_mdd docCount=9997159    codec=Lucene46    compound=false    numFiles=11    size (MB)=5,964.726    diagnostics = {timestamp=1393874980058, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=4, source=merge, lucene.version=4.6.1 1560866 - mark - 2014-01-23 20:11:13, os.arch=amd64, mergeMaxNumSegments=1, java.version=1.7.0_25, java.vendor=Oracle Corporation}    has deletions [delGen=2864]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [3089076 deleted docs]    test: fields..............OK [76 fields]    test: field norms.........OK [20 fields]    test: terms, freq, prox...OK [39816301 terms; 432184047 terms/docs pairs; 351361134 tokens]    test (ignoring deletes): terms, freq, prox...OK [57131214 terms; 632368575 terms/docs pairs; 523845129 tokens]    test: stored fields.......OK [204698531 total field count; avg 29.632 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  2 of 36: name=_3dio docCount=8283691    codec=Lucene46    compound=true    numFiles=4    size (MB)=4,746.357    diagnostics = {timestamp=1403513403555, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.8.1 1594670 - rmuir - 2014-05-14 19:22:52, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_55, java.vendor=Oracle Corporation}    has deletions [delGen=1878]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [7354 deleted docs]    test: fields..............OK [84 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [46897353 terms; 511169530 terms/docs pairs; 401787818 tokens]    test (ignoring deletes): terms, freq, prox...OK [47420392 terms; 518997029 terms/docs pairs; 415880137 tokens]    test: stored fields.......OK [241367927 total field count; avg 29.164 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  3 of 36: name=_57ho docCount=6256188    codec=Lucene49    compound=true    numFiles=4    size (MB)=4,674.903    diagnostics = {timestamp=1405125355941, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_55, java.vendor=Oracle Corporation}    has deletions [delGen=1225]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [165823 deleted docs]    test: fields..............OK [84 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [42643775 terms; 457055675 terms/docs pairs; 402135029 tokens]    test (ignoring deletes): terms, freq, prox...OK [44033910 terms; 471838785 terms/docs pairs; 417573001 tokens]    test: stored fields.......OK [214651639 total field count; avg 35.244 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  4 of 36: name=_8njw docCount=617736    codec=Lucene49    compound=true    numFiles=4    size (MB)=645.746    diagnostics = {timestamp=1408772594558, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=22, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=10, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=201]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [27569 deleted docs]    test: fields..............OK [83 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [6744006 terms; 55929557 terms/docs pairs; 59894566 tokens]    test (ignoring deletes): terms, freq, prox...OK [7018182 terms; 58089640 terms/docs pairs; 61845294 tokens]    test: stored fields.......OK [26733170 total field count; avg 45.298 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  5 of 36: name=_8wb5 docCount=4219240    codec=Lucene49    compound=true    numFiles=4    size (MB)=3,416.359    diagnostics = {timestamp=1409142459753, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=12, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=628]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [13431 deleted docs]    test: fields..............OK [83 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [32476988 terms; 325132969 terms/docs pairs; 283056093 tokens]    test (ignoring deletes): terms, freq, prox...OK [33671658 terms; 342526425 terms/docs pairs; 311197131 tokens]    test: stored fields.......OK [162268616 total field count; avg 38.582 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  6 of 36: name=_93i4 docCount=107026    codec=Lucene49    compound=true    numFiles=4    size (MB)=510.657    diagnostics = {timestamp=1409216609206, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=18, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=3]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [3 deleted docs]    test: fields..............OK [81 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [4568758 terms; 29828071 terms/docs pairs; 46747311 tokens]    test (ignoring deletes): terms, freq, prox...OK [4568840 terms; 29829874 terms/docs pairs; 46751954 tokens]    test: stored fields.......OK [15984561 total field count; avg 149.356 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  7 of 36: name=_8z6u docCount=26109    codec=Lucene49    compound=true    numFiles=4    size (MB)=273.137    diagnostics = {timestamp=1409171758974, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=15, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=48]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [2060 deleted docs]    test: fields..............OK [81 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [2346054 terms; 15873903 terms/docs pairs; 22383718 tokens]    test (ignoring deletes): terms, freq, prox...OK [2508779 terms; 17698618 terms/docs pairs; 24849892 tokens]    test: stored fields.......OK [6722403 total field count; avg 279.529 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  8 of 36: name=_91rz docCount=92991    codec=Lucene49    compound=true    numFiles=4    size (MB)=206    diagnostics = {timestamp=1409198665869, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=19, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=53]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [854 deleted docs]    test: fields..............OK [81 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [2467343 terms; 12097670 terms/docs pairs; 15280614 tokens]    test (ignoring deletes): terms, freq, prox...OK [2579716 terms; 13055888 terms/docs pairs; 16645861 tokens]    test: stored fields.......OK [6712259 total field count; avg 72.851 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  9 of 36: name=_8ygj docCount=52663    codec=Lucene49    compound=true    numFiles=4    size (MB)=388.738    diagnostics = {timestamp=1409165501672, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=155]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [14221 deleted docs]    test: fields..............OK [81 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [1244788 terms; 10163295 terms/docs pairs; 13647565 tokens]    test (ignoring deletes): terms, freq, prox...OK [3380432 terms; 23969656 terms/docs pairs; 34596570 tokens]    test: stored fields.......OK [4359518 total field count; avg 113.405 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  10 of 36: name=_8yur docCount=17751    codec=Lucene49    compound=true    numFiles=4    size (MB)=318.285    diagnostics = {timestamp=1409168626046, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=14, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=42]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [350 deleted docs]    test: fields..............OK [80 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [3461246 terms; 18774105 terms/docs pairs; 28009517 tokens]    test (ignoring deletes): terms, freq, prox...OK [3506430 terms; 19166528 terms/docs pairs; 28609434 tokens]    test: stored fields.......OK [9507088 total field count; avg 546.353 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  11 of 36: name=_91it docCount=15587    codec=Lucene49    compound=true    numFiles=4    size (MB)=208.189    diagnostics = {timestamp=1409195615593, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=20, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=11, java.version=1.7.0_65, java.vendor=Oracle Corporation}    has deletions [delGen=28]    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK [101 deleted docs]    test: fields..............OK [80 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [2089011 terms; 12185583 terms/docs pairs; 18235972 tokens]    test (ignoring deletes): terms, freq, prox...OK [2108178 terms; 12321982 terms/docs pairs; 18464071 tokens]    test: stored fields.......OK [6307097 total field count; avg 407.277 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  12 of 36: name=_93jp docCount=524    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.103    diagnostics = {timestamp=1409217130387, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [73 fields]    test: field norms.........OK [15 fields]    test: terms, freq, prox...OK [22628 terms; 61489 terms/docs pairs; 70734 tokens]    test: stored fields.......OK [37571 total field count; avg 71.7 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  13 of 36: name=_93ld docCount=390    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.18    diagnostics = {timestamp=1409217660005, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [72 fields]    test: field norms.........OK [16 fields]    test: terms, freq, prox...OK [22674 terms; 71843 terms/docs pairs; 76181 tokens]    test: stored fields.......OK [38898 total field count; avg 99.738 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  14 of 36: name=_93lw docCount=578    codec=Lucene49    compound=true    numFiles=3    size (MB)=2.607    diagnostics = {timestamp=1409217868911, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [77 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [55076 terms; 119722 terms/docs pairs; 205560 tokens]    test: stored fields.......OK [65219 total field count; avg 112.836 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  15 of 36: name=_93m7 docCount=402    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.626    diagnostics = {timestamp=1409218011522, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [80 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [42342 terms; 78434 terms/docs pairs; 120763 tokens]    test: stored fields.......OK [37933 total field count; avg 94.361 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  16 of 36: name=_93l2 docCount=458    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.662    diagnostics = {timestamp=1409217569418, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [73 fields]    test: field norms.........OK [17 fields]    test: terms, freq, prox...OK [29380 terms; 97923 terms/docs pairs; 108602 tokens]    test: stored fields.......OK [55890 total field count; avg 122.031 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  17 of 36: name=_93jy docCount=387    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.284    diagnostics = {timestamp=1409217205726, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [72 fields]    test: field norms.........OK [16 fields]    test: terms, freq, prox...OK [24587 terms; 71552 terms/docs pairs; 84738 tokens]    test: stored fields.......OK [40949 total field count; avg 105.811 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  18 of 36: name=_93ki docCount=319    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.341    diagnostics = {timestamp=1409217388416, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [73 fields]    test: field norms.........OK [17 fields]    test: terms, freq, prox...OK [28252 terms; 59877 terms/docs pairs; 115995 tokens]    test: stored fields.......OK [46310 total field count; avg 145.172 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  19 of 36: name=_93nk docCount=384    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.541    diagnostics = {timestamp=1409219124263, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [75 fields]    test: field norms.........OK [19 fields]    test: terms, freq, prox...OK [34652 terms; 68631 terms/docs pairs; 146668 tokens]    test: stored fields.......OK [36672 total field count; avg 95.5 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  20 of 36: name=_93ks docCount=350    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.545    diagnostics = {timestamp=1409217463967, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [73 fields]    test: field norms.........OK [17 fields]    test: terms, freq, prox...OK [31937 terms; 82243 terms/docs pairs; 105008 tokens]    test: stored fields.......OK [45736 total field count; avg 130.674 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  21 of 36: name=_93lm docCount=391    codec=Lucene49    compound=true    numFiles=3    size (MB)=2.274    diagnostics = {timestamp=1409217750613, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [76 fields]    test: field norms.........OK [20 fields]    test: terms, freq, prox...OK [44408 terms; 112971 terms/docs pairs; 184206 tokens]    test: stored fields.......OK [58691 total field count; avg 150.105 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  22 of 36: name=_93lj docCount=66    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.119    diagnostics = {timestamp=1409217720204, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [77 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [29786 terms; 45723 terms/docs pairs; 101975 tokens]    test: stored fields.......OK [20039 total field count; avg 303.621 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  23 of 36: name=_93n0 docCount=115    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.676    diagnostics = {timestamp=1409218481257, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [75 fields]    test: field norms.........OK [19 fields]    test: terms, freq, prox...OK [38045 terms; 64445 terms/docs pairs; 130412 tokens]    test: stored fields.......OK [30794 total field count; avg 267.774 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  24 of 36: name=_93ll docCount=67    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.18    diagnostics = {timestamp=1409217750593, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [76 fields]    test: field norms.........OK [20 fields]    test: terms, freq, prox...OK [29734 terms; 51893 terms/docs pairs; 103727 tokens]    test: stored fields.......OK [23351 total field count; avg 348.522 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  25 of 36: name=_93na docCount=89    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.117    diagnostics = {timestamp=1409218961823, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [77 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [29682 terms; 49117 terms/docs pairs; 95509 tokens]    test: stored fields.......OK [25643 total field count; avg 288.124 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  26 of 36: name=_93nv docCount=82    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.468    diagnostics = {timestamp=1409219288969, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [76 fields]    test: field norms.........OK [20 fields]    test: terms, freq, prox...OK [34667 terms; 59010 terms/docs pairs; 162033 tokens]    test: stored fields.......OK [33218 total field count; avg 405.098 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  27 of 36: name=_93mg docCount=142    codec=Lucene49    compound=true    numFiles=3    size (MB)=1.717    diagnostics = {timestamp=1409218089669, os=Linux, os.version=3.2.0-4-amd64, mergeFactor=10, source=merge, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, mergeMaxNumSegments=-1, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [77 fields]    test: field norms.........OK [21 fields]    test: terms, freq, prox...OK [43985 terms; 78475 terms/docs pairs; 155589 tokens]    test: stored fields.......OK [34668 total field count; avg 244.141 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  28 of 36: name=_93nu docCount=1    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.004    diagnostics = {timestamp=1409219294459, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [18 terms; 18 terms/docs pairs; 0 tokens]    test: stored fields.......OK [18 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  29 of 36: name=_93nw docCount=7    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.057    diagnostics = {timestamp=1409219315909, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [64 fields]    test: field norms.........OK [12 fields]    test: terms, freq, prox...OK [1393 terms; 1858 terms/docs pairs; 2189 tokens]    test: stored fields.......OK [1063 total field count; avg 151.857 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  30 of 36: name=_93nx docCount=3    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.005    diagnostics = {timestamp=1409219321906, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [34 terms; 54 terms/docs pairs; 0 tokens]    test: stored fields.......OK [54 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  31 of 36: name=_93ny docCount=8    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.019    diagnostics = {timestamp=1409219344624, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [41 fields]    test: field norms.........OK [8 fields]    test: terms, freq, prox...OK [454 terms; 1019 terms/docs pairs; 934 tokens]    test: stored fields.......OK [246 total field count; avg 30.75 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  32 of 36: name=_93nz docCount=3    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.012    diagnostics = {timestamp=1409219349594, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [34 fields]    test: field norms.........OK [8 fields]    test: terms, freq, prox...OK [232 terms; 262 terms/docs pairs; 202 tokens]    test: stored fields.......OK [97 total field count; avg 32.333 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  33 of 36: name=_93o0 docCount=8    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.006    diagnostics = {timestamp=1409219380864, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [53 terms; 144 terms/docs pairs; 0 tokens]    test: stored fields.......OK [144 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  34 of 36: name=_93o1 docCount=1    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.005    diagnostics = {timestamp=1409219381068, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [18 terms; 18 terms/docs pairs; 0 tokens]    test: stored fields.......OK [18 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  35 of 36: name=_93o2 docCount=10    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.006    diagnostics = {timestamp=1409219431197, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [60 terms; 180 terms/docs pairs; 0 tokens]    test: stored fields.......OK [180 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]  36 of 36: name=_93o3 docCount=1    codec=Lucene49    compound=true    numFiles=3    size (MB)=0.005    diagnostics = {timestamp=1409219437064, os=Linux, os.version=3.2.0-4-amd64, source=flush, lucene.version=4.9.0 1604085 - rmuir - 2014-06-20 06:22:23, os.arch=amd64, java.version=1.7.0_65, java.vendor=Oracle Corporation}    no deletions    test: open reader.........OK    test: check integrity.....OK    test: check live docs.....OK    test: fields..............OK [18 fields]    test: field norms.........OK [1 fields]    test: terms, freq, prox...OK [18 terms; 18 terms/docs pairs; 0 tokens]    test: stored fields.......OK [18 total field count; avg 18 fields per doc]    test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET]No problems were detected with this index.



Also ein anderes Problem?

Ich habe yacy jetzt nochmal hochgefahren, hier die ersten paar Probleme:

Code:
I 2014/08/30 01:18:06 org.apache.solr.rest.ManagedResourceStorage Reading _rest_managed.json using file:dir=/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_9/webgraph/confW 2014/08/30 01:18:06 org.apache.solr.rest.ManagedResource No stored data found for /rest/managedW 2014/08/30 01:18:06 org.apache.solr.rest.ManagedResource No registered observers for /rest/managedI 2014/08/30 01:18:06 org.apache.solr.rest.RestManager Initializing 0 registered ManagedResourcesE 2014/08/30 01:18:17 org.apache.solr.update.SolrIndexWriter SolrIndexWriter was not closed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2014/08/30 01:18:17 org.apache.solr.core.SolrCore Error loading core:java.util.concurrent.ExecutionException: java.lang.OutOfMemoryError: Java heap space        at java.util.concurrent.FutureTask.report(FutureTask.java:122)        at java.util.concurrent.FutureTask.get(FutureTask.java:188)        at org.apache.solr.core.CoreContainer.load(CoreContainer.java:301)        at org.apache.solr.core.CoreContainer.createAndLoad(CoreContainer.java:176)        at net.yacy.cora.federate.solr.instance.EmbeddedInstance.<init>(EmbeddedInstance.java:82)        at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)        at net.yacy.search.Switchboard.<init>(Switchboard.java:518)        at net.yacy.yacy.startup(yacy.java:191)        at net.yacy.yacy.main(yacy.java:683)Caused by: java.lang.OutOfMemoryError: Java heap space        at org.apache.lucene.util.fst.BytesStore.<init>(BytesStore.java:68)        at org.apache.lucene.util.fst.FST.<init>(FST.java:373)        at org.apache.lucene.util.fst.FST.<init>(FST.java:308)        at org.apache.lucene.codecs.blocktree.FieldReader.<init>(FieldReader.java:85)        at org.apache.lucene.codecs.blocktree.BlockTreeTermsReader.<init>(BlockTreeTermsReader.java:191)        at org.apache.lucene.codecs.lucene41.Lucene41PostingsFormat.fieldsProducer(Lucene41PostingsFormat.java:441)        at org.apache.lucene.codecs.perfield.PerFieldPostingsFormat$FieldsReader.<init>(PerFieldPostingsFormat.java:197)        at org.apache.lucene.codecs.perfield.PerFieldPostingsFormat.fieldsProducer(PerFieldPostingsFormat.java:254)        at org.apache.lucene.index.SegmentCoreReaders.<init>(SegmentCoreReaders.java:120)        at org.apache.lucene.index.SegmentReader.<init>(SegmentReader.java:107)        at org.apache.lucene.index.ReadersAndUpdates.getReader(ReadersAndUpdates.java:143)        at org.apache.lucene.index.ReadersAndUpdates.getReadOnlyClone(ReadersAndUpdates.java:237)        at org.apache.lucene.index.StandardDirectoryReader.open(StandardDirectoryReader.java:98)        at org.apache.lucene.index.IndexWriter.getReader(IndexWriter.java:394)        at org.apache.lucene.index.DirectoryReader.open(DirectoryReader.java:112)        at org.apache.solr.core.StandardIndexReaderFactory.newReader(StandardIndexReaderFactory.java:41)        at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1526)        at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1672)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:840)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)        at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:261)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:253)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:745)I 2014/08/30 01:18:18 SolrEmbeddedInstance detected default solr core: collection1W 2014/08/30 01:18:18 ConcurrentLog java.io.IOException: cannot get the default core; available = 14651016, free = 14651016java.io.IOException: cannot get the default core; available = 14651016, free = 14651016        at net.yacy.cora.federate.solr.instance.EmbeddedInstance.<init>(EmbeddedInstance.java:92)        at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)        at net.yacy.search.Switchboard.<init>(Switchboard.java:518)        at net.yacy.yacy.startup(yacy.java:191)        at net.yacy.yacy.main(yacy.java:683)E 2014/08/30 01:18:18 org.apache.solr.core.SolrCore REFCOUNT ERROR: unreferenced org.apache.solr.core.SolrCore@2e352f85 (collection1) has a reference count of 1


Danach sieht es eine Weile gut aus, dann:

Code:
W 2014/08/30 01:19:00 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:655)        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:811)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:379)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:485)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:290)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:540)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:606)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:535)        at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:491)        at transferRWI.respond(transferRWI.java:239)        ... 31 moreW 2014/08/30 01:19:00 org.eclipse.jetty.servlet.ServletHandlerjavax.servlet.ServletException: /usr/share/yacy/htroot/yacy/transferRWI.html        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:379)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:485)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:290)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:540)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:606)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:535)        at java.lang.Thread.run(Thread.java:745)


Dann, kurze Zeit später:

Code:
W 2014/08/30 01:19:27 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:107)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:190)Caused by: java.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:491)        at net.yacy.peers.Transmission$Chunk.add(Transmission.java:179)        at net.yacy.peers.Dispatcher.enqueueContainersToBuffer(Dispatcher.java:287)        at net.yacy.peers.Dispatcher.selectContainersEnqueueToBuffer(Dispatcher.java:323)        at net.yacy.search.Switchboard.dhtTransferJob(Switchboard.java:3452)        ... 6 moreW 2014/08/30 01:19:27 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:491)        at net.yacy.peers.Transmission$Chunk.add(Transmission.java:179)        at net.yacy.peers.Dispatcher.enqueueContainersToBuffer(Dispatcher.java:287)        at net.yacy.peers.Dispatcher.selectContainersEnqueueToBuffer(Dispatcher.java:323)        at net.yacy.search.Switchboard.dhtTransferJob(Switchboard.java:3452)        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:107)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:190)W 2014/08/30 01:19:27 ConcurrentLog java.lang.NullPointerException java.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:491)        at net.yacy.peers.Transmission$Chunk.add(Transmission.java:179)        at net.yacy.peers.Dispatcher.enqueueContainersToBuffer(Dispatcher.java:287)        at net.yacy.peers.Dispatcher.selectContainersEnqueueToBuffer(Dispatcher.java:323)        at net.yacy.search.Switchboard.dhtTransferJob(Switchboard.java:3452)        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:107)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:190)E 2014/08/30 01:19:27 BUSYTHREAD Runtime Error in serverInstantThread.job, thread 'BusyThread net.yacy.search.Switchboard.dhtTransferJob': null; target exception: nulljava.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:491)        at net.yacy.peers.Transmission$Chunk.add(Transmission.java:179)        at net.yacy.peers.Dispatcher.enqueueContainersToBuffer(Dispatcher.java:287)        at net.yacy.peers.Dispatcher.selectContainersEnqueueToBuffer(Dispatcher.java:323)        at net.yacy.search.Switchboard.dhtTransferJob(Switchboard.java:3452)        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:107)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:190)


Und so ähnlich geht es dann munter weiter.

Statistik: Verfasst von zottel — Sa Aug 30, 2014 12:29 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 01:42:22

Wegen dem OutOfMemoryError am Anfang: Ich dachte, ich hätte yacy mal 3.5G Speicher via Oberfläche zugesprochen, kann aber sein, dass das noch bei meiner alten Installation war. In /usr/share/yacy/defaults/yacy.init habe ich unter javastart_Xmx aber nur Xmx600m gefunden. Das habe ich jetzt mal testweise noch auf Xmx3500m erhöht, das führt dann zu folgendem Ergebnis:

Code:
I 2014/08/30 01:44:32 org.apache.solr.rest.ManagedResourceStorage Reading _rest_managed.json using file:dir=/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_9/webgraph/confW 2014/08/30 01:44:32 org.apache.solr.rest.ManagedResource No stored data found for /rest/managedW 2014/08/30 01:44:32 org.apache.solr.rest.ManagedResource No registered observers for /rest/managedI 2014/08/30 01:44:32 org.apache.solr.rest.RestManager Initializing 0 registered ManagedResourcesE 2014/08/30 01:44:36 org.apache.solr.core.CoreContainer Unable to create core: collection1org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)        at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:261)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:253)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:745)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)        at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)        ... 10 moreCaused by: java.lang.reflect.InvocationTargetException        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)        ... 12 moreCaused by: java.lang.OutOfMemoryError: Java heap space        at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)        at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)        at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)        ... 17 moreE 2014/08/30 01:44:36 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Unable to create core: collection1        at org.apache.solr.core.CoreContainer.recordAndThrow(CoreContainer.java:911)        at org.apache.solr.core.CoreContainer.create(CoreContainer.java:568)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:261)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:253)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:745)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)        at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)        ... 8 moreCaused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)        at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)        ... 10 moreCaused by: java.lang.reflect.InvocationTargetException        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)        ... 12 moreCaused by: java.lang.OutOfMemoryError: Java heap space        at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)        at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)        at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)        ... 17 moreI 2014/08/30 01:44:36 SolrEmbeddedInstance detected default solr core: collection1E 2014/08/30 01:44:36 STARTUP YaCy cannot start: SolrCore 'collection1' is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandlerorg.apache.solr.common.SolrException: SolrCore 'collection1' is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:753)        at net.yacy.cora.federate.solr.instance.EmbeddedInstance.<init>(EmbeddedInstance.java:89)        at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)        at net.yacy.search.Switchboard.<init>(Switchboard.java:518)        at net.yacy.yacy.startup(yacy.java:191)        at net.yacy.yacy.main(yacy.java:683)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)        at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:261)        at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:253)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:745)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)        at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)        ... 10 moreCaused by: java.lang.reflect.InvocationTargetException        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)        at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)        ... 12 moreCaused by: java.lang.OutOfMemoryError: Java heap space        at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)        at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)        at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)        at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)        ... 17 more


… und der letzte Fehler noch einmal wiederholt.

Hat jemand eine Idee, was ich da tun könnte?

Statistik: Verfasst von zottel — Sa Aug 30, 2014 12:42 am


Fragen und Antworten • YaCy nach dem PC-Absturz kaputt, was kann ich machen?

Date: 2014-08-30 05:16:57

Hallo,

ähnlich wie im Thread
Datenbank scheinbar kaputt, kann ich sie reparieren?{.postlink} war die YaCy-Webseite http://localhost:8090/ bei mir nach einem PC-Absturz nicht mehr erreichbar. Ich habe - weil ich müde war und keine Zeit gehabt habe in die Fehleranalyse einzusteigen - dann ganz stupide mehrmals - vlt. bis zu 3-4 Mal:

  1. YaCy gestartet
  2. YaCy beendet

Jetzt funktioniert YaCy wieder. Manchmal helfen auch YaCy\’s selbstheilende Kräfte wie es aussieht :P . Da ich erst jetzt auf die Idee gekommen bin, dass die Log-Dateien evtl. interessant sein könnten, um zu klären, wie die selbstheilende Kräfte wirken, enthalten die älteste Log-Dateien leider die Einträge mit Selbstheilung nicht mehr. Und obwohl ich selbstverständlich lieber ohne PC-Abstürze auskommen würde, werde ich nach der nächsten erfolgreichen Selbstheilung in die Logs reinschauen und hier berichten.

Frage an die Entwickler - gibt es Möglichkeit, zuverlässig zu testen, ob die Selbstheilung YaCy komplett wiederhergestellt hat? Sowas wie [rundum-Gesundheitscheck mit Gesundheitsbescheinigung?]{style=“font-weight: bold”} Der Patient kann sich beim Arzt bzw. der Ärztin auch persönlich vorstellen - hier die Öffentliche Adresse meines Peers - http://79.227.48.91:8090 - ist nicht immer online und die Adresse kann sich ändern, bei Interesse bitte anfragen. Nach Absprache kann ich sogar in einer remote-Sitzung einen (Sicht)Zugang zu der YaCy-Admin-Ansicht geben.

[Wichtig!]{style=“font-weight: bold”} Das mit der Selbstheilung ist bei mir an einem Tag mehr als einmal vorgekommen. Angaben zum System

Code:
YaCy version 1.73/9284,Windows 7 Home Premium SP1 32 Bit

Habe dazu einen Wiki- Artikel YaCy nach dem PC-Absturz kaputt, was kann ich machen?{.postlink} erstellt.

Statistik: Verfasst von flegno — Sa Aug 30, 2014 4:16 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 05:23:27

Hallo zottel,

zottel hat geschrieben:\ Hat jemand eine Idee, was ich da tun könnte?\

ich habe gestern ein Paar Stunden früher als du auch so ziemlich ähnliches durchgemacht - auf einem Windows-System. Meine YaCy-Instanz läuft wieder. Habe dazu einen Beitrag gepostet YaCy nach dem PC-Absturz kaputt, was kann ich machen?{.postlink}

Statistik: Verfasst von flegno — Sa Aug 30, 2014 4:23 am


Fragen und Antworten • Re: YaCy nach dem PC-Absturz kaputt, was kann ich machen?

Date: 2014-08-30 10:35:47

ich bin bemüht alle Fehler, die einen Start verhindern, durch automatische Workarounds zu fixen. Diese \‘lazy\‘-Vorgehensweise haben nicht alle Entwickler in der Vergangenheit richtig gefunden, aber bei so einer Software die für viele Menschen ohne Administrationsvorgänge laufen soll finde ich das angemessen. Die \‘Selbstheilung\’ läuft dabei nicht immer ohne Datenverlust ab. Die eher richtige Vorgehensweise ist eine Transaktionssicherheit bei der Speicherung, was aber wiederum mit mehr oder weniger großem IO einher geht. Die selbstgestrickten Datenbankalgorithmen folgen dabei dem Schema \‘Konsistenz beim Schreiben, aber eher selten; bei Inkonsistenz beim Starten eher ignorieren was nicht passt\‘. Was das eingebettete Solr dabei macht weiss ich nicht, bei Solr hatte ich aber auch noch nie einen \‘Hänger\’ der den Start verhindert.

Also was kannst du tun bei Startproblemen: ins Log schauen und nach Exceptions beim Start gucken, die dann hier Posten, dann erweitere ich die \‘Selbstheilung\’

Statistik: Verfasst von Orbiter — Sa Aug 30, 2014 9:35 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 10:45:40

Das hier ist ein Fehler innerhalb von Solr wo ich auch ratlos bin. Hinweise finden sich unter http://wiki.apache.org/solr/SolrPerform ... #Java_Heap{.postlink} aber da steht auch nur dass man Xmx hoch setzen soll. Meine Erfahrung mit Solr ist eher so, dass es wieder zu Problemen kommt wenn man das Xmx so weit hoch setzt, dass das OS dann nicht mehr viel RAM hat. Probiere das so zu setzen, dass das OS mindestens 13 des Gesamtspeichers übrig hat.

Statistik: Verfasst von Orbiter — Sa Aug 30, 2014 9:45 am


Fragen und Antworten • Re: YaCy nach dem PC-Absturz kaputt, was kann ich machen?

Date: 2014-08-30 11:35:49

Orbiter hat geschrieben:\ ich bin bemüht alle Fehler, die einen Start verhindern, durch automatische Workarounds zu fixen. Diese \'lazy\'-Vorgehensweise haben nicht alle Entwickler in der Vergangenheit richtig gefunden, aber bei so einer Software die für viele Menschen ohne Administrationsvorgänge laufen soll finde ich das angemessen. Die \'Selbstheilung\' läuft dabei nicht immer ohne Datenverlust ab.\ \[\...\]\ Die selbstgestrickten Datenbankalgorithmen folgen dabei dem Schema \'Konsistenz beim Schreiben, aber eher selten; bei Inkonsistenz beim Starten eher ignorieren was nicht passt\'.\ \[\...\]\ Also was kannst du tun bei Startproblemen: ins Log schauen und nach Exceptions beim Start gucken, die dann hier Posten, dann erweitere ich die \'Selbstheilung\'\


Danke für die Rückmeldung und für deine Mühe, YaCy absturzresistent zu machen, Orbiter :) !

Orbiter hat geschrieben:\ Die \'Selbstheilung\' läuft dabei nicht immer ohne Datenverlust ab.\


Ich rege an, dass ignorierte Daten(sätze) im Debug-Modus in einem für einen Nicht-Entwickler verständlichen Format ins Log geschrieben werden. Gibt es Erfahrungswerte, welche Größenordnung die Datenverluste sein können? Wenn es ein Paar Verweise oder Keywords sind, das ist zu vernachlässigen. Was anderes ist, wenn es [Gigabyte von Index-Daten]{style=“font-style: italic”} sind, die die Recherche-Qualität u.U. spürbar beeinträchtigen können.

Statistik: Verfasst von flegno — Sa Aug 30, 2014 10:35 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 13:07:54

Ich hab Xmx jetzt mal auf 7500m gesetzt und Java somit praktisch den kompletten RAM gegeben. Leider immer noch das gleiche.

Ziemlich seltsam, der Server lief bis vorgestern ja mit 600m problemlos.

Ich habe auf meiner Suche irgendwo gelesen (ohne damit selbst etwas anfangen zu können), dass immer alle Fields in den Speicher passen müssen. Bei der Ausgabe von checkindex.sh oben sehe ich Teile mit durchschnittlich mehr als 500 fields/document. Bedeutet das irgendwas? :-)

Wenn das jetzt nicht behebbar ist, wie kriege ich den Index am besten gelöscht?

Statistik: Verfasst von zottel — Sa Aug 30, 2014 12:07 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-30 13:34:49

Orbiter hat geschrieben:\ Meine Erfahrung mit Solr ist eher so, dass es wieder zu Problemen kommt wenn man das Xmx so weit hoch setzt, dass das OS dann nicht mehr viel RAM hat. Probiere das so zu setzen, dass das OS mindestens 1/3 des Gesamtspeichers übrig hat.\

zottel hat geschrieben:\ Ich hab Xmx jetzt mal auf 7500m gesetzt und Java somit praktisch den kompletten RAM gegeben. Leider immer noch das gleiche.\ Ziemlich seltsam, der Server lief bis vorgestern ja mit 600m problemlos.\


Ich habe die Aussage von Orbiter so verstanden, dass es zu Problemen kommen kann, wenn man Xmx zu hoch setzt, also zu wenig Speicher für das OS bleibt.

Statistik: Verfasst von flegno — Sa Aug 30, 2014 12:34 pm


YaCy Coding & Architektur • Re: Speicherort für die Logdateien ändern

Date: 2014-08-30 18:18:04

brauchbare Anleitung dazu habe ich hier Log-Files auf der RAMdisk{.postlink} recherchiert.

Statistik: Verfasst von flegno — Sa Aug 30, 2014 5:18 pm


YaCy Coding & Architektur • [gelöst] Speicherort für die Logdateien ändern

Date: 2014-08-30 18:18:27

Hallo,

ich habe YaCy auf einem Netzlaufwerk gestartet. Die Instanz läuft zwar, aber YaCy meckert, dass die Logdateien nicht geschrieben werden können. Ich habe zwar einiges im Debug-Modus mitverfolgt, aber ohne Logs ist eine vernünftige Arbeit nicht möglich. Hier die Ausgabe

Code:
STARTUP: Trying to load logging configuration from file T:\0_Tools\YaCy\yacy_en\DATA\LOG\yacy.loggingCan't load log handler "java.util.logging.FileHandler"java.nio.channels.OverlappingFileLockExceptionjava.nio.channels.OverlappingFileLockException        at sun.nio.ch.SharedFileLockTable.checkList(Unknown Source)        at sun.nio.ch.SharedFileLockTable.add(Unknown Source)        at sun.nio.ch.FileChannelImpl.tryLock(Unknown Source)        at java.nio.channels.FileChannel.tryLock(Unknown Source)        at java.util.logging.FileHandler.openFiles(Unknown Source)        at java.util.logging.FileHandler.<init>(Unknown Source)        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at sun.reflect.NativeConstructorAccessorImpl.newInstance(Unknown Source)        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(Unknown Source)        at java.lang.reflect.Constructor.newInstance(Unknown Source)        at java.lang.Class.newInstance(Unknown Source)        at java.util.logging.LogManager$4.run(Unknown Source)        at java.security.AccessController.doPrivileged(Native Method)        at java.util.logging.LogManager.loadLoggerHandlers(Unknown Source)        at java.util.logging.LogManager.initializeGlobalHandlers(Unknown Source)        at java.util.logging.LogManager.access$1500(Unknown Source)        at java.util.logging.LogManager$RootLogger.accessCheckedHandlers(Unknown Source)        at java.util.logging.Logger.getHandlers(Unknown Source)        at java.util.logging.Logger.log(Unknown Source)        at java.util.logging.Logger.doLog(Unknown Source)        at java.util.logging.Logger.log(Unknown Source)        at net.yacy.cora.util.ConcurrentLog$Worker.run(ConcurrentLog.java:361)S 2014/08/30 10:07:24 STARTUP YaCy version: 1.72/9000S 2014/08/30 10:07:34 STARTUP Java version: 1.7.0_67S 2014/08/30 10:07:34 STARTUP Operation system: Windows 7S 2014/08/30 10:07:34 STARTUP Application root-path: T:\0_Tools\YaCy\yacy_enS 2014/08/30 10:07:34 STARTUP Data root-path: T:\0_Tools\YaCy\yacy_enS 2014/08/30 10:07:34 STARTUP Time zone: UTC+0200; UTC+0000 is 1409386045404S 2014/08/30 10:07:34 STARTUP Maximum file system path length: 255


Es ist bestimmt ein Rechte-Problem. [Wo kann ich YaCy anweisen als Speicherort für die Logdateien bspw. [C:\Users\Username\]{style=“font-style: italic”} zu wählen?]{style=“font-weight: bold”}

Statistik: Verfasst von flegno — Sa Aug 30, 2014 10:52 am


Fragen und Antworten • Re: YaCy zweite Instanz installieren - fehlerhaftes Verhalte

Date: 2014-08-30 19:05:16

Orbiter hat geschrieben:\ - darin ist ein defaults-Verzeichnis mit yacy.init. Öffne yacy.init und ändere den Wert port=8090 auf (z.B.) port=8091\ - starte YaCy mit einem Doppelklick auf startYACY.bat\ - die zweite YaCy-Instanz ist dann unter (öffnet sich auch automatisch)\


Damit ich diese unterschiedliche Konfigurationsmöglichkeiten richtig einordnen und evtl. die YaCy- Architektur besser verstehen kann, könnte mir jemand die Werte für die Portnummer auf diesem Screenshot unten kommentieren? Die Port-Nr. 8099 habe ich auf der Seite http://localhost:8090/[ConfigBasic.html]{style=“font-style: italic”} bei der Installation eingegeben. Folgende Fragen - verstehe ich es richtig,:

  1. dass die Port-Nr. entweder in der yacy.init oder auf der Seite [ConfigBasic.html]{style=“font-style: italic”} definiert werden kann bzw. muss?
  2. dass alle drei gelb markierte Port-Nr. den gleichen Wert haben müssen?

Statistik: Verfasst von flegno — Sa Aug 30, 2014 6:05 pm


Hilfe für Einsteiger und Anwender • Re: Suche/Indizierung einschränken

Date: 2014-08-30 19:50:34

mit welchem Filter kann ich in meinem Index fälschlicherweise gelandete Seiten, deren URL so [gimpforum.de/[showthread.php?s=]{style=“color: #FF0000”}]{style=“font-style: italic”} aufgetaut ist, an das Ende der Trefferliste verbannen?

Statistik: Verfasst von flegno — Sa Aug 30, 2014 6:50 pm


Hilfe für Einsteiger und Anwender • Re: url does not match must-match filter

Date: 2014-08-31 07:37:35

grassu hat geschrieben:\ Wenn ich einen entsprechenden SMB-Crawler mit user:pass eingebe erscheint im yacy-logfile folgende Fehlermeldung:\ >
> > REJECTED - url does not match > must-match filter .)?\\Qroberta\\E.\*\ > >


Any idea?


Die Webseite http://blog.sprechrun.de/?page_id=358 ist eine ganz normale Seite, die mit keinem Passwort geschützt ist und mich Interessiert genauso wie grassu warum die [page_id=358]{style=“font-style: italic”} wie in diesem Beispiel

Code:
I 2014/08/31 05:53:19 REJECTED http://blog.sprechrun.de/?page_id=358 - url does not match must-match filter https?+://(www.)?\Qhier-subdomain.sprechrun.de\E.*

verworfen und nicht indexiert wird - hier eine Beispiel-Abfrage für die page_id=358

\ \



Update 31.08.2014: Habe einen Bug-Report #450 erstellt http://mantis.tokeek.de/view.php?id=450.

Statistik: Verfasst von flegno — So Aug 31, 2014 6:37 am


Hilfe für Einsteiger und Anwender • Funktionsweise unklar

Date: 2014-08-31 12:25:51

Hallo,

ich habe gestern einfach mal yacy installiert und nun einige Fragen zur Funktionsweise:

Gibt es eine Möglichkeit den auf meinem Peer vorgehaltenen Index von bestimmten Domains zu bereinigen?
Ich möchte das z.B. Warez-Seiten oder Schmuddelkram nicht in dem Index auf meiner Festplatte enthalten sind und auch das mein Peer nicht im Auftrag anderer Peers solche Seiten indexiert (also aufruft).
Kann man dazu externe Black-Lists einbinden? z.B. von http://urlblacklist.com/

Wie sieht es mit Support für IPv6 aus?
Mein Peer ist von Außen nicht per IPv6 erreichbar obwohl ich eine anständige Dual-Stack-Verbindung zum Internet habe.
In einigen Konfigurationsmasken wo man IP-Adressbereiche einschränken kann sind keine lokalen IPv6-Bereiche (wie FC00::/7 und FE80::/10) enthalten, wie ändere ich das?
Generell ist die Syntax für die Eingabe von IP-Adressen irgendwie unerklärlich, das sieht so aus als würde das auf einen ineffizienten String-Vergleich hinauslaufen, wäre es nicht besser die IP-Adressen als Binärwert mit Anzahl an signifikanten Bits (der Zahl hinter dem \‘/\‘) zu vergleichen?
Kann der Crawler auch IPv6-only-Seiten erreichen?

Dann scheint yacy einen Proxy anzubieten.
Was für eine Art Proxy ist das? Etwa ein simpler HTTP-Proxy?
Welchem Zweck dient dieser Proxy?
Ist dieser Proxy von Außen (anderen PCs in meinem lokalem Netzwerk oder gar dem öffentlichen Internet) nutzbar?
Falls ich diesen Proxy nicht selber benutzen möchte, kann ich den komplett abschalten?

Über den einen Standard-Port (8090 als Default) ist allem Anschein nach die gesamte Funktionalität von yacy erreichbar inklusive administrativen Dingen.
Wie wird sichergestellt das kein externer Zugriff an meine Einstellungen ran kommt? Weder Lesend noch Schreibend!
Funktioniert das auch mit IPv6?
Wäre es nicht eventuell besser mehrere Ports zu benutzen? Also zwischen Peer-to-Peer, Suchmaske, Proxy und Administration/Überwachen zu unterscheiden.
Wie verhält es sich hierbei mit dem zusätzlichen SSL-Port? Was läuft über diesen bzw. was soll über diesen laufen?
Ist es möglich auch die Peer-to-Peer Kommunikation grundsätzlich immer zu verschlüsseln? So wegen der generellen NSA-Paranoia.

Der \“externe Proxy\” scheint der Proxy zu sein den man bei einem geschützten lokalem Netzwerk benutzen muss um ins öffentliche Internet zu kommen. Mein Netzwerk ist durch einen leistungsfähigen SOCKS5-Proxy geschützt aber yacy scheint damit nicht umgehen zu können so das ich mit dem PC auf dem ich yacy probeweise installiert habe eine direkte Internetverbindung aufbauen musste um yacy überhaupt ausprobieren zu können. Das kann natürlich kein Dauerzustand bleiben.
Wie konfiguriere ich yacy damit es den SOCKS5-Proxy, der in meinem lokalem IPv6-only-Netzwerk problemlos per http://de.wikipedia.org/wiki/Web_Proxy_ ... y_Protocol{.postlink} findbar ist, auch benutzt?
Sollte die Java-VM nicht eigentlich die System-Einstellungen für den Internetzugriff berücksichtigen können?

Ja, das sind einige Fragen und ich hoffe auf möglichst umfangreiche Antworten. :D Ich würde gerne meinen Beitrag zu einem besseren Internet leisten aber \“die Katze im Sack\” ist aus meiner Sicht nicht gut.
Falls einige Fragen von oben abschlägig beantwortet werden müssen würde ich mich eventuell auch an der Weiterentwicklung von yacy beteiligen, meine letzten Kontakte mit Java sind zwar bereits über 6 Jahre her aber ich bin ein einigermaßen guter C/C++ Programmierer und mein SOCKS5-Proxy stammt komplett von mir (ich hab also von Themen aus dem Bereich IP-Kommunikation einigermaßen Ahnung).

Grüße
Erik

Statistik: Verfasst von Erik_S — So Aug 31, 2014 11:25 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-08-31 12:31:55

Ja, wenn das OS nicht mehr genug Speicher hat und somit das große Swappen beginnt. Ich habe aber alles andere Relevante (speziell Webserver) vorher gestoppt, und da hat nichts geswappt.

Statistik: Verfasst von zottel — So Aug 31, 2014 11:31 am


Fragen und Antworten • Double-Check Queue

Date: 2014-08-31 14:42:43

Hallo zusammen!

Beim Crawlen meherer Domänen habe ich folgende Meldung:

Code:
REJECTED http://www.domaene.de/de/ - cannot load: load error - java.io.IOException: CRAWLER Redirect of URL=http://www.domaene.de/ to http://www.domaene.de/de/ placed on crawler queue for double-check


Lassen die einen nicht rein oder sollte ich einfach nur warten?

Danke für die Antworten: Athea

Statistik: Verfasst von athea — So Aug 31, 2014 1:42 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-08-31 15:12:53

Hallo Erik,

willkommen im Forum,

Erik\_S hat geschrieben:\ Hallo,\ \ ich habe gestern einfach mal yacy installiert und nun einige Fragen zur Funktionsweise:\ \ Gibt es eine Möglichkeit den auf meinem Peer vorgehaltenen Index von bestimmten Domains zu bereinigen?\ Ich möchte das z.B. Warez-Seiten oder Schmuddelkram nicht in dem Index auf meiner Festplatte enthalten sind und auch das mein Peer nicht im Auftrag anderer Peers solche Seiten indexiert (also aufruft).\ Kann man dazu externe Black-Lists einbinden? z.B. von \


lch mache erst seit genau zwei Wochen meine Bekanntschaft mit YaCy. Und die Pornoseiten waren auch bei mir die, die mir in der Log-Datei (unangenehm) aufgefallen sind. Es gibt eine Menge Quellen, wo du Antworten auf die meisten deiner Fragen finden kannst - falls dir die richtige Suchbegriffe einfallen ;) . Ich benutze dafür die Forum-Suche - Beispiel blacklist+pornoseiten{.postlink} - und auch http://domengo.de, die auf YaCy gebaut ist und YaCy-Freeworld-Indexe für die Trefferlisten verwendet.

Obwohl ich ziemlich sicher bin, dass jede® einzelner YaCy\‘aner und das YaCy-Projekt als Ganzes spürbar davon profitieren würden, wenn die YaCy-Community es schaffen würde, regelmäßig sich zumindest in Telefonkonferenzen zu treffen - Stichwort Mumble{.postlink}. Erfahrungen austauschen, sich gegenseitig helfen, Aktivitäten koordinieren. Schließlich hat YaCy an sich eine sehr soziale Ader und das Miteinander ist genetisch bedingt :?.

Ich bin auch daran interessiert, wenn jemand Interesse hat bspw. zu zweit in Skype zu plaudern. Unendlich Texte schreiben ist zeitraubend, kontraproduktiv - mMn.

Meines Wissens ist es nicht möglich nach dem Crawlen die Datenbanken zu bereinigen, zu zensieren. Blacklists{.postlink} sind fürs Crawlen gedacht. Der Index ist ja auf alle Peers verteilt, wie sorgst du für eine flächendeckende Bereinigung? Vorausgesetzter besteht überhaupt eine Chance, dass man sich einigt, was zu eliminieren ist 8-).

Was machbar ist, an den Filterkriterien deines Peers zu drehen

Ich habe auch für Testzwecke zwei größere Websites [golem.de]{style=“font-style: italic”} und [gimpforum.de]{style=“font-style: italic”} indexiert. Und jetzt maß ich zusehen, wie ich die Dubletten in den Trefferlisten eliminiere. Aber es klappt schon irgendwie :P.

Statistik: Verfasst von flegno — So Aug 31, 2014 2:12 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-08-31 17:18:14

Hallo,

das mit den Blacklists ist schon mal ein Anfang - hat nur den Nachteil das man \‘nur\’ auf Worte der URL filtern kann.
Wer es tiefgreifender möchte kann z.B. ein Löschen über ein Query nutzen um auch Worte in den Texten für einen Rauswurf zu nutzen.

Auf /IndexDeletion_p.html kann man unten ein Query wie text_t:porno probieren.
Wenn man dort einmal wie gewünscht nach Query Seiten aus dem Index entfernt hat, kann man diese Anweisung in /Table_API_p.html regelmässig ausführen lassen.

Bzgl. der Treffen: in Berlin haben wir jeden 1. Di im Monat einen Stammtisch zu dem jeder eingeladen ist.
Ich hatte gehört das es noch weitere Stammtische / Treffen gibt.
Wenn keiner in der Nähe ist: gründet einen!

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Aug 31, 2014 4:18 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-08-31 18:54:55

Hallo,

sixcooler hat geschrieben:\ das mit den Blacklists ist schon mal ein Anfang - hat nur den Nachteil das man \'nur\' auf Worte der URL filtern kann.\

Äh, was genau meinst Du damit? Auf welche meiner vielen Fragen bezieht sich das?

sixcooler hat geschrieben:\ Wer es tiefgreifender möchte kann z.B. ein Löschen über ein Query nutzen um auch Worte in den Texten für einen Rauswurf zu nutzen.\

Ich möchte nicht das \“Worte\” (ich nehme mal an das die Index-Datenbank nach den möglichen Suchbegriffen also den Worten auf den einzelnen (html-)Seiten aufgeschlüsselt ist) aus dem Index entfernt werden, weder bei mir lokal und erst recht nicht global. Ich möchte das in dem auf meiner Festplatte vorgehaltenen Index keine Links auf bestimmte Domains enthalten sind. Wenn mein Peer also z.B. eine Anfrage nach irgendwelchen primären Geschlechtsmerkmalen erhält (von einem anderen Peer auf dem gerade eine entsprechende Suchanfrage initiiert wurde) darf und soll mein Peer gerne z.B. mit Links auf Wikipedia antworten aber eben nicht mit Links auf die Domains die ich für meinen Peer verboten habe. Ich gehe einfach mal davon aus das der anfragende Peer (von dem die Suche kommt) verschiedene Peers befragt (nebst seinem lokal vorgehaltenem Index) und die verschiedenen Antworten zusammenverodert um daraus ein Ergebnis für den User zu generieren so das unvollständige Antworten einzelner Peers kein Problem darstellen.

Es geht mir bei meinem Wunsch nach \“Blacklisting\” primär darum das solche Links einfach nicht auf meiner Festplatte vorhanden sind, man weiß schließlich nie ob der eigene PC eventuell mal von irgendwelchen Behörden beschlagnahmt wird o.ä. und da will ich einfach nichts auf meiner Festplatte haben was auch nur ansatzweise \“problematisch\” sein könnte. Ich weiß das Suchmaschinen vom deutschen Gesetzgeber unter gewissen Extraschutz gestellt wurden aber ob das die jeweiligen Beamten auch wissen und verstehen ist leider eher fraglich. Das bezieht sich vor allem auch auf Links auf Warez-Seiten, ich möchte nicht das meine Festplatte Links auf \“illegale\” Downloads enthält.
Und ich möchte erst recht nicht das meine IP-Adresse in den Logs solcher Server auftauchen nur weil mein yacy-Peer einen derartigen Indexierungsjob bekommen hat. Aber das könnte ich zuverlässig vermeiden wenn ich wüsste wie ich yacy dazu bringe meinen Proxy zum Zugriff auf das Internet zu verwenden da mein Proxy das meiste davon eh verweigern kann (http://urlblacklist.com/ ist dort eingebunden und ich könnte yacy einen Proxy-User-Account zuweisen in dem alle möglichen Filterkategorien aktiv sind).
Dazu kommen auch Domains wie google-analytics.com und all solcher Kram der meiner persönlichen Meinung nach einfach nicht in einen Suchmaschinenindex gehört.

flegno hat geschrieben:\ Es gibt eine Menge Quellen, wo du Antworten auf die meisten deiner Fragen finden kannst - falls dir die richtige Suchbegriffe einfallen.\

Offensichtlich fallen mir nicht die richtigen Suchbegriffe ein. Gerade zu dem Thema IPv6 hab ich eher nichts gefunden. Z.B. keine Antwort darauf warum yacy den Server-Port nicht an beide IP-Versionen bindet obwohl das meines Wissens nach das Default-Verhalten von Java sein sollte.

Also meiner persönlichen Meinung nach ist ein Forum sehr gut geeignet um Meinungen und Ansichten auszutauschen. Gerade weil man auch mal Zeit hat über ein Thema etwas gründlicher nachzudenken bevor man eine Antwort schreibt, nebst dessen das die Schriftform immer auch irgendwie etwas verbindlicher und dauerhafter ist als das gesprochene Wort welches sich sofort verflüchtigt.

Ich hab noch ein paar Fragen:
Wie viel RAM sollte yacy für eine möglichst optimale Funktion zugewiesen werden?
Ich hab es erst mit 2GB probiert aber gesehen dass das immer ziemlich komplett ausgereizt wurde und dann auf 6GB umgestellt aber soviel scheint yacy wohl auch nicht zu wollen. Gibt es irgendwelche Erfahrungswerte wie viel RAM wirklich benötigt wird bzw. sinnvoll ist damit yacy optimal läuft? Hängt das von der Größe des Index ab?
Ich betreibe yacy derzeit auf einem 64Bit-System mit 32GB RAM aber eigentlich soll yacy auf einem dedizierten NAS-Server laufen (mein PC läuft normalerweise nicht im 247-Betrieb) und da ist RAM etwas knapper bemessen und soll auch primär anderen Zwecken dienen. Des weiteren würde mir noch ein dedizierter vServer zur Verfügung stehen aber da sind insgesamt nur 0,5GB RAM vorhanden (als 32Bit-System, und dieser vServer ist IPv6-only), ist das zu wenig wenn yacy da einfach nur den Index vorhalten und verteilen soll (also keine Crawling-Jobs o.ä.)? Wie viel RAM benötigt yacy mindestens?

Welchem Zweck dient die Top-Level-Domain .yacy und wie kann ich auf diese zugreifen? Im offiziellem DNS-System ist die Top-Level-Domain .yacy nicht enthalten und somit für meinen Browser auch nicht erreichbar.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Aug 31, 2014 5:54 pm


Hilfe für Einsteiger und Anwender • Re: 1)domain yacy 2)Wie viel RAM sollte yacy zugewiesen wer

Date: 2014-08-31 21:50:36

Erik\_S hat geschrieben:\ Welchem Zweck dient die Top-Level-Domain .yacy und wie kann ich auf diese zugreifen? Im offiziellem DNS-System ist die Top-Level-Domain .yacy nicht enthalten und somit für meinen Browser auch nicht erreichbar.\
[Datenbank scheinbar kaputt, kann ich sie reparieren?](http://forum.yacy-websuche.de/viewtopic.php?p=30545#p30545){.postlink} hat geschrieben:\ Das hier ist ein Fehler innerhalb von Solr wo ich auch ratlos bin. Hinweise finden sich unter [http://wiki.apache.org/solr/SolrPerform \... \#Java\_Heap](http://wiki.apache.org/solr/SolrPerformanceProblems#Java_Heap){.postlink} aber da steht auch nur dass man Xmx hoch setzen soll. Meine Erfahrung mit Solr ist eher so, dass es wieder zu Problemen kommt wenn man das Xmx so weit hoch setzt, dass das OS dann nicht mehr viel RAM hat. Probiere das so zu setzen, dass das OS mindestens 1/3 des Gesamtspeichers übrig hat.\

Statistik: Verfasst von flegno — So Aug 31, 2014 8:50 pm


Hilfe für Einsteiger und Anwender • Is it a bug or feature?

Date: 2014-08-31 23:23:07

Hallo,

[ Is it a bug or feature?]{style=“font-weight: bold”}

Statistik: Verfasst von flegno — So Aug 31, 2014 10:23 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-01 01:07:51

Hallo,

um alle Seiten einer Domain nicht in den Index aufzunehmen trage die Domain in Deine Blacklist ein.
Für alle Seiten die evtl schon im Index sind, weil die Blacklist die Domain noch nicht enthalten hat als die Daten dazu in den Index kamen gibt es eine Löschfunktion für domains in /IndexDeletion_p.html.

Nun kann man ja aber kaum alle Domains kennen, die z.b. porno enthalten - daher kann man zusätzlich auch das Löschen über ein Query wie oben beschrieben machen. Der Vorteil ist einfach das man dabei so flexibel wie in der Suche ist: alles was man suchen kann, kann man auch löschen.
Sind die Einträge aus deinem Index - wüsste ich auch nicht mehr was noch zu löschen sein sollte um Deinen Wünschen gerecht zu werden.

Was den Speicherbedarf angeht hängt das stark von der Indexgröße ab - je größer der Index und die Menge an RWIs - desto mehr specher braucht YaCy.
Hat man weniger Speicher auf der Maschine, crawlt man halt nicht so fett.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Sep 01, 2014 12:07 am


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-01 10:06:56

Hallo,

sixcooler hat geschrieben:\ um alle Seiten einer Domain nicht in den Index aufzunehmen trage die Domain in Deine Blacklist ein.\

Okay, da ich nicht alle potentiellen Domains von Hand eintragen möchte bedeutet das vermutlich ich muss eine vorhandene Blacklist nehmen und diese in das Format von yacy umwandeln und dann in yacy einbinden.
Kommt yacy auch mit großen Blacklists (mehr als 10\‘000\‘000 Einträge) zurecht? Kann man eine neue Blacklist auch unterschieben ohne yacy beenden/neustarten zu müssen?

sixcooler hat geschrieben:\ Für alle Seiten die evtl schon im Index sind, weil die Blacklist die Domain noch nicht enthalten hat als die Daten dazu in den Index kamen gibt es eine Löschfunktion für domains in /IndexDeletion\_p.html.\

Ich gehe mal davon aus das mir auch hier ein Script helfen kann.
Wie sieht es mit dem Moment aus an dem der Index-Eintrag per DHT-Tansfer zu meinem Peer übertragen wird, wirkt da eine vorhandene Blacklist? Oder können Index-Einträge die von anderen Peers kommen nur nachträglich auf meiner Platte gelöscht werden?
Wirkt eine vorhandene Blacklist auch auf von anderen Peers kommende Crawl-Aufträge?

sixcooler hat geschrieben:\ Was den Speicherbedarf angeht hängt das stark von der Indexgröße ab - je größer der Index und die Menge an RWIs - desto mehr specher braucht YaCy.\ Hat man weniger Speicher auf der Maschine, crawlt man halt nicht so fett.\

Das bedeutet dann also das man mit wenig Speicher auch keinen Peer nur als Mirror für den Index betreiben kann, also einen Peer der nicht selber crawlt und keinen Proxy anbietet sondern einfach nur den Index vorhält und auf Suchanfragen reagiert, schade.

flegno hat geschrieben:\ >
> > Erik\_S hat geschrieben:Welchem Zweck dient die Top-Level-Domain > .yacy und wie kann ich auf diese zugreifen? Im offiziellem > DNS-System ist die Top-Level-Domain .yacy nicht enthalten und somit > für meinen Browser auch nicht erreichbar.\ > >

S. im Thread domain yacy{.postlink}

Okay, das erklärt zwar immer noch nicht den [Zweck]{style=“text-decoration: underline”} dieser Domain aber ich denke ich hab verstanden was gemeint ist.


Gibt es den keine Infos zum Stand der IPv6-Unterstützung oder warum yacy meinen SOCKS-Proxy nicht benutzen will? Das Wiki schweigt sich hierzu leider komplett aus.
Wenn ich yacy auf einen Server im Internet installiere möchte ich das der in yacy eingebaute Proxy mit absoluter Sicherheit deaktiviert ist, ich will nicht das mit meiner IP irgendwelcher Unsinn gemacht wird, wie stelle ich das Sicher?

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 01, 2014 9:06 am


Hilfe für Einsteiger und Anwender • kein Senior-Status trotz von außen erreichbarem Port

Date: 2014-09-01 10:18:16

Hallo,

das yacy auf meinem PC will einfach keinen Senior-Status annehmen trotz dessen das der Port von Außen problemlos erreichbar ist, canyouseeme.org bestätigt den erreichbaren Service ebenfalls.
Es ist auch kein NAT-Router o.ä. dazwischen sondern der PC erledigt die Interneteinwahl per PPPoE direkt, ist also komplett von außen sichtbar. Andere Server auf meinem PC sind von außen ebenfalls problemlos erreichbar.
yacy ermittelt auch die richtige öffentliche IP und auf /AccessGrid_p.html sehe ich Unmengen an ankommenden Verbindungen aber yacy bleibt trotz allem beharrlich beim Junior-Status. Auch in den Peer-Listen auf anderen Peers wird mein Peer als Junior deklariert.
Ich hab yacy schon einige male neu gestartet usw. aber es ändert sich nichts.

Wie kann ich yacy dazu bewegen den Senior-Status anzunehmen?
Wie funktioniert der Mechanismus mit dem yacy seine eigene Erreichbarkeit testet? Vielleicht findet sich ja doch irgendein Problem in meiner Internetanbindung.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 01, 2014 9:18 am


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-01 12:45:01

Erik\_S hat geschrieben:\ >
> > sixcooler hat geschrieben:um alle Seiten einer Domain nicht in den > Index aufzunehmen trage die Domain in Deine Blacklist ein.\ > >

Okay, da ich nicht alle potentiellen Domains von Hand eintragen möchte bedeutet das vermutlich ich muss eine vorhandene Blacklist nehmen und diese in das Format von yacy umwandeln und dann in yacy einbinden.
Kommt yacy auch mit großen Blacklists (mehr als 10\‘000\‘000 Einträge) zurecht? Kann man eine neue Blacklist auch unterschieben ohne yacy beenden/neustarten zu müssen?


Ich bin an der 10\‘000\‘000 Einträge Blacklist interessiert. Kann ich von der 10\‘000\‘000 Liste und der Lösung für die Einbindung in YaCy später auch ggf. profitieren?

Erik\_S hat geschrieben:\ Gibt es den keine Infos zum Stand der IPv6-Unterstützung oder warum yacy meinen SOCKS-Proxy nicht benutzen will? Das Wiki schweigt sich hierzu leider komplett aus.\ Wenn ich yacy auf einen Server im Internet installiere möchte ich das der in yacy eingebaute Proxy mit absoluter Sicherheit deaktiviert ist, ich will nicht das mit meiner IP irgendwelcher Unsinn gemacht wird, wie stelle ich das Sicher?\
Orbiter im Januar 2014 im [Thread IPv6](http://forum.yacy-websuche.de/viewtopic.php?f=9&t=609){.postlink} hat geschrieben:\ eieiei das hier ist ja nun schon ein sehr alter Thread. Trotzdem will ich ihn mal aufwärmen um alle zu fragen wie es bei euch mit der Verfügbarkeit von IPv6 aussieht?\ Ich habe im letzten halben Jahr immer wieder mal geguckt ob es speziellen, IPv6-verhindernden Code gibt und den raus gemacht. Könnt ihr da verstäkt drauf gucken bitte?\


Ich interpretiere die Aussage von Orbiter so, dass die Entwickler davon ausgehen, dass sie einen IPv6-kompatiblen Code produzieren. Die logische Konsequenz daraus - wer ein YaCy-Verhalten registriert, das diese Annahme widerlegt, tut was Gutes, wenn er/sie in einem Ticket{.postlink} präzise schildert, [wie]{style=“font-style: italic”} so ein fehlerhaftes Verhalten sich auswirkt.

Statistik: Verfasst von flegno — Mo Sep 01, 2014 11:45 am


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-01 16:59:33

flegno hat geschrieben:\ >
> > Orbiter im Januar 2014 im [Thread > IPv6](http://forum.yacy-websuche.de/viewtopic.php?f=9&t=609){.postlink} > hat geschrieben:eieiei das hier ist ja nun schon ein sehr alter > Thread. Trotzdem will ich ihn mal aufwärmen um alle zu fragen wie es > bei euch mit der Verfügbarkeit von IPv6 aussieht?\ > Ich habe im letzten halben Jahr immer wieder mal geguckt ob es > speziellen, IPv6-verhindernden Code gibt und den raus gemacht. Könnt > ihr da verstäkt drauf gucken bitte?\ > >


Ich interpretiere die Aussage von Orbiter so, dass die Entwickler davon ausgehen, dass sie einen IPv6-kompatiblen Code produzieren. Die logische Konsequenz daraus - wer ein YaCy-Verhalten registriert, das diese Annahme widerlegt, tut was Gutes, wenn er/sie in einem Ticket{.postlink} präzise schildert, [wie]{style=“font-style: italic”} so ein fehlerhaftes Verhalten sich auswirkt.


ja, hab immer noch keine ipv6 Entwicklungsumgebung. Das tückische ist, dass ich hier nur \‘blind\’ fixen kann, d.h. ich nach weder den Fehler nachstellen noch einen Fix testen. Es geht nur, wenn die Beschreibung des Fehlers so genau ist, dass sich dadurch eine Codestelle finden läßt bei der es plausibel ist dass sie so bei ipv6 nicht gehen kann.

Statistik: Verfasst von Orbiter — Mo Sep 01, 2014 3:59 pm


YaCy Coding & Architektur • YaCy zweite Instanz ausführen - fehlerhaftes Verhalten?

Date: 2014-09-01 18:54:41

Hallo,

Das Equipment:

  1. ich habe zwei YaCy- Instanzen parallel ausgeführt.
  2. Port-Nr. jeweils 8090 (Öffentlich) und 8091 (Sudportal Intranet).
  3. 8091-Instanz habe ich im Promt-Fenster ausgeführt
  4. Die Administrationsoberfläche habe ich bei diesen zwei Instanzen in Browsern mit separaten Profilen ausgeführt.

Ich habe im 8091-Browser versehentlich als Proxy http://127.0.0.1:8090/autoconfig.pac angegeben. Dann kam eine Aufforderung sich einzuloggen. Die Zugangsdaten für 8091 wurden nicht akzeptiert. Ich habe die Login-Daten vom 8090-System im 8091-Browser eingegeben - diese wurden akzeptiert. Dann habe ich festgestellt, dass 8091-System eine öffentliche externe Adresse vom 8090-System übernommen hat und habe 8091-System über die Admin-Oberfläche heruntergefahren. Dabei habe ich festgestellt, dass im Browser- Fenster, wo http://localhost:8091/ eingeblendet wurde, die 8090-Instanz heruntergefahren wurde. 8091-Instanz im Promt-Fenster läuft immer noch.

Unabhängig von meinen Fehlern - ist das Verhalten von YaCy - im localhost:8091- Fenster die 8090-Instanz herunterfahren - so korrekt und nicht zu beanstanden? Ich habe nicht erwartet, dass die Einrichtung eines Roxy-Eintrags im Browser mit der Eingabe eines Passworts verbunden ist. Ist dieser [Passwort-Zwang]{style=“font-weight: bold”} so korrekt?

Statistik: Verfasst von flegno — Mo Sep 01, 2014 5:54 pm


Mitmachen • Links zu allen Funktionen und Einstellungen

Date: 2014-09-01 22:41:53

Ich habe eine Liste zusammengeschustert mit Links zu allen Funktionen und Einstellungen von YaCy:
http://daevu.ch/yacy-features-and-settings/deutsch-kategorisch.html

Falls ich etwas vergessen habe oder Fehler bemerkt werden, wäre ich froh über eine Rückmeldung.

Statistik: Verfasst von David — Mo Sep 01, 2014 9:41 pm


English • Links to All Features and Settings

Date: 2014-09-01 23:02:40

I\’ve made a list with links to all features and settings of YaCy:
http://daevu.ch/yacy-features-and-settings/english-categorical.html

If I have forgotten something or errors are noticed, feedback would be welcomed.

Statistik: Verfasst von David — Mo Sep 01, 2014 10:02 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-02 00:20:21

Hallo,

Orbiter hat geschrieben:\ ja, hab immer noch keine ipv6 Entwicklungsumgebung\....\

Da kann ich gerne aushelfen falls das was hilft. Meine letzten Programmier-Kontakte mit Java sind zwar schon einige Jahre her aber ich hoffe mal das man sowas nicht zu schnell verlernt. Ich hab eine anständige Dual-Stack-Anbindung und auch einiges an Erfahrung mit IP. Nur leider hab ich mir meinen PC heute zerschossen und werde mich erst morgen ran machen das wieder zu fixen.

Wie umfangreich ist den IPv6 im Konzept von yacy überhaupt (theoretisch) vorgesehen? Bei IPv6 sind doch ein paar Dinge etwas anders als bei IPv4.
Ist meine Vermutung das Ihr IP-Adressen per Sting-Vergleich (als Text) vergleicht richtig?

flegno hat geschrieben:\ Ich bin an der 10\'000\'000 Einträge Blacklist interessiert.\

Die Liste ansich ist nicht das Problem, die Quelle hatte ich ja schon genannt, über das Einbinden berichte ich wenn es mir gelungen ist aber vorerst habe ich andere Prioritäten in Bezug auf yacy.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 01, 2014 11:20 pm


Hilfe für Einsteiger und Anwender • Admin-Passwort nicht setzbar

Date: 2014-09-02 00:37:41

Hallo,

ich hab aus purer Neugierde mal eine yacy-Installation auf einen root-Server ausprobiert aber leider kann ich dort auf keine einzige Admin-Seite zugreifen.
Ich hab schon alles mögliche probiert, z.B. das script bin/passwd.sh oder auch direkt einen Eintrag in yacy.conf in der Art \“adminAccount=admin:mysecretpassword\“, aber nichts hilft.
Mir ist es nicht ein einziges mal gelungen auf eine Admin-Seite zuzugreifen.
Auf /Status.html steht fett geschrieben \“Ihre Einstellungen sind _nicht_ mit einem Kennwort geschützt!\” so das ich mich nicht traue diesen Peer einfach mal laufen zu lassen. Nebst dessen das für den Crawler 13,3 KB an Traffic angegeben sind was mich sehr wundert da ich keine eigenen Crawl-Jobs gestartet habe (dafür hat der Server auch nicht genug RAM) und externe Crawls werden laut /Network.html ebenfalls nicht akzeptiert. Immerhin hat dieser Peer auf Anhieb Senior-Status erreicht.

Wie stelle ich es an auf einem Headless-Server den Admin-Zugang einzurichten?
Wie kann man die \‘Eingangskonfiguration\’ von /ConfigBasic.html absichern? Da kann ich trotz allem beliebig dran rumspielen, obwohl meine Zugriffe nicht von localhost kommen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 01, 2014 11:37 pm


YaCy Coding & Architektur • Re: YaCy zweite Instanz ausführen - fehlerhaftes Verhalten?

Date: 2014-09-02 04:17:22

Die Logfils, die aus meiner Sicht relevant sind, habe ich gesichert und kann Interessenten bei Bedarf zur Verfügung stellen.

Statistik: Verfasst von flegno — Di Sep 02, 2014 3:17 am


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2014-09-02 08:10:24

Hi Orbiter, is there any progress on this?

Statistik: Verfasst von biolizard89 — Di Sep 02, 2014 7:10 am


English • Re: Improving ranking using neural networks and genetic algo

Date: 2014-09-02 08:15:46

Hi,

Just wanted to mention that this is still being worked on. I\’ve also recruited 2 other students to help me this semester. I\’ll attempt to keep everyone informed in this thread as significant progress happens.

Cheers.

Statistik: Verfasst von biolizard89 — Di Sep 02, 2014 7:15 am


Hilfe für Einsteiger und Anwender • Re: Admin-Passwort nicht setzbar

Date: 2014-09-02 09:00:09

Erik\_S hat geschrieben:\ Hallo,\ \ Wie stelle ich es an auf einem Headless-Server den Admin-Zugang einzurichten?\ Wie kann man die \'Eingangskonfiguration\' von /ConfigBasic.html absichern? Da kann ich trotz allem beliebig dran rumspielen, obwohl meine Zugriffe nicht von localhost kommen.\ \ Grüße\ Erik\




In YaCys Installations-Director \‘yacy\’ findest Du u.a. das Skript \‘reconfigureYACY.sh\‘, mit dem Du das Admin-PW setzen kannst.

Gruß
lux

Statistik: Verfasst von lux — Di Sep 02, 2014 8:00 am


Hilfe für Einsteiger und Anwender • Re: Admin-Passwort nicht setzbar

Date: 2014-09-02 09:08:40

Moin,

Erik\_S hat geschrieben:\ ich hab aus purer Neugierde mal eine yacy-Installation auf einen root-Server ausprobiert aber leider kann ich dort auf keine einzige Admin-Seite zugreifen.\


Es sieht danach aus, dass diese Admin-Falle noch eine Falle ist, in die genau sowie ich vor zwei Wochen getappt bist - s. Admin-Autorisierung für meine YaCy-Instanz{.postlink}. Also in meinem Fall ging ich davon aus, dass es daran lag, dass ich die Seite [ConfigBasic.html]{style=“font-style: italic”} _nicht_ über http://localhost:8090/, sondern auf einem Gerat, das ein Paar cm entfernt platziert ist, und dementsprechend über die IP meines lokales Netzwerks aufgerufen habe.

\@Orbiter
Gib\’ bitte ein Zeichen, ob es sich lohnt, ein Ticket mit dem Verbesserungsvorschlag [\“Admin-Autorisierung-Menüpunkt hervorheben\“]{style=“font-style: italic”} zu posten. In diesem Ticket würde ich anregen zusätzlich zu dem Hinweis [[\“Ihre Einstellungen sind _nicht_ mit einem Kennwort geschützt!]{style=“color: #FF0000”}]{style=“font-style: italic”}\” auch die auf dem Screenshot markierte Menüpunkte im [header.template]{style=“font-style: italic”} und [submenuUseCaseAccount.template]{style=“font-style: italic”} penetrant hervorheben bspw. mit so ernem Stylesheet [style=\“color: red; font-weight: bold;\“]{style=“font-style: italic”} . Aber vlt. kannst du das auf einem kurzen Dienstweg ohne Ticket umsetzen :P .

Nicht verkehrt währe zusätzlich zu dem \“Ihre Einstellungen sind _nicht_ mit einem Kennwort geschützt!\“-Hinweis YaCy- Admins daran zu erinnern, \“Um das Admin-Account einzurichten, rufen Sie die Seite [localhost:8090/]{style=“font-weight: bold”}ConfigBasic.html auf. Man kann sicherlich dazu noch ein Video-Tutorial und entsprechende Hinweise im Ticket machen. Ideal wäre aber mMn und erstrebenswert, dass die YaCy-Menüführung so selbsterklärend ist, dass der Anwender auch ohne zusätzliche Hilfe auskommt ;) .

Werde irgendwann mal ein Ticket erstellen, dass man eine kontextbezogene Hilfe wie in Windows in die YaCy-Admin-Webseiten integriert. Es ist nicht einmal ein großer Aufwand - an ein Hilfe-Verweis in der Webseite entsprechende Keywords anhängen. Hilfe-Verweis-Servlet grast dann dass Wiki nach diesen Keywords ab und generiert eine Linkliste mit Verweisen auf die entsprechende Wiki-Artikel - oder evtl. auch auf die Postings im Forum. Dann braucht man ein Keywords-Feld im Forum, wie in der vBulletin-Forum-Lösung.

Ich hoffe, ich konnte helfen, Erik.

Statistik: Verfasst von flegno — Di Sep 02, 2014 2:55 am


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-02 09:25:01

Erik\_S hat geschrieben:\ Kommt yacy auch mit großen Blacklists (mehr als 10\'000\'000 Einträge) zurecht?\



YaCy lädt beim Start die Blacklists in eine interne Datenstruktur, um die Daten dann bei Bedarf (wenn URLs gecheckt werden) schnell zur Verfügung zu haben. Ob diese Datenstruktur für so große Listen wie von die Nachgefragt skaliert, weiß ich nicht. Ich sehe da zwei mögliche Probleme:

Erik\_S hat geschrieben:\ Kann man eine neue Blacklist auch unterschieben ohne yacy beenden/neustarten zu müssen?\



Man müsste die Daten in ein für YaCy lesbares Format umwandeln und könnte sie dann über http://localhost:8090/BlacklistImpExp_p.html importieren. Das ursprüngliche Format sind reine Textdateien mit einem Eintrag pro Zeile, so wie sie auch im DATA/LOG-Verzeichnis liegen. Ich habe mir irgendwann mal ein XML-Format ausgedacht, das ich nirgends richtig dokumentiert habe, das aber rechte einfach gehalten ist. Es enthält noch ein paar Informationen mehr als das reine Textdokument. Wenn du auf der o.g. Seite eine Blacklist nach XML exportierst, müsste da eigentlich alles zu sehen sein, was das Format hergibt.

Wenn du Daten per Skript hinzufügen willst, kannst du das über eine REST-Schnittstelle machen, die ich kürzlich eingebaut habe. Die Schnittstelle ist im Wiki noch nicht richtig dokumentiert, aber hier im Forum ist das Wichtigste zu finden: viewtopic.php?f=8&t=5131#p29967{.postlink-local}

edit: Ich habe eben gesehen, dass der Export in eine Textdatei (bei mir) teilweise nicht mehr funktioniert. Ich habe ein Ticket im Bugtracker{.postlink} aufgemacht.

Statistik: Verfasst von Low012 — Di Sep 02, 2014 8:25 am


English • Re: Improving ranking using neural networks and genetic algo

Date: 2014-09-02 09:49:17

Very cool! Thumbs up! 8-)

Statistik: Verfasst von Low012 — Di Sep 02, 2014 8:49 am


Hilfe für Einsteiger und Anwender • Re: kein Senior-Status trotz von außen erreichbarem Port

Date: 2014-09-02 10:27:59

Weil ich im Moment an UPnP arbeite (auch wenn das bei dir nicht relevant ist) und mir auch noch ein paar Sachen unklar sind und die Information eventuell helfen könnte:

Läuft dein Peer auf dem Standardport (8090) oder hast du den geändert?

\ Wie funktioniert der Mechanismus mit dem yacy seine eigene Erreichbarkeit testet?\



Ich hoffe, dass ich das richtig wiedergebe:

Ein Peer weiß, dass er erreichbar ist, wenn er von anderen Peers kontaktiert werden kann.

Damit das passieren kann, verschickt der Peer die Information, dass er ein YaCy-Peer ist, welche öffentliche IP er hat und welchen Port an andere Peers, die er aus der Vergangenheit kennt. (Für den ersten Start lädt er Listen von Principal{.postlink}-Peers.

Die Peers schicken sich in regelmäßigen Abständen gegenseitig \“Pings\” (nicht im Netzwerkprotokoll-Sinne, nur bildlich gesprochen), so dass sie merken, ob andere noch da sind oder nicht und damit sie merken, ob sie selbst noch erreichbar sind.


Meine Vermutung/Befürchtung ist, dass der Port auf dem YaCy eigentlich läuft, nicht immer mit dem externen Port übereinstimmt (z.B. bei NAT im Router) und ein Peer dann z.B. sagt \“ich laufe auf Port 8090\“, obwohl er über den von außen nicht erreichbar ist. Wenn ich UPnP fertig implementiert habe, bin ich da hoffentlich schlauer.

Statistik: Verfasst von Low012 — Di Sep 02, 2014 9:27 am


Hilfe für Einsteiger und Anwender • eine YaCy-Instanz, zwei öffentliche Adressen

Date: 2014-09-02 11:05:05

Hallo,

Nach einem Neustart hat meine YaCy-Instanz eine neu IP-Adresse http://79.227.38.20:8090 bekommen. Was mich wundert, dass die Instanz unter der alten IP-Adresse http://79.227.40.215:8090/ auch erreichbar ist. Mir ist klar, dass ich eine YaCy-Instanz über Mapping/ Weiterleitung unter X beliebigen Adressen verfügbar machen kann. Ich gehe aber davon aus, dass mein Internet-Provider, dem die IP-Adressen gehören, keine Adressen zu verschenken hat.

Ich bin an Ideen, Anregungen interessiert:

  1. warum die alte Adresse immer noch gültig ist?
  2. welche Nachteile solche Aliase bringen können? ( Ausser, dass dies mich gerade irritiert :roll:)
  3. oder evtl. hat jemand Ideen wie ich zusätzlich zu der ID [[anonw-69448614-0]{style=“color: #0000BF”}]{style=“font-style: italic”} in der Titelzeile prüfen kann, dass dies tatsächlich dieselbe Instanz ist?

[Zur Info:]{style=“color: #0000FF”} Ich habe die YaCy-Instanz _nicht_ zwei Mal von einem Netzlaufwerk auf unterschiedlichen PC \’s gestartet.

Statistik: Verfasst von flegno — Di Sep 02, 2014 10:05 am


Hilfe für Einsteiger und Anwender • Re: Admin-Passwort nicht setzbar

Date: 2014-09-02 13:52:50

bin/passwd.sh war broken, keine Ahnung warum. Habs eben gefixt, fix in yacy_1.73.9331

Statistik: Verfasst von Orbiter — Di Sep 02, 2014 12:52 pm


Hilfe für Einsteiger und Anwender • Re: Admin-Passwort nicht setzbar

Date: 2014-09-02 19:03:34

Hallo,

Orbiter hat geschrieben:\ bin/passwd.sh war broken, keine Ahnung warum. Habs eben gefixt, fix in yacy\_1.73.9331\

Okay, dann wundert mich nicht warum ich kein Passwort einrichten konnte.
Aber das scheint nicht der einzigste Bug zu sein, auch die Zeile \“adminAccount=admin:mysecretpassword\” hat nichts geholfen.
Das über die Seite /ConfigBasic.html bei ohne gültigem Passwort trotzdem alles änderbar ist würde ich als kritischen Bug einstufen.

Nachdem \‘reconfigureYACY.sh\’ geholfen hat bin ich aber mit allem zufrieden, es ist keine kritische Information mehr einsehbar oder gar änderbar.
Danke für diesen Tipp lux!

Zu den Diskussionen in den Threads die hier verlinkt wurden kann ich nur sagen das mir als jemand, der einen Server verwaltet der im öffentlichen Internet für alles und jeden erreichbar ist, sehr bewusst ist das man kein Programm laufen lässt das nicht komplett perfekt abgesichert ist. Schon bevor ich überhaupt yacy auf dem Server entpackt hatte wusste ich ganz genau das ich mit \‘/bin/passwd.sh\’ als erstes ein anständiges Passwort setzen muss, schliesslich hatte ich die verschiedenen Wiki-Artikel [vorher]{style=“text-decoration: underline”} gelesen. Also eine besondere Online-Hilfe o.ä. halte ich nicht für unbedingt erforderlich, vielmehr sollten die zugehörigen Tools funktionieren bzw. die richtigen (oder alle) Tools in den Wiki-Artikeln erwähnt werden und auch das ich selbst mit leerem Passwort-Feld im Browser (da die Zeile \“adminAccountBase64MD5=\” ja leer war) nicht weitergekommen bin war suboptimal. Die Einrichtung von yacy auf einem Headless-Server, wo der einzigste Zugang eine rein textbasierte SSH-Console ist, ist meiner persönlichen Meinung nach noch ein wenig verbesserungswürdig.

Nachdem yacy nun schon einige Stunden auf einem System mit nur 512 MB RAM läuft ist mir wieder unangenehm in Erinnerung gekommen das die Java-VM nicht [ausatmen]{style=“font-style: italic”} kann was den Speicherbedarf angeht, Speicher den der Prozess java einmal beim OS alloziert hat gibt java nicht mehr her egal ob der GC aufgerufen wird oder nicht. Ich muss mal sehen ob ich wenigstens etwas mehr Swap-Space bekommen kann, bevor am Ende das ganze System steht (dafür würde man mich eventuell einen Kopf kürzer machen).
Ich hoffe doch das eine OOM-Exception ordentlich geloggt wird, auf einem Headless-Server hat man außer einem Log-File keine andere Möglichkeit zu sehen was passiert ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 02, 2014 6:03 pm


Hilfe für Einsteiger und Anwender • Re: eine YaCy-Instanz, zwei öffentliche Adressen

Date: 2014-09-02 21:48:14

Hallo,

flegno hat geschrieben:\ warum die alte Adresse immer noch gültig ist?\

Ich glaube nicht das Deine alte IP-Adresse noch gültig ist, kein Internet-Provider hat heutzutage IPv4-Adressen im Überfluss, die meisten Provider haben noch nicht mal genug IPv4-Adressen das alle Kunden eine bekommen können und setzen stattdessen Carrier-Grade-NAT ein. Selbst die Telekom hat nur genug IPv4-Adressen aber sicher nicht zu viele und die IP-Adressen werden sofort wieder dem nächsten Kunden gegeben sobald eine Internetverbindung beendet wird (egal aus welchen Grund), Du kannst ja mal einen Mitschnitt am WAN-Interface Deines Routers unmittelbar nach der Einwahl machen um zu sehen wie oft es vorkommt das z.B. TCP-Pakete für noch bestehende (aus Sicht des Peers) TCP-Verbindungen ankommen.

Falls Du von Dir selber aus Deine öffentliche IP-Adresse benutzt um auf einen eigenen Service zuzugreifen könnte ich mir vorstellen das dieses Phänomen durch Deinen Router verursacht wird.

Ich denke nicht das Du Dir Sorgen machen musst. Betrachte das als kleines Amüsement und fertig.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 02, 2014 8:48 pm


Hilfe für Einsteiger und Anwender • Re: kein Senior-Status trotz von außen erreichbarem Port

Date: 2014-09-02 22:15:41

Hallo,

Low012 hat geschrieben:\ Läuft dein Peer auf dem Standardport (8090) oder hast du den geändert?\

Läuft auf den Standard-Ports 8090 und 8443.

Low012 hat geschrieben:\ Ein Peer weiß, dass er erreichbar ist, wenn er von anderen Peers kontaktiert werden kann.\

Aber meinen YaCy-Peer erreichen von Außen kommende Verbindungen von anderen YaCy-Peers, ich kann die auf \‘/AccessGrid_p.html\’ sehen.

Low012 hat geschrieben:\ \... verschickt der Peer die Information, dass er ein YaCy-Peer ist, welche öffentliche IP er hat und welchen Port \...\

Das würde ich mir gerne mal genauer ansehen, kennst Du die richtige Stelle im Quell-Code dazu?

Low012 hat geschrieben:\ \... so dass sie merken, ob andere noch da sind oder nicht und damit sie merken, ob sie selbst noch erreichbar sind.\

Schon klar, an was könnte es liegen das dieses \“merken\” (das zweite in Deinem Satz) nicht funktioniert?

Low012 hat geschrieben:\ Meine Vermutung/Befürchtung ist, dass der Port auf dem YaCy eigentlich läuft, nicht immer mit dem externen Port übereinstimmt (z.B. bei NAT im Router) und ein Peer dann z.B. sagt \"ich laufe auf Port 8090\", obwohl er über den von außen nicht erreichbar ist.\

Das trifft auf meine Situation nicht zu, mein Test-PC wählt sich direkt ins Internet ein, ohne jegliche Form von NAT oder Proxy im Weg. Leider ist das erforderlich da yacy augenscheinlich kein SOCKS-Proxy (der bei mir normalerweise die Internetverbindung herstellt) beherrscht.

Low012 hat geschrieben:\ Wenn ich UPnP fertig implementiert habe\

Sobald sich IPv6 durchgesetzt hat kannst Du Dir das sparen. Ich will wirklich nicht unhöflich sein aber das ist Heute verschwendete Zeit, vor ein paar Jahren wäre das noch ein nützliches Feature gewesen aber derzeit wird UPnP fürs Router-NAT-Controlling langsam aber sicher obsolet.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 02, 2014 9:15 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-09-02 23:07:20

Nochmal die Frage: Gibt es einen einfachen Weg, den Index zu löschen? clearindex.sh macht ja einen API-Call, und wenn der solr nicht läuft, geht das wohl eher nicht. Ich habe versucht, DATA/INDEX/ einfach mal in INDEX.old umzubennen. Dann wird zwar ein neuer Index angelegt, aber die Web-Oberfläche meines yacy antwortet nicht.

Statistik: Verfasst von zottel — Di Sep 02, 2014 10:07 pm


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-09-02 23:11:46

Hallo,

wenn du es so hart willst versuche es mit DATA/INDEX/freeworld/SEGMENTS.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Sep 02, 2014 10:11 pm


Hilfe für Einsteiger und Anwender • Re: Funktionsweise unklar

Date: 2014-09-02 23:15:14

Hallo,

Low012 hat geschrieben:\ Da alle Daten im RAM gehalten werden, muss man YaCy (bzw. der Java Virtual Machine) auch entsprechend viel Speicher zuweisen. Das ist halt eine Sache der Maschine, auf der YaCy läuft, ob da genug Speicher vorhanden ist oder eben nicht.\

Okay, das ist logisch. Alternativ könnte man per externen Script regelmässig den lokalen Index bereinigen aber das dürfte wohl auch ziemlich aufwendig sein da für jede zu entfernende Domain vermutlich immer der komplette Index iteriert werden muss.
Auf der anderen Seite denke ich mal das pro empfangenen DHT-Datensatz immer nur eine begrenzte Anzahl an Domains vertreten sind die man als kleine Datenstruktur vielleicht doch auf einmal im RAM halten kann (man müsste dann aber im RAM positiv und negativ cachen) und ansonsten die komplette Blacklist auf der Platte liegt.

Low012 hat geschrieben:\ Mir fallen für die Betrachtung der Performance drei Klassen ein: Alle Einträge in der Blacklist haben unterschiedlich Domain-Teile.\

Genau das ist der Fall, zumindest bei der Blacklist die ich gerne benutzen würde. Die besteht nur aus zusammenhanglosen Domain-Namen und IP-Adressen und sonst nichts, auch keinen URL-Teil o.ä.

In meinen Proxy benutze ich diese Blacklist folgendermassen:
Nach dem regelmässigem Download wird die Blacklist in die von mir benutzen Teil-Listen (Warez/Porn/Spam/...) umsortiert, getrennt nach Domain-Namen und IP-Adressen, und dann werden für jede Teil-Liste ein Patricia-Tree für die Domain-Namen und zwei B-Bäume für die IP-Adressen (IPv6 und IPv4 getrennt) erstellt. Wenn dann mein Proxy einen Verbindungs-Request bekommt wird bei Domain-Namen zuerst geprüft ob dieser in der Blacklist (nur die Teil-Listen die für den entsprechenden Proxy-User aktiviert wurden) enthalten ist und bei \“nicht vorhanden\” wird die DNS-Abfrage durchgeführt und anschliessend die so gewonnene IP-Adresse ebenfalls geprüft, falls kein Treffer in der Blacklist vorkam wird die Verbindung zum gewünschten Host aufgebaut. Wenn der Verbindungs-Request direkt eine IP-Adresse enthält wird nur die passende IP-Blacklist abgefragt und dann gegebenenfalls die Verbindung zum gewünschten Host aufgebaut.
Mein Proxy hat 2 GB RAM (es läuft kein anderes Programm und es ist nichtmal ein Betriebssystem vorhanden so das mein Proxy-Programm die gesamten 2 GB voll ausschöpfen kann) womit die Blacklist bequem im RAM vorgehalten werden kann. Die Patricia-Trees und die B-Trees sind einzig und allein für die Performance, ich müsste mal prüfen wie groß eigentlich der RAM-Bedarf genau ist und das mit dem Umfang der Blacklist im nackten Textformat vergleichen. Der Patricia-Tree dürfte aber schon einiges an RAM sparen da z.B. die überwiegende Mehrheit aller Domains unterhalb von \‘.com\’ liegen (die Urban-Legend das mindestens ein Drittel aller .com-Domains sich um Sex im weitesten Sinne drehen scheint wohl zu stimmen :D).

Mit dem Thema einer umfangreichen Blacklist in YaCy werde ich mich aber erst später beschäftigen, momentan hab ich dringendere Sorgen (z.B. das mein Test-PC seit gestern nicht mehr läuft weil ich versucht habe Wireshark flott zu machen um YaCy genau beobachten zu können) und als erstes würde ich gerne das Thema IPv6 angehen. Ich habe zwei Computer mit vollwertiger Dual-Stack-Internet-Anbindung, meinen Test-PC (wenn er den wieder tut) und einen Root-Server im Internet. Der Root-Server hat feste IP-Adressen (bei IPv6 und IPv4) und sollte sich deswegen besonders gut eignen, aber er hat nur 512 MB RAM (ist eben nur ein virtueller Server). Beide Computer nutzen das aktuelle (K)Ubuntu 14.04 als OS.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 02, 2014 10:15 pm


Hilfe für Einsteiger und Anwender • Re: kein Senior-Status trotz von außen erreichbarem Port

Date: 2014-09-03 08:55:30

Erik\_S hat geschrieben:\ Das würde ich mir gerne mal genauer ansehen, kennst Du die richtige Stelle im Quell-Code dazu?\


Nee, leider nicht, da müsste ich auch erstmal suchen, ich weiß leider nichtmal das Package.

Erik\_S hat geschrieben:\ >
> > Low012 hat geschrieben:\... so dass sie merken, ob andere noch da > sind oder nicht und damit sie merken, ob sie selbst noch erreichbar > sind.\ > >

Schon klar, an was könnte es liegen das dieses \“merken\” (das zweite in Deinem Satz) nicht funktioniert?


Wenn ich das wüsste... Meine Vermutung, dass dein Peer den anderen Peers einen falschen Port meldet, ist ja ziemlich unwahrscheinlich, da du ja die Standard-Ports nicht geändert hast und auch noch direkt ans Internet angebunden bist.

\ \[\...\] da yacy augenscheinlich kein SOCKS-Proxy (der bei mir normalerweise die Internetverbindung herstellt) beherrscht.\


Ich glaube, danach hat bisher einfach niemand gefragt. ;-) Ich habe früher Opera benutzt, der damals auch kein SOCKS beherrscht hat und habe dafür tsocks{.postlink} benutzt. Ich denke mal, dass man das auch in das YaCy-Startskript reinfummeln könnte. Ich habe keine Ahnung, wie aufwendig eine Implementierung in YaCy wäre.

\ >
> > Low012 hat geschrieben:Wenn ich UPnP fertig implementiert habe\ > >

Sobald sich IPv6 durchgesetzt hat kannst Du Dir das sparen. Ich will wirklich nicht unhöflich sein aber das ist Heute verschwendete Zeit, vor ein paar Jahren wäre das noch ein nützliches Feature gewesen aber derzeit wird UPnP fürs Router-NAT-Controlling langsam aber sicher obsolet.


Ich befürchte ja, dass IPv4 uns noch ziemlich lange begleiten wird... Aber es ist ja auch nicht so, dass ich das komplett selber implementiere. Ich benutze eine Library, die sehr komfortabel zu bedienen ist und ich fixe eigentlich nur die Fehler, die in der bisherigen UPnP-Implementierung in YaCy bestehen. In diesem Zuge hoffe ich, noch den ein oder anderen Fehler zu finden, der zu den Verbindungsproblemen führt, aber da ich immer nur ab und zu mal abends für ein oder zwei Stunden was an YaCy machen kann, zieht sich das leider etwas in die Länge.

Statistik: Verfasst von Low012 — Mi Sep 03, 2014 7:55 am


Hilfe für Einsteiger und Anwender • HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-03 10:56:15

Ich übergebe dem Crawler regelmäßig unterschiedliche URL-Files via cronjob. Das Hochladen der Files erfolgt nur dann, wenn der Crawler unausgelastet ist. Dies deswegen, damit der Crawler nicht überlastet und letztendlich abstürzt. Dieser Vorgang funkioniert einwandfrei.

Aber nach eine gewissen Zeit funktioniert der Crawler nicht mehr und liefert folgende Fehlermeldung zurück:

[HTTP ERROR 500

Problem accessing /Crawler_p.html. Reason:

Server Error

Caused by:

javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:379)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:485)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:290)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:606)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:535)
at java.lang.Thread.run(Thread.java:745)

YaCy 1.73 - powered by Jetty - ]{style=“font-style: italic”}


Bei /Tables_p.html kommt die gleiche Meldung, alle anderen Menüpunkte funktionieren.

Hat jemand eine Idee, wo hier das Problem liegen könnte?
In einer früheren, älteren Version hat es dieses Problem nicht gegeben.

Danke und Grüße
hotel24

Statistik: Verfasst von hotel24 — Mi Sep 03, 2014 9:56 am


Hilfe für Einsteiger und Anwender • Re: kein Senior-Status trotz von außen erreichbarem Port

Date: 2014-09-03 11:14:37

Hallo,

Low012 hat geschrieben:\ >
> > Erik\_S hat geschrieben:Das würde ich mir gerne mal genauer ansehen, > kennst Du die richtige Stelle im Quell-Code dazu?\ > >

Nee, leider nicht, da müsste ich auch erstmal suchen, ich weiß leider nichtmal das Package.

Kennt vielleicht jemand anders die Stelle im Code wo alle nötigen Informationen zum Publizieren der eigenen Erreichbarkeit zusammengestellt und gesendet werden?

Low012 hat geschrieben:\ Meine Vermutung, dass dein Peer den anderen Peers einen falschen Port meldet, ist ja ziemlich unwahrscheinlich, da du ja die Standard-Ports nicht geändert hast und auch noch direkt ans Internet angebunden bist.\

Ich denke es liegt eher daran das mein YaCy-Peer nicht richtig \“merkt\” das er von anderen Peers kontaktiert wird. Das er kontaktiert wird konnte ich ja sehen.

Low012 hat geschrieben:\ \.... habe dafür [tsocks](http://tsocks.sourceforge.net/){.postlink} benutzt. Ich denke mal, dass man das auch in das YaCy-Startskript reinfummeln könnte. Ich habe keine Ahnung, wie aufwendig eine Implementierung in YaCy wäre.\

Man kann der Java-VM mitteilen das sie einen SOCKS-Proxy benutzen soll aber das scheint nur für rausgehende TCP-Client-Verbindungen zu funktionieren, TCP-Server-Sockets und UDP-Kommunikation scheint Java nicht zu beherrschen obwohl Version 5 des SOCKS-Protokolls unterstützt wird. Gerade das mit SOCKS5 auch TCP-Server und UDP funktioniert war für mich das entscheidende Kriterium einen Proxy mit diesem Protokoll zu implementieren. Ich hab SOCKS5 bereits als Server und als Client implementiert, aber immer in C, so das ich mir vorstellen kann YaCy dieses Feature persönlich beizubringen. Besteht an sowas den überhaupt Interesse?
Für mich selber wäre es eine Option ein lokales Script zu bauen das im SOCKS-Proxy einen öffentlichen TCP-Server-Socket öffnet der alle reinkommenden TCP-Verbindungen an den intern laufenden YaCy-Peer durchleitet. Für meinen Proxy ist nur wichtig das die Anforderung für einen TCP-Server-Socket vom selben Host kommt wie der der die reinkommenden TCP-Verbindungen dann intern entgegennehmen soll (also selbe IP-Adresse). Das einzigste Problem könnte sein wie YaCy dann seine öffentliche IP-Adresse erkennen soll aber eventuell kann mein Script auch einfach auf \‘/Settings_p.html?page=ServerAccess\’ diese IP-Adressen als \“statische IP\” eintragen.
Nimmt dieses Feld eigentlich auch mehrere IP-Adressen entgegen? Bei IPv6 ist Multihoming absolut nichts ungewöhnliches und solange mein Internet-Provider per DSL noch echtes IPv4 bietet sind immer mindestens 3 IP-Adressen vorhanden.

Low012 hat geschrieben:\ Ich befürchte ja, dass IPv4 uns noch ziemlich lange begleiten wird\....\

Vermutlich schon, aber IPv4 bekommt seit einigen Jahren ein ernstes Problem: \“Carrier-Grade-NAT\“, DS-Lite fällt ebenfalls in diese Kategorie. Da wird es auch nichts helfen am heimischen Router per UPnP was zu drehen solange das NAT beim Provider nicht vom Kunden aus steuerbar ist und dagegen werden die Provider sich wohl mit Händen und Füssen wehren. Die Seuche \“Carrier-Grade-NAT\” ist seit ein paar Jahren sehr virulent unter den Providern, gerade die kleineren/jüngeren Provider haben schlicht und ergreifend gar nicht mehr genug IPv4-Adressen bekommen um damit auch nur ansatzweise alle Kunden bedienen zu können (IPv4 ist eben endgültig ausgeschöpft). Ausserhalb der westlichen Industrieländer ist das schon seit vielen Jahren ein ernstes Problem. Der einzigste Ausweg aus diesem Dilemma ist ganz klar IPv6 und genau das sollten alle Programmierer von Internet-Software aktuell forcieren, alles andere sind nur temporäre Übergangslösungen.
Ja ich weiß, \“nichts hält so lange wie ein Provisorium\“. :D Aber das spricht nicht dagegen gleich eine anständige Endlösung zu bauen.

Grüße
Erik

edit:
mir ist gerade aufgefallen das auf der Seite \‘/Settings_p.html?page=ServerAccess\’ im Satz \”[ACHTUNG: Ihre aktuelle IP wird als \“??.??.??.??\” erkannt.]{style=“font-style: italic”}\” die IP-Adresse des Clients (also von wo aus der Browser zugreift) enthalten ist. Ich vermute mal dass das falsch ist und hier eher die IP-Adresse des YaCy-Peers stehen sollte. Wenn YaCy Multihoming unterstützt müssten hier sogar mehrere IP-Adressen stehen.
Was passiert eigentlich wenn in dem Feld \“statische IP\” ein Domain-Name steht und dieser vom DNS zu mehreren IP-Adressen (vielleicht sogar mehrere IPv6-Adressen + ein oder mehrere IPv4-Adressen) aufgelöst wird?
Meiner persönlichen Meinung nach sollte YaCy alle verfügbaren IP-Adressen ans Peer-to-Peer-Netz melden und auf dieser Seite (+ der Status-Seite) angeben.

edit2:
Der \“Bug\” auf der Seite \‘/Settings_p.html?page=ServerAccess\’ trifft auch auf IPv6 zu, auch dann wird meine IP-Adresse (die der Browser benutzt) und nicht die des YaCy-Peers angezeigt.
Ansonsten scheinen alle HTTP/HTTPS-Zugriffe auf YaCy auch per IPv6 korrekt zu funktionieren, selbst auf \‘/AccessTracker_p.html?page=1\’ tauchen meine Zugriffe mit meiner IPv6-Adresse korrekt auf.
Ich möchte daher anregen dass das Parameter \“-Djava.net.preferIPv4Stack=true\” aus dem Startscript offiziell entfernt wird.

Statistik: Verfasst von Erik_S — Mi Sep 03, 2014 10:14 am


Fragen und Antworten • Re: Datenbank scheinbar kaputt, kann ich sie reparieren?

Date: 2014-09-03 21:10:54

Danke, das hat besser funktioniert.

Ich dachte erst, dass es immer noch nicht geht, bis ich schließlich gemerkt habe, dass yacy sich mal wieder selbständig auf Port 8090 zurückgesetzt hatte. Das ist mir schonmal passiert. Hmpf. Und nicht einmal die Änderung des Ports in yacy.init half dagegen. :evil:

Na gut. Jetzt läuft mein Peer wieder. Ohne die 27 GB Index, die er mal hatte. Schade, aber was will man machen.

Statistik: Verfasst von zottel — Mi Sep 03, 2014 8:10 pm


Fragen und Antworten • Re: GUI-Verschönerung

Date: 2014-09-03 21:11:26

Er meint die Seite \“Crawl Ergebnisse Überblick\” http://localhost:8090/CrawlResults.html. Die Nummerierung bezieht sich auf die Grafik, die dort abgebildet ist.

Statistik: Verfasst von David — Mi Sep 03, 2014 8:11 pm


Fragen und Antworten • Re: Duplikate ausschließen - wie?

Date: 2014-09-03 21:19:24

Welche Art von Duplikate waren es denn? Möglicherweise nützt es was, wenn du bei den folgenden Einstellungen ein bisschen rumschraubst:
http://localhost:8090/ContentAnalysis_p.html
http://localhost:8090/RankingSolr_p.html

Statistik: Verfasst von David — Mi Sep 03, 2014 8:19 pm


Fragen und Antworten • Re: Double-Check Queue

Date: 2014-09-03 21:26:21

Domaene.de (Poco.de), ist das die tatsächliche Domain, die du indexieren willst? Falls nein, kannst du uns die richtige Adresse wissen lassen, damit wir es testen können?

Statistik: Verfasst von David — Mi Sep 03, 2014 8:26 pm


YaCy Coding & Architektur • Re: Icon-Beschriftung in der Taskleiste anpassen

Date: 2014-09-03 23:27:34

Wenn ich richtig informiert bin, musst du Dateien innerhalb des Archivs \“yacycore.jar\” kompilieren bzw. dekompilieren um das Label des trayicons anzupassen. Dazu benötigt man aber, zu einem gewissen Grad, Entwicklerkenntnisse.

Zur Lösung deines Problems wäre es glaube ich eleganter, wenn du einfach mit einem Bildbearbeitungsprogramm (z.B. GIMP) das Icon veränderst. Zu diesem Zweck musst du die Datei \“YaCy_TrayIcon.png\” bearbeiten, die sich im Ordner \“addon\” befindet. Falls du dabei Hilfe oder weitere Tipps benötigst, kann ich dir gerne assistieren.

Statistik: Verfasst von David — Mi Sep 03, 2014 10:27 pm


Mitmachen • Re: Links zu allen Funktionen und Einstellungen

Date: 2014-09-04 07:55:50

David hat geschrieben:\ Falls ich etwas vergessen habe oder Fehler bemerkt werden, wäre ich froh über eine Rückmeldung.\


Habe die Lösung kurz angeschaut. Fehler und Lücken habe ich nicht entdeckt, aber die Lösung überzeugt mich auf Anhieb, so dass ich dafür bin, dass diese in die Admin-Oberfläche integriert wird und habe im Mantis als #454: proposal: YaCy-Admin-explorer{.postlink} einen entsprechenden Vorschlag gemacht. Sowas kenne ich vom der Typo3{.postlink}-Backend.

Statistik: Verfasst von flegno — Do Sep 04, 2014 6:55 am


Fragen und Antworten • Re: GUI-Verschönerung

Date: 2014-09-04 08:06:32

Orbiter hat geschrieben:\ wenn du mal auf \'Überblick\' guckst, siehst du die Markierungen die die Nummer enthalten.\

In meinem Verbesserungsvorschlag #449: nice-to-have: bracket-free labeling for GUI{.postlink} schlage ich vor, die Klammer zu entfernen, nicht die Nummer selbst..

Statistik: Verfasst von flegno — Do Sep 04, 2014 7:06 am


Fragen und Antworten • Links in HTML-Seite defekt

Date: 2014-09-04 13:57:06

Hallo,

mir ist gerade aufgefallen das in der Seite \‘/SettingsAck_p.html\’ im Text \“Sie können nun zurück zu den Einstellungen gehen, um weitere Änderungen vorzunehmen.\” der Link am Wort \‘Einstellungen\’ defekt ist. Dort ist im HTML-Code im Attribut href die IPv6-Adresse des YaCy-Peers drin und diese IPv6-Adresse ich nicht mit eckigen Klammern umschlossen wie es aber eigentlich sein sollte wenn hinter der IP-Adresse, per Doppelpunkt getrennt, noch eine Port-Nummer kommt. Noch besser wäre es aber wenn dort gar kein absoluter Link stünde sondern nur ein relativer Link auf die Seite \‘/Settings_p.html?page=seed\’ (so das der Browser selber den Host-Teil davor baut).
Kann mir Bitte jemand sagen ob ich etwas falsch mache oder ob das ein Bug ist?

Immerhin ist dass das erste mal das ich sehe das YaCy seine eigene IPv6-Adresse tatsächlich kennt, bis jetzt hab ich überall nur IPv4-Adressen gesehen trotz dessen das dieser YaCy-Peer auf einem Server mit anständiger Dual-Stack-Anbindung läuft.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 04, 2014 12:57 pm


Fragen und Antworten • Re: Links in HTML-Seite defekt

Date: 2014-09-04 18:19:39

hm, guter Hinweis. Das zeigt auf eine Codestelle, die absichtlich die Klammern entfernt hat. Das ist wohl eine schlechte Idee gewesen und ich habe das mal weggemacht. Immerhin ist das eine ziemlich zentrale Stelle die nicht nur in SettingsAck benutzt wird sondern sehr oft (sehr oft). Keine Ahnung obs nun einen Schlag tut und nix mehr geht, aber ich glaube nicht das es irgendwie schlimmer wird.

Bitte probier mal mit yacy_1.73.9333

Statistik: Verfasst von Orbiter — Do Sep 04, 2014 5:19 pm


Mitmachen • Re: Links zu allen Funktionen und Einstellungen

Date: 2014-09-04 19:35:30

Vielen Dank für die Rückmeldung!

Statistik: Verfasst von David — Do Sep 04, 2014 6:35 pm


English • WildCard Search, is it possible?

Date: 2014-09-04 20:37:20

Is it possible to use a partial word and then have different suffixes appended.

Kind of like if im searching for inflatable but also want stuff with inflate or inflation to show up i could just do inflat* and then all the different wildcards would apply

possible or not possible?

I use YaCy right now as a private search engine for my Tumblr as Tumblr does not support full text search. Though it does now for me!

Thanks YaCy!

By indexing my tumblr is there a way for me to make my YaCy searchable so people can full text search my tumblr?

Statistik: Verfasst von Strapples — Do Sep 04, 2014 7:37 pm


Fragen und Antworten • Re: Links in HTML-Seite defekt

Date: 2014-09-04 21:14:58

Hallo,

Orbiter hat geschrieben:\ \.... und ich habe das mal weggemacht.\

Ich hoffe Du meinst damit das Du den Host-Teil aus dem Link komplett entfernt hast. Sowas ist gerade auf HTTP-Servern die recht wahrscheinlich über unterschiedlichste \“Namen\” angesprochen werden sehr kontraproduktiv. Der Peer könnte z.B. über einen anderen YaCy-Peer als Proxy mit einem Domain-Namen in der Art von *.yacy angesprochen werden und wenn dann ein Link im HTML-Code ist der eine absolute IP-Adresse enthält die der Browser eventuell gar nicht erreichen kann (z.B. weil er in einem privatem abgeschotteten Netzwerk hängt und den zwischengeschalteten YaCy-Proxy aus gutem Grund benutzt) geht nur noch der Zurück-Button im Browser.

Orbiter hat geschrieben:\ \.... aber ich glaube nicht das es irgendwie schlimmer wird.\

Du kannst Dir gar nicht ausmalen wie viel Beherrschung es mich gerade kostet hierzu nichts dämliches zu schreiben. Mist, jetzt hab ich ja doch was geschrieben. :D

Orbiter hat geschrieben:\ Bitte probier mal mit yacy\_1.73.9333\

Das werde ich morgen gerne machen.
Dazu aber eine Frage: geht es wenn ich das DATA-Verzeichnis der regulären YaCy-Installation per symbolischen Link in die Entwickler-Test-Installation einbinde? Ich habe keine Lust die komplette Konfiguration erneut durchzuspielen und die Entwickler-Version will ich auch nicht dauerhaft auf einem öffentlich erreichbaren Server laufen lassen.
Das mit den symbolischen Links funktioniert übrigens auch unter Windows. Das Dateisystem NTFS im Microsoft-OS beherrscht dieses Feature bereits seit Windows 2000, es fehlt nur leider bis Heute eine vernünftige Unterstützung auf GUI-Ebene (also im Explorer) aber an der Eingabeaufforderung ist das voll nutzbar. Das kann demzufolge auch unter Windows probiert werden.
Auch andere Partitionen in ein beliebiges Unterverzeichnis einhängen geht bereits seit Windows 2000, solange beide Dateisysteme NTFS sind. NTFS unterstützt auch Sparse-Files und ne Menge anderer toller Features. Selbst ich als absoluter Linux-Fan muss klar zugeben das auch Microsoft manchmal anständige Dinge bauen kann.

Was macht YaCy eigentlich wenn das LOG-Unterverzeichnis beim Start komplett leer ist (z.B. weil ich das auf ein RAM-Drive umgebogen habe), also insbesondere die Datei \‘yacy.logging\’ fehlt?
Ist es gewährleistet dass das LOG-Verzeichnis nie mehr als 20 MBytes enthält?

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 04, 2014 8:14 pm


YaCy Coding & Architektur • Re: Icon-Beschriftung in der Taskleiste anpassen

Date: 2014-09-04 21:24:55

David hat geschrieben:\ Wenn ich richtig informiert bin, musst du Dateien innerhalb des Archivs \"yacycore.jar\" kompilieren bzw. dekompilieren um das Label des trayicons anzupassen. Dazu benötigt man aber, zu einem gewissen Grad, Entwicklerkenntnisse.\


Besser wäre sowas in eine ini oder xml auszulagern, dann habt man bei der Mehrsprachigkeit mehr Spielraum. Naja, vlt. erstelle ich dazu irgendwann einen Proposal im Mantis.

David hat geschrieben:\ Zur Lösung deines Problems wäre es glaube ich eleganter, wenn du einfach mit einem Bildbearbeitungsprogramm (z.B. GIMP) das Icon veränderst. Zu diesem Zweck musst du die Datei \"YaCy\_TrayIcon.png\" bearbeiten, die sich im Ordner \"addon\" befindet. Falls du dabei Hilfe oder weitere Tipps benötigst, kann ich dir gerne assistieren.\


Das reicht, meine Bildbearbeitungskenntnisse rechen dafür aus. Danke für dein Tipp!

Statistik: Verfasst von flegno — Do Sep 04, 2014 8:24 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-05 08:12:50

im Log muss neben dieser Exception noch eine andere stehen, hier sieht man nur den Thread Dump des Servlet wrappers. Die andere Exception steht da entweder genau über oder unter der, die du hier gepostet hast. Mit der hier kann man nicht sehen was los ist, schaust du bitte nochmal ins log?

Statistik: Verfasst von Orbiter — Fr Sep 05, 2014 7:12 am


Fragen und Antworten • Re: Links in HTML-Seite defekt

Date: 2014-09-05 09:36:30

Moin,

Erik\_S hat geschrieben:\ 1. Dazu aber eine Frage: geht es wenn ich das DATA-Verzeichnis der regulären YaCy-Installation per symbolischen Link in die Entwickler-Test-Installation einbinde?\ \[\...\] 2. Was macht YaCy eigentlich wenn das LOG-Unterverzeichnis beim Start komplett leer ist (z.B. weil ich das auf ein RAM-Drive umgebogen habe), also insbesondere die Datei \'yacy.logging\' fehlt? \


Bitte nicht als Meckern interpretieren :D. Ich bin einfach neugierig - wie, nach welchen Filterkriterien entscheiden andere Mitforisten:

a. stelle ich die Frage im Forum? b. versuche ich den Testfall nachbauen und die Antwort herausfinden? c. poste ich die Antwort im Forum?

Statistik: Verfasst von flegno — Fr Sep 05, 2014 8:36 am


Fragen und Antworten • Re: Links in HTML-Seite defekt

Date: 2014-09-05 15:34:04

Hallo,

Orbiter hat geschrieben:\ Bitte probier mal mit yacy\_1.73.9333\

Wahrscheinlich stelle ich mich einfach nur zu blöd an aber ich finde auf yacy.net keinen Download für diese Version.
Wo/Wie lade ich diese Version herunter?

Ich hab mir in Eurem Git-Repository die Modifikation angesehen, naja, meine Kritik an den absoluten Links habe ich ja schon geschrieben.
Auf der Seite \‘/Network.html?page=1\’ wird die .yacy-Domain für alle Links zu anderen Peers benutzt aber manche Aktionen auf den so erreichten Peers kann man gar nicht über die .yacy-Domain nutzen.

flegno hat geschrieben:\ b. versuche ich den Testfall nachbauen und die Antwort herausfinden?\

Ohne zu wissen was passieren [soll]{style=“font-style: italic”} oder kann? Auf keinen Fall!
Warum sollte ich etwas tun dessen Konsequenzen ich nicht mal ansatzweise abschätzen kann? Das sich die Realität hin und wieder auch mal vom vorgegebenen [Soll]{style=“font-style: italic”} unterschiedet ist normal aber einfach so auf ein unbekanntes Ziel loslaufen kommt für mich persönlich nicht in Frage. Ich weiß das es viele Menschen gibt die diese spezielle Eigenart von mir gar nicht mögen aber so bin ich nun mal.
Keine Angst, ich empfinde Kritik an meiner Vorgehensweise nicht gleich als Meckern. Jeder hat andere Vorstellungen vom Leben und das ist auch gut so.

Im Hinblick auf die Frage nach dem symbolischen Verlinken kommt versuchen schon deshalb nicht in Frage weil es möglicherweise keinen Weg zurück gibt, es könnte ja sein das die neuere Version an den Daten irgendeine Veränderung/Aktualisierung vornimmt die mit der älteren Version nicht kompatibel ist. Also wenn ich den Download doch noch finde werde ich für den Test dieser Entwickler-Version das DATA-Verzeichnis (und alle anderen von mir vorgenommenen Änderungen wie z.B. am Start-Script) einfach kopieren um kein Risiko einzugehen. Noch ist der Index klein genug das Kopieren möglich ist aber falls ich später (wenn der Index mehr als die halbe Festplatte belegt und in gemieteten virtuellen Servern ist Festplattenplatz immer knapp) mal eine Entwicklerversion testen möchte muss ich vorher wissen was eventuell passieren könnte.

flegno hat geschrieben:\ c. poste ich die Antwort im Forum?\

Wenn ich neue Informationen gewonnen habe dann poste ich diese üblicherweise auch aber wenn die Antwort sich doch als bereits bekannt herausstellt muss ich das nicht noch ein zusätzliches mal erwähnen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 05, 2014 2:34 pm


Fragen und Antworten • Re: Links in HTML-Seite defekt

Date: 2014-09-05 16:17:44

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Bitte probier mal mit yacy\_1.73.9333\ > >

Wahrscheinlich stelle ich mich einfach nur zu blöd an aber ich finde auf yacy.net keinen Download für diese Version.
Wo/Wie lade ich diese Version herunter?


https://www.youtube.com/watch?v=t5y5MmnmraA#t=100

Statistik: Verfasst von Orbiter — Fr Sep 05, 2014 3:17 pm


English • Re: WildCard Search, is it possible?

Date: 2014-09-05 17:17:50

Strapples hat geschrieben:\ Is it possible to use a partial word and then have different suffixes appended.\


As far as I know, YaCy doesn\’t support wildcards yet. All the supported search operators are listed on the advanced search page: http://localhost:8090/index.html?searchoptions=1

Strapples hat geschrieben:\ By indexing my tumblr is there a way for me to make my YaCy searchable so people can full text search my tumblr?\


Sure! What search mode do you have currently selected on the basic configuration page (http://localhost:8090/ConfigBasic.html)?

Basically, all you have to do is to copy the code on the following page of your search engine: http://localhost:8090/ConfigSearchBox.html, and then within the \“customize\” settings of your tumblr, paste it in the field \“Description\“. The search box of your YaCy should now appear in your tumblr sidebar. Of course you can paste the code somewhere else, wherever you want the search box to appear.

Statistik: Verfasst von David — Fr Sep 05, 2014 4:17 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-09-06 17:19:05

da sind ja 2 Arten von Grafiken: die host-host Vernetzung bei mehr als einem Crawl und die host-interne Vernetzung bei nur einem site-crawl. Ersteres wird vom Server als png berechnet und zwar recht effizient und nur alle fünf Sekunden (oder drei?). Die zweite Variante läuft über ein Servlet, welches die Verlinkung nur als Graph in einem json-Paket liefert und im Browser wird daraus per javascript ein SVG berechnet welches wiederum vom Browser gerendert wird. Das ist tatsächlich stark CPU-lastig, aber nur für den Client, der den Browser auf hat. Das kann natürlich auch der gleiche Rechner sein wie der, wo YaCy läuft. Für YaCy selbst ist das so gut wie gar keine Last, weil das json nur ein mal berechnet wird, egal wie lange die Seite auf ist.

Insgesamt sehe ich das so: das Servlet ist zur Visualisierung da was passiert, da macht es für mich keinen Sinn die Grafiken auszubauen. Es gibt ja auch eine einfache Lösung um die Last von der CPU zu nehmen: Servlet wegklicken.

Ich verstehe den Bedarf an Performance und Tuning und wer will darf hier gerne einen Knopf zum Abstellen einbauen, bei mir ist das in der Prio-Liste eher hinten. Vielleicht gibts ja hier unter den neuen Usern auch neue Enwickler, merge requests nehme ich gerne entgegen.

Statistik: Verfasst von Orbiter — Sa Sep 06, 2014 4:19 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-06 17:25:17

YaCy läuft eigentlich prinzipiell headless und konfiguriert sich selbst so beim Start, so dass alle awt-Libraries erst mal nicht gehen. Beim start guckt der Tray-Prozess aber nach was für ein OS läuft und macht dann bei Windows eine Ausnahme, schaltet headless aus und das Tray-Icon ein. Das habe ich nun auf MacOS auch erweitert, das ist so transparent dass der Code gar nicht verändert werden muss, nur die Fallunterscheidung Windows wurde auf MacOS erweitert.

Bei Linux-Varianten sollte demnach der Tray auch gehen, das habe ich aber noch nicht ausprobiert. Kann man aber mit der aktuellen Version tatsächlich ganz einfach so konfigurieren, da könnt ihr testen was passiert: einfach in der Config tray.icon.force=true setzen (einfach in /ConfigProperties_p.html) und neu starten.

Statistik: Verfasst von Orbiter — Sa Sep 06, 2014 4:25 pm


YaCy Coding & Architektur • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2014-09-06 18:13:15

Hallo,

Orbiter hat geschrieben:\ (a) Ein Senior Peer muss einem Junior Peer einen Server Port \'durchreichen\'. Ist dies erfolgreich, erlangt der Senior Peer einen neuen Peer-Status, er darf sich dann \'Mentor\' nennen. Der Junior Peer bekommt auch einen Upgrade und heisst dannn \'Mentee\'.\

Das \“durchreichen\” ist das Problem, wenn Junior nicht von außen erreichbar ist kann er eben auch nicht vom Mentor bei ankommenden TCP-Verbindungen auf den (vermutlich) zusätzlichen TCP-Server-Port am Mentor informiert werden. Das bedeutet das Junior, wenn er Mentee werden will, eine permanente TCP-Verbindung von sich zum Mentor aufbauen muss über die dann die für ihn beim Mentor ankommenden TCP-Verbindungen getunnelt werden können. Dazu reicht ein HTTP-Proxy in jedem Fall nicht aus, das CONNECT-Kommando erstellt keinen Server-Socket am WWW-Interface des Proxys sondern leitet eine Verbindung von einem Client (am LAN-Interface des Proxys) nach außen weiter, der Nutz-Inhalt dieser Verbindung muss dabei nicht zwingenst HTTP oder HTTPS sein aber das spielt für YaCy ja keine Rolle.
(bei den Proxy-Interface-Namen habe ich an dieses Bild gedacht: http://docs.endian.com/archive/2.1/imag ... figure.png{.postlink} , das soll auch keine Schleichwerbung sein sondern war nur das erst beste was die Bildsuche ergab)

Orbiter hat geschrieben:\ - (b / 1) entweder per http und dem Host-Namen, der in http/1.1 obligatorisch ist damit ein Server multi-Hosting machen kann. Als Hostnamen würde dann die yacyh-domäne in Betracht kommen, also \.yacyh. Das wäre eine ziemlich transparente Sache. Nachteil: der Mentor kann theoretisch \'mitlauschen\'.\

Aber über eine HTTP-Verbindung vom Mentee zum Mentor können eben keine neuen Verbindungen vom Mentor zum Mentee aufgebaut/getunnelt werden.

Orbiter hat geschrieben:\ - (b / 2) der Mentor operiert als https-Proxy, routet also über das http:CONNECT Kommando transparent zum Mentee. Das erfordert aber, dass der Mentee seinen Server mit einem ssl Key ausgestattet hat und den https Server Port an den Mentor übergibt. Das erfordert aber, dass der Mentee einen default ssl Schlüssel hat, das habe ich gestern eingecheckt.\

Auch eine Verschlüsselung zwischen Mentee und Mentor ändert an den Grenzen des HTTP:CONNECT nichts. Nebst dessen das wenn die Daten den Mentor nach Außen (ins öffentliche Internet) verlassen sind sie unverschlüsselt und damit vom Mentor mitlesbar. Der Mentor (wie jede andere Art Proxy auch) kann grundsätzlich immer mitlesen außer der Mentee (Client) benutzt echte Ende-zu-Ende-Verschlüsselung, aber dann kennt der Mentor immer noch die IP-Adresse des Kommunikationspartners. Aus diesem Grund ist das Tor-Netz ja so komplex.

Orbiter hat geschrieben:\ - (c) Wenn der Mentor nun also nun ein transparenter https Proxy ist, dann muss man sicherstellen, dass das nicht jeder missbrauchen kann. Es muss also eine Anmeldephase geben, bei der ein Client des Mentors zeigt, dass er ein YaCy Peer ist und auch einen Suchindex hat, den der Mentor testen kann bevor er dem Junior den Mentee-Status gibt.\

Egal wie toll der Anmeldevorgang auch sein mag er ist definitiv umgehbar und damit ist der Mentor ein öffentlicher transparenter Proxy und das wäre für jeden Betreiber eines Root-Servers der perfekte Albtraum.
Zum Austricksen könnte ich mir vorstellen das man ein Client-Programm baut das einem intern laufenden YaCy-Junior-Peer als externes HTTP-Proxy dient, dieses Client-Programm fängt dann alle Dinge die für die Mentor-Mentee-Sache relevant sind ab und leitet alle Requests des internen YaCy-Junior-Peers nach außen (über den Mentor) durch. Bei der Anmeldung benutzt dieses Client-Programm den internen YaCy-Junior-Peer um sich dem Mentor gegenüber auszuweisen nur ohne das der interne YaCy-Junior-Peer was davon hat. Auch eine Verschlüsselung würde nichts nutzen da die Schlüssel des YaCy-Junior-Peers ja abgreifbar sind (selbst Closed-Source-Programme sind da nicht sicher) und somit das Client-Programm alles mitlesen und auch ändern kann. Abschließend bräuchte dieses Client-Programm nur noch ein weiteres Proxy-Interface (beliebigen Typs) über das dann \“böse\” Dinge über den Mentor geleitet werden können.

Orbiter hat geschrieben:\ - (h) Default-Einstellungen: ein Senior Peer sollte per default Mentees akzeptieren, jedoch sollte es eine Funktion geben, dies auszuschalten. Aber per default eben an, sonst machts keiner. Wem die Sicherheitsmechanismen zu gering sind, damit getestet werden kann dass ein Mentee auch ein YaCy Peer ist, der kann das ja ausschalten. Wir müssen also sehr stark an (c) arbeiten, damit das mehr oder weniger sicher ist.\

Wenn das wirklich Default würde wäre das ein sehr gutes Argument YaCy zu deinstallieren. Die meisten Leute die ich kenne mögen es nicht wenn Sicherheitslecks (und ein transparender Proxy ist ein enormes Sicherheitsleck) per Default aktiv sind. Mit keiner Maßnahme an Punkt © lässt sich dieses Sicherheitsleck stopfen, höchstes minimal verkleinern.

Mir ist natürlich klar das die Junior-Peers eine beachtliche Ressource sind und es wäre echt toll damit das YaCy-Netzwerk spürbar zu vergrößern aber den Weg über einen transparenten Proxy halte ich persönlich für sehr gefährlich.
Was ist den das genaue Ziel der Aktion, also welche Features sollen Juniors als Mentee bieten können?

Ich denke das wichtigste wäre das der Index (also der Speicherplatz) der Mentees für das Netzwerk als ganzes nutzbar werden soll aber dafür müsste der Mentor doch nur seine Mentees mit in der globalen Seed-Liste veröffentlichen und sich selber jeweils als Mentor ausgeben (anstatt IP-Adresse und Port), ich denke mal dass das nicht das große Problem ist. Dann könnte der Mentor die Suchanfragen, die eigentlich an einen Mentee gerichtet sind, an seinem öffentlichen Interface entgegennehmen und nach erfolgreicher Prüfung das es sich dabei auch wirklich um eine korrekte Suchanfrage handelt diese an den Mentee weiterreichen. Ebenso sollten alle HTTP-Requests die den Mentor erreichen aber im Host-Feld des HTTP-Headers einen *.yacy-Host spezifizieren der einem seiner Mentees entspricht an eben den betreffenden Mentee weitergeleitet werden. Vom Mentee nach außen gehende Verbindungen sollten nicht über den Mentor gehen sondern direkt vom Mentee zum gewünschten YaCy-Peer laufen, das funktioniert ja jetzt schon. Bleibt als Problem nur die Art der Verbindung zwischen Mentee und Mentor, man benötigt ein Protokoll das mehrere HTTP-Verbindungen parallel und auch in Richtung vom Server (Mentor) zum Client (Mentee) durchleiten kann. Ich bin mir da nicht ganz sicher aber ich glaube HTTP2 sollte das können, da wird vom Client eine TCP-Verbindung zum Server aufgebaut und anschließend werden beliebige HTTP-Requests in beliebiger Richtung über diese eine TCP-Verbindung ausgetauscht, TLS-Verschlüsselung ist auch schon mit drin. Wenn gewünscht schaue ich mir HTTP2 noch mal genauer an um zu klären ob das wirklich Out-of-the-Box taugt.
Dieses Vorgehen würde erreichen das auch die Juniors zu nutzbaren YaCy-Peers werden aber eben keinen transparenten Proxy bedeuten. Nebst dessen das die Last auf den Mentors relativ klein bleibt da nur Verbindungen [zum]{style=“font-style: italic”} Mentee über den Mentor müssen aber Verbindungen [vom]{style=“font-style: italic”} Mentee direkt (ohne Mentor) ablaufen, gerade letzteres stellt sicher das ein Mentor kein (transparenter) Proxy wird.

Grüße
Erik

edit:

Orbiter hat geschrieben:\ - (b / 2) der Mentor operiert als https-Proxy, routet also über das http:CONNECT Kommando transparent zum Mentee.\

Ah, Du meinst der Mentee soll einen Server-Port anbieten an den der Mentor sich wendet um bei ihm ankommende Verbindungen die für den Mentee bestimmt sind weiterzureichen. Aber gerade der Umstand das ein Junior-Peer nicht von außen erreichbar ist (weil er z.B. hinter einem nicht managbaren NAT steckt) macht ihn doch erst zum Junior und damit ist es eben auch unmöglich das der Mentor (der aus Sicht des Junior-Peers ja \“Außen\” ist) ihn erreichen kann.

Statistik: Verfasst von Erik_S — Sa Sep 06, 2014 5:13 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-09-06 18:30:07

Orbiter hat geschrieben:\ Ich verstehe den Bedarf an Performance und Tuning und wer will darf hier gerne einen Knopf zum Abstellen einbauen, bei mir ist das in der Prio-Liste eher hinten. Vielleicht gibts ja hier unter den neuen Usern auch neue Enwickler, merge requests nehme ich gerne entgegen.\


In den Bugs #376, #436 und #457(#456 Bug#456: Unable to create core: webgraphorg.apache.solr.common.SolrException{.postlink} ) geht es nicht um [Performance und Tuning]{style=“font-style: italic”}. Wenn ich die Log-Einträge im Bug #456 richtig interpretiere, [hat]{style=“color: #FF0000”} dort eine \“Unable to create core: [webgraphorg]{style=“color: #FF0000”}.apache.solr.common.SolrException\” [dazu geführt, dass YaCy abgestürzt ist.]{style=“color: #FF0000”} Ähnlich ist es bei den Bugs #376, #436. Und in allen drei Fällen geht es um [serverseitige Vorgänge]{style=“color: #FF0000”}. Um die Auswirkungen auf den Client geht es mir in diesem Thread nicht.

Ich bin auch bereit, meine ziemlich eingerostete Java-Kenntnisse aufzufrischen, und versuchen, mein Vorschlag selbst umzusetzen, ein Paar Hilfestellungen brauche ich aber:

  1. welche Java-Klasse muss ich anfassen?
  2. welche Abhängigkeiten sind zu berücksichtigen?
  3. ...?

Statistik: Verfasst von flegno — Sa Sep 06, 2014 5:30 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-06 18:38:39

Hallo,

Orbiter hat geschrieben:\ Beim start guckt der Tray-Prozess aber nach was für ein OS läuft und macht dann bei Windows eine Ausnahme, schaltet headless aus und das Tray-Icon ein.\ \[\...\...\]\ Bei Linux-Varianten sollte demnach der Tray auch gehen\

Diese zwei Sätze widersprechen sich. Entweder hängt das Tray-Icon von der Windows-Ausnahme ab oder es geht auch unter Linux. Was nun?

Orbiter hat geschrieben:\ einfach in der Config tray.icon.force=true setzen (einfach in /ConfigProperties\_p.html) und neu starten.\

Das ist bei mir auf true aber im aktuellen Kubuntu 14.04 sehe sich trotzdem kein Tray-Icon.

Was hat den Vorrang, die OS-Ausnahme oder die Einstellung bei \‘tray.icon.force=\‘?

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 06, 2014 5:38 pm


Hilfe für Einsteiger und Anwender • Intranet:gecrawlte repositoryDokumente werden nicht gefunden

Date: 2014-09-06 18:56:27

Hallo,

hier ein Ausschnitt aus der Log-Datei, wo das Crawlen von Dokumenten aus dem Ordner [DATA/HTDOCS/repository]{style=“font-style: italic”} geloggt wird:

Code:
I 2014/09/06 17:50:46 Crawl Start continue=localcrawlerD 2014/09/06 17:50:46 HostBalancer (re-)initialized the round-robin queue with one hostI 2014/09/06 17:51:21 HTCACHE storing content of url http://localhost:8099/repository/, 578 bytesS 2014/09/06 17:51:21 AbstractBlockingThread thread 'java.lang.reflect.Method.parseDocument.0' deployed, starting loop.D 2014/09/06 17:51:21 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=0, maxDepth=99, must-match=https?+://(www.)?\Qlocalhost\E.*, must-not-match=, initiatorHash=2qTkDO4j_tSJ, url=http://localhost:8099/repository/I 2014/09/06 17:51:21 SWITCHBOARD CRAWL: ADDED 3 LINKS FROM http://localhost:8099/repository/, STACKING TIME = 5, PARSING TIME = 9S 2014/09/06 17:51:21 AbstractBlockingThread thread 'java.lang.reflect.Method.job.1' deployed, starting loop.S 2014/09/06 17:51:21 AbstractBlockingThread thread 'java.lang.reflect.Method.condenseDocument.2' deployed, starting loop.S 2014/09/06 17:51:21 AbstractBlockingThread thread 'java.lang.reflect.Method.webStructureAnalysis.3' deployed, starting loop.S 2014/09/06 17:51:22 AbstractBlockingThread thread 'java.lang.reflect.Method.storeDocumentIndex.4'deployed, starting loop.I 2014/09/06 17:51:22 SWITCHBOARD Excluded 0 words in URL http://localhost:8099/repository/I 2014/09/06 17:51:22 Fulltext indexing: jnm6Aggzy7ic http://localhost:8099/repository/I 2014/09/06 17:51:22 SWITCHBOARD *Indexed 22 words in URL http://localhost:8099/repository/ [jnm6Aggzy7ic]        Description:  Directory: /repository/        MimeType: text/html | Charset: UTF-8 | Size: 162 bytes |        LinkStorageTime: 196 ms | indexStorageTime: 0 msI 2014/09/06 17:51:22 IODispatcher appended dump job for file citation.index.20140906155122668.blobI 2014/09/06 17:51:22 ReferenceContainerCache creating rwi heap dump 'citation.index.20140906155122668.blob', 1 rwi'sI 2014/09/06 17:51:23 HostQueue opened HostQueue T:\0_Tools\YaCy\yacy_en\DATA\INDEX\intranet\QUEUES\CrawlerCoreStacks\localhost.8099 with 0 urls.D 2014/09/06 17:51:30 HostBalancer (re-)initialized the round-robin queue with one hostD 2014/09/06 17:51:30 HostBalancer (re-)initialized the round-robin queue with one hostI 2014/09/06 17:51:30 HostQueue forcing crawl-delay of 4199 milliseconds for localhost: minimumDelta = 10, host.average = 8451, robots.delay = 0, ((waitig = 4225) - (timeSinceLastAccess = 28)) = 4197I 2014/09/06 17:51:30 HostQueue waiting for localhost: 4 seconds remaining...I 2014/09/06 17:51:31 HostQueue waiting for localhost: 3 seconds remaining...I 2014/09/06 17:51:31 ReferenceContainerCache finished rwi heap dump: 1 words, 0 word/URL relationsin 6900 millisecondsI 2014/09/06 17:51:32 HTCACHE storing content of url http://localhost:8099/repository/freex42005pr.pdf, 81427 bytesD 2014/09/06 17:51:32 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=1, maxDepth=99, must-match=https?+://(www.)?\Qlocalhost\E.*, must-not-match=, initiatorHash=2qTkDO4j_tSJ, url=http://localhost:8099/repository/freex42005pr.pdfI 2014/09/06 17:51:32 HostQueue waiting for localhost: 2 seconds remaining...I 2014/09/06 17:51:33 HostQueue waiting for localhost: 1 seconds remaining...I 2014/09/06 17:51:34 HeapReader generating index for T:\0_Tools\YaCy\yacy_en\DATA\INDEX\intranet\SEGMENTS\default\citation.index.20140906155122668.blob, 0 MB. Please wait.I 2014/09/06 17:51:34 HeapReader finished index generation for T:\0_Tools\YaCy\yacy_en\DATA\INDEX\intranet\SEGMENTS\default\citation.index.20140906155122668.blob, 1 entries, 0 gaps.D 2014/09/06 17:51:34 HostBalancer (re-)initialized the round-robin queue with one hostI 2014/09/06 17:51:34 HostQueue forcing crawl-delay of 3634 milliseconds for localhost: minimumDelta = 10, host.average = 7326, robots.delay = 0, ((waitig = 3663) - (timeSinceLastAccess = 32)) = 3631I 2014/09/06 17:51:35 HostQueue waiting for localhost: 3 seconds remaining...I 2014/09/06 17:51:36 HTCACHE storing content of url http://localhost:8099/repository/YaCy-Flyer.pdf, 84483 bytesI 2014/09/06 17:51:36 HostQueue waiting for localhost: 2 seconds remaining...I 2014/09/06 17:51:37 HostQueue waiting for localhost: 1 seconds remaining...I 2014/09/06 17:51:42 Crawl Start continue=remotecrawlerI 2014/09/06 17:51:48 Crawl Start pause=remotecrawlerI 2014/09/06 17:51:49 HTCACHE storing content of url http://localhost:8099/, 10823 bytesI 2014/09/06 17:51:54 SWITCHBOARD CRAWL: ADDED 0 LINKS FROM http://localhost:8099/repository/freex42005pr.pdf, STACKING TIME = 0, PARSING TIME = 22445D 2014/09/06 17:51:54 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=1, maxDepth=99, must-match=https?+://(www.)?\Qlocalhost\E.*, must-not-match=, initiatorHash=2qTkDO4j_tSJ, url=http://localhost:8099/repository/YaCy-Flyer.pdfI 2014/09/06 17:51:55 SWITCHBOARD Excluded 0 words in URL http://localhost:8099/repository/freex42005pr.pdfI 2014/09/06 17:51:55 Fulltext indexing: 59af1Mgzy7ic http://localhost:8099/repository/freex42005pr.pdfI 2014/09/06 17:51:55 SWITCHBOARD *Indexed 659 words in URL http://localhost:8099/repository/freex42005pr.pdf [59af1Mgzy7ic]        Description:  \\server\e\freex 2005-04\022 ne        MimeType: application/pdf | Charset: UTF-8 | Size: 9592 bytes |        LinkStorageTime: 10 ms | indexStorageTime: 0 msI 2014/09/06 17:52:03 SWITCHBOARD CRAWL: ADDED 0 LINKS FROM http://localhost:8099/repository/YaCy-Flyer.pdf, STACKING TIME = 0, PARSING TIME = 9179D 2014/09/06 17:52:03 SWITCHBOARD processResourceStack processCase=LOCAL_CRAWLING, depth=1, maxDepth=99, must-match=https?+://(www.)?\Qlocalhost\E.*, must-not-match=, initiatorHash=2qTkDO4j_tSJ, url=http://localhost:8099/I 2014/09/06 17:52:04 SWITCHBOARD CRAWL: ADDED 25 LINKS FROM http://localhost:8099/, STACKING TIME = 8, PARSING TIME = 48I 2014/09/06 17:52:04 SWITCHBOARD Excluded 0 words in URL http://localhost:8099/repository/YaCy-Flyer.pdfI 2014/09/06 17:52:04 Fulltext indexing: 5WtquMgzy7ic http://localhost:8099/repository/YaCy-Flyer.pdfI 2014/09/06 17:52:04 SWITCHBOARD *Indexed 357 words in URL http://localhost:8099/repository/YaCy-Flyer.pdf [5WtquMgzy7ic]        Description:  YaCy-Flyer.pdf        MimeType: application/pdf | Charset: UTF-8 | Size: 4892 bytes |        LinkStorageTime: 45 ms | indexStorageTime: 0 msI 2014/09/06 17:52:04 SWITCHBOARD Excluded 0 words in URL http://localhost:8099/I 2014/09/06 17:52:04 Fulltext indexing: zFOvZggzy7ic http://localhost:8099/I 2014/09/06 17:52:04 SWITCHBOARD *Indexed 87 words in URL http://localhost:8099/ [zFOvZggzy7ic]        Description:  YaCy '_anonw-50226812-78': Search Page        MimeType: text/html | Charset: UTF-8 | Size: 611 bytes |        LinkStorageTime: 361 ms | indexStorageTime: 0 msI 2014/09/06 17:52:04 REJECTED http://www.yacystats.de/peer/2qTkDO4j_tSJ - denied_(the host 'www.yacystats.de' is global, but global addresses are not accepted: 62.75.214.113)W 2014/09/06 17:52:09 SWITCHBOARD Crawl job '62_remotetriggeredcrawl' is paused: user request in Crawler_p from localhostI 2014/09/06 17:52:10 HostQueue opened HostQueue T:\0_Tools\YaCy\yacy_en\DATA\INDEX\intranet\QUEUES\CrawlerCoreStacks\localhost.8099 with 0 urls..


Mein Problem ist, dass ich keine Wörter aus den gecrawlten Dokumenten finde. Auf dem Screenshot unten die Inhalte im Ordner [DATA\INDEX\intranet\SEGMENTS\solr_47\collection1\data\index]{style=“font-style: italic”}. Was kann ich noch machen, um die gecrawlte Dokumente durchsuchbar zu machen?

Statistik: Verfasst von flegno — Sa Sep 06, 2014 5:56 pm


Hilfe für Einsteiger und Anwender • Re: Intranet:gecrawlte repositoryDokumente werden nicht gefu

Date: 2014-09-06 19:08:01

Hier das Log einer Suche hach dem Wort \‘global\‘, das in einem [.txt]{style=“font-style: italic”}-Dokument im Ordner [repository]{style=“font-style: italic”} enthalten ist:

Code:
I 2014/09/06 19:03:01 LOCAL_SEARCH ACCESS CONTROL: WHITELISTED CLIENT FROM 127.0.0.1 gets no searchrestrictionsI 2014/09/06 19:03:01 LOCAL_SEARCH INIT WORD SEARCH: global:nHCTOv9rKm0I - 10 links to be computed,10 lines to be displayedI 2014/09/06 19:03:01 SearchEventCache getEvent: 1 in cacheI 2014/09/06 19:03:01 Protocol SOLR QUERY: defType=edismax&start=0&rows=10&facet=true&facet.mincount=1&facet.limit=30&facet.sort=count&facet.method=fcs&facet.field=%7B%21ex%3Dcoordinate_p%7Dcoordinate_p&facet.field=%7B%21ex%3Dhost_s%7Dhost_s&facet.field=%7B%21ex%3Durl_file_ext_s%7Durl_file_ext_s&facet.field=%7B%21ex%3Durl_protocol_s%7Durl_protocol_s&facet.field=%7B%21ex%3Dlanguage_s%7Dlanguage_s&fl=*%2Cscore&q=httpstatus_i%3A200+AND+-url_file_ext_s%3A%28jpg+OR+png+OR+gif%29+AND+%28%28url_paths_sxt%3A%22global%22%5E3.0%29+OR+%28synonyms_sxt%3A%22global%22%5E0.5%29+OR+%28title%3A%22global%22%5E5.0%29+OR+%28text_t%3A%22global%22%5E1.0%29+OR+%28host_s%3A%22global%22%5E6.0%29+OR+%28h1_txt%3A%22global%22%5E5.0%29+OR+%28h2_txt%3A%22global%22%5E3.0%29%29&bq=clickdepth_i%3A0%5E0.8+clickdepth_i%3A1%5E0.4I 2014/09/06 19:03:01 YACY SEARCH (solr), returned 0 out of 0 documents from shard query = defType=edismax&start=0&rows=10&facet=true&facet.mincount=1&facet.limit=30&facet.sort=count&facet.method=fcs&facet.field=%7B%21ex%3Dcoordinate_p%7Dcoordinate_p&facet.field=%7B%21ex%3Dhost_s%7Dhost_s&facet.field=%7B%21ex%3Durl_file_ext_s%7Durl_file_ext_s&facet.field=%7B%21ex%3Durl_protocol_s%7Durl_protocol_s&facet.field=%7B%21ex%3Dlanguage_s%7Dlanguage_s&fl=*%2Cscore&q=httpstatus_i%3A200+AND+-url_file_ext_s%3A%28jpg+OR+png+OR+gif%29+AND+%28%28url_paths_sxt%3A%22global%22%5E3.0%29+OR+%28synonyms_sxt%3A%22global%22%5E0.5%29+OR+%28title%3A%22global%22%5E5.0%29+OR+%28text_t%3A%22global%22%5E1.0%29+OR+%28host_s%3A%22global%22%5E6.0%29+OR+%28h1_txt%3A%22global%22%5E5.0%29+OR+%28h2_txt%3A%22global%22%5E3.0%29%29&bq=clickdepth_i%3A0%5E0.8+clickdepth_i%3A1%5E0.4&hl=true&hl.fragsize=220&hl.simple.post=%3C%2Fb%3E&hl.simple.pre=%3Cb%3E&hl.snippets=5&hl.fl=description_txt&hl.fl=h4_txt&hl.fl=h3_txt&hl.fl=h2_txt&hl.fl=h1_txt&hl.fl=text_tS 2014/09/06 19:03:01 BusyThread thread 'Balancer waiting for localhost: 1881 milliseconds' breaks for intermission: 2 secondsI 2014/09/06 19:03:01 LOCAL_SEARCH EXIT WORD SEARCH: global - local_rwi_available(0), local_rwi_stored(0), remote_rwi_available(0), remote_rwi_stored(0), remote_rwi_peerCount(0), local_solr_available(0), local_solr_stored(0), remote_solr_available(0), remote_solr_stored(0), remote_solr_peerCount(0), 216 msI 2014/09/06 19:03:01 DidYouMean found 0 unsorted terms, returned 0 sorted suggestions; execution time: 3msS 2014/09/06 19:03:01 BusyThread thread 'BusyThread net.yacy.crawler.data.CrawlQueues.remoteTriggeredCrawlJob' breaks for intermission: 1 secondsS 2014/09/06 19:03:02 BusyThread thread 'BusyThread net.yacy.contentcontrol.SMWListSyncThread.run' breaks for intermission: 1 secondsS 2014/09/06 19:03:02 BusyThread thread 'BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run' breaks for intermission: 1 secondsI 2014/09/06 19:03:03 DidYouMean found 0 unsorted terms, returned 0 sorted suggestions; execution time: 1msD 2014/09/06 19:03:34 SWITCHBOARD Cleaning Incoming News, 0 entries on stackI 2014/09/06 19:03:35 YACY rulebasedUpdateInfo: not an automatic update selectedI 2014/09/06 19:03:35 RESOURCE OBSERVER Volume T:\0_Tools\YaCy\yacy_en\DATA: free space (2926 MB) is low, but nominal (< 4096 MB)I 2014/09/06 19:03:35 NoticedURL CLEARING ALL STACKSI 2014/09/06 19:03:35 SWITCHBOARD Solr auto-optimization: idleSearch=33640, idleAdmin=221, deltaOptimize=8258008, proccount=0

Statistik: Verfasst von flegno — Sa Sep 06, 2014 6:08 pm


English • Re: WildCard Search, is it possible?

Date: 2014-09-06 19:20:23

Ok, as long as you don\’t use the intranet mode, you are good to go. The search portal mode is the best choice for your purpose.

All you have to do now is to copy and paste the said code to your tumblr, and you also have to make sure your yacy port (8090 by default) is open. You can check that on http://www.canyouseeme.org/.

In case you want to customize your search engine, you can do that on the following pages within your yacy settings:
http://localhost:8090/ConfigAppearance_p.html
http://localhost:8090/ConfigPortal.html (scroll up to see all settings)
http://localhost:8090/ConfigSearchPage_p.html

If you run into problems or you have further questions, please ask.

Statistik: Verfasst von David — Sa Sep 06, 2014 6:20 pm


Off-Topic • Re: verstehe ich nicht - line break im Windows-Notepad

Date: 2014-09-06 19:26:47

Seltsam. Vielleicht hast du mal Lust eine ziemlich gute open-source Alternative für das Windows Notepad auszuprobieren? http://notepad-plus-plus.org/

Statistik: Verfasst von David — Sa Sep 06, 2014 6:26 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-09-06 19:41:31

Hallo,

flegno hat geschrieben:\ \... geht es nicht um [Performance und Tuning]{style="font-style: italic"}.\

Um was geht es Dir dann? In Deinem Ursprungsport geht es nach meinem Verständnis primär um die CPU-Last und die daraus resultierenden Probleme.
Wenn es wirklich um Performance geht bin ich nach wie vor der Meinung das die YaCy-Entwickler da nicht viel tun können.

flegno hat geschrieben:\ Es sei denn, jemand kann die von mir verlinkte Fehlerberichte \#376, \#436 und \#457, wo Webgraph im Spiel ist, plausibel erklären.\

Ich weiß es nicht aber ich könnte mir vorstellen das in der betreffenden Komponente tatsächlich echte Bugs sind. Falls das wirklich zutrifft dann könnten diese Bugs die beobachteten Phänomene plausibel erklären und dann sollten diese Bugs natürlich auch von den verantwortlichen Programmierern beseitigt werden. Ich halte es aber für relativ unwahrscheinlich das eventuelle Bugs in der Webgraph-Library bzw. die Beseitigung dieser Bugs relevante Auswirkungen auf die CPU-Last haben.

Gerade bei der Crawler-Überwachung wird im YaCy-Peer gar keine Graphik erzeugt so das ich vermute das die Webgraph-Library hier auch nicht verwendet wird und demzufolge ein Ausschalter für diese Library zumindest für die Crawler-Überwachung nichts bringen würde.

Grüße
Erik

PS.:
Sorry, das ich nicht selber gesehen hab das nicht alle Graphiken als PNG ausgeliefert werden, die wirklich hohe CPU-Last kommt tatsächlich nur von den Graphiken die per Java-Script und SVG gebildet werden und das erklärt auch den extremen CPU-Durst des Browsers (auf meinem Test-PC immerhin 2 Cores zu je 100% die im Turbo-Modus immerhin 3 GHz erreichen und auch den CPU-Lüfter deutlich hörbar belasten). Die Graphiken die als echte PNGs geliefert werden erzeugen spürbar weniger CPU-Last, wenn auch immer noch deutlich mehr als ich vermuten würde.

Statistik: Verfasst von Erik_S — Sa Sep 06, 2014 6:41 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-09-06 21:26:16

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:\... geht es nicht um [Performance und > Tuning]{style="font-style: italic"}.\ > >

Um was geht es Dir dann? In Deinem Ursprungsport geht es nach meinem Verständnis primär um die CPU-Last und die daraus resultierenden Probleme.

Mich wundert, wie du auf die Idee gekommen bist, dass in meinem Startposting \“geht es nach meinem Verständnis [primär]{style=“font-style: italic”} um die CPU-Last und die daraus resultierenden Probleme\“. Die CPU-Last ist zwar die Ursache, aber diese Ursache ist deswegen ernst zu nehmen, da diese [immer wieder zu den YaCy-Abstürzen]{style=“color: #FF0000”} führt. Jede® von uns, der/die einen Fehler in der Anwendung erlebt hat, weiss, dass die [im Mantis dokumentierte Fehler nur ein Buchteil von tatsächlichen Fehlerereignissen repräsentieren]{style=“font-style: italic”} - dies trifft auch auf die Webgraph-Fehlerereignisse zu.

So ein YaCy-Verhalten trifft schwerpunktmäßig Anwender, die mit weniger performanter Hardware als YaCy-Entwickler ausgestattet sind und in vielen Fällen haben sie auch keine Möglichkeit, die Fehlerursache einzugrenzen. So ein YaCy-Verhalten schadet m.E. dem YaCy-Projekt.

Statistik: Verfasst von flegno — Sa Sep 06, 2014 8:26 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-06 21:36:19

Orbiter hat geschrieben:\ Einen App-Status mit ins Icon hinein zu nehmen macht auch Sinn, da muss man aber sehen was wirklich wichtig ist und einen Alert darstellt, der einen User nicht unnütz glauben läßt, dass er was tun muss.\


Ich habe vorhin fälschlicherweise Popup-Text erwähnt, obwohl ich eigentlich einen [Tooltipp ]{style=“font-style: italic”}meinte. Beim Tooltipp fährt der Anwender bewusst/gezielt mit der Maus über ein Objekt, also ist der Nutzer von sich aus auf der Suche nach einer Info oder einer Aufgabe.

Statistik: Verfasst von flegno — Sa Sep 06, 2014 8:36 pm


Off-Topic • Re: verstehe ich nicht - line break im Windows-Notepad

Date: 2014-09-06 21:45:33

David hat geschrieben:\ Seltsam. Vielleicht hast du mal Lust eine ziemlich gute open-source Alternative für das Windows Notepad auszuprobieren? \


also Notepad ++ - wenn du den Editor, der auch HTML kann, meinst - ist mir für viele kleinere Editieraufgaben einfach zu fett.

Statistik: Verfasst von flegno — Sa Sep 06, 2014 8:45 pm


Off-Topic • forum.yacy-websuche.de persönlich gestalten

Date: 2014-09-07 05:31:32

Moin,

wer die [forum.yacy-websuche.de]{style=“font-style: italic”}-Forumsregeln verinnerlicht hat, kann/darf 8-) mit dem Firefox-Add-on Stylish{.postlink} und diesem Code-Schnipsel:

Code:
@namespace url("http://www.w3.org/1999/xhtml");@-moz-document domain("forum.yacy-websuche.de"){div.rules {display: none !important;  } }


den roten Banner - s. Screenshot - deaktivieren. Bei Bedarf - um bspw. die Forumsregeln aufzufrischen - lassen sich die ausgeblendeten Zeilen mit ein Paar Mausklicks wiederherstellen ;) . [Vorher/nachher]{style=“font-style: italic”} - s. auf den Screenshots unten. Wer CSS- Grundkenntnisse hat oder ist bereit, sich diese anzueignen, ist klar im Vorteil, da auf diese Weise lassen sich beliebige Websites persönlich gestalten - s. Facebook mit Stylish{.postlink}.

Statistik: Verfasst von flegno — So Sep 07, 2014 4:31 am


Solr Support • Re: SolrException: undefined field site

Date: 2014-09-07 09:30:02

das ist ein merkwürdger Bug, hab schon gesucht aber nicht die Ursache gefunden. tritt das sehr oft auf oder nur sporadisch?

Statistik: Verfasst von Orbiter — So Sep 07, 2014 8:30 am


Panorama • Umsetzung des #EuGH Urteils als Chance für YaCy & Co.

Date: 2014-09-07 11:56:53

Hallo,

Dieser Artikel, hier ein Zitat:

computerbetrug.de: [Abo 81333 wap.handysms.com, loveo.de, derreichesack.de: Google löscht Links zu Forum](http://www.computerbetrug.de/2014/09/abzocke-mit-wap-handysms-com-81333-google-loescht-link-zu-computerbetrug-de-8699){.postlink} hat geschrieben:\ Wer Probleme mit der teuren Nummer 81333, einem Abo, dem Dienst wap.handysms.com, loveo.de oder der Seite derreichesack.de hat, wird bei einer Google-Suche künftig einen Treffer weniger finden: Nach dem Urteil des Europäischen Gerichtshofs zum "Recht auf Vergessen" hat Google Links zu unserem Diskussionsforum gelöscht.\


auf [computerbetrug.de]{style=“font-style: italic”} brachte mich auf die Idee, dass der #EuGH Urteil eine echte Chance für die alternative Suchmaschinen bedeuten könnte.

Folgendes Szenario:

  1. mächtige zahlungskräftige geschäftige Akteure der Abmahn-, Abzock-, Betrugs- usw. szene sorgen für die Bereinigung des Google-Indexes von an sich nützlichen Links/Verweisen
  2. im Volk spricht sich herum:
    1. dass Google-Index von nützlichen Links/Verweisen bereinigt ist
    2. dass nützliche Links/Verweise bei YaCy & Co. zu finden sind
  3. YaCy & Co. werden erst zu einem Geheimtipp wie Google vor Jahren und dann einfach zu einer Selbstverständlichkeit für die Internet-Nutzer :P

[Handlungsbedarf:]{style=“color: #008040”} Dafür zu sorgen, dass die Infos 2.1 und 2.2 möglichst breitem Publikum bekannt werden - über die Medien, darunter über einschlägige Foren wie [computerbetrug.de]{style=“font-style: italic”}. Ich habe mal einen Anfang gemacht --> Abo 81333 wap.handysms.com: Google löscht Link zu unserem Forum{.postlink} ;) .

Ideal wäre eine Schnittstelle zu Google\’s Löschliste (Blacklist) zu haben, damit man eine Möglichkeit hat, mit ein Paar Mausklicks aus dieser Google\’s Blacklist die entsprechende YaCy-Crawllisten zu erstellen 8-) . Oder ist jemandem evtl. mindestens eine/einige Website(s) bekannt, wo die Gerichtsurteile zu Löschungsanträgen veröffentlicht werden?

Statistik: Verfasst von flegno — So Sep 07, 2014 10:56 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 12:06:40

das feature ist up! (1.73.9342) Habe das aber nicht unter Windows getestet, nur auf meinem Mac.

Statistik: Verfasst von Orbiter — So Sep 07, 2014 11:06 am


Solr Support • Re: SolrException: undefined field site

Date: 2014-09-07 12:25:00

Orbiter hat geschrieben:\ das ist ein merkwürdger Bug, hab schon gesucht aber nicht die Ursache gefunden. tritt das sehr oft auf oder nur sporadisch?\


Keine Ahnung, bin zufällig darüber gestolpert, wo ich versuche, eine Intranet-Instanz lauffähig zumachen.

Statistik: Verfasst von flegno — So Sep 07, 2014 11:25 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 12:44:53

Orbiter hat geschrieben:\ das feature ist up! (1.73.9342) Habe das aber nicht unter Windows getestet, nur auf meinem Mac.\


Habe unter Windows 7 die Version 1.739342 getestet. Funktioniert soweit. Danke, Orbiter! Das YaCy-Icon hat jetzt bei mir den Status \“sichtbar\” bekommen. Bis dato hat es bei mir nur die Uhr(zeit) verdient, den wertvollen Platz in der Taskleiste zu belegen :P .

Statistik: Verfasst von flegno — So Sep 07, 2014 11:44 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 12:58:49

hm, ich habe das nun auch mal in einer VM unter Windows 7 ausprobiert und musste feststellen, dass da der Schriftzug \‘booting\’ im Icon nicht sichtbar ist, beim Mac ging das. Da gibts wohl verschiedene Schriftgrößeninterpretationen. Mal schauen...

Statistik: Verfasst von Orbiter — So Sep 07, 2014 11:58 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 13:25:21

Orbiter hat geschrieben:\ \... der Schriftzug \'booting\' im Icon nicht sichtbar ist, beim Mac ging das. Da gibts wohl verschiedene Schriftgrößeninterpretationen. Mal schauen\...\



Testbericht 1:

  1. damit man gezielt einen Test/Qualitätssicherung machen kann, hätte ich gern eine Liste \“Ereignis ~ TrayIcon-Meldung\”
  2. [Wunsch:]{style=“font-style: italic”} Ideal wäre, wenn im Debug- Modus die TrayIcon-Meldung ohne Mouseover-Ereignis eingeblendet bzw. verändert wird
  3. Bug: Ich habe vor mindestens 10 Minuten einen Shutdown eingeleitet.
    1. im Browser wird bereits länger [\“Bis bald! YaCy-Proxy wird beendet ...\“]{style=“font-style: italic”} angezeigt
    2. TrayIcon-Meldung enthält aber nach wie vor \“YaCy läuft unter http://localhost:8090\“. Eigentlich g\‘rade für die Manifestierung von solchen Ereignissen wie [[\“Ich (YaCy) habe Shutdown eingeleitet.\“]{style=“color: #008000”}]{style=“font-style: italic”} habe ich die Messages für das TrayIcon vorgeschlagen.
  4. [Wunsch:]{style=“font-style: italic”} Die Meldung \“YaCy läuft unter http: //localhost:8090\” so anzeigen [\“YaCy läuft unter localhost:8090\“]{style=“font-style: italic”}.

Statistik: Verfasst von flegno — So Sep 07, 2014 12:25 pm


YaCy Coding & Architektur • IPv6

Date: 2014-09-07 13:33:32

Hallo,

ich habe gestern mal ein bisschen mit IPv6 als Konfiguration rumgespielt, in der YaCy-Version 1.739340:

Als erstes habe ich die öffentliche IPv6-Adresse des Servers auf dem mein YaCy-Peer läuft als statische IP konfiguriert (vorher war dort die IPv4-Adresse). Das hat auch so weit ich sehen konnte funktioniert, sogar in der Seed-Liste (per \‘/yacy/seedlist.json\‘) stand meine IPv6-Adresse drin (im Eintrag \“Address\” sogar korrekt mit eckigen Klammern und folgender Port-Nummer). Ich war also erstmal zufrieden.
Gewundert hat mich das auf der Seite \‘/Status.html\’ rechts in der Info-Box steht

\ [Adresse]{style="font-weight: bold"}\ Host: IPv4-Adresse:8090 \| SSL: enabled (port 8443)\ Öffentliche Adresse: http://\[IPv6-Adresse\]:8090\ YaCy Adresse: \*\*\*.yacy\

Mal davon abgesehen das diese Info-Box deutlich zu schmal ist ist es gut das auch hier die IPv6-Adresse mit eckigen Klammern versehen ist aber warum eine Zeile darüber meine IPv4-Adresse steht erschließt sich mir nicht. Okay, die angegebene IPv4-Adresse ist richtig, der Server auf dem der YaCy-Peer läuft hat schließlich eine Dual-Stack-Anbindung, so das ich schlussfolgere das es in YaCy irgendwo Code gibt der in der Lage ist die eigene IP-Adresse zu ermitteln aber offensichtlich immer eine IPv4-Adresse bevorzugt.

Als viel problematischer sehe ich aber das mein YaCy-Peer nach der Umstellung auf IPv6 quasi vereinsamt ist, es gab immer weniger ankommende Verbindungen von anderen YaCy-Peers und die Verbindungen die noch kamen benutzten alle die IPv4-Adresse meines Servers, unter der YaCy natürlich nach wie vor erreichbar war. Ich konnte in den Seeds und Peer-Listen der anderen Peers meinen Peer auch mit meiner IPv6-Adresse finden aber keiner dieser Peers war wohl in der Lage meinen Peer per IPv6 zu kontaktieren.
Mir stellt sich also die Frage ob die anderen YaCy-Peers über keine IPv6-Anbindung verfügen oder ob es im Quell-Code oder in der Konfiguration von YaCy irgendein Hindernis gibt andere Peers per IPv6 anzusprechen.
Mein Peer hat trotzdem weiterhin andere Peers kontaktiert, natürlich nur per IPv4 weil mein Peer offensichtlich der einzigste Peer war der eine IPv6-Adresse publiziert hat.

Da es eh nur eine Test-Installation war hab ich auch einfach mal beide IP-Adressen als statische IP konfiguriert, also IPv6 und IPv4 per Komma getrennt hintereinander eingetragen, und die Status-Seite hat gemeldet

\ [Adresse]{style="font-weight: bold"}\ Host: IPv4-Adresse:8090 \| SSL: enabled (port 8443)\ Öffentliche Adresse: http://\[IPv6-Adresse,IPv4-Adresse\]:8090\ YaCy Adresse: \*\*\*.yacy\

nach welcher Logik die eckigen Klammern dazu kommen weiß ich zwar nicht aber das die IPv4-Adresse da mit eingeschlossen wird ist sicher nicht gewollt. Ich vermute das liegt daran das als statische IP immer nur eine einzelne IP-Adresse erwartet wird, aber es gibt wohl nirgends eine Prüfung ob der Inhalt in diesem Feld auch wirklich eine einzelne und gültige IP-Adresse ist. Auch das gesamte Format der Peer-to-Peer-Elemente (also Seed-Lists usw.) scheint auf eine einzelne IP-Adresse ausgerichtet zu sein. In der JSON-Seed-Liste waren ebenfalls beide IP-Adressen drin, im Feld \“IP\” würde ich \“IPv6-Adresse,IPv4-Adresse\” sogar als korrekt bezeichnen (das Komma als Trenner eignet sich gut da es weder in IPv6 noch in IPv4 vorkommt) aber der Inhalt vom Feld \“Address\” ist mit \”[IPv6-Adresse,IPv4-Adresse]:8090\” definitiv als defekt zu bezeichnen.


Mein Fazit aus meinen Versuchen mit IPv6 ist einfach: YaCy ist derzeit noch [nicht]{style=“text-decoration: underline”} IPv6-ready.
Eine der Ursachen ist das die YaCy-Peers offensichtlich keine IPv6-Verbindungen aufbauen können wobei hier natürlich erstmal der Grund untersucht werden sollte. Zu diesem Zeck wäre es schön wenn es mehrere YaCy-Peers gäbe die auf einem System mit korrekt funktionierender Dual-Stack-Anbindung laufen und bei denen im Start-Script auch IPv6 freigeschalten ist. Dann könnte man sich beim Debuggen auf diese Peers konzentrieren um herauszufinden wie die anderen Peers über den eigenen Peer denken.
Das zweite Problem ist das YaCy pro Peer nur eine einzige IP-Adresse verwaltet, das verkennt aber die Realität in der nicht nur IPv6 und IPv4 parallel existieren sondern gerade für IPv6 Multihoming eher die Regel als eine Ausnahme ist (abgesehen davon das es auch bei IPv4 Multihoming-Konstellationen gibt aber ziemlich selten). Für IPv6 gibt es z.B. die Privacy-Extensions die in allen aktuellen Windows/OS-X/Linux-Versionen per default aktiv sind, damit bekommt jedes Netzwerk-Interface regelmäßig eine neue IPv6-Adresse zugewiesen die ab dann auch für alle rausgehenden Verbindungen als Absender-Adresse benutzt wird. Die alten IPv6-Adressen stehen für reinkommende Verbindungen noch eine Weile zur Verfügung aber werden irgendwann komplett abgeschalten. Wenn YaCy also auch nach dem Abschalten von IPv4 noch funktionieren will ist es zwingenst erforderlich das YaCy mit mehreren IP-Adressen pro Peer zurecht kommt und es auch verträgt das sich diese IP-Adressen relativ schnell ändern können. Es wird natürlich auch weiterhin YaCy-Peers geben die über konstante IP-Adressen verfügen (all jene die auf Root-Servern u.ä. im Internet laufen) aber die Mehrheit der YaCy-Peers die auf privaten PCs laufen werden im IPv6-Zeitalter schnell wechselnde IP-Adressen und damit mehrere IP-Adressen (weil die älteren nicht sofort verschwinden) parallel haben.

IPv6 wird für YaCy einige Probleme lösen, so werden mit IPv6 auch PCs hinter (privaten) Routern eine individuelle öffentlich erreichbare IP-Adresse (ohne NAT) bekommen was die Anzahl der Junior-Peers drastisch verringern dürfte (und damit sicher auch Übergangslösungen wie UPnP (oder das Mentor-Mentee-Konzept) an Bedeutung verlieren). Auf der anderen Seite stellt IPv6 YaCy vor einige neue Herausforderungen wie z.B. Multihoming. Auch der IPv4-Sunset wird sicher noch etliche Jahre dauern und es erforderlich machen das YaCy mit beiden IP-Versionen parallel umgehen kann, was auf Multihoming-Unterstützung in YaCy hinausläuft.


Meckern kann jeder, ich würde gerne dabei helfen das YaCy die kommenden Herausforderungen im Umgang mit IPv6 erfolgreich meistert.
Ich habe gut 20 Jahre Erfahrung als Programmierer, auch in anspruchsvollen industriellen Projekten. Mein Haupteinsatzfeld war dabei immer Embedded-Technik, von GUI usw. hab ich keine Ahnung. IP-basierte Netzwerkkommunikation war dabei oft mein Schwerpunkt. Mein privates Netzwerk zuhause ist seit Jahren IPv6-only und wird von einem von mir selber programmierten SOCKS5-Proxy geschützt ans Internet angebunden. Mein Proxy enthält u.a. einen DNS-Server fürs lokale Netz, einen HTTP-Server für das Management-Interface (fürs lokale Netz), den PPPoE-Client für die DSL-Einwahl ins Internet, den eigentlichen SOCKS-Proxy und für jedes Interface einen eigenen speziell zugeschnittenen IP-Stack. Ich bin auch den Umgang mit Werkzeugen wie nmap und Wireshark geübt. Meine letzten Kontakte mit Java sind zwar schon einige Jahre her aber ich denke das verlernt man nicht so schnell, nebst dessen das C/C++ mein tägliches Handwerkszeug sind so das mir weder Syntax noch Sprachkonzepte von Java völlig fremd sind.

Ein Umbau von YaCy in Richtung vollwertiger IPv6-Unterstützung ist mit Sicherheit keine Kleinigkeit und wird wohl viele Quell-Dateien betreffen aber ich möchte da gerne einen Anteil zu beisteuern. Mir ist bewusst das alle Änderungen auf keinen Fall Kompatibilitätsprobleme mit älteren YaCy-Versionen verursachen dürfen und ich denke ich habe ein tragfähiges Konzept in meinem Kopf das wir natürlich vorher diskutieren sollten. Ich hätte gerne eine klare Aussage der YaCy-Maintainer ob ein Umbau in Richtung IPv6 überhaupt gewünscht ist und ob meine Mitarbeit daran erwünscht ist. Ich sollte dabei aber nicht verschweigen das ich manchmal ein schwieriger Typ sein kann und das ich vieles einfach so ausdrücke wie es mir durch den Kopf geht.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 07, 2014 12:33 pm


YaCy Coding & Architektur • YaCy hat aufgehört zu loggen

Date: 2014-09-07 13:56:13

Das sind die letzte Einträge im Log:

Code:
I 2014/09/07 12:58:52 Heap closing heap C:\Users\tt\YaCy\DATA\WORK\robots.bheapI 2014/09/07 12:58:52 HeapReader close HeapFile robots.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1771) -> net.yacy.yacy.startup(yacy.java:362) -> net.yacy.yacy.main(yacy.java:683)I 2014/09/07 12:58:52 Heap closing heap C:\Users\tt\YaCy\DATA\WORK\admin_bookmarks.bheapI 2014/09/07 12:58:52 HeapReader wrote a dump for the 0 gap entries of admin_bookmarks.bheap in 7 milliseconds.I 2014/09/07 12:58:52 HeapReader wrote a dump for the 8 index entries of admin_bookmarks.bheap in 10 milliseconds.I 2014/09/07 12:58:52 HeapReader close HeapFile admin_bookmarks.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1771) -> net.yacy.yacy.startup(yacy.java:362) -> net.yacy.yacy.main(yacy.java:683)I 2014/09/07 12:58:52 Heap closing heap C:\Users\tt\YaCy\DATA\WORK\admin_bookmarks_cidx.bheapI 2014/09/07 12:58:52 HeapReader close HeapFile admin_bookmarks_cidx.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1771) -> net.yacy.yacy.startup(yacy.java:362) -> net.yacy.yacy.main(yacy.java:683)I 2014/09/07 12:58:52 Heap closing heap C:\Users\tt\YaCy\DATA\WORK\api.bheapI 2014/09/07 12:58:52 HeapReader wrote a dump for the 1 gap entries of api.bheap in 7 milliseconds.I 2014/09/07 12:58:52 HeapReader wrote a dump for the 51 index entries of api.bheap in 10 milliseconds.I 2014/09/07 12:58:52 HeapReader close HeapFile api.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1771) -> net.yacy.yacy.startup(yacy.java:362) -> net.yacy.yacy.main(yacy.java:683)I 2014/09/07 12:58:52 Heap closing heap C:\Users\tt\YaCy\DATA\WORK\searchfl.bheapI 2014/09/07 12:58:52 HeapReader wrote a dump for the 0 gap entries of searchfl.bheap in 6 milliseconds.I 2014/09/07 12:58:52 HeapReader wrote a dump for the 8 index entries of searchfl.bheap in 11 milliseconds.I 2014/09/07 12:58:52 HeapReader close HeapFile searchfl.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1771) -> net.yacy.yacy.startup(yacy.java:362) -> net.yacy.yacy.main(yacy.java:683)I 2014/09/07 13:43:07 ConcurrentLog shutdown of ConcurrentLog.Worker: injection of poison messageI 2014/09/07 13:43:07 ConcurrentLog terminating ConcurrentLog.Worker with 0 cached loglines.I 2014/09/07 13:43:07 ConcurrentLog shutdown of ConcurrentLog.Worker: terminated


Gerade eben kamen noch drei Einträge - s. oben. Das ist ein Auszug aus einer Original Log-Datei: [45 Minuten hat YaCy nichts geloggt.]{style=“font-weight: bold”} 2014/09/07 13:43:07 enden die Einträge. Also herunterfahren hat mindestens 45 Minuten gedauert. Das sind die Zeiträume, mit den die Anwender mit einer schwächeren Hardware konfrontiert werden. Ich darf an dieser Stelle an den Webgraph-Bug erinnern Deaktivierung der Grafikerstellung ermöglichen{.postlink} :cry:.

Statistik: Verfasst von flegno — So Sep 07, 2014 12:56 pm


Wunschliste • Re: IPv6

Date: 2014-09-07 15:52:38

Hallo,

Orbiter hat geschrieben:\ Trotzdem will ich ihn mal aufwärmen\

In 2014 ist das Thema IPv6 auch deutlich aktueller als in 2007, gerade für private Leute. Viele Internetprovider in Deutschland haben angefangen IPv6 an alle oder zumindest neue Kunden auszuliefern. Ich denke mal das in spätestens 1 oder 2 Jahren die Mehrheit aller privaten Internetanschlüsse IPv6 per Default mit dabei hat. Das Thema IPv6 in YaCy sollte IMHO nicht nur aufgewärmt sondern langsam aber sicher servierfertig gargekocht werden.

Orbiter hat geschrieben:\ um alle zu fragen wie es bei euch mit der Verfügbarkeit von IPv6 aussieht?\

Also ich hab an meinem heimischen Internetanschluss als auch an einem Server im iNetz vollwertige Dual-Stack-Anbindung. Mit meinem Provider musste ich lange kämpfen um IPv6 zu bekommen wogegen im Hostingbereich IPv6 längst zum Standard-Lieferumfang gehört.

Orbiter hat geschrieben:\ Ich habe im letzten halben Jahr immer wieder mal geguckt ob es speziellen, IPv6-verhindernden Code gibt und den raus gemacht.\

Während all meiner Tests der letzten Tage, egal was als statische IP konfiguriert war, war mein YaCy-Peer immer über beide IP-Versionen erreichbar (auf beiden Ports, also egal ob mit oder ohne SSL). Es gibt also keinen Code in YaCy der ankommende Verbindungen in irgendeiner IP-Version verhindern würde, solange man YaCy im Start-Script erlaubt die TCP-Server-Sockets an beide IP-Versionen zu binden, sondern es fehlt Code der es YaCy erlaubt anderen Peers mitzuteilen das es über beide IP-Versionen bzw. allgemein über mehrere IP-Adressen erreichbar ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 07, 2014 2:52 pm


Wunschliste • Re: IPv6

Date: 2014-09-07 16:01:59

Hallo,

Erik\_S hat geschrieben:\ Es gibt also keinen Code in YaCy der ankommende Verbindungen in irgendeiner IP-Version verhindern würde, solange man YaCy im Start-Script erlaubt die TCP-Server-Sockets an beide IP-Versionen zu binden, sondern es fehlt Code der es YaCy erlaubt anderen Peers mitzuteilen das es über beide IP-Versionen bzw. allgemein über mehrere IP-Adressen erreichbar ist.\


Ist es evtl. eine Info, die relevant genug ist, dass diese im Bug-Tracker erfasst werden muss, damit andere, nicht deutschsprachige YaCy-Communities darauf aufmerksam gemacht werden?

Gruss, Gustav

Statistik: Verfasst von flegno — So Sep 07, 2014 3:01 pm


Wunschliste • Re: IPv6

Date: 2014-09-07 16:15:27

Hallo,

flegno hat geschrieben:\ Ist es evtl. eine Info, die relevant genug ist, dass diese im Bug-Tracker erfasst werden muss, damit andere, nicht deutschsprachige YaCy-Communities darauf aufmerksam gemacht werden?\

Welche Info meinst Du? Das im Start-Script per Default IPv6 unterbunden wird?
Einen Bug im eigentlichen Sinne kann ich momentan nicht sehen sondern einfach nur das Fehlen eines interessanten Features, ich denke nicht dass das für einen Bug-Tracker relevant ist.
Das einzigste was man in diesem Zusammenhang eventuell als Bug bezeichnen könnte ist das auf der Seite \‘/Settings_p.html?page=ServerAccess\’ das Eingabe-Feld für die statische IP alles mögliche akzeptiert ohne zu prüfen ob wirklich nur eine einzelne und auch gültige IP-Adresse eingetragen wurde und das der Erklärungstext darunter die falsche IP-Adresse anzeigt, aber da die meisten User dieses Feld wohl eher nicht anfassen sehe ich das momentan nicht als kritisch an.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 07, 2014 3:15 pm


Hilfe für Einsteiger und Anwender • Re: akustische Ereignisse(YaCy-Status) || YaCy-Trayicon ausg

Date: 2014-09-07 18:17:31

Wäre es möglich, bestimmte Tonsignale zusätzlich zu den Tootipps zumindest im Debug-Modus einzubauen? Bspw. für die Exceptions.

Statistik: Verfasst von flegno — So Sep 07, 2014 5:17 pm


Panorama • Re: Umsetzung des #EuGH Urteils als Chance für YaCy & Co.

Date: 2014-09-07 18:33:04

flegno hat geschrieben:\ Ideal wäre eine Schnittstelle zu Google\'s Löschliste (Blacklist) zu haben, damit man eine Möglichkeit hat, mit ein Paar Mausklicks aus dieser Google\'s Blacklist die entsprechende YaCy-Crawllisten zu erstellen ![8-)](http://forum.yacy-websuche.de/images/smilies/icon_cool.gif "Cool") . Oder ist jemandem evtl. mindestens eine/einige Website(s) bekannt, wo die Gerichtsurteile zu Löschungsanträgen veröffentlicht werden?\



Wären die hier beschriebene YaCy-Nachrichtendienste{.postlink} ein zielführender Ansatz, wenn es darum geht, im Internet nach Meldungen über die Google\’s Löschlisten (Blacklists) zeitsparend zu recherchieren? Der Aufwand würde sich u.U. darauf begrenzen, die in Frage kommenden Quellen für\’s YaCy-Crawling auszuwählen - und dann nur nach Nachrichten warten ;) .

Statistik: Verfasst von flegno — So Sep 07, 2014 5:33 pm


Wunschliste • Re: IPv6

Date: 2014-09-07 19:22:17

Hallo,

Erik\_S hat geschrieben:\ Welche Info meinst Du? Das im Start-Script per Default IPv6 unterbunden wird?\ Einen Bug im eigentlichen Sinne kann ich momentan nicht sehen sondern einfach nur das Fehlen eines interessanten Features, ich denke nicht dass das für einen Bug-Tracker relevant ist.\


Ist es nicht so, dass im YaCy- Projekt, wie woanders auch, der Bug-Tracker als ein Überbegriff/Container dient, um alles mögliche, darunter Verbesserungsvorschläge übersichtlich zu dokumentieren?

Gruss, Gustav

Statistik: Verfasst von flegno — So Sep 07, 2014 6:22 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 20:09:51

zu 1: heh, hier gibts nicht total viel, nur beim Startup eine Icon-Änderung mit Animation und da sollte drin stehen \“booting\“, sonst nix
zu 3 analog zu 1: nein, shutdown wird hier noch nix gemacht, also kann auch noch nix kommen.
zu 4: für DAUs zu wenig :mrgreen:
zu Audio: bin auch dafür! muss aber auch sehr agressiv das Abschalten anbieten, sonst Katastrophe bei mindestens 70% User (geschätzt). Also eher per default off, aber per Option on. Wir brauchen erst mal Audioclips die geeignet wären, Vorschläge?

Ich finde das lustig, habe aber noch andere Dinge die auch wichtig sind und lasse das hier erst mal \‘reifen\‘, bitte um Verständnis

Statistik: Verfasst von Orbiter — So Sep 07, 2014 7:09 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-09-07 20:14:58

hier nun die Notizen vom 3. YaCy-Stammtisch am 2. Sept. in Berlin:

lux stellt seinen neuen Banana Pi vor, auf dem sich YaCy einfach installieren ließ und nun ohne Probleme läuft. Die technische Errungenschaft wird ausgiebig bewundert.

Welche Analyse-Tools gibt es, um Performance zu testen?
1. Aktionen unter dem time-Befehl ausführen, es werden cpu-zeit und realzeit ausgegeben
2. http://www.thomas-krenn.com/de/wiki/Lin ... _mit_iotop{.postlink}
3. http://linux.die.net/man/1/iostat
4. gkrell misst CPU, Speicher, Netzwerk, Batterie, Temperatur, Platte,
5. munin mit vorgefertigten Plugins http://de.wikipedia.org/wiki/Munin_%28Software%29

In den Räumen von In-Berlin hängt nun ein YaCy-Steckbrief. Es fehlen allerdings noch Hinweise auf unserer Termine sowie Kontaktmöglichkeit im YaCy-Forum. Sabine erledigt das.

Es gibt ein start-/stop-Skript für YaCy auf Linux sowie eine ReadMe-Datei unter yacy/addons

Es sollen weitere Infos zu möglichen Vortragsinhalten zusammengestellt werden. Sinnvoll ist dabei eine Verlinkung auf die Quellen. Die Vortragsinhalte können unter http://etherpad.yacy.net/p/Vortragsinhalte gemeinsam bearbeitet werden.
Allgemein können Etherpads hier eingerichtet werden: http://etherpad.yacy.net/

Out of Topic:
- OTG-Anschluss: USB on the Go, kann die Richtung zwischen Client und Server ändern
- systemd ist ein Systemprozess, der zukünfitg viele andere Systemprozesse ersetzen soll: sysinit, logd …
http://www.zdnet.de/88183745/debian-lin ... mpaign=rss{.postlink}

Nächstes Treffen: Di, 07.Oktober 2014, 19:00 Uhr in den Räumen von In-Berlin http://www.is.in-berlin.de/

Statistik: Verfasst von Uhura — So Sep 07, 2014 7:14 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 20:20:28

Orbiter hat geschrieben:\ zu Audio: bin auch dafür! muss aber auch sehr agressiv das Abschalten anbieten, sonst Katastrophe bei mindestens 70% User (geschätzt). Also eher per default off, aber per Option on. Wir brauchen erst mal Audioclips die geeignet wären, Vorschläge?\

Ich würde auf die Standardtöne des Betriebssystems zurückgreifen - geht das?

Statistik: Verfasst von flegno — So Sep 07, 2014 7:20 pm


Wunschliste • Re: IPv6

Date: 2014-09-07 20:21:39

Hallo,

Wofür der Bug-Tracker des YaCy-Projekts alles verwendet wird bzw. verwendet werden soll kann ich nicht beurteilen.
Ich habe nebenan{.postlink} erstmal erklärt worum es mir geht und werde auf die Antwort der Maintainer warten. Mein Post richtet sich auch nicht wirklich an die YaCy-User sondern primär an die verantwortlichen Entwickler und ist deswegen meiner Meinung nach in diesem Forum recht gut aufgehoben.
Ich vermute das die meisten YaCy-User sich nicht wirklich dafür interessieren ob da ganz unten IPv4 oder IPv6 benutzt wird sondern die wollen einfach nur das alles funktioniert und dass das YaCy-Netzwerk möglichst effektiv arbeitet. IPv6 ist ja auch kein für den User relevantes Feature sondern drunter liegende Infrastruktur. Für das [Wie]{style=“font-style: italic”} sind die Programmierer verantwortlich und das ist meiner Meinung nach auch Okay so. Ich als Programmierer kann damit Leben das die User meiner Programme sich nicht wirklich dafür interessieren was ich da tolles gecoded hab, hauptsache sie freuen sich das mein Werk hilfreich war/ist. Ich gehe davon aus das die meisten Programmierer das ähnlich sehen.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 07, 2014 7:21 pm


YaCy Coding & Architektur • Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-07 20:41:15

Hallo,

ich habe beim Einspielen des Updates 1.739342 festgestellt, dass im Suchformular angepasste Texte übernommen werden, die gecustomized [Icons/Logos/Bilder ]{style=“font-style: italic”}dagegen nicht. Wie wird bei einer Profi-Anwendung von YaCy gehandhabt? Es ist doch uneffizient nach jedem Update gecustomized Sachen manuell anzupassen. Gibt es dazu:

  1. Überlegungen?
  2. Konzepte?
  3. Lösungen?

Statistik: Verfasst von flegno — So Sep 07, 2014 7:41 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 20:48:17

ui, man kann offenbar tatsächlich in Java für Windows einen Standard-Ton abspielen, nicht aber auf dem Mac (oder sonstwo). Was überall geht ist ein \‘beep()\’ was angeblich einen \‘buzzer auf dem Motherboard\’ auslöst. Beides irgendwie doof. Ich würde auch eher was \‘spezielles\’ nehmen wollen, etwas das man zwar ändern kann aber nicht mit den OS-Tönen verwechselt werden kann. Also eine wav-Datei im Release, die jeder ändern/austauschen kann.

Statistik: Verfasst von Orbiter — So Sep 07, 2014 7:48 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-07 20:55:09

Orbiter hat geschrieben:\ Beides irgendwie doof. Ich würde auch eher was \'spezielles\' nehmen wollen, etwas das man zwar ändern kann aber nicht mit den OS-Tönen verwechselt werden kann.\

muss aber GPL-compatibel sein :? .

Statistik: Verfasst von flegno — So Sep 07, 2014 7:55 pm


YaCy Coding & Architektur • Re: Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-08 00:52:32

ja. alles im Applikationsverzeichnis kann bei Releaseupdates überschrieben werden aber nie das, was in DATA ist.
Wenn du etwas in htroot ändern willst, gibt es dazu ein Kozept: in DATA/HTDOCS ist ein mirror von htroot, alles was du in htroot ändern willst kannst du in HTDOCS einstellen und alles was in HTDOCS ist, überblendet die entsprechende Datei in htroot.

Statistik: Verfasst von Orbiter — So Sep 07, 2014 11:52 pm


Fragen und Antworten • Bug#460: wrong link at \“System Administration\“-menu

Date: 2014-09-08 05:47:53

Hallo,

ist es eine planmäßige Umsortierung von YaCy-Menüpunkten in der Version 1.739342? Habe hier #460: wrong link at \“System Administration\“-menu{.postlink} einen Bugreport erstellt. Auf dem Screenshot im Anhang habe ich noch ein Paar Änderungen - nicht alle, die ich entdeckt habe - dokumentiert. Jede® kann ja selbst vorher/nachher vergleichen.

Statistik: Verfasst von flegno — Mo Sep 08, 2014 4:47 am


YaCy Coding & Architektur • Re: Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-08 06:06:31

Orbiter hat geschrieben:\ Wenn du etwas in htroot ändern willst, gibt es dazu ein Kozept: in DATA/HTDOCS ist ein mirror von htroot, alles was du in htroot ändern willst kannst du in HTDOCS einstellen und alles was in HTDOCS ist, überblendet die entsprechende Datei in htroot.\


Meinst du evtl. DATA\[[LOCALE]{style=“color: #FF0000”}\htroot]{style=“font-style: italic”}? In HTDOCS sehe ich nur ein www-Verzeichnis.

Statistik: Verfasst von flegno — Mo Sep 08, 2014 5:06 am


YaCy Coding & Architektur • Re: Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-08 06:24:11

Orbiter hat geschrieben:\ ja. alles im Applikationsverzeichnis kann bei Releaseupdates überschrieben werden aber nie das, was in DATA ist.\


Ich schlage vor, dass die Inline-Bilder wie das in der Datei [/Steering.html]{style=“font-style: italic”}, in ein separates Template ausgelagert und mit

Code:
#%env/templates/inline_img_xyz.template%#


in entsprechenden Dateien eingebunden werden. Ich nehme an, nur so eine oder ähnlich gestrickte Lösung/Konzept gewährleisten können, dass:

  1. die Darstellung und Logik sauber getrennt sind
  2. die customized Inhalte beim Update nicht überschrieben werden.

Statistik: Verfasst von flegno — Mo Sep 08, 2014 5:24 am


YaCy Coding & Architektur • Re: Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-08 09:56:25

flegno hat geschrieben:\ >
> > Orbiter hat geschrieben:Wenn du etwas in htroot ändern willst, gibt > es dazu ein Kozept: in DATA/HTDOCS ist ein mirror von htroot, alles > was du in htroot ändern willst kannst du in HTDOCS einstellen und > alles was in HTDOCS ist, überblendet die entsprechende Datei in > htroot.\ > >


Meinst du evtl. DATA\[[LOCALE]{style=“color: #FF0000”}\htroot]{style=“font-style: italic”}? In HTDOCS sehe ich nur ein www-Verzeichnis.


nee. HTDOCS, wie ich geschrieben habe. Das da nicht mehr als www drin steht heisst nichts. probier es aus!

Statistik: Verfasst von Orbiter — Mo Sep 08, 2014 8:56 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-08 10:00:20

wie (bereits anderwo) gesagt: wenn ich eine Entwicklungsumgebung in einem IPv6 Netz hätte, könnte ich hier mehr als nur \‘blind\’ entwickeln. Hier hilft alles schreiben nicht: jemand (anderes) der/die eine IPv6 Umgebung hat muss da herumtracen und Bugs fixen!

Statistik: Verfasst von Orbiter — Mo Sep 08, 2014 9:00 am


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-09-08 10:06:18

zu den Vorträgen: wer Material dazu braucht bekommt das gerne von mir, habe da aber nur Apple Keynote Dokumente als Quelle für meine Vorträge. Wer sich nur Grafiken \‘klauen\’ möchte, darf das gerne tun. Die PDFs von älteren Vorträgen sind auch in der YaCy Sitemap{.postlink} verlinkt, bitte dort einfach die pdf-Links rausfischen. Copyright sollte durch die eingeprägten CC-Icons geregelt sein (meistens CC-BY-SA).

Statistik: Verfasst von Orbiter — Mo Sep 08, 2014 9:06 am


YaCy Coding & Architektur • Re: Wunsch: übernahme von gecustomized Inhalten beim Update

Date: 2014-09-08 11:54:11

Orbiter hat geschrieben:\ nee. HTDOCS, wie ich geschrieben habe. Das da nicht mehr als www drin steht heisst nichts. probier es aus!\

  1. Ist es korrekt, dass [HTDOCS]{style=“color: #008000”} in diesem Kontext sowas wie ein Alias, Synonym für [htroot]{style=“color: #FF0000”} ist? Ich kapiere momentan nicht, welches Verzeichnis das Mirror beherbergt, also das Elternverzeichnis für das Mirrorverzeichnis ist.
  2. was meinst du zu diesem Vorschlag

    Code:

    #%env/templates/inline_img_xyz.template%#

    ?
    Details - s. oben im Posting Mo Sep 08, 2014 6:24 am.

Statistik: Verfasst von flegno — Mo Sep 08, 2014 10:54 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-08 12:25:33

Hallo,

Orbiter hat geschrieben:\ wie (bereits anderwo) gesagt: wenn ich eine Entwicklungsumgebung in einem IPv6 Netz hätte, könnte ich hier mehr als nur \'blind\' entwickeln.\

Okay, diesen Part würde ich gerne übernehmen, ich verfüge über alle erforderlichen Mittel.

Orbiter hat geschrieben:\ Hier hilft alles schreiben nicht: jemand (anderes) der/die eine IPv6 Umgebung hat muss da herumtracen und Bugs fixen!\

Es geht nicht ums fixen von Bugs. Es ist nicht so das es in YaCy Code gäbe der IPv6 explizit verhindern würde sondern es fehlt Code der die für IPv6 erforderlichen Features zur Verfügung stellt! Das mit den fehlenden Klammern ist zwar ein Bug und vielleicht gibt es von der Sorte noch ein paar Problemchen im YaCy-Code aber das ist meiner Meinung nach trotzdem nur ein Nebenschauplatz.
Die für IPv6 erforderlichen Features müssen in einer möglichst großen Anzahl an YaCy-Peers vorhanden sein, selbst wenn diese Peers selber noch nicht über IPv6 verfügen, damit es sich lohnt IPv6 in wenigstens ein paar Test-Peers aktiv einzuschalten. Und nur wenn das sauber funktioniert (also alle zwischenzeitlich eventuell gefundenen Bugs gefixt sind) ist es vernünftig IPv6 per Default bei allen Peers anzuschalten, auch wenn es dann gewiss immer noch einige Peers geben dürfte denen keine IPv6-Anbindung zur Verfügung steht aber das soll der YaCy-Code dann selbstständig erkennen.

Um YaCy überhaupt grundsätzlich die zusätzliche Nutzung von IPv6 zu ermöglichen ist die Unterstützung von Multihoming in allen (oder zumindest den meisten) YaCy-Peers grundlegende Voraussetzung. Das ist aber nicht nur mal ein kleiner Bug-Fix sondern das ist ein tiefgreifender Umbau in einer der zentralen Komponenten von YaCy: dem Peer-to-Peer-Netzwerk-Management.
So einen Umbau würde ich auf jeden Fall nur dann anfangen wenn ich sicher bin das die Maintainer da auch wirklich dahinter stehen, nebst dessen das an gewissen Punkten der neue Code auch in die offiziell veröffentlichten YaCy-Versionen einfließen muss damit es sich lohnt den nächsten Schritt anzufangen.

So wie YaCy derzeit aufgebaut ist ist eine Nutzung von IPv6 zwar theoretisch möglich (falls nicht doch noch irgendwo ein subtiler Bug drin steckt) würde aber bedeuten dass das YaCy-Netzwerk in zwei komplett getrennte Welten aufgespalten würde und das ist doch sicher nicht das Ziel der Sache.

Ich bin bereit die nötige Weiterentwicklung von YaCy anzugehen aber ich möchte dafür Rückendeckung durch die Maintainer!
Über meine Ideen wie das konkret zu bewerkstelligen ist sollten wir auch vorher diskutiert haben.
Die Unterstützung von Multihoming ist insgesamt keine Kleinigkeit sondern eine Menge Arbeit die auch einige sehr zentrale Stellen von YaCy nachhaltig berühren wird und das werde ich nicht machen wenn es nicht wirklich gewollt ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 08, 2014 11:25 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-08 14:51:36

Das hier ist der komplette ServerLog-Auszug nach Crawl-Start:

[W 2014/09/08 14:45:37 org.eclipse.jetty.servlet.ServletHandler /Crawler_p.html javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982) at org.eclipse.jetty.server.AbstractHttpConnection\$RequestHandler.content(AbstractHttpConnection.java:1043) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667) at org.eclipse.jetty.io.nio.SelectChannelEndPoint\$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:745)

I 2014/09/08 01:08:01 SWITCHBOARD cleanup post-processed 0 documents

W 2014/09/08 14:45:37 org.eclipse.jetty.servlet.ServletHandler javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982) at org.eclipse.jetty.server.AbstractHttpConnection\$RequestHandler.content(AbstractHttpConnection.java:1043) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667) at org.eclipse.jetty.io.nio.SelectChannelEndPoint\$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:745)

I 2014/09/08 14:45:37 Heap clearing heap /usr/home/bqvkgx/yacy/yacy/DATA/WORK/robots.bheap

I 2014/09/08 14:45:37 Crawl Start deleteold=off&obeyHtmlRobotsNoindex=on&range=wide&recrawl=nodoubles&collection=TEST&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=www.orf.at&bookmarkTitle=news.ORF.at&agentName=YaCy%20Internet%20(cautious)&countryMustMatchSwitch=0&crawlingstart=1&crawlingDepth=0]{style=“font-style: italic”}

Lässt sich daraus mehr ablesen?

Statistik: Verfasst von hotel24 — Mo Sep 08, 2014 1:51 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-08 17:42:51

hab cc0-Sounds hier gefunden, wie wären folgende:
für Suchanfragen aus dem p2p Netz: https://www.freesound.org/people/GameAu ... ds/220173/{.postlink}
für jede Seite die der Crawler indexiert: https://www.freesound.org/people/waterb ... ds/191012/{.postlink}
für \‘Control-Room\‘-typische Athmosphäre, z.B. bei der Netzgrafik: https://www.freesound.org/people/Diboz/sounds/211683/
oder bei CPU-lastigen Aktivitäten wie Crawling: https://www.freesound.org/people/cydon/sounds/126178/
für den DHT-Empfang: https://www.freesound.org/people/Kasten ... ds/113986/{.postlink} und beim DHT Senden den Ton rückwärts abspielen.
vielleicht findet ihr da noch mehr, ist aber wie gesagt nur für eine verspielte Form von YaCy gedacht, wenn man das anschaltet.

Statistik: Verfasst von Orbiter — Mo Sep 08, 2014 4:42 pm


Off-Topic • Datenträger entfernt, nach 5 Stunden eingesteckt-YaCy läuft

Date: 2014-09-09 06:25:04

Moin,

YaCy kann absturzresistent sein - ich habe den Datenträger unbeabsichtigt entfernt, nach 5 Stunden eingesteckt - YaCy läuft unbeirrt weiter. In der Zwischenzeit ohne den Datenträger, von dem YaCy gestartet war, war der localhost unerreichbar, aber Respekt.

Statistik: Verfasst von flegno — Di Sep 09, 2014 5:25 am


Fragen und Antworten • Re: Double-Check Queue

Date: 2014-09-09 09:35:38

Hi und Dank für die Reaktion

Es geht um die Domäne http://www.kia.de

Ich habe mal das Logfile von mir angehangen.

Grüße : Athea

Statistik: Verfasst von athea — Di Sep 09, 2014 8:35 am


Off-Topic • Re: verstehe ich nicht - line break im Windows-Notepad

Date: 2014-09-09 11:12:43

Ich kann eben nicht nachschauen, aber da relativ viele Leute, die an YaCy entwickeln oder entwickelt haben, kann ich mir vorstellen, dass die Zeilenumbrüche UNIX-Zeilenumbrüche sind und keine Windows-Zeilenumbrüche.

Mit so einem Tool sollte das zu reparieren sein: http://www.efgh.com/software/unix2dos.htm

Es wäre natürlich gut, wenn das auch im git gefixt werden würde. ich weiß nur nicht, wie man sicher stellen kann, dass die Zeilenumbrüche nicht versehentlich wieder geändert werden.

Statistik: Verfasst von Low012 — Di Sep 09, 2014 10:12 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-09-09 11:14:48

Zeigt nur Google-Ergebnisse an, aber das halbwegs lustig: http://www.masswerk.at/google60/

Statistik: Verfasst von Low012 — Di Sep 09, 2014 10:14 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-09-09 11:23:08

Nicht lustig, aber schön anzuschauen (finde ich): http://dinosaurspen.tumblr.com/

Statistik: Verfasst von Low012 — Di Sep 09, 2014 10:23 am


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-09-09 16:14:49

ich wärme mal diesen Dinosauriertopic auf weil ich eben eine VirtualBox VM zum Download hochgeladen habe und ausprobieren will ob das so einfach überall geht:

http://www.yacy-websearch.net/wiki/inde ... BoxInstall{.postlink}

ich sehe aber schon zwei Probleme, die das machen kann:
- 64bit Host geht wohl nicht überall
- Prozessortypen unterstützen nicht die default-Settings

Bitte testen und Feed-Back geben.

Statistik: Verfasst von Orbiter — Di Sep 09, 2014 3:14 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status in Sounds abbilden

Date: 2014-09-09 17:05:23

Orbiter hat geschrieben:\ hab cc0-Sounds hier gefunden, wie wären folgende:\ \[\...\]\


Habe mir die Sounds angehört, nach meinem Geschmack treffen diese Sounds die zu markierende Ereignisse zutreffend und mein Segen hast du :D. Danke für die Selektierung von passenden Sounds! Ich hätte - genau gesagt habe immer noch - keine Ahnung, wie ich solche Liste recherchieren würde :?: .

Statistik: Verfasst von flegno — Di Sep 09, 2014 4:05 pm


Hilfe für Einsteiger und Anwender • Suchergebnis anzeigen klappt nicht

Date: 2014-09-09 19:09:06

Hallo,

ich habe keine Ahnung, was die \“1\” in der Ergebungsliste bedeutet. Wie kann ich den Treffer ggf. anzeigen?

Statistik: Verfasst von flegno — Di Sep 09, 2014 6:09 pm


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-09-09 20:25:01

english postings in response of https://twitter.com/yacy_search/status/ ... 1241689089{.postlink} are welcome!

Statistik: Verfasst von Orbiter — Di Sep 09, 2014 7:25 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-09 22:03:13

ich hab auch mal vor längerer Zeit mit midi-Soundfiles und einem 8bit Soundgenerator experimentiert, die Idee war, bei jeder indexierter URL eine Note einer Melodie abzuspiegel, z.B. die von Tetris{.postlink}

Statistik: Verfasst von Orbiter — Di Sep 09, 2014 9:03 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-09-09 23:32:17

Hi,

bei mir funktioniert nun das Startskript. Allerdings hat für mich die Anleitung in der yacyInit.readme nicht geklappt, wenn ich die Einträge für die runlevel mit dem ln-Befehl ausgeführt habe.

Diesen musste ich bei mir (Debian Wheezy) durch folgenden Befehl ersetzen:
# update-rc.d yacyInit.sh start 95 2 3 4 5 . stop 05 0 1 6 .
(Dabei auf die beiden Punkte achten!)

Es kam zwar eine Fehlermeldung, dass im Skript die LSB-Tags fehlen, aber die Verknüpfungen zum Skript waren in den entsprechenden runlevels eingetragen, wenn auch mit abweichenden Sequenznummern:
für die Start-Eintage mit S19yacyInit.sh und für die Stop-Einträge mit K01yacyInit.sh
Dennoch funktioniert nun das automatische Starten.

Kann man eigentlich irgendwie überprüfen, ob YaCy beim Runterfahren des Rechners ordentlich gestoppt wird?

Gruss Uhura

Statistik: Verfasst von Uhura — Di Sep 09, 2014 10:32 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-10 09:27:15

Bei mir tritt genau das selbe Problem auf. Nach jeder Neuinstallation fkt. es, beim wiederholten Starten kann Firefox oder Opera keine Vervindung zu http://localhost:8090/index.html herstellen.
Das ist wirklich schade, weil es die dauerhafte Nutzung von Yacy praktisch unmöglich macht.
Falls irgendjemand eine Idee hat, wie das zu lösen ist wäre es sehr gut.
Grüße aus Halle

Statistik: Verfasst von UweF — Mi Sep 10, 2014 8:27 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-10 11:41:02

Hallo Uwe,

willkommen im Forum!
Leider fehlen bei dir die Angaben zum Betriebssystem. Aber unabhängig davon:

  1. tritt der Fehler auch dann auf, wenn du abwartest und versuchst die Adresse [localhost:8090]{style=“font-style: italic”} im Browser eingeben?
  2. wenn 1. nicht hilft, starte [startYACY_debug.bat]{style=“font-style: italic”} in einem zuvor geöffneten DOS-Promt schaue mal, welche Ausgabe kommt und poste die Logdatei ggf. hier
  3. oder du hast bereits was brauchbares in der [DATA\LOG\yacy00.lo]{style=“font-style: italic”}g vom letzten Start?

Gruss, Gustav

Statistik: Verfasst von flegno — Mi Sep 10, 2014 10:41 am


Hilfe für Einsteiger und Anwender • Minus-Zeichen verursacht leere Trefferliste

Date: 2014-09-10 11:50:23

Hallo,

habe mir viewtopic.php?f=5&t=5245{.postlink-local} und Class Pattern{.postlink} angeschaut. Aber ich weiss immer noch nicht, ob das YaCy-Verhalten, wo ein Minus-Zeichen bspw. nach dem Wort \”[Anwalts-]{style=“font-style: italic”}\” dazu führt, dass die Trefferliste leer ist. Kann jemand helfen?

Gruss, flegno

Statistik: Verfasst von flegno — Mi Sep 10, 2014 10:50 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-10 12:39:32

Hallo,

Orbiter hat geschrieben:\ zu 4: für DAUs zu wenig ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green")\

Ich schlage vor, hier dieIP-Adresse anzeigen - zumindest ein wenig Informationsgehalt ;) .

Gruss, fleqno

Statistik: Verfasst von flegno — Mi Sep 10, 2014 11:39 am


Fragen und Antworten • Banner.png

Date: 2014-09-10 17:56:09

Hallo,

im Thread ReOpen - Yacy Banner zeigt negative Zahlen{.postlink} habe ich gesehen, dass es früher Probleme mit dem Banner-Modul gab. In aktuellen Log-Files tauchen massenweise Exceptions auf, die eine Verbindung zu einer nicht existierender Datei Banner.png aufweisen --> Bug#461: javax.servlet.ServletException: YaCy\htroot\Banner.png{.postlink}.

Kann sein, dass eine Bannerklasse aus dem Betrieb gezogen wurde, und nicht alle Abhängigkeiten gekappt wurden? Es wäre hilfreich, wenn die Logfiles von Banner-Exceptions bereinigt werden.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Sep 10, 2014 4:56 pm


Fragen und Antworten • Re: Banner.png

Date: 2014-09-10 19:13:32

kann ich nicht reproduzieren, hast du was geändert?

Statistik: Verfasst von Orbiter — Mi Sep 10, 2014 6:13 pm


Fragen und Antworten • Banner.png-ServletException - Gestartet mit StartYaCy_debug.

Date: 2014-09-11 03:56:53

Orbiter hat geschrieben:\ kann ich nicht reproduzieren, hast du was geändert?\

Wenn du Java-Klassen meinst - Nein. Ich habe jetzt eine YaCy-Instanz am Laufen. Gestartet mit [StartYaCy_debug.bat]{style=“font-weight: bold”}. Und ich habe teilweise die Logs [yacy019.log]{style=“font-style: italic”} und [yacy000.log]{style=“font-style: italic”} durchgesucht - in beiden Logs taucht die Banner-Exception auf. In der [yacy019.log]{style=“font-style: italic”} gibt\’s sogar eine Regelmäßigkeit - mindestens auf 100 Zeilen Logeinträge gibt es eine [javax.servlet.ServletException: YaCy\htroot\Banner.png]{style=“font-style: italic”}. Ich nehme an, diese Regelmäßigkeit zieht sich über alle [yacy019.log]{style=“font-style: italic”} bis [yacy000.log]{style=“font-style: italic”} Logdateien durch.

Statistik: Verfasst von flegno — Do Sep 11, 2014 2:56 am


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-09-11 09:44:47

im neuesten dev Release gibts nun auch ein Shutdown Icon im Tray und die Menüs sind disabled plus Meldung dass der Shutdown läuft.
Um die Euphorie hier bzgl. Sounds ein wenig zu dämpfen: ich muss mich erst mal um andere Dinge kümmern...

Statistik: Verfasst von Orbiter — Do Sep 11, 2014 8:44 am


Off-Topic • yacystats Neuauflage?

Date: 2014-09-11 09:46:15

Hallo,

ich habe die vergangenen Tage einen kleinen YaC-Tracker (eigentlich ein YaCy-Stalker) geschrieben der alle öffentlich erreichbaren YaCy-Peers analysiert. In dem Programm fehlt zwar noch einiges aber es gibt bereits erste interessante Analyse-Ergebnisse:

das trifft aber nur die YaCy-Peers die mindestens Senior-Status haben, Juniors kann ich natürlich nicht direkt kontaktieren so das diese hierbei nicht auftauchen.

Der Grund dafür das ich dieses Tool überhaupt angefangen habe ist das ich den Peer-to-Peer-Mechanismus gerne besser verstehen möchte und nichts ist besser als \“learning by doing\“, darüber hinaus soll dieses Tool einen UDP-Socket auf Port 53 bekommen und als DNS-Server für die beiden Top-Level-Domains .yacy und .yacyh arbeiten.

Neben den für mich wichtigen Gründen kann dieses Tool aber sicher auch wertvolle Statistiken und Analysen über das YaCy-Netzwerk ermitteln und diese Ergebnisse möchte ich mit Euch Teilen.
Ich hätte dazu gerne möglichst zahlreiche Antworten ob sowas gewünscht ist und falls ja was für Informationen für Euch interessant wären.

Ich habe z.B. vor zu jeder IP-Adresse den Standort zu ermitteln, zumindest auf Länderebene, um daraus eine Statistik über die weltweite Verteilung von YaCy generieren zu können. Die IP-Adressen selber will ich aber definitiv nicht publizieren.

Ich habe zwar Web-Space auf dem ich diese Statistiken regelmäßig (z.B. einmal pro Stunde) hochladen kann aber da die meisten sicher keine nackten Text-Dateien lesen sondern lieber nette Graphiken sehen wollen könnte ich Hilfe gebrauchen, z.B. von jemanden der sich mit PHP auskennt, um daraus auch wirklich eine ansprechende Web-Site zu machen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 11, 2014 8:46 am


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-09-11 09:55:49

YaCy legt beim Start eine Datei an und löscht sie beim Beenden wieder. Die Datei liegt im DATA-Ordner und heißt \“yacy.running\“. Der Inhalt der der Datei ist die Prozess-ID.

Wenn die Datei existiert und du weißt, dass YaCy eigentlich nicht laufen dürfte, weißt du, dass YaCy beim letzten Mal nicht ordentlich gestoppt wurde.

Statistik: Verfasst von Low012 — Do Sep 11, 2014 8:55 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-11 10:12:59

Erik\_S hat geschrieben:\ Ich hätte dazu gerne möglichst zahlreiche Antworten ob sowas gewünscht ist und falls ja was für Informationen für Euch interessant wären.\

Ja

Erik\_S hat geschrieben:\ Ich habe z.B. vor zu jeder IP-Adresse den Standort zu ermitteln, zumindest auf Länderebene, um daraus eine Statistik über die weltweite Verteilung von YaCy generieren zu können. Die IP-Adressen selber will ich aber definitiv nicht publizieren.\ \ Ich habe zwar Web-Space auf dem ich diese Statistiken regelmäßig (z.B. einmal pro Stunde) hochladen kann aber da die meisten sicher keine nackten Text-Dateien lesen sondern lieber nette Graphiken sehen wollen könnte ich Hilfe gebrauchen, z.B. von jemanden der sich mit PHP auskennt, um daraus auch wirklich eine ansprechende Web-Site zu machen.\


Das klingt spannend :). Mir schwebt hier eine Lösung vor, die dafür sorgt, dass die Standort-Statistiken auf der OpenStreetmap abgebildet werden. Ich recherchiere und melde mich hier demnächst dazu, wie die Schnittstelle aussieht bzw. in welchem Format müssen Daten für so eine Visualisierung vorliegen.

Gruss, Gustav

Statistik: Verfasst von flegno — Do Sep 11, 2014 9:12 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-11 15:38:20

Hallo,

flegno hat geschrieben:\ Ja\

Okay, und was willst Du alles sehen? Wie detailliert sollten Deiner Meinung nach einzelne Peers getrackt bzw. gestalkt werden?

Für IP-GeoLocation hab ich http://dev.maxmind.com/geoip/legacy/geolite/ bzw. http://dev.maxmind.com/geoip/geoip2/geolite2/ gefunden, ist immerhin frei verfügbar. Also wenn OpenStreetmap mit Längengrad/Breitengrad umgehen kann dann passt das. GeoLocation hat für mich aber momentan nicht die höchste Priorität, erstmal will ich dass das Tracken möglichst gut funktioniert und ich präzise Aussagen über das Verhalten des Peer-to-Peer-Netzwerks ansich bekomme.

Andere Wünsche oder Vorstellungen zu diesem Thema?

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 11, 2014 2:38 pm


YaCy Coding & Architektur • YaCyBar Maintainer

Date: 2014-09-11 15:40:05

wer würde gerne nochmal was an der YaCybar machen wollen oder wer hat da zuletzt was dran gemacht?
Das Problem ist, dass in https://addons.mozilla.org/de/firefox/a ... ybar-6344/{.postlink} steht: \“not available for firefox 31.0\” . Kann da nochmal jemand drauf gucken? Ich würde gerne ein Tutorialvideo machen und die YaCyBar da einbeziehen.

Statistik: Verfasst von Orbiter — Do Sep 11, 2014 2:40 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-11 17:14:22

Ich habe festgestellt, dass auf der Seite /CrawlStartExpert.html beim Punkt \“Von Datei (Verwende Pfad einer Dateiauf dem lokalen Dateisystem)\” der Radiobutton zwar auswählbar ist, aber das nebenliegende Textfeld nicht beschreibbar ist. Also man kann mit dem Cursor nicht hineinklicken. Dazu habe ich testweise eine zweite frische YaCy-Installation vorgenommen (YaCy version 1.729000), dort ist das gleiche Problem.

Hängt mein beschriebenes Problem bzgl. \“HTTP ERROR 500 - /Crawler_p.html\” evtl. mit dieser Situation zusammen? Denn ich übergebe YaCy via Bashscript Files mit URLs. Und wenn diese Funktion beschädigt ist, wäre das ein Grund für den Absturz.

Danke für die Unterstützung!

Statistik: Verfasst von hotel24 — Do Sep 11, 2014 4:14 pm


Wunschliste • Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-12 05:22:25

Hallo,

vlt. gibt\’s noch mehr Interessente für dieses Feature. Ich habe mich gegen die Lösung mit einem dynDNS-Provider entschieden - weil ich\’s suboptimal empfinde, wenn das YaCy-Projekt lediglich als Subdomain bei einem x-beliebigen dynDNS-Provider adressiert wird. Verschenkte Chance halt, eigene Domain bekannter zu machen.

Jetzt ist die Konsequenz, dass ich manuell die IP-Adresse ändere, sobald ich mitbekomme, dass die IP-Adresse meines Routers sich geändert hat. Keine Ahnung, ob die Telekom die IP-Adresse zu bestimmten Zeiten ändert. Ich habe das Gefühl, das passiert so morgens um 6:00 oder 7:00 Uhr. Unabhängig davon würde ich mir eine E-Mail an den Admin wünschen, sobald sich die YaCy-IP-Adresse geändert hat. Ein Tooltip im Trayicon wäre auch nett.
Es gibt zwar Lösungen, die mir erlauben, auf meinem Webspace eigene dynDNS-Auflösung zu realisieren, ich habe aber im Moment keine Zeit dafür, das umzusetzen. Wenn jemand eine out-of-the-box \“dynDNS-Auflösung in Eigenregie\” hat, dann her damit ;-).

Statistik: Verfasst von flegno — Fr Sep 12, 2014 4:22 am


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2014-09-12 08:24:56

Hallo Low012,
danke für die Info
Gruss Uhura

Statistik: Verfasst von Uhura — Fr Sep 12, 2014 7:24 am


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-12 15:32:06

hm, ich könnte mir vorstellen so etwas auch gebrauchen zu können. Das darf natürlich keine manuelle Komponente haben, daher kann dies hier nichts mit dem Trayicon zu tun haben.

Ich stelle mir das so vor, dass man eine Template-Datei irgendwo in DATA ablegt, wo über ein Pattern (z.B. \”#[myip]#\“) die aktuelle öffentliche YaCy-Adresse reingeschrieben wird und das dann per FTP irgendwohin (zu deinem Webspace) geladen wird, wo es dann zur Verknüpfung mit deinem Peer genutzt wird.

Auf die Art könnte man z.B. ein Suchportal mit https://gitorious.org/yacy/searchpage_template_yaml4/ betreiben, da gibt es die model.js Datei wo die Serveradresse drin steht. Die Datei wäre dann Kandidat für ein automatisches Upload.

Wir haben ja schon etwas ähnliches um principal-Peers zu generieren, die machen ja einen Seedlist-Upload. Analog ginge das hier dann.

Statistik: Verfasst von Orbiter — Fr Sep 12, 2014 2:32 pm


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-12 16:26:58

Hallo,

eine Möglichkeit wäre ein kleines PHP/Phyton/sonstwas-Script auf einem beliebigen Web-Space das in der Lage ist den HTTP-Code 307 mit der Adresse vom gewünschten YaCy-Peer zurückzumelden. Dazu müsste YaCy (oder irgendein anderer Dienst im lokalem Netzwerk) nur den Wechsel der öffentlichen IP-Adresse erkennen und das in eine kleine Extra-Datei auf dem Web-Space hochladen (in der selben Art wie derzeit der Seed-Upload in YaCy funktioniert). Das Script nimmt dann immer diese IP-Adresse + Port-Nummer aus der kleinen Extra-Datei um den Location-Header in der 307-Antwort zu befüllen. Damit wäre dann YaCy immer unter z.B. \“example.com/yacy.php\” erreichbar und der User bräuchte weder eine IP-Adresse zu ermitteln noch sich eine Port-Nummer zu merken.
Der einzigste Nachteil dieser Lösung ist dass das nur mit Browsern (also HTTP-Clients) funktioniert, alles andere was es sonst noch so gibt hat von dieser Lösung nicht viel.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 12, 2014 3:26 pm


Fragen und Antworten • Handlungsbedarf: Client can\’t execute: Connection timed out

Date: 2014-09-13 07:36:55

Hallo,

beim Aufruf dieser Adresse http://www.gimpforum.de/ im Browser mit Jetty-Proxy wurde diese Meldung eingeblendet

Code:
Ops!Message: Client can't execute: Connection timed out: connect duration=21016java.io.IOException: Client can't execute: Connection timed out: connect duration=21016   at net.yacy.cora.protocol.http.HTTPClient.execute(HTTPClient.java:717)   at net.yacy.cora.protocol.http.HTTPClient.GET(HTTPClient.java:417)   at net.yacy.http.ProxyHandler.handleRemote(ProxyHandler.java:160)   at net.yacy.http.AbstractRemoteHandler.handle(AbstractRemoteHandler.java:143)   at org.eclipse.jetty.server.handler.HandlerList.handle(HandlerList.java:52)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1063)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:485)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:290)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:540)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:606)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:535)   at java.lang.Thread.run(Unknown Source)


Was mich stützig macht, dass es die gleiche Meldung ist, die ich im Fehlerbericht #445: Client can\’t execute: Connection refused:{.postlink} zitiert habe. Im Bug#445{.postlink} habe ich angenommen, dass der Fehler durch den dynDNS-Server verursacht wurde. Es kann durchaus sein, dass dem so ist, weil der Fehler mit diesem dynDNS-Provider zuverlässig nachvollziehbar ist.

Jetzt stelle ich fest, dass auch beim Laden einer normalen Webseite, ich wiederhole - hier ist es die Website http://www.gimpforum.de/ gewesen - so eine für einen Durchschnitts-Anwender ziemlich abschreckende Fehlermeldung generiert wurde. Ich konnte den Fehler nicht reproduzieren. Aber unabhängig davon - wenn mit dem YaCy-Proxy der Zugang zu normalen Webseiten mit der obenzitierten Fehlermeldung blockiert wird, dann sehe ich einen [[dringenden Handlungsbedarf]{style=“font-weight: bold”}]{style=“color: #FF0000”}:

  1. der YaCy-Code muss so angepasst werden, damit die Stelle in Logfiles, die der oben zitierten Fehlermeldung entspricht, gefunden werden kann - die Fehlermeldung selbst muss mit einem [Zeitstempel]{style=“color: #FF0000”} versehen werden - ist schnell zu erledigen, das habe ich als Bugreport Bugreport #469{.postlink} erfasst. übrigensichhabedie Fehlermeldungselbstin Logfilsnicht gefunden. Aberichhabedie Logfiles gesichert. Wer Interesse/Bedarf hat - einfach fragen.
  2. die Fehlermeldung muss mit [Hinweisen für den Anwender]{style=“color: #FF0000”} ausgestattet werden. Welche Hinweise es sind, hängt davon ab, was die Recherchen für die Fehlerursachen ggf. bringen
  3. es ist zu klären, was die [Ursache für die Bugs]{style=“color: #FF0000”} #445{.postlink} und #468{.postlink} bzw. ob die beiden Fehler die gleiche Ursache haben.

Es ist unglaubwürdig, zu behaupten, dass YaCy für die Benutzung für einen Durchschnitts-Anwender ausgereift ist, wo der Zugang zu einzelnen Webseiten aus unerklärlichen Gründen derart blockiert wird, wenn der YaCy-Proxy aktiviert ist. Zumindest hätte ich so meine Probleme, potenzielle YaCy-Interessenten für YaCy zu gewinnen, wenn YaCy auch weiterhin durch so ein Verhalten die User abschreckt bzw. scheinbar willkürlich bestimmte Webseiten blockiert.

Statistik: Verfasst von flegno — Sa Sep 13, 2014 6:36 am


Wunschliste • YaCy-dynDNS-Service - Verbesserungsvorschläge sind gefragt

Date: 2014-09-13 10:05:28

Hallo,

[[YaCy-dynDNS-Service]{style=“font-weight: bold”}]{style=“color: #008040”}
in [1] Nachricht an Admin bei der Änderung der IP-Adresse{.postlink} habe ich eine YaCy-dynDNS-Lösung beschrieben - quick und dirty. Wenn diese verbesserte oder ganz andere Lösung mit der gleichen Funktionalität auch dafür sorgen, dass statt der IP-Adresse wie in [1] die ursprünglich eingegebene Adresse [subdomain.domain.de]{style=“font-style: italic”} angezeigt wird, dann sind YaCy-Anwender in der Lage, sich ein YaCy-dynDNS-Service einzurichten - ohne Zusatzkosten. Vorausgesetzt, man hat ein Webspace mit der benötigten Funktionalität (htaccess, PHP usw.). Also wäre dann ggf. noch ein Feature, womit YaCy punkten könnte :) .

Gruss, fegno

Statistik: Verfasst von flegno — Sa Sep 13, 2014 9:05 am


Wunschliste • Re: YaCy-dynDNS-Service

Date: 2014-09-13 10:06:29

Orbiter hat geschrieben:\ Ich stelle mir das so vor, dass man eine Template-Datei irgendwo in DATA ablegt, wo über ein Pattern (z.B. \"\#\[myip\]\#\") die aktuelle öffentliche YaCy-Adresse reingeschrieben wird und das dann per FTP irgendwohin (zu deinem Webspace) geladen wird, wo es dann zur Verknüpfung mit deinem Peer genutzt wird.\
Erik\_S hat geschrieben:\ eine Möglichkeit wäre ein kleines PHP/Phyton/sonstwas-Script auf einem beliebigen Web-Space das in der Lage ist den HTTP-Code 307 mit der Adresse vom gewünschten YaCy-Peer zurückzumelden.\

Wenn der WebSpace mit [.htaccess]{style=“font-style: italic”} umgehen kann, k.m. sich das Skripting und somit eine zusätzliches Sicherheitsrisiko sparen.

Erik\_S hat geschrieben:\ Dazu müsste YaCy (oder irgendein anderer Dienst im lokalem Netzwerk) nur den Wechsel der öffentlichen IP-Adresse erkennen und das in eine kleine Extra-Datei auf dem Web-Space hochladen (in der selben Art wie derzeit der Seed-Upload in YaCy funktioniert). Das Script nimmt dann immer diese IP-Adresse + Port-Nummer aus der kleinen Extra-Datei um den Location-Header in der 307-Antwort zu befüllen. Damit wäre dann YaCy immer unter z.B. \"example.com/yacy.php\" erreichbar\


Wenn mit dem YaCy-Upload auf dem WebSpace als Extra-Template-Datei gleich eine [.htaccess]{style=“font-style: italic”} mit diesem Inhalt

Code:
RewriteEngine OnRewriteCond  %{HTTP_HOST} subdomain.domain.de           [NC]RewriteRule   ^(.*)$ http://myip:myport [R=307,QSA,L]

gespeichert wird, dann ist dafür gesorgt, dass dem Client die aktuelle YaCy-IP-Adresse präsentiert wird. Das habe ich getestet (erfolgreich ;)).

In diesem Zusammenhang meine Fragen:

  1. was ist die Voraussetzung, damit mir als Anwender die Funktionalität \“mit YaCy die.htaccess-Datei für dynDNS aktualisieren\” zur Verfügung steht?
  2. wer kann diese Funktionalität realisieren?
  3. welche Sicherheitsrisiken birgt evtl. diese Lösung?

Würde mir diese Funktionalität zur Verfügung stehen, hätte ich täglich eine Aufgabe weniger und die Erreichbarkeit meiner YaCy-Instanz für die externe Anwender, die darauf mit http://yacy.sprechrun.de oder http://tiggohs.sprechrun.de zugreifen, würde sich verbessern.

Erik\_S hat geschrieben:\ Der einzigste Nachteil dieser Lösung ist dass das nur mit Browsern (also HTTP-Clients) funktioniert, alles andere was es sonst noch so gibt hat von dieser Lösung nicht viel.\

An welche Anwendungen außer dem Browser denkst du dabei? SSH?

Gruss, Gustav

Statistik: Verfasst von flegno — Sa Sep 13, 2014 9:06 am


Fragen und Antworten • Re: Handlungsbedarf: Client can\’t execute: Connection timed

Date: 2014-09-13 11:08:59

Hallo,

flegno hat geschrieben:\ Code: : `Message: Client can't execute: Connection timed out: connect duration=21016` \

Also für mich klingt das so als hätte die Verbindung zum Ziel-Host (vermutlich gimpforum.de aber es könnte auch ein anderer Host sein der vom GimpForum mit eingebunden wird, z.B. googleanalytics.com oder etwas ähnliches) wegen einem TimeOut nicht geklappt, auf den ersten Blick kann ich nicht erkennen warum daran YaCy schuld sein soll oder warum das auf einen Bug in YaCy hindeuten soll. Der Rest der Fehlermeldung ist ein Stack-Trace und der zeigt normalerweise relativ exakt wo im Code das Problem ist.
Hast Du die Seite auch mal ohne den YaCy-Proxy probiert?

Das einzigste was ich dabei nicht verstehe ist warum das mit einer Exception behandelt wird. Wäre es nicht besser an den Browser die korrekte Fehlermeldung zurückzuliefern anstatt damit das Log-File zu behelligen? Und wenn schon ein Log-Eintrag dann sollte Host-Name, IP-Adresse und Port-Nummer mit dabei stehen (diese Infos müssen für den Verbindungsaufbau ja vorhanden sein also sollten sie sich auch in die Fehlermeldung mit einbauen lassen ohne weitere Exceptions riskieren zu müssen), damit der User an YaCy vorbei testen kann ob der Ziel-Host tatsächlich nicht funktioniert.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 13, 2014 10:08 am


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-13 11:15:58

ich habe eben eine einfach Lösung für das Thema eingecheckt, welches jeder aber mit einem Script oder anderen Techniken (Windows??) umgeben muss um die eigene IP zu lesen und weiterzuverarbeiten:

- die API http://www.yacy-websuche.de/wiki/index. ... PIseedlist{.postlink} wird benutzt
- es gibt eine Ausprägung als XML nun
- man kann die Seite mit http://localhost:8090/yacy/seedlist.xml?my= aufrufen und bekommt dann den eigenen Seed angezeigt
- Ein Teil vom Seed is die Public IP, welche unter IP steht
- eine Beispielfilterung nach der IP gibt es nun im Script unter bin/myip.sh; wenn man das aufruft macht das:

Code:
#!/usr/bin/env bashcd "`dirname $0`"./apicall.sh "/yacy/seedlist.xml?my=" | awk '/<IP>/{ gsub("<IP>","" );gsub("<\/IP>","" ); print $0 }' | awk '{print $1}';


.. und das wäre das, was man unter Windows auch als Script umsetzen müsste um sich die eigene IP rauszufischen. Bitte hier selber aktiv werden, ich kann das nicht für Windows...

Statistik: Verfasst von Orbiter — Sa Sep 13, 2014 10:15 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-13 11:38:33

Hallo,

nur ein einziger Interessent?
Schade.

Hat niemand etwas zu den Infos zu schreiben die ich bereits über das Peer-to-Peer-Verhalten von YaCy herausgefunden hab?
In einem Testlauf vergangene Nacht wurden gut 1400 YaCy-Peers gefunden (Juniors wurden natürlich wieder komplett ignoriert, also das gesamte YaCy-Netz ist sicher deutlich größer) von denen aber nur gut 20% tatsächlich ansprechbar waren. Entweder waren die IP-Adressen schon stark veraltet oder es gibt einen anderen Grund dafür, das will ich dieses Wochenende genauer analysieren. Auch möchte ich dieses Wochenende noch eine echte Beziehungsanalyse implementieren, ich möchte dazu zufällige Paare die sich gegenseitig kennen (also wo beide den jeweils anderen in der eigenen Seed-Liste aufführen) ermitteln und dann beide Seed-Listen verodern (ohne Dupletten) und prüfen wie viele Peers in beiden Seed-Listen auftauchen. Falls das ein hoher Prozentwert ist bedeutet dass das die YaCy-Peers tatsächlich primär im eigenen Bekanntenkreis bleiben was auf eine Bildung von Teil-Wolken hinausläuft die jeweils nur über wenige Peers miteinander verbunden sind, so ein Verhalten hat das Problem das beim plötzlichen Verlust der wenigen Verbindungs-Peers (wenn diese z.B. plötzlich Offline gehen) das Netz in mehrere Teilnetze zerbrechen könnte. Ich hoffe das ich dazu spätestens Montag oder Dienstag mehr schreiben kann.

Des weiteren hat mein Tracker eine Reihe an Kollisionen gefunden, also Peers die zwar identischen Namen aber verschiedene Hashs oder identische Hashs aber verschiedene Namen haben. Ein paar dieser Kollisionen bin ich händisch nachgegangen und einige laufen wohl darauf hinaus das der Peer einfach unbenannt wurde (bei identischen Hashs) oder der Peer vermutlich neu installiert wurde (bei identischen Namen) aber mir fehlt noch die passende Idee wie ich das per Programm-Code ermitteln soll damit das Tracker-Programm automatisch eine Entscheidung treffen kann wie mit den Kollisionen individuell zu verfahren ist. Doppelte Peers möchte ich nicht in meiner Datenbank haben, das macht auch für den Zweck als DNS-Server keinen Sinn. Gibt es zu diesem Problem Vorschläge?

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 13, 2014 10:38 am


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-13 12:02:12

Hallo,

Orbiter hat geschrieben:\ man kann die Seite mit aufrufen und bekommt dann den eigenen Seed angezeigt\

Sollte da nicht me anstatt my als URI-Parameter stehen? Zumindest sagt das die API-Doku.
Ansonsten find ich die Lösung gut. Wobei es natürlich auch nett wäre wenn das alles mitsamt dem UpLoad gleich in YaCy integriert wäre, der nötige Code ist doch bereits größtenteils vorhanden.

flegno hat geschrieben:\ An welche Anwendungen außer dem Browser denkst du dabei?\

Ich dachte es ging Dir um eine allgemein nutzbare Alternative für die DynDNS-Dienste aber wenn es Dir wirklich nur um das YaCy-Suchportal geht dann ist Deine Idee völlig ausreichend. Dass das auch nur mit .htaccess geht wusste ich nicht, find ich aber cool.

Mit den Features vom Orbiter sollte es problemlos möglich sein eine neue .htaccess per Script zusammen zubauen, dabei aber nicht die Port-Nummer vergessen die ebenfalls im Seed mit enthalten ist, und dann musst Du diese nur noch uploaden.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 13, 2014 11:02 am


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-13 12:27:15

Orbiter hat geschrieben:\ .. und das wäre das, was man unter Windows auch als Script umsetzen müsste um sich die eigene IP rauszufischen. Bitte hier selber aktiv werden, ich kann das nicht für Windows\...\


[Es wäre schön das hier zu realisieren:]{style=“font-style: italic”}

  1. in der Admin-Oberfläche oder in der \DATA\SETTINGS\[yacy.conf]{style=“font-style: italic”} eine Möglichkeit anzubieten ein bzw. mehrere URL-Werte ([URLYZ]{style=“font-style: italic”} auf dem [ServerXY]{style=“font-style: italic”}) einzutragen
  2. YaCy ruft diese URL\’s regelmäßig bspw. jede Minute auf
  3. so bekomme ich als YaCy-Anwender [plattformunabhängig]{style=“font-style: italic”} die Möglichkeit, die IP-Adresse des YaCy-Servers auf dem ServerXY auszulesen. Bsp. mit

    Code:

    echo $_SERVER['REMOTE_ADDR'];

    in der [ServerXY/URLYZ/myip.php]{style=“color: #008000”} kann ich mit PHP die IP-Adresse vom YaCy-Server auslesen

  4. > > Erik\_S hat geschrieben:\ > Mit den Features vom Orbiter sollte es problemlos möglich sein > eine neue .htaccess per Script zusammen zubauen, dabei aber nicht > die Port-Nummer vergessen die ebenfalls im Seed mit enthalten ist, > und dann musst Du diese nur noch uploaden.\ > >

    die Aufgabe [\“den Wert YaCy-IP-Adresse auf den ServerXY) uploaden\“]{style=“font-style: italic”} entfällt. Man kann die Port-Nr. als Konstante auf dem ServerXY festlegen - wird sich nicht zu oft ändern mMn.

Statistik: Verfasst von flegno — Sa Sep 13, 2014 11:27 am


Wunschliste • Re: Nachricht an Admin bei der Änderung der IP-Adresse

Date: 2014-09-13 15:09:57

Erik\_S hat geschrieben:\ Hallo,\ >
> > Orbiter hat geschrieben:man kann die Seite mit > aufrufen und bekommt > dann den eigenen Seed angezeigt\ > >

Sollte da nicht me anstatt my als URI-Parameter stehen? Zumindest sagt das die API-Doku.


Die API-Doku war noch nicht angepasst, ist sie aber jetzt.

Ich glaube weitere Anpassungen in YaCy dazu verwerfe ich jetzt, man kann ja alles notwendige nun über Scripte ausserhalb machen, z.B.:

Code:
Uriel-2:rc1 admin$ echo Meine IP ist `bin/myip.sh`, den Port muss ich dort nicht abfragen weil ich den ja weiss.Meine IP ist 92.227.207.123, den Port muss ich dort nicht abfragen weil ich den ja weiss.Uriel-2:rc1 admin$

Statistik: Verfasst von Orbiter — Sa Sep 13, 2014 2:09 pm


Fragen und Antworten • Re: Double-Check Queue

Date: 2014-09-13 16:10:42

Sehe ich das richtig, dass du den Crawl so eingestellt hast, dass nur Seiten von \“kia.de\” akzeptiert werden? Weil dann würde es ja Sinn machen, dass es nicht funktioniert, da die Domain kia.de ja nur eine Weiterleitung zu kia.com ist.

Statistik: Verfasst von David — Sa Sep 13, 2014 3:10 pm


Hilfe für Einsteiger und Anwender • Re: Minus-Zeichen verursacht leere Trefferliste

Date: 2014-09-13 16:23:58

Meinst du Suchbegriffe bei denen ein Bindestrich enthalten ist? Also z.B. Berlin-Mitte oder GPL-Lizenz funktionieren auf meinem Rechner (Linux Mint, OpenJDK 7, YaCy 1.72).

Statistik: Verfasst von David — Sa Sep 13, 2014 3:23 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-13 17:52:07

ich finde das gut was du machst. Ich weiss zwar nicht wie du die 1400 Peers gefunden hast, aber das können halt \‘Ausprobierer\’ oder \‘ich starte das nur wenn ich Suche\‘-Leute sein.

Statistik: Verfasst von Orbiter — Sa Sep 13, 2014 4:52 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-13 18:10:24

Hallo zusammen,

Wie Uwe es bereits geschildert hat. Ein zweitmaliges starten von Yacy ist leider nicht möglich und die Eingabe der Lokalen Adresse zeigt leider nichts an. Yacy scheint erst gar nicht gestartet zu werden.

Die Ausgabe von startYACY_debug.bat:

Code:
C:\Users\user\YaCy>startYACY_debug.batGenerated classpath:lib/yacycore.jar;htrootJRE Parameters:-Xms90m -Xmx600m -XX:-UseGCOverheadLimit -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8Priority:/BELOWNORMAL****************** YaCy Web Crawler/Indexer & Search Engine ********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)              ****  STOP         YaCy: execute stopYACY.bat and wait some seconds            ****  GET HELP for YaCy: see www.yacy-websearch.net/wiki and forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 <<Sep 13, 2014 5:51:52 PM net.yacy.cora.util.ConcurrentLog shutdownINFORMATION: shutdown of ConcurrentLog.Worker: injection of poison messageSep 13, 2014 5:51:52 PM net.yacy.cora.util.ConcurrentLog$Worker runINFORMATION: terminating ConcurrentLog.Worker with 0 cached loglines.Sep 13, 2014 5:51:52 PM net.yacy.cora.util.ConcurrentLog shutdownINFORMATION: shutdown of ConcurrentLog.Worker: terminatedException in thread "main" java.lang.IllegalArgumentException: Malformed \uxxxxencoding.        at java.util.Properties.loadConvert(Unknown Source)        at java.util.Properties.load0(Unknown Source)        at java.util.Properties.load(Unknown Source)        at net.yacy.yacy.preReadSavedConfigandInit(yacy.java:535)        at net.yacy.yacy.main(yacy.java:683)C:\Users\YaCy>



Die DATA\LOG\yacy00.log ist bei mir vorhanden, und es sind einige Einträge drin. Allerdings kann ich jetzt nicht beurteilen was davon jetzt brauchbar ist?

Statistik: Verfasst von lupus — Sa Sep 13, 2014 5:10 pm


Hilfe für Einsteiger und Anwender • Re: Minus-Zeichen verursacht leere Trefferliste

Date: 2014-09-13 18:49:09

Hallo,

Danke für die Antwort. Meine Testumgebung

Code:
YaCy-Instanz: http://yacy.sprechrun.degecrawlte Website: http://www.anwaltsverein-oldenburg.deSuchstring: Anwalts- und Notarverein


Mit Minus-Zeichen (oder Bindestrich - keine Ahnung) nach dem String [\‘Anwalts\‘]{style=“color: #FF0000”} bleibt die Trefferliste leer. Wenn das Minus-Zeichen entfernt wird, enthält die Liste auch Treffer. Wenn dieses Verhalten gewünscht ist, wo kann ich nachschlagen, welche Anwendungsszenarien sind damit abgedeckt?

Statistik: Verfasst von flegno — Sa Sep 13, 2014 5:49 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-13 19:03:12

Hallo,

Orbiter hat geschrieben:\ ich finde das gut was du machst.\

Das freut mich, somit es also schon mal zwei Interessenten.
Was möchtest Du denn alles an Informationen über das YaCy-Netzwerk bekommen?
Ich denke die Programmierer könnten sich z.B. über eine Auflistung der verwendeten Versionen freuen, eventuell zusammen mit einer kleinen Statistik wie häufig die Version sich bei den Peers ändert. Da ich die Peers aus meiner Datenbank erst nach längerer Abwesenheit (mindestens 1 Monat) entfernen möchte könnte man so auch die YaCy-Versionen der Gelegenheitsnutzer erfassen. Aber es wäre auch möglich zu sehen wie viele Peers die Versionen z.B. mindestens einmal pro Woche ändern um so abschätzen zu können wie schnell sich neue Features verbreiten bzw. wie viele Leute es gibt die eventuelle Bugs relativ frühzeitig melden könnten.

Orbiter hat geschrieben:\ Ich weiss zwar nicht wie du die 1400 Peers gefunden hast\

Das ist einfach die Summe der Peer-Listen aller verfügbaren/ansprechbaren Peers. Die meisten Peers liefern eine Liste mit etwa 300 anderen Peers aber ein paar wenige (wirklich ganz wenige) kommen bis knapp 1000 andere Peers.

Orbiter hat geschrieben:\ aber das können halt \'Ausprobierer\' oder \'ich starte das nur wenn ich Suche\'-Leute sein.\

Ja, das würde auch den hohen Anteil an nicht erreichbaren Peers erklären.

Leider liefern die frei verfügbaren IP-GeoLocation-Services nicht ob die IP eine dynamische IP (z.B. von einem klassischen Internet-Provider für Privatkunden) oder eine statische IP (z.B. von einem Hosting-Anbieter für richtige Server) ist, ich denke das gerade diese Info zur Beurteilung der Peers recht interessant wäre aber leider wollen alle Anbieter für diese Info Geld sehen. Wenn also jemand eine kostenlose Alternative kennt wäre ich für Tipps sehr dankbar.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 13, 2014 6:03 pm


Off-Topic • Re: dynamische/statische IP - Umfrage mit den YaCy-Bordmitte

Date: 2014-09-14 09:01:36

Erik\_S hat geschrieben:\ \... ob die IP eine dynamische IP (z.B. von einem klassischen Internet-Provider für Privatkunden) oder eine statische IP (z.B. von einem Hosting-Anbieter für richtige Server) ist, ich denke das gerade diese Info zur Beurteilung der Peers recht interessant wäre aber leider wollen alle Anbieter für diese Info Geld sehen. Wenn also jemand eine kostenlose Alternative kennt wäre ich für Tipps sehr dankbar.\


Wenn man die Angelegenheit abstrakt betrachtet, besteht die Möglichkeit, bei allen Peers im jeweiligen YaCy-Netzwerk softwaregestützt und mit YaCy-Bordmitteln _direkt_ und kostenlos diese Info abzufragen - :idea: YaCy-Umfrage.

  1. Active Principal and Senior Peers in \‘freeworld\’ Network{.postlink}
  2. Wie tausche ich Nachrichten im YaCy-Netzwerk aus?{.postlink}

Und wenn diese Funktionalität realisiert ist, kann YaCy zu DEM Spam-Netzwerk nominiert werden - GfK SE Marktforschungsinstitut{.postlink} lässt grüßen ( :ducken :roll: ) .

Statistik: Verfasst von flegno — So Sep 14, 2014 8:01 am


Panorama • YaCy im Privacy-Handbuch

Date: 2014-09-14 09:21:00

YaCy in einer ehrenwerten Gesellschaft:
cybererrorism.noblogs.org --> YaCy im Privacy-Handbuch{.postlink}, 12. Mai 2013

Statistik: Verfasst von flegno — So Sep 14, 2014 8:21 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-14 11:54:19

keine Panik, zu 1) Netzpropagierung muss ja sein sonst funktioniert p2p nicht und 2) hat eine uralte Funktion eingebaut wo der sendende Peer erst eine Erlaubnis zum Senden von Nachrichten beim Empfänger anfragt und dann erst sendet. Diese Funktion ist zwar zur Zeit so geschaltet dass die \‘Sendelizenz\’ immer erteilt wird, aber das kann man ja ändern.

Statistik: Verfasst von Orbiter — So Sep 14, 2014 10:54 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-14 16:42:19

Orbiter hat geschrieben:\ Diese Funktion ist zwar zur Zeit so geschaltet dass die \'Sendelizenz\' immer erteilt wird, aber das kann man ja ändern.\


Zum Verständnis - die standardmäßige Zu- bzw. Abschaltung der \‘Sendelizenz\‘-Erteilung ist eine Einstellung in irgendeiner conf-Datei?

Statistik: Verfasst von flegno — So Sep 14, 2014 3:42 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-15 10:49:37

Hallo zusammen,

ich bin von einem Fan dieses Vorhabend um Tips und Rat gebeten worden bezüglich der Geolokalisierung und Karten-Visualisierung der Peers da ich bereits etwas Erfahrung mit Ähnlichem habe.
Da mich das Prokekt YaCy, sowie das Vorhaben der Visualierung der Daten, interessiert, bot ich meine Hilfe/Mitarbeit an.
Mir wurde gesagt, dass ich dazu am besten mal hier nachfrage.

Wenn ich eine Schnittstelle (z.B. JSON) zur Abfrage der Daten (Primär die IPs) bekomme kann ich gerne eine Karte basteln.
Vielleicht könnte man sogar die Anzeige um die Verbindungen (Wer kennt Wen) erweitern.

Da ich viel Mobil arbeite und das Forum dazu leider völlig ungeeignet ist, wäre es schön, wenn mir jemand (Erik) eine Möglichkeit (E-Mail z.B.) nennt, über die man besser mobil kommunizieren kann.

Statistik: Verfasst von DJaeger — Mo Sep 15, 2014 9:49 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-09-16 10:05:45

Bild

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 9:05 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-16 10:51:21

Jetzt bin ich doch noch auf eine vermeintlich brauchbare Fehlermeldung gestoßen:

[java.io.FileNotFoundException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html (Too many open files)]{style=“font-style: italic”}

Ursprünglich habe ich als PPM das Maximum von 30.000 eingestellt gehabt (Bei einer älteren YaCy-Version hat alles einwandfrei funktioniert). Aufgrund der Fehlermeldung habe ich daraufhin den Wert auf 6.000 reduziert. Nun kommt zwar ab und zu weiterhin ein HTTP Error 500, aber YaCy bleibt zumindest nicht mehr komplett stecken, sondern indiziert nach der offensichtlichen Zwangs-Fehler-Pause wieder weiter. D.h. das Crawling funktioniert, aber es werden fälschlicherweise nicht alle Seiten indiziert.

Was hat es auf sich mit der Meldung \“Too many open files\“?

Statistik: Verfasst von hotel24 — Di Sep 16, 2014 9:51 am


Off-Topic • Re: Yacystats offline

Date: 2014-09-16 11:43:28

Jo, der lulabad war lange nicht mehr da:
[Letzte Anmeldung: 24. Mär 2012, 08:19]{style=“font-weight: bold”}

\@Michael Ich habe eine NPE und CME gefixt. Der GIT-Bundle kommt gleich zu dir, da er eine Unit-Datei von meinem Arbeitgeber enthält.

Statistik: Verfasst von Quix0r — Di Sep 16, 2014 10:43 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-16 14:47:45

lupus hat geschrieben:\ Merkwürdigerweise werden beim ersten Start scheinbar benötigte Dateien zwar erzeugt, aber nicht an der richtigen Stelle? Beispielsweise wie es sein sollte:\ \ Code: : `C:\Users\user\YaCy\lib\DATA\LOG\yacy.logging` \ \ wird hier erzeugt\ \ Code: : `C:\Users\user\YaCy\DATA\LOG\yacy.logging` \


es ist anders herum, die Dateien sollen nicht im lib-Pfad erzeugt werden.

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 1:47 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-16 14:53:01

lupus hat geschrieben:\ Hallo zusammen,\ \ Wie Uwe es bereits geschildert hat. Ein zweitmaliges starten von Yacy ist leider nicht möglich und die Eingabe der Lokalen Adresse zeigt leider nichts an. Yacy scheint erst gar nicht gestartet zu werden.\ \ Die Ausgabe von startYACY\_debug.bat:\ \ Code: : `C:\Users\user\YaCy>startYACY_debug.batGenerated classpath:lib/yacycore.jar;htrootJRE Parameters:-Xms90m -Xmx600m -XX:-UseGCOverheadLimit -Djava.net.preferIPv4Stack=true -Djava.awt.headless=true -Dfile.encoding=UTF-8Priority:/BELOWNORMAL****************** YaCy Web Crawler/Indexer & Search Engine ********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy.log)              ****  STOP         YaCy: execute stopYACY.bat and wait some seconds            ****  GET HELP for YaCy: see www.yacy-websearch.net/wiki and forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 <` \ \ Die DATA\\LOG\\yacy00.log ist bei mir vorhanden, und es sind einige Einträge drin. Allerdings kann ich jetzt nicht beurteilen was davon jetzt brauchbar ist?\



Das Config File ist offenbar kaputt, warum auch immer. NICHT das Log File! Ich baue was ein dass so ein kaputtes File dann gelöscht wird.

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 1:53 pm


Fragen und Antworten • Re: Banner.png

Date: 2014-09-16 14:56:16

Wie du im http://mantis.tokeek.de/view.php?id=461 schreibst: ja du hast das Image geändert. Warum sollte denn dann noch eine Methode unbedingt funktionieren die das YaCy-Image benutzt? Wenn du das Image so ersetzt dass es die gleiche Größe hat dann sollte das gehen. Bitte nicht mehr Fehler aufmachen und behaupten nix geändert zu haben (siehe Frage nach Reproduzierbarkeit) wenn genau das passiert ist, ich verwende in das Finden von solchen Fehlern viel Zeit und es ist unnötig hier auch noch solche Sachen zu verschweigen.

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 1:56 pm


Solr Support • Re: SolrException: undefined field site

Date: 2014-09-16 15:02:02

hier nochmal die Frage: hast du was geändert was du nicht geschrieben hast?

Oder anders ausgedrückt: Wenn ich kein Feld in Solr namens \‘site\’ definiert habe, wie kommt es dann dass Solr anmäkelt dass es das nicht gibt? Ist hier eine Änderung von dir drin?

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 2:02 pm


YaCy Coding & Architektur • Re: SolrException: Error opening new searcher

Date: 2014-09-16 15:06:10

Wenn Solr hier mäkelt wegen einem File Lock, dann läuft da noch ein anderes YaCy das auf die gleichen Daten zugreift. Hast du da ein DATA-Verzeichnis oder das Index-Verzeichnis geshared für zwei YaCy, .z.B. über Links? Das scheint mir die einzige Erklärung zu sein. Falls ja: bitte nicht erst basteln und sich dann wundern dass es nicht geht.

Statistik: Verfasst von Orbiter — Di Sep 16, 2014 2:06 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2014-09-16 16:16:11

Vielen Dank für die Infos Orbiter :-)

Statistik: Verfasst von lupus — Di Sep 16, 2014 3:16 pm


Panorama • Justizminister Maas will an Googles Algorithmus

Date: 2014-09-17 10:37:42

Ein offenes Ranking war ja von Anfang an einer der Punkte, weshalb YaCy geschaffen wurde.

http://www.golem.de/news/wettbewerbsverfahren-justizminister-maas-will-an-googles-algorithmus-1409-109285.html

Statistik: Verfasst von Low012 — Mi Sep 17, 2014 9:37 am


Fragen und Antworten • Re: Banner.png

Date: 2014-09-17 10:58:59

Orbiter hat geschrieben:\ Wie du im schreibst: ja du hast das Image geändert. Warum sollte denn dann noch eine Methode unbedingt funktionieren die das YaCy-Image benutzt? Wenn du das Image so ersetzt dass es die gleiche Größe hat dann sollte das gehen. Bitte nicht mehr Fehler aufmachen und behaupten nix geändert zu haben (siehe Frage nach Reproduzierbarkeit) wenn genau das passiert ist, ich verwende in das Finden von solchen Fehlern viel Zeit und es ist unnötig hier auch noch solche Sachen zu verschweigen.\


Wir wissen alle, dass es gang und gäbe ist, dass unterschiedliche Vorstellungen existieren, bezüglich welches Software-Verhalten als Fehler zu bewerten ist. Und die meisten von uns sind erwachsen genug, um sich einzugestehen, dass es schwierig, immer wieder auch unmöglich ist, die \“objektive\” überprüfbare Sachverhalte von persönlich gefärbten Stimmungen, (Vor-)Urteilen, Präferenzen, Prioritäten usw. sauber zu trennen.

Mir ist bewusst, dass das Zeitbudget der YaCy-Entwickler, die das YaCy-Projekt ehrenamtlich unterstützen und mühelos echte YaCy-Fehler von Verständnisproblemen der YaCy-Anfanger trennen können, knapp bemessen ist. Und wenn ich im Bugtracker poste, egal ob Fehlerberichte oder Verbesserungsvorschläge, dann ist damit zu keinem Zeitpunkt eine Erwartung verbunden, dass die Entwickler sofort handeln. Ich erhoffe mir aber, dass meine Postings hilfreich sein können, wenn jemand mit einem YaCy-Verhalten konfrontiert wird, das er/sie als fehlerhaft empfindet und im Bugtracker danach recherchiert, ob bereits Bugreporte über so ein Verhalten erfasst sind und ob dieses Verhalten vom Entwicklerteam tatsächlich als Fehler bewertet wurde.

Und Bugtracker-Postings sind meinerseits auch mit keinen Bewertungen von persönlichen Eigenschaften der YaCy- Entwickler verbunden. Es muss an dieser Stelle gesagt werden, da es für mich das hier:

Orbiter im Thread \#461[javax.servlet.ServletException: YaCy\\htroot\\Banner.png](http://mantis.tokeek.de/view.php?id=461#c915){.postlink} hat geschrieben:\ Bitte bei zukünftigen Fehlermeldungen immer ehrlich sein und gleich mitteilen wie die Reproduzierbarkeit ist. Wenn ich schon sage \'nicht reproduzierbar\' dann muss sofort kommen \'ah ja ich habe ja das Bild ausgetauscht\'.\

ein [harter Broken]{style=“font-weight: bold”} ist, bei dem es bei mir so ankommt, dass mir hier [Unehrlichkeit ]{style=“font-style: italic”}unterstellt wird. Ich wünsche mir sehr, dass dies ein Einzelfall bleibt und nicht als Usus sich etabliert, dass ein Fehlerbericht als Anlass für so einen persönlichen Vorwurf verwendet wird. Wobei es für mich - bitte nicht persönlich nehmen - nach wie vor nicht nachvollziehbar bleibt, warum:

  1. eine geänderte [yacy.png]{style=“font-weight: bold”} massenweise Exceptions verursacht, die keine Hinweise auf die Datei eine yacy.png enthalten, dafür aber auf die Datei [Banner.png]{style=“font-weight: bold”}.
  2. mit einer geänderten yacy.png a. über mehrere Tage lang Logfiles generiert werden, regelmäßigkeit - mindestens eine javax.servlet.ServletException: YaCy\htroot\Banner.png auf 100 Zeilen Logeinträge erstellt wird ( entsprechende Logs habe ich gesichert) b. für die gleiche Yacy-Instanz mit einer geänderten yacy.png Logfils existieren (ebenfalls gesichert) wo durchgängig über mehrere Stunden keine Banner.png-Exceptions vorkommen.

Ich kann mir verstellen, dass[ einige meine Fragen zu [Banner.png]{style=“font-style: italic”}-Exceptions sich erübrigen]{style=“color: #008000”}, wenn jemand mir verraten könnte, ob

[im YaCy-Projekt insgesamt]{style=“font-weight: bold”} oder speziell bezogen auf die Klasse [Banner.java]{style=“font-style: italic”} existieren, die begründen, warum eine schlichte Veränderung eines Bildes massenweise Exceptions verursacht.

Das frage ich nicht aus Tollerei und schon gar nicht, um jemanden persönlich zu ärgern. Ich bin dabei, für YaCy die Werbetrommel zu rühren:

  1. wie YaCy-Faltblatt und YaCy-Projekt besser werden (können{.postlink})
  2. Logo-Copyright bzw. Trademark umschiffen{.postlink}
  3. “Recht auf Vergessen\” sorgt für Aufwind bei alternativen Suchmaschinen{.postlink}

Und ich möchte ggf. gewappnet sein, wenn eine Frage kommt \“wozu kann das gut sein, dass in einem \“freie Software\” YaCy-Projekt solche Restriktion in Bezug auf \”[Bild austauschen\“]{style=“font-style: italic”} praktiziert wird? Eine Restriktion von der Sorte, die man vlt. von einer proprietären aber nicht von der _freien_ Software wie YaCy erwarten würde.\” Das ich persönlich an einer Antwort auf diese Frage interessiert bin, versteht sich von selbst ;) .

Gruss, Gustav

Statistik: Verfasst von flegno — Mi Sep 17, 2014 9:58 am


Panorama • Re: Justizminister Maas will an Googles Algorithmus

Date: 2014-09-17 11:12:03

äh, sehe nur ich

\ Bundesjustizminister Heiko Maas (SPD) hält einen Einblick in den Suchalgorithmus von Google zur Kontrolle des Wettbewerbs für erforderlich\


und

\ Eine Zerschlagung des Konzerns könne aber nur das \"letzte Mittel\" sein.\


als völlig lächerlich an? Ein amerikanischer Konzern will sich doch nicht von einem deutschen Minister zerschlagen lassen und das Geheimnis, nach dem alle SEO mit großem Aufwand suchen entreissen lassen?

Ich glaube der Maas will nur einen falschen Eindruck machen dass er da Ambitionen hat. Eine Zerschlagung von Google durch einen deutschen Minister wird niemals passieren. Genau weil diese Politiker solche idiotischen Dinge machen wird überhaupt nichts passieren hier.

Inzwischen weiss jeder, der sich mit Suchmaschinenalternativen beschäftigt welche Position wir hier einnehmen. Dass sich einer der Politiker dann mal ansieht was man hier auf die Beine stellen könnte wenn man uns ein wenig helfen würde, z.B. völlig kostenfrei mit einem Rundbrief an die deutschen Unis dass man GSAs kritischer betrachten sollte, Suchmaschinentechnik auf den Lehrplan setzen und YaCy durch Betreiben von Peers unterstützen sollte. Aber auf so eine Idee kommt leider keiner.

Statistik: Verfasst von Orbiter — Mi Sep 17, 2014 10:12 am


Off-Topic • Re: Yacystats offline

Date: 2014-09-17 13:19:24

Eine Statistikerfassung in YaCy ist auf dem Weg, Erklärung dazu hier im commit: https://gitorious.org/yacy/rc1/commit/a ... fb9c2364bd{.postlink}

Man kann das dann über http://localhost:8090/Tables_p.html?table=stats abfragen. Eine XML/JSON Abfrage wird ggf. ermöglicht. Die Werte in der Tabelle sind:

aM: activeLastMonth
aW: activeLastWeek
aD: activeLastDay
aH: activeLastHour
cC: countConnected (Active Senior)
cD: countDisconnected (Passive Senior)
cP: countPotential (Junior)
cR: count of the RWI entries
cI: size of the index (number of documents)

Der Primary Key PK der Tabelle ist das Datum, als yyyyMMddHHmm
Die Werte werden dort zur Zeit zwei mal die Stunde hineingeschrieben, aber nicht zu exakten Uhrzeiten sondern nur dann wenn der Cleanup-Prozess eben mal gelaufen ist.

Ihr könnt ja schon mal überlegen ob ihr eine Visualisierung aufgrund der Daten selber bauen könnt, wenn ein XML/JSON dazu da wäre. Das wäre toll, dann muss ich mir die Arbeit nicht machen :) Ich empfehle dazu d3js, das haben wir nämlich schon eingebunden. Siehe auch: https://github.com/mbostock/d3/wiki/Gallery

Gebrauchen könnte man z.B. diese Beispiele hier:
http://bl.ocks.org/NPashaP/113f7fea0751fa1513e1
http://bl.ocks.org/mbostock/3885211

Statistik: Verfasst von Orbiter — Mi Sep 17, 2014 12:19 pm


Panorama • Re: Justizminister Maas will an Googles Algorithmus

Date: 2014-09-17 15:12:52

Das Netz lacht schon https://twitter.com/mattjpierce/status/ ... 7756598272{.postlink}
Bild

Statistik: Verfasst von Orbiter — Mi Sep 17, 2014 2:12 pm


Fragen und Antworten • Re: Handlungsbedarf: Client can\’t execute: Connection timed

Date: 2014-09-18 05:28:28

Hallo,

Erik\_S hat geschrieben:\ Hast Du die Seite auch mal ohne den YaCy-Proxy probiert?\

Ja, selbstverständlich, ich habe immer mindestens noch eine separate Browser-Instanz die ohne YaCy-Proxy läuft, offen. Mit einem separaten Firefox-Profil. Und ohne YaCy-Proxy - das habe ich am 13.09.2014 sofort geprüft - ließen sich die gimpforum.de-Webseiten öffnen.

Die Besonderheit von YaCy, dass es im Vergleich zu herkömmlichen Suchlösungen ein Paar Sekunden länger dauert, bis die Trefferlrliste aufgebaut ist, ist bereits eine wesentliche Hürde für die Anwender. Wenn der/die AnwenderInnen dazu noch ständig mit den Proxy-Exceptions abgeschreckt werden, dann sind alle Bemühungen, die AnwenderInnen davon zu überzeugen, dass YaCy praxistauglich und eine gute Alternative zu herkömmlichen Suchlösungen ist, vergebens, ja schlicht und einfach unglaubwürdig.

Wäre wünschenswert, von den Entwicklern hier ein Feedback zu bekommen, ob sie das oben beschriebene Verhalten von YaCy als Fehler betrachten. S. auch die Argumentation von Erik.

Gruss, flegno

Statistik: Verfasst von flegno — Do Sep 18, 2014 4:28 am


Panorama • Re: Justizminister Maas will an Googles Algorithmus

Date: 2014-09-18 08:44:17

Orbiter hat geschrieben:\ äh, sehe nur ich\ \[\...\]\ und\ \[\...\]\ als völlig lächerlich an?\



Nein!

\ Dass sich einer der Politiker dann mal ansieht was man hier auf die Beine stellen könnte wenn man uns ein wenig helfen würde, z.B. völlig kostenfrei mit einem Rundbrief an die deutschen Unis dass man GSAs kritischer betrachten sollte, Suchmaschinentechnik auf den Lehrplan setzen und YaCy durch Betreiben von Peers unterstützen sollte. Aber auf so eine Idee kommt leider keiner.\



Das wäre zu einfach und völlig unspektakulär. Außerdem, wenn es mehrere Ansätze zur Lösung eines Problems gibt, wird scheinbar bevorzugt der ungeeignetste gewählt. Die Wahrscheinlichkeit dafür ist umso höher, je stärker der Dunning-Kruger-Effekt{.postlink} zuschlägt, da Entscheidungsbefugnis oft nicht mit Expertise auf dem Gebiet einhergeht.

Statistik: Verfasst von Low012 — Do Sep 18, 2014 7:44 am


Fragen und Antworten • Re: Banner.png

Date: 2014-09-18 11:36:37

Orbiter hat geschrieben:\ Wie du im schreibst: ja du hast das Image geändert. Warum sollte denn dann noch eine Methode unbedingt funktionieren die das YaCy-Image benutzt?\


Ich habe in einem Test nachvollzogen, dass ein Austausch der Datei yacy.png die oben zitierte Exceptions verursacht.

Statistik: Verfasst von flegno — Do Sep 18, 2014 10:36 am


Panorama • Re: Koalitionsvereinbarung CDU/CSU, SPD und die IT-Infrastru

Date: 2014-09-18 12:06:56

Hallo,

Orbiter hat geschrieben:\ Inzwischen weiss jeder, der sich mit Suchmaschinenalternativen beschäftigt welche Position wir hier einnehmen. Dass sich einer der Politiker dann mal ansieht was man hier auf die Beine stellen könnte wenn man uns ein wenig helfen würde, z.B. völlig kostenfrei mit einem Rundbrief an die deutschen Unis dass man GSAs kritischer betrachten sollte, Suchmaschinentechnik auf den Lehrplan setzen und YaCy durch Betreiben von Peers unterstützen sollte. Aber auf so eine Idee kommt leider keiner.\


Ich kann mir vorstellen, dass man in politischen Kreisen:

  1. mehr Gehör für bestimmte Fragestellungen
  2. mehr Bereitschaft, ein Verstandnis für geeignete Konzepte und Löhnungsätzstifte zu entwickeln
  3. und darauf basierend, eine Fähigkeit, passende politische, rechtliche Rahmenbedingungen zu schaffen, zu entwickeln

wenn die \“freie Software\“-Szene ihrerseits mehr Bereitschaft zeigt, ein Verstandnis dafür zu entwickeln, wie die politische Klasse tickt und wie entsprechende politische Weichen gestellt werden. Es gehört zum Allgemeinwissen, dass relevante politische Entscheidungen durch Lobby-Aktivitäten vorbereitet werden. Ich schlage vor, dass die \“freie Software\“-Szene für sich einen Entschluss fasst:\” Wir machen Lobby-Arbeit für die \“freie Software\“. Und handelt dementsprechend. Was mit Handeln gemeint ist, wäre abzustimmen.

Die Handlungsoptionen könnten sein

  1. eine Petition hier Platzhalter{.postlink} zu erarbeiten, wenn festgestellt wird, dass eine Auffassung von rechtlichen Rahmenbedingungen für die Erreichung von Ziehen der \“freie Software\“-Bewegung notwendig ist.
  2. Kampagne
  3. Aktion.
  4. usw. ...

Mit einer Petition “Strategische Partnerschaft ‘Open Source made in China, Deutschland und Russland’”{.postlink} habe ich mal einen Testballon versucht. Diese Petition hat die Hürde des Petitionsausschusses nicht genommen. Aber immerhin – es gibt eine Stellungnahme des Bundeswirtschaftsministeriums zu dieser Petition.

In der Stellungnahme verweist das Bundeswirtschaftsministerium auf die Koalitionsvereinbarung CDU/CSU und SPD für die aktuelle Legislaturperiode, in der “vor dem Hintergrund der “NSA-Affäre” festgehalten ist, dass die Bundesregierung zur Wahrung der “technologischen Souveränität” Deutschlands den Einsatz national entwickelter IT-Sicherheitstechnologien sowie die Verbreitung vertrauenswürdiger Hard-und Software erheblich auszubauen beabsichtigt.”

Wichtige Schwerpunkte des Regierungshandelns auf diesem Gebiet in der aktuellen Legislaturperiode laut der zitierten Stellungnahme sind:

  1. “technologische Abhängigkeiten, z.B. beim … Trusted Computing zu lösen”
  2. “bei öffentlichen Beschaffungsvorhaben vom Bundesinnenministerium nunmehr verlangte Herstellererklärung, dass Kundendaten nicht ins Ausland transferiert werden”
  3. das EU-Forschungsprogramm Horizont 2020 beinhaltet zahlreiche Fördermöglichkeiten zur Verbesserung der IT-Sicherheit und Systemoffenheit”

Vollständiger Text der Stellungnahme als PDF{.postlink} . Ich behaupte mal, dass es sich lohnt, zu versuchen, mit Verweis auf die obenzitierte Koalitionsvereinbarung für die Etablierung von Technologien wie YaCy entsprechende Finanzmittel locker zu machen. Mit der Begründung, dass eine [unabhängige Wissensinfrastruktur]{style=“font-style: italic”} für ein Hochtechnologieland wie Deutschland systemrelevant und schlicht und einfach eine Frage der nationalen Sicherheit ist.

Gruss, flegno

Statistik: Verfasst von flegno — Do Sep 18, 2014 11:06 am


Hilfe für Einsteiger und Anwender • Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 14:01:27

Hallöchen zusammen!

Ich habe hier seit kurzem [(war heute früh noch nicht der Fall)]{style=“font-style: italic”} bei YaCy die in der Überschrift stehende [[öffentliche]{style=“font-style: italic”}]{style=“font-weight: bold”} Adresse! :shock: Ich habe das nur gerade eben bemerkt, weil ich mal wieder einen Crawler gestartet habe. Ich verstehe jetzt nicht ganz, wie so etwas möglich ist.

\ Sie lassen YaCy bei sich im Senior Modus laufen und unterstützen den globalen Index, den Sie auch selbst durchsuchen können.\ \ Öffentliche Adresse:\ \ YaCy Adresse:\ \



Wie bitte soll ich denn mit dieser Adresse öffentlich erreichbar sein, das ist ja ein Ding der Unmöglichkeit!? Hat dieses Phänomen noch jemand, oder stehe ich damit allein? Jedenfalls kann ich nun von außen nicht mehr auf die Suche zurückgreifen, was natürlich nicht der Sinn einer Suchmaschine ist! Ich habe das gerade noch einmal mit dem Smartphone versucht, aber es geht natürlich nicht. Leider habe ich auch nichts gefunden, wo ich das einstellen kann. So kann ich das ja aber nicht lassen, denn das ist nicht in meinem Sinn!

Wie kann ich das wieder richtig stellen, damit YaCy wieder wie gewohnt funktioniert?

Statistik: Verfasst von TmoWizard — Do Sep 18, 2014 1:01 pm


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 14:53:26

wo genau steht das denn, in welchem Servlet siehst du das?

Bitte \@alle allgemein: ein sachlich exakter Fehlerbericht beschleunigt die Fehlersuche, das sollte doch im Sinne aller sein.

ansonsten: so lange YaCy die öffentliche Adresse nicht kennt zeigt er localhost an. Wenn das so bleibt hat dein peer ggf. noch keinen erfolgreichen Ping nach draussen gekriegt.

Statistik: Verfasst von Orbiter — Do Sep 18, 2014 1:53 pm


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 15:06:14

/Status.html habe ich das auch durchaus mal gesehen.

Statistik: Verfasst von Quix0r — Do Sep 18, 2014 2:06 pm


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 15:26:29

Orbiter hat geschrieben:\ wo genau steht das denn, in welchem Servlet siehst du das?\



http://localhost:8090/Status.html

Orbiter hat geschrieben:\ ansonsten: so lange YaCy die öffentliche Adresse nicht kennt zeigt er localhost an. Wenn das so bleibt hat dein peer ggf. noch keinen erfolgreichen Ping nach draussen gekriegt.\



Und wie erklärt sich dann diese Meldung:

\ Sie lassen YaCy bei sich im Senior Modus laufen und unterstützen den globalen Index, den Sie auch selbst durchsuchen können.\



Auch hier stehe ich drinnen:

Active Principal and Senior Peers in \‘freeworld\’ Network

http://localhost:8090/Network.html?page=1&maxCount=1000

Das paßt ja irgendwie nicht zusammen, oder?

Statistik: Verfasst von TmoWizard — Do Sep 18, 2014 2:26 pm


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 19:23:44

TmoWizard hat geschrieben:\ Hallöchen zusammen!\ \ Ich habe hier seit kurzem [(war heute früh noch nicht der Fall)]{style="font-style: italic"} bei YaCy die in der Überschrift stehende [[öffentliche]{style="font-style: italic"}]{style="font-weight: bold"} Adresse! ![:shock:](http://forum.yacy-websuche.de/images/smilies/icon_eek.gif "Shocked") Ich habe das nur gerade eben bemerkt, weil ich mal wieder einen Crawler gestartet habe. Ich verstehe jetzt nicht ganz, wie so etwas möglich ist.\


Wer suchet, der findet report#448: after Re-Start public adres: 127.0.0.1{.postlink} Aber die richtige Quelle anzapfen ;) .

Gruss, Gustav

Statistik: Verfasst von flegno — Do Sep 18, 2014 6:23 pm


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-18 20:56:50

flegno hat geschrieben:\ Wer suchet, der findet [report\#448: after Re-Start public adres: 127.0.0.1](http://mantis.tokeek.de/view.php?id=448){.postlink} Aber die richtige Quelle anzapfen ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink") .\



Irgendwie sehe ich jetzt nicht, wie mir das weiter hilft!?! Mein YaCy ist nicht von außen erreichbar, das ist so absolut nicht in Ordnung! Bild Übrigens habe ich hier kein Windows 7 32 Bit, sondern Kubuntu 14.04 LTS 64 Bit.

Öhm...

Jetzt verstehe ich gerade gar nichts mehr: Nun ist mein YaCy zwar unter der entsprechenden URL von außen mit dem Smartphone erreichbar, die öffentliche IP ist aber immer noch die lokale und es geht auch nicht mit einem anderen Rechner! :o Bild

In meinem [[ersten Thread hier{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} war es übrigens noch anders, dort hatte ich eine \“richtige\” öffentliche IP.

Naja, muß eh mal kurz den Rechner neu starten. Mal sehen, was dann passiert!

Statistik: Verfasst von TmoWizard — Do Sep 18, 2014 7:56 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-09-18 23:25:02

äh, nicht lustig? XSS mit DNS? http://who.is/dns/jamiehankins.co.uk

Statistik: Verfasst von Orbiter — Do Sep 18, 2014 10:25 pm


English • Error when trying to enable seed server

Date: 2014-09-19 03:35:06

I have win 2003 and have ended up putting my FTP server directory in my web server directory structure so the seed.txt has a URL. I have downloaded seed.txt from a few sites on http://www.yacy-websuche.de/wiki/index.php/Seedlists.
Even tried different browsers. What am I doing wrong, Thanks in advance.

After submitting new config the error msg.

Seed Settings changed, but something is wrong.
SaveSeedList: Seed upload failed (IO error): UPLOAD CHECK - Error: the result vector is different. Element at position 0 is different. <br>

Update I used Store to file system see below.

My settings
yacy seed error.JPG

Store to file system option does give good example of path because you have to add the file name as well. Solved
yacy seed settings.JPG

Statistik: Verfasst von smokingwheels — Fr Sep 19, 2014 2:35 am


English • image search does not load all thumbnails

Date: 2014-09-19 06:31:41

OK so i run an image search for bearhug, lets say there are 26 results... only 4 images show up, why is this.

A note, my search engine is adult/fetish/fantasy themed so if you want to test it make sure you are OK with adult content.

76.29.59.176:8090

run search for bearhug under images.

text search does not display this flakyness... but some of the text snippets are missing

is there something wrong with my computer or do I have to let the search completely finish indexing.

also How do I make sure it completely indexes my ENTIRE tumblr blog, without screwing with crawl depth excessively.

Statistik: Verfasst von Strapples — Fr Sep 19, 2014 5:31 am


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-19 06:37:24

Hallo Timo,

TmoWizard hat geschrieben:\ >
> > flegno hat geschrieben:Wer suchet, der findet [report\#448: after > Re-Start public adres: > 127.0.0.1](http://mantis.tokeek.de/view.php?id=448){.postlink} Aber > die richtige Quelle anzapfen > ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink") > .\ > >



Irgendwie sehe ich jetzt nicht, wie mir das weiter hilft!?! Mein YaCy ist nicht von außen erreichbar, das ist so absolut nicht in Ordnung! Bild Übrigens habe ich hier kein Windows 7 32 Bit, sondern Kubuntu 14.04 LTS 64 Bit.

Timo, ich kann deine Aufregung verstehen, wenn Sachen nicht gehen, die zuvor einwandfrei funktionierten.

Orbiter hat geschrieben:\ Bitte \@alle allgemein: ein sachlich exakter Fehlerbericht beschleunigt die Fehlersuche, das sollte doch im Sinne aller sein.\ \ ansonsten: so lange YaCy die öffentliche Adresse nicht kennt zeigt er localhost an. Wenn das so bleibt hat dein peer ggf. noch keinen erfolgreichen Ping nach draussen gekriegt.\

Im report#448: after Re-Start public adres: 127.0.0.1{.postlink} hast du gesehen, dass eine Lösung gefunden, bzw. eine Erklärung geliefert wurde, wenn auch nicht sofort. Und da in Mantis detailliert (OS-Version, YaCy-Version) alle relevanten Daten erfasst sind, ist es für alle Beteiligten zeitsparend möglich, die Fehlerursache einzugrenzen. Ich mache immer wieder die Erfahrung, dass es sich lohnt, den Aufwand auf sich zu nehmen und den Fehler in Mantis zu erfassen. Wichtig ist, dass du für jedes Ereignis/ YaCy-Verhalten, das du als fehlerhaft betrachtest und für jede Frage, auf die du sich eine Antwort wünschst, einen separaten Mantis-Bericht erstellst - oder bei Fragen - ein neues Thema im Forum eröffnest. Du fragst bspw.

TmoWizard hat geschrieben:\ Hat dieses Phänomen noch jemand, oder stehe ich damit allein?\

Der Bericht report#448: after Re-Start public adres: 127.0.0.1{.postlink} ist eine Antwort auf deine Frage. Und ich kann mir verstellen, dass in diesem wie in vielen anderen Fällen YaCy unter jedem Betriebssystem sich gleich verhält wie es von einer Anwendung erwartet wird, die dafür ausgelegt ist, plattformübergreifend gleich zu funktionieren.
Dieses Ereignis

TmoWizard hat geschrieben:\ Jetzt verstehe ich gerade gar nichts mehr: Nun ist mein YaCy zwar unter der entsprechenden URL von außen mit dem Smartphone erreichbar, die öffentliche IP ist aber immer noch die lokale und es geht auch nicht mit einem anderen Rechner!\

liefert m.E. Stoff für mindestens zwei Mantis-Fehlerberichte:

  1. YaCy ist von außen mit einem anderen Rechner nicht erreichbar
  2. die öffentliche IP ist immer noch die lokale

Wäre ich YaCy- Entwickler, bräuchte ich bei [1] Angaben dazu, was du unter \“entsprechenden URL\” meinst. Bei [2] - falls du dich entscheidest, einen Mantis-Bericht abzuliefern - könnte ich mir vorstellen, dass für die Eingrenzung der Fehlerursache Angaben dazu, welche Werte die öffentliche IP und die lokale IP haben, wichtig sind.

Wenn dein Problem gelöst wird, bevor du eine Antwort im Forum oder im Mantis bekommst, würden dir alle Mitforisten danken, wenn du schilderst, wie deine Lösung aussieht :P .

Gruss, Gustav

Statistik: Verfasst von flegno — Fr Sep 19, 2014 5:37 am


English • Re: image search does not load all thumbnails

Date: 2014-09-19 08:21:01

Thumbnails in YaCy are very different from what you know from other search portals because they are not stored during indexing-time (other search engines pre-calculate the thumbnails) and the tumbs are generated at the very moment when the result page is shown. This can cause that large images are loaded and resized or that no image at all is found for some image links (dead image links). There are also web pages which \‘fake\’ image urls (give the wrong mime type and/or have html pages behind links that have a .jpg extension) which can not be identified during indexing time because it would be necessary to load all the images. That would not make sense for p2p search because people would need to load images who never have a use of it.

Therefore the image search is a bit \‘incomplete\‘. The handling of such cases is actually not finished; it would be possible to hide such cases from the user which is not done yet.

Statistik: Verfasst von Orbiter — Fr Sep 19, 2014 7:21 am


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-19 12:24:11

Guten Morgen, oder so! ;)
Mir kam gestern noch was dazwischen, deswegen jetzt erst der neueste Stand:

Unter Anderem kam gestern [(über die Paketquellen)]{style=“font-style: italic”} auch eine neue Version von YaCy [(1.819009)]{style=“font-style: italic”}, dann habe ich wie erwähnt den Rechner neu gestartet. Nun habe ich eine [[\“richtige\“]{style=“font-style: italic”}]{style=“font-weight: bold”} öffentliche IP [(http://188.XXX.XXX.XXX:8090, ist von M-net)]{style=“font-style: italic”}, über die mein YaCy [[scheinbar]{style=“font-style: italic”}]{style=“font-weight: bold”} auch erreichbar ist. Getestet mit dem Smartphone und einem anderem Browser, der über einen anonymen Proxy in\’s Netz geht.

Einen anderen Rechner kann ich erst später testen, dann bin bei einer Bekannten von mir zu Besuch. Ich melde mich dann von dort aus noch einmal kurz, habe dann aber für dieses Problem leider nur sehr wenig Zeit... wenn überhaupt!

Das ist so aber Unfug, da ich meine IP vom Provider bekomme und diese ständig wechselt [(Zwangstrennung)]{style=“font-style: italic”}!

Was nicht geht ist die öffentliche [[YaCy-Adresse]{style=“font-style: italic”}]{style=“font-weight: bold”} [(http://XXXXX.yacy)]{style=“font-style: italic”}, die geht nur hier an diesem Browser, bei dem YaCy auch als Proxy läuft! :?
\@flegno: Die \“entsprechende URL\” ist natürlich die [[YaCy-Adresse]{style=“font-style: italic”}]{style=“font-weight: bold”}, steht doch alles in meinem ersten Posting!

Ach ja: Nicht [Timo]{style=“font-weight: bold”}, [[[TmoW]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}izard ist mein Nick: [[[T]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}he [[[m]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}agic [[[o]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}ne [[[W]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}izard [(da steckt eine längere Geschichte dahinter!)]{style=“font-style: italic”}, aber [[Mike]{style=“font-style: italic”}]{style=“font-weight: bold”} geht auch! :mrgreen:


Viele Grüße aus [[TmoWizard\’s Castle{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Fr Sep 19, 2014 11:24 am


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-19 14:49:23

Mahlzeit! :mrgreen:

Wie erwähnt bin ich nun hier an den Rechnern meiner Bekannten. Hier ist das Selbe wie bei mir zuhause mit dem anderen Browser und einem Proxy bzw. meinem Smartphone:

Ich bin über die schon erwähnte öffentliche [[IP]{style=“font-style: italic”}]{style=“font-weight: bold”} erreichbar, nicht jedoch über die öffentliche [[YaCy-Adresse]{style=“font-style: italic”}]{style=“font-weight: bold”}! :(

Hier stellt sich mir nun folgende Frage:

Ist das so gewollt?

In meinem oben verlinkten ersten Thread habe ich folgende Antwort bekommen:

\ Solche .yacy-Domains kann man nur anschauen, wenn man in den Browser-Einstellungen Yacy als Proxy eingetragen hat. Ähnlich wie bei den .onion-Domains des Tor-Netzwerks: \



Hierzu muß ich nämlich sagen, daß das bereits funktioniert hat! Mein YaCy war von meinem jetzigen Standort aus ebenfalls unter der [[YaCy-Adresse]{style=“font-style: italic”}]{style=“font-weight: bold”} erreichbar, nicht nur über die ständig wechselnde IP. Das ist ja auch völliger Unsinn, dann brauche ich doch auch keine [[öffentliche]{style=“font-style: italic”}]{style=“font-weight: bold”} YaCy-Adresse! Eine [[öffentliche]{style=“font-style: italic”}]{style=“font-weight: bold”} Adresse ist [[jedem]{style=“font-style: italic”}]{style=“font-weight: bold”} zugänglich, z. B. https://google.de.

Laut [[YaCy-Wiki{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} ist das wie ich gerade gelesen habe eine [[interne]{style=“font-style: italic”}]{style=“font-weight: bold”} Adresse, also [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} öffentlich! Es wäre also angebracht, daß man entweder die Adresse öffentlich zugänglich macht oder sie als intern bezeichnet.

Im derzeitigen Zustand ist es jedenfalls ziemlich irreführend, das sollte so nicht sein! Wenn YaCy wirklich einen größeren Kreis erreichen möchte. dann sollte man sich da was einfallen lassen. Nicht jeder hat die Möglichkeit, YaCy als eigenen Peer einfach so nebenbei laufen zu lassen. Immerhin braucht das schon eine gehörige Portion CPU-Leistung, die hat aber nicht jeder! Selbst mein Rechner [(Athlon II X2)]{style=“font-style: italic”} geht da schon etwas in die Knie, auf einem noch schwächeren Rechner ist das ein Ding der Unmöglichkeit.

Vor allem läuft ja fast überall ganz bestimmt noch anderes im Hintergrund, bei mir unter Anderem [[BOINC{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, bei den meisten Windows-Rechnern natürlich der Virenscanner und ähnliches!

Natürlich ist mir klar, daß YaCy eine P2P-Suchmaschine ist. Sie sollte also auf den entsprechenden Rechnern direkt laufen, aber wie geschrieben geht das einfach nicht überall. Andererseits ist es aber auch so, daß eine öffentliche Suchmaschine auch dem [[\“Recht auf Vergessen\“]{style=“font-style: italic”}]{style=“font-weight: bold”} und ähnlichem Unfug unterworfen. Das wäre allerdings auch nicht Sinn und Zweck der Sache, für die YaCy steht!

Ich schaue nun mal, ob ich hier auf einem der Rechner YaCy installieren kann. Der ist zwar nicht wie meiner dauerhaft online, aber doch ziemlich oft. Ich melde mich dann später noch einmal und poste das Ergebnis, bis später dann! [(nun wollte ich schon [bis neulich{.postlink}]{style=“font-weight: bold”} schreiben! :mrgreen: )]{style=“font-style: italic”}


Grüße aus Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Fr Sep 19, 2014 1:49 pm


Hilfe für Einsteiger und Anwender • Re: [gelöst]Yacy startet nicht

Date: 2014-09-19 15:07:06

Die neue Version von Yacy hat das Problem gelöst!
Vielen Dank an die/den Entwickler

Statistik: Verfasst von lupus — Fr Sep 19, 2014 2:07 pm


YaCy Coding & Architektur • auf Principal Peer Typen verzichten?

Date: 2014-09-19 18:22:53

mir kam gerade die Idee, dass man ja die von den Principals erzeugte seedlist nun auch über die seedlist api{.postlink} abfragen kann, was prinzipiell jeden Senior zum Principal mach wenn man seine IP kennt und die sich nicht ändert. Diese Information haben wir ja bereits über den Node-Status. Insofern könnte man ein Netz-Bootstraping nur über Node Peers machen.

Das würde vor allem den Vorteil haben, das man viel einfacher eigene und neue Netze machen kann.
Spricht irgendwas dagegen?

Statistik: Verfasst von Orbiter — Fr Sep 19, 2014 5:22 pm


YaCy Coding & Architektur • Re: auf Principal Peer Typen verzichten?

Date: 2014-09-19 18:45:10

Das ist eine gute Idee - nur müsste es sicher ein fliessender Prozess bei der Umstellung sein - das man weiterhin ein paar prinzipals hält für alle älteren Peers.
Ich habe mich immer gefragt warum YaCy nicht gleich selber die Seeds bereitstellt.
Viele Peers stehen sicherlich über eine URL oder IP erreichbar im Netz.

Statistik: Verfasst von sixcooler — Fr Sep 19, 2014 5:45 pm


YaCy Coding & Architektur • Re: auf Principal Peer Typen verzichten?

Date: 2014-09-20 10:53:59

sixcooler hat geschrieben:\ Das ist eine gute Idee - nur müsste es sicher ein fliessender Prozess bei der Umstellung sein - das man weiterhin ein paar prinzipals hält für alle älteren Peers.\


ältere Peers hätten kein Problem, denn die \‘binary seedlist\’{.postlink} der API ist syntaktisch identisch mit den aktuellen seedlisten. Die URLs zu den seedlisten werden bei jedem Release von mir in der Netzwerkdefinitionsdatei geupdated so dass hier auch ältere kein Problem hätten, mal abgesehen davon, dass jeder Peer der eine eigene Netzliste hat auch ohne seedlisten hineinbooten könnte.

Ich muss das erst mal ausprobieren, hab ich nämlich noch nicht...

sixcooler hat geschrieben:\ Ich habe mich immer gefragt warum YaCy nicht gleich selber die Seeds bereitstellt.\ Viele Peers stehen sicherlich über eine URL oder IP erreichbar im Netz.\


ah hier ist der Knackpunkt: mit der bisherigen Methode kann man einfach ein Netz erstellen ohne einen root server zu haben. Nach Abschaffung der Principals ginge das nicht mehr mit YaCy Bordmitteln, aber recht einfach mit einem

Code:
curl http://localhost:8090/yacy/seedlist.html > /tmp/seedlist


lokal erst die seedliste erzeugen und dann mit einem lftp-Kommando irgendwohin pushen. Was dann allerdings wieder fehlt ist eine Propagierung der Zieladresse über den eigenen Seed, der dazu führt dass man in der Netzwerkliste hinter dem Principal-P die Adresse sehen kann. hm.

Statistik: Verfasst von Orbiter — Sa Sep 20, 2014 9:53 am


YaCy Coding & Architektur • Re: auf Principal Peer Typen verzichten?

Date: 2014-09-20 13:30:37

Wolltest Du nicht einfach in die Liste der URLs zu den Seeds einfach URLs zu Peers bzw deren Seedlist-Api packen?
Das sollte doch gehen.
Für alle Peers die in einem NAT sind, aber wie zB meiner trotzdem über eine URL erreichbar sind bräuchte es dann halt eine Möglichkeit diese URL anzugeben.

Natürlich kann man mit einem Cronjob die Seeds nach wie vor auf einen Server Schubsen - ich hab nur angs das wenn wir uns darauf verlassen zu viele der Seedserver die in alten Releases eingetragen waren wegfallen - deswegen würde ich den Mechanissmuss erst mal beibehalten.

Statistik: Verfasst von sixcooler — Sa Sep 20, 2014 12:30 pm


Hilfe für Einsteiger und Anwender • YaCyWiki benutzen

Date: 2014-09-20 16:24:53

Hallo,

ich bilde mir ein, dass ich vor einem Monat, als ich mit YaCy angefangen habe, auf einem fremden Peer gesehen habe, dass man als Gast sich im YaCy- Wiki zu registrieren. Meine Fragen sind:

  1. hat tatsächlich jeder Peer ein Wiki-System, wo sich Fremdbesucher registrieren und anmelden können?
  2. wie lautet ggf. die URL für das YaCy-Wiki?
  3. wo kann man ggf. über die Einrichtung der Wiki-User nachlesen?

Auf der Admin-Oberfläche habe ich leider keine Antworten auf meine Fragen gefunden. Die Forum- und Wiki-Suchen brachten mich leider auch nicht weiter. Auf der Seite http://yacy-websuche.de/wiki/index.php/De:Wiki ist leider auch keine URL aufgeführt, unter der das YaCy-Wiki erreichbar ist.

Gruss, flegno

Statistik: Verfasst von flegno — Sa Sep 20, 2014 3:24 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-21 13:21:32

http://localhost:8090/Wiki.html

Statistik: Verfasst von David — So Sep 21, 2014 12:21 pm


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-09-21 16:26:20

Ich habe das nicht weiterverfolgt. Schaue ich mir gleich mal an. Ich nutze sowohl ein 32-bit als auch ein 64-Bit Ubuntu-System (14.04).

Statistik: Verfasst von Huppi — So Sep 21, 2014 3:26 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-21 17:07:25

Es gibt auch eine Blog-Funktion:
http://localhost:8090/Blog.html

Statistik: Verfasst von David — So Sep 21, 2014 4:07 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-21 17:39:34

man sollte dort nicht ohne Account reinschreiben dürfen und erst recht nicht durch einen selbstgemachten Account (das gibts nicht in YaCy).
Die beiden Funktionen sind ein wenig versteckt weil sie noch nicht im Design angepasst wurden. Hat jemand Zeit das zu machen?

Statistik: Verfasst von Orbiter — So Sep 21, 2014 4:39 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-09-21 22:20:12

Aufgrund der Fehlermeldung \“Too many open files\” habe ich am Server ulimit auf 40960 eingestellt. YaCy ist aber trotzdem nach einer Zeit lang wieder abgestürzt, sodass nur eine komplette YaCy-Neuinstallation das Tool wieder ordnungsgemäß zum Laufen gebracht hat. Das ganze Prozedere auf einem anderen Server hat ebenfalls keine Lösung gebracht. Auch die Reduzierung der PPM auf 1000 war nicht von Erfolg gekrönt.

Irgendwie kommt es mir vor, als ob YaCy Probleme mit dem Crawling \“von Datei\” hat. Wie im ersten Beitrag beschrieben, lade ich mit zeitlichem Abstand Dateien mit jeweils 10.000 URLs unterschiedlicher Domains hoch. Manchmal führt bereits der Start der ersten 10.000 URL-Datei zum Crash, manchmal tritt das Problem erst nach ein paar hunderttausend URLs im Index auf. Wie gesagt, hat in einer früheren Version einst alles funktioniert. Leider weiß ich nicht mehr, welche Version das war.

Statistik: Verfasst von hotel24 — So Sep 21, 2014 9:20 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-22 05:09:05

Orbiter hat geschrieben:\ Die beiden Funktionen sind ein wenig versteckt weil sie noch nicht im Design angepasst wurden. Hat jemand Zeit das zu machen?\


Verstehe ich\’s richtig, dass es darum geht, das [Wiki.html]{style=“font-style: italic”} und [Blog.htm]{style=“font-style: italic”}l an das YaCy-Layout anzupassen? Also die entsprechende CSS-Werte zu definieren? Am einfachsten hätte es ein Quereinsteiger-Auftragnehmer, um eine Antwort zu geben/ eine Entscheidung zu treffen, wenn er/sie vorher/nachher-Bilder vor Augen hätte.

Statistik: Verfasst von flegno — Mo Sep 22, 2014 4:09 am


Hilfe für Einsteiger und Anwender • Re: Öffentliche Adresse: http://127.0.0.1:8090

Date: 2014-09-22 10:47:04

Hallo,

da ich zur Zeit an einem Analyse-Tool für das YaCy-Peer-to-Peer-Netzwerk arbeite kann ich bestätigen das es ein paar Probleme mit den \“öffentlichen\” IP-Adressen der YaCy-Peers gibt. Mein Tool muss immer wieder mal [nicht]{style=“text-decoration: underline”}öffentliche IP-Adressen ausfiltern, es werden manchmal beim Abfragen von Peers in deren Seed-Listen andere Peers aufgeführt die zwar Senior-Status haben aber trotzdem eine IP in der Art wie 127.0.0.1 oder 192.168.?.? melden. Es stellen sich mir die Fragen wie solche IP-Adressen überhaupt in die Seed-Listen kommen und wie solche Peers einen Senior-Status bekommen können? Eine kurze Suche durch den YaCy-Quell-Code hat jedenfalls gezeigt das kaum Plausibilitätstests o.ä. vorhanden sind. So wie man auch in der YaCy-Konfiguration ( /Settings_p.html?page=ServerAccess ) ins Feld \“statische IP\” jeden beliebigen Text eintragen kann der dann problemlos verbreitet wird und von den anderen Peers problemlos geschluckt wird. Meiner persönlichen subjektiven Einschätzung nach ist das YaCy-Peer-to-Peer-Netzwerk stark anfällig für unbewusste oder gar bewusste Fehlkonfigurationen. Ich vermute das ich mein Analyse-Tool mit wenig Aufwand so umbauen könnte das ich damit das gesamte YaCy-Netzwerk komplett lahmlegen kann. Eigentlich ist es ja gerade das Ziel von dezentralen Systemen möglichst immun gegenüber äußeren Einflüssen zu sein aber ich fürchte in seiner heutigen Form wird YaCy diesem Anspruch nicht ganz gerecht. Da man als \“statische IP\” auch einen .yacy Domain-Namen konfigurieren kann frage ich mich ob es möglich ist auf diesem Wege einen beliebigen YaCy-Peer in einen DoS-Failure per Endlosschleife zu schicken, ich bin fast versucht das mal auszuprobieren.

Meiner Meinung nach hat die Peer-to-Peer-Komponente von YaCy noch einiges an Verbesserungspotential, da ich aber nicht nur Meckern möchte biete ich noch einmal meine Hilfe für diesen Punkt an!

Zu den Domains .yacy. und .yacyh. kann ich nur sagen das es für die meisten Internetnutzer sicher verwirrend ist das diese nicht mit jedem beliebigen Browser funktionieren sondern nur wenn der Browser einen YaCy-Peer als Proxy benutzt. Der durchschnittliche Internetnutzer weiß einfach nicht das nur die von der IANA offiziell abgesegneten Top-Level-Domains (siehe http://iana.org/domains/root/db) auch wirklich über das [normale]{style=“font-style: italic”} DNS-System erreichbar sind. DNS arbeitet normalerweise unauffällig im Hintergrund so das sich die meisten Internetnutzer schon dessen Existenz gar nicht bewusst sind und es ist meiner Meinung nach die Aufgabe der Programmierer dafür zu sorgen dass das auch so bleibt.
Für mich jedenfalls ist dieses Problem das Hauptmotiv für mein Analyse-Tool das eigentlich primär ein DNS-Server für die beiden Top-Level-Domains .yacy. und .yacyh. werden soll. So wie ich ins Internet gehe stellt es kein Problem dar für bestimmte TLDs einen extra DNS-Server zu konfigurieren, ob das bei den üblichen Betriebssystemen auch mit Bordmitteln geht weiß ich aber nicht, sollte mein DNS-Server dafür irgendeine Voraussetzung erfüllen müssen bin ich gerne bereit das bei Bedarf nachzurüsten. Sobald mein Tool soweit fertig ist das es als DNS-Server in den Regelbetrieb gehen kann melde ich das hier im Forum.

Im übrigen sind die beiden YaCy-Top-Level-Domains auch nicht auf den Status \“Reserved\“, wie z.B. .local., so das es durchaus möglich ist das irgendjemand diese Domains für sich bei der IANA offiziell beantragt und auch zugewiesen bekommt womit es dann zwangsläufig zu Problemen käme.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 22, 2014 9:47 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-22 11:26:53

Hallo,

sorry das ich mich letzte Woche hier nicht gemeldet habe, ich war ganz unverhofft sehr weit weg.

An meinem Tool habe ich trotzdem etwas weitergearbeitet aber ich kämpfe momentan noch damit unplausible Peers auszufiltern und mit Kollisionen (z.B. verschiedene Peers mit gleichen Namen aber unterschiedlichen Hashs) korrekt umzugehen.

Da nun wohl doch zumindest eine rudimentäre Übersicht direkt in YaCy integriert werden soll stellt sich die Frage ob es noch Interesse gibt zumindest eine Weltkarte mit allen erreichbaren YaCy-Peers (also >= Seniors) anzubieten. Falls ja dann werde ich auf jeden Fall keine Liste mit IP-Adressen sondern mit Längengrad und Breitengrad bieten, das Format dieser Liste darf frei definiert werden. Ich würde mir wünschen das mein Tool regelmäßig (z.B. alle 2 Stunden) auf einem Web-Server ein PHP/Python/sonstwas-Script aufruft und die Liste per HTTP-POST übermittelt und dieses Script dann die Weltkarte als Graphik (bevorzugt SVG) ablegt, auf diese Weise würde der CPU-intensive Teil nur dann ausgeführt wenn tatsächlich eine neue Liste kommt. Zu allem was auf diesem Web-Server läuft wäre ich über Hilfe auf jeden Fall dankbar und Bitte einfach mal um konkrete Vorschläge wie sowas zu realisieren ist.
Die Diskussion zu diesem Thema möchte ich trotzdem gerne hier im Forum führen auch wenn es hin und wieder mal zu Verzögerungen kommt, schon weil ich persönlich es nicht so mag wenn solche Dinge auf nicht öffentlichen Wegen ablaufen.

Das mit der \“Wer kennt Wen\” Analyse dient eher dem Finden von Problemen im YaCy-Peer-Netzwerk-Algorithmus und ist nicht zur öffentlichen Zurschaustellung gedacht, nebst dessen das der normale User damit kaum etwas anfangen können wird und das wenn der Algorithmus in YaCy gut arbeitet es auch nichts interessantes zu sehen gibt weil dann jeder jeden kennt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 22, 2014 10:26 am


Hilfe für Einsteiger und Anwender • das Thema DNS ist für den Durchschnittsanwender wichtig ...

Date: 2014-09-22 17:27:42

Hallo,

Ich schlage vor das Thema DNS ggf. in diesem separaten Thread zu behandeln, da sonst die Diskussion zu weit vom Thema des Startthreads abgedriftet hat.

Erik\_S im Thread [Öffentliche Adresse: 127.0.0.1:8090](http://forum.yacy-websuche.de/viewtopic.php?p=30771#p30771){.postlink} hat geschrieben:\ DNS arbeitet normalerweise unauffällig im Hintergrund so das sich die meisten Internetnutzer schon dessen Existenz gar nicht bewusst sind und es ist meiner Meinung nach die Aufgabe der Programmierer dafür zu sorgen dass das auch so bleibt.\



Wo du Erik Recht hast - man ist heut\‘zutage auch als Anwender gezwungen sich mit dem Thema DNS zu beschäftigen. Das Thema DNS ist für den Durchschnittsanwender wichtig geworden. Anders als du bin ich aber der Meinung, dass es an der Zeit ist, dass sich die Anwender mit dem Thema DNS eingehender beschäftigen. Es macht nichts, dass die Anwender früher das nicht gemacht haben.Die Zeiten ändern sich. Die Themen, Kompetenzen und Verantwortlichkeiten der Anwender ändern sich auch.

Noch vor wenigen Jahren waren die Begriffe wie EMail, Website, Bandbreite, Internet usw. sowas wie böhmische Dörfer - heute hantieren von Freiberuflern und Handwerkern bis technisch affinen Hausfrauen mit diesen Begriffen - ganz selbstverständlich. Ich war letzte Wochen mit dem Thema dynDNS in einschlägigen Foren unterwegs und stelle fest, dass das Thema sehr gefragt ist. Weil nicht nur heimisches Mediacenter oder die Webcam, sondern bspw. auch die Jaoulisien, der Heizofen oder die Klimaanlage sind per Internet steuerbar gewanden.

Um hier richtige Lösungsänsäitze zu verfolgen und richtig skalierte Lösungen zu realisieren, kommt man nicht umhin, sich in das Thema einzuarbeiten - mehr oder weniger. Als ich nach einer Möglichkeit gesucht habe, meinen Peer aus dem Internet zugänglich zu machen, bin ich auf die Idee gekommen, komplett eigene DNS-Lösung zu basteln - ohne externen Dienstleister. Schnellhabe ich aber festgestellt, dass dies

[DynDNS ohne dynDNS-Provider](http://www.administrator.de/link/dyndns-ohne-dyndns-provider-249237.html){.postlink} hat geschrieben:\ [Eigener richtiger DynDNS Dienst:]{style="font-weight: bold"}\ - besorg dir einen Server mit fester IP im Netz (geht auch problemlos mit den Amazon Webservices) - darauf installierst du bind und apache - dann definierst du diesen Server als Nameserver für deine Domain bei deinem Domainhoster - nun schreibst du ein PHP-Script das durch Aufruf mit URL-Parametern in bind deine Records mit der neuen IP Updated, und schon bist du dein eigener DynDNS Herr und Meister .(hab ich hier noch irgendwo rumfliegen) Ob dich das dann billiger kommt als ein kommerzieller DynDNS-Dienst musst du selber ausloten, man ist damit halt flexibler, aber es bedeutet natürlich auch Wartungsaufwand.\

doch eine Nummer zu groß für mich ist.

\@Erik:

  1. verstehe ich richtig, dass dein DNS-Server die oben beschriebene DynDNS-Funktionalität komplett implementiert?
  2. ich habe hier eine sehr schlanke clientseitige Lösung
    Client-IP-Adresse an den Server übermitteln{.postlink} programmiert, die clientseitig keine 10 Zeilen Code hat, wird im Browser ausgeführt und somit keine Installation braucht. Vlt. kannst du ja die Lösung auf die oder andere Weise in deiner DNS- oder evtl. noch nicht existenten DynDNS-Lösung verwenden.

Gruss, Gustav

Statistik: Verfasst von flegno — Mo Sep 22, 2014 4:27 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-22 18:27:40

flegno hat geschrieben:\ die entsprechende CSS-Werte zu definieren\


umgekehrt, in die html die css-Klassen von Bootstrap eintragen.

Statistik: Verfasst von Orbiter — Mo Sep 22, 2014 5:27 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-22 18:58:49

Hallo,

flegno hat geschrieben:\ man ist heut\'zutage auch als Anwender gezwungen sich mit dem Thema DNS zu beschäftigen.\

Ja, leider hast Du da bis zu einem gewissen Grad recht. Trotzdem bin ich der Meinung das die Programmierer der Anwendungen dem Anwender so viel wie möglich abnehmen und teilweise auch vor dem Anwender verstecken sollten. Insbesondere die Problematik alternativer Top-Level-Domains (also eine alternative Root-Zone) dürfte den meisten Anwendern nur schwer zu vermitteln sein. Nebst dessen das all jene die sich für DynDNS interessieren eben kein alternatives DNS wollen, schließlich soll ihr Heimnetz ja von überall erreichbar sein ohne dort etwas spezielles (wie eben ein alternatives DNS) konfigurieren zu müssen.

flegno hat geschrieben:\ \[1\] verstehe ich richtig, dass dein DNS-Server die oben beschriebene DynDNS-Funktionalität komplett implementiert?\

Nein, nicht ganz. Mein Programm soll selbstständig das YaCy-Netzwerk nach allen erreichbaren Peers automatisch durch crawlen und daraus eine Datenbank mit allen Peers generieren. Diese Datenbank ist dann die Basis für den DNS-Server. Das ist dann eine Art DynDNS aber mit automatischer IP-Änderung ohne das Du ein lokales Tool o.ä. benötigst. Das funktioniert aber nur weil die YaCy-Peers sich selbstständig mit ihrer aktuellen IP im YaCy-Peer-to-Peer-Netzwerk melden.
Da mein DNS-Server aber eben eine alternative Root-Zone (in der nur .yacy. und .yacyh. vorkommen) anbietet und nicht teil des normalen DNS-Systems ist kannst Du leider trotzdem nicht einfach so auf einen YaCy-Domain-Namen verweisen (z.B. beim HTTP-Return-Code 307) da der übliche Browser nichts von meinem DNS-Server weiß.
Das einzigste was ich mir vorstellen kann ist das ich zusätzlich einen minimalen HTTP-Server implementiere (auf den Du weiterleitest) der bei Anfragen zu den Hosts innerhalb der YaCy-Domains seinerseits wieder eine HTTP-307-Weiterleitung auf die aktuelle IP-Adresse + Port zurückliefert. Zumindest normale Browser sollten damit zurecht kommen, alles andere ist dann eben davon abhängig wie gut diese HTTP-307-Weiterleitungen ausgewertet werden und was nicht auf HTTP aufsetzt hat gar nichts davon. Ob das dann auch mit dem geplanten Mentor-Mentee-Konzept zusammen spielt kann ich noch nicht sagen aber da könnte es Probleme geben.

Ändert so eine HTTP-307-Weiterleitung eigentlich die Adresszeile im Browser? Und den Refferer bzw. Host im HTTP-Request?

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 22, 2014 5:58 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-23 10:41:06

Hallo,

Erik\_S hat geschrieben:\ Ändert so eine HTTP-307-Weiterleitung eigentlich die Adresszeile im Browser?\

Ja

Erik\_S hat geschrieben:\ Und den Refferer bzw. Host im HTTP-Request?\

Daes nicht mein tägliches Brot ist und damit wir nicht einander vorbei reden - \” ändert im Vergleich zu ...?\” kannst du eine Teststellung beschreiben, die ich nachbauen kann?

Erik\_S hat geschrieben:\ Mein Programm soll selbstständig das YaCy-Netzwerk nach allen erreichbaren Peers automatisch durch crawlen und daraus eine Datenbank mit allen Peers generieren. Diese Datenbank ist dann die Basis für den DNS-Server. Das ist dann eine Art DynDNS aber mit automatischer IP-Änderung ohne das Du ein lokales Tool o.ä. benötigst.\

Ist es nicht so, dass eine Peer-Liste in der YaCy-GUI bereits eingebunden ist? Ich finde auf die Schnelle das Menü nicht, aber ich weiss, dass diese Listeangeboten wird - sogar mit Möglichkeit einzelnen Peers Nachrichten zu senden.

Erik\_S hat geschrieben:\ HTTP-Server implementiere (auf den Du weiterleitest) der bei Anfragen zu den Hosts innerhalb der YaCy-Domains seinerseits wieder eine HTTP-307-Weiterleitung auf die aktuelle IP-Adresse + Port zurückliefert.\

Verstehe ich es richtig, dass du damit einen für alle Peers verfügbaren Webspace meinst, auf dem mit einem Skript oder mit [.htaccess]{style=“font-style: italic”} eine HTTP-307-Weiterleitung implementiert ist?

Gruss, Gustav

Statistik: Verfasst von flegno — Di Sep 23, 2014 9:41 am


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-23 17:46:23

Hallo,

flegno hat geschrieben:\ Ist es nicht so, dass eine Peer-Liste in der YaCy-GUI bereits eingebunden ist?\

Ja, aber diese Liste kennt nur einen kleinen Teil der tatsächlich aktiven YaCy-Peers mit Status Senior aber dafür noch eine Menge YaCy-Peers mit Status Junior. Von Außen, also aus dem öffentlichen Internet, erreichbar sind aber nur die Seniors und nur für diese interessiert sich mein Tool (für Hosts die man nicht ansprechen kann brauchts auch keine DNS-Auflösung). Das Problem ist das wenn Du einen beliebigen anderen Peer nach Deinem Peer fragst das Du mit guter Wahrscheinlichkeit eine falsche oder zumindest veraltete Antwort bekommst da die Peers leider nur einen sehr begrenzten Überblick haben.

Das einzigste was mir zu Deinem Problem noch einfallen würde ist das Du Deinen YaCy-Peer dazu konfigurierst seine Seed-Liste regelmäßig auf einem öffentlichen Server upzuloaden und Du mit einem Script (anstatt .htaccess) diese Seed-Liste nach Deinem Peer durchsuchst und die darin enthaltene IP+Port für die Weiterleitung des Browsers benutzt, leider ist diese Seed-Liste kodiert/komprimiert aber vielleicht ist das gar nicht so schwer. Da Dein Peer sich selber immer kennt sollte diese Methode relativ zuverlässig sein und auch recht schnell auf Änderungen Deiner IP-Adresse reagieren (YaCy aktualisiert diese Liste wohl alle paar Minuten).

flegno hat geschrieben:\ Verstehe ich es richtig, dass du damit einen für alle Peers verfügbaren Webspace meinst, auf dem mit einem Skript oder mit [.htaccess]{style="font-style: italic"} eine HTTP-307-Weiterleitung implementiert ist?\

So ähnlich, ich würde einen minimalen HTTP-Server selber programmieren der bei einer Anfrage zu einem beliebigen YaCy-Peer die interne DNS-Datenbank durchsucht und wenn dieser Peer online ist eine korrekte 307-Weiterleitung (mit aktueller IP + Port) zurücksendet, falls der gewünschte YaCy-Peer unbekannt oder offline ist würde eine passende Fehlermeldung kommen. Dieser HTTP-Server ist nicht nur für die YaCy-Peers sondern auch für jeden Browser (der ins echte Internet darf) erreichbar also generisch nutzbar.

Ich stelle mir das so vor das Du einen Web-Server mit der Domain \“yacy.deine-domain.de\” hast und dort bei Zugriffen auf \“yacy.deine-domain.de/search.html\” eine Weiterleitung auf \“flegnos-yacy-peer.yacy/search.html per DNS-IP:Port\” zum Browser zurückkommt, der Browser wendet sich dann an meinen HTTP-Server (per DNS-IP:Port) welcher seinerseits mit einer Weiterleitung an \“yacy-peer-ip:port/search.html\” antwortet womit der Browser dann zum gewünschten YaCy-Peer geschickt wird. Der Vorteil dieser Methode wäre das Du keinerlei Dynamik auf Deinem Web-Server benötigst und das auch Deine URL komplett (also der Teil hinter Host:Port/) erhalten bleibt. Der Host auf dem mein YaCy-DNS-Server laufen soll ist ein Root-Server im Internet mit fester IP-Adresse (also DNS-IP ist konstant, der Port wird aber wohl nicht 80 sondern was individuelles aber auch konstant sein). Da nach dem ersten Zugriff der Browser alles weitere direkt mit dem YaCy-Peer kommuniziert entsteht auf meinem Server auch kaum nennenswert Traffic mit dieser Methode, jedenfalls nur wenig mehr als bei einer klassischen DNS-Abfrage.

Darüber hinaus wäre diese Methode auch geeignet meinen HTTP-Server als Web-Proxy für die beiden YaCy-Domains zu benutzen. Es gibt für Firefox ein paar AddOns die es erlauben Domain-spezifisch Proxys zu konfigurieren, damit könnte ein so konfigurierter Browser immer direkt auf alle erreichbaren YaCy-Peers zugreifen ohne das man dazu einen lokalen YaCy-Peer benötigt (bei dem dann auch noch der gesamte Traffic durch soll wogegen meine Lösung nur die erste Kontaktaufnahme handelt).

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 23, 2014 4:46 pm


Hilfe für Einsteiger und Anwender • Blutiger Neueinsteiger

Date: 2014-09-23 18:19:39

Hallo

Ich bin der Patrick alias ramfresser und ich habe heute diese Software gefunden.

Wir sind ein kleiner Verein der ausschließlich sein Unwesen im Internet treibt und nun soll eine Suma dazu kommen.

Ahnung vom Ganzen haben wir soviel, wie die berühmte Kuh vom Schlittschuhlaufen. :lol:

Das hält uns aber nicht davon ab, es trotzdem zu versuchen eine kleine themenrelevane Suma bauen zu wollen.

1. Schritt - Download der Software - erfolgreich durch geführt

2. Schritt - Software entpackt und per FTP auf den Server geladen - erfolgreich durch geführt

3. Schritt - dumm wie ein Ochse vor dem Berg stehen - erfolgreich durch geführt :lol: :lol: :lol:

Also wie muss es jetzt weiter gehen?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Sep 23, 2014 5:19 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-23 18:52:53

Hallo,

ich habe diesen Thread ja auch gestartet um die Ergebnisse meiner Analysen des YaCy-Peer-to-Peer-Netzwerks mit Euch zu teilen, also:


leider gibt es auch massive Probleme in den Seed-Listen einiger Peers:

zusammenfassend muss ich leider feststellen das es wohl so gut wie keine Plausibilitätstests o.ä. in YaCy gibt, zumindest im Peer-to-Peer-Netzwerk-Management.
Ich möchte daher noch einmal meine Hilfe und Mitarbeit für die Beseitigung dieser Probleme anbieten!

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 23, 2014 5:52 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-23 19:23:28

wenn du eine Themensuchmaschine machen willst, kannst du das mit einfachen Seitencrawls machen, eine Anleitung ist in dem Video:
https://www.youtube.com/watch?v=UUAylWYqzac

Statistik: Verfasst von Orbiter — Di Sep 23, 2014 6:23 pm


Hilfe für Einsteiger und Anwender • Re: YaCyWiki benutzen

Date: 2014-09-23 19:43:59

Orbiter hat geschrieben:\ Hat jemand Zeit das zu machen?\

Ich habe versucht, sich in CSS /HTML im Blindflug durchzuklicken, bin aber kein Schritt weiter gekommen. Mit ein Paar Hilfestellungen dazu, wie man

Orbiter hat geschrieben:\ html die css-Klassen von Bootstrap eintragen\

kann habe ich vlt. mehr Glück.

Statistik: Verfasst von flegno — Di Sep 23, 2014 6:43 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-23 19:52:17

Hallo

Gehen wir doch mal ein paar Schritte zurück.

Wie Start ich das Setup, damit ich z.B. die Datenbankanbindung erstellen kann usw?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Sep 23, 2014 6:52 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-23 20:13:19

Erik\_S hat geschrieben:\ Das einzigste was mir zu Deinem Problem noch einfallen würde ist das Du Deinen YaCy-Peer dazu konfigurierst seine Seed-Liste regelmäßig auf einem öffentlichen Server upzuloaden und Du mit einem Script (anstatt .htaccess) diese Seed-Liste nach Deinem Peer durchsuchst und die darin enthaltene IP+Port für die Weiterleitung des Browsers benutzt, leider ist diese Seed-Liste kodiert/komprimiert aber vielleicht ist das gar nicht so schwer. Da Dein Peer sich selber immer kennt sollte diese Methode relativ zuverlässig sein und auch recht schnell auf Änderungen Deiner IP-Adresse reagieren (YaCy aktualisiert diese Liste wohl alle paar Minuten).\

Kommt für mich definitiv nicht infrage, der Einarbeitungsaufwand ist zu groß.

Erik\_S hat geschrieben:\ Darüber hinaus wäre diese Methode auch geeignet meinen HTTP-Server als Web-Proxy für die beiden YaCy-Domains zu benutzen. Es gibt für Firefox ein paar AddOns die es erlauben Domain-spezifisch Proxys zu konfigurieren, damit könnte ein so konfigurierter Browser immer direkt auf alle erreichbaren YaCy-Peers zugreifen ohne das man dazu einen lokalen YaCy-Peer benötigt (bei dem dann auch noch der gesamte Traffic durch soll wogegen meine Lösung nur die erste Kontaktaufnahme handelt).\

Keine Ahnung, was für Programmieraufwand notwendig ist, um deinen HTTP-Server zu realisieren. Ich vermute, dass ein erheblicher Aufwand notwendig wird, um die Anwender dazu zu bringen, den Server tatsächlich auch zu nutzen. Ich als Anwender muss mich doch verlassen können, dass der Server dauerhaft verfügbar ist und korrekt funktioniert.

Bspw. bei HostsMan{.postlink} hat man die Möglichkeit sich Filterlisten mit Tausenden Einträgen herunter zu laden. Ich nutze das nicht, weil ich keine Ahnung habe, ob evtl. Hosts abgefiltert werden, die mich interessieren.

Gruss, Gustav

Statistik: Verfasst von flegno — Di Sep 23, 2014 7:13 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-23 20:13:55

setup gibts keins ausser den Klick auf \“Suchportal für eigene Webseiten\” in /ConfigBasic.html. Das macht man um vom p2p-Netz getrennt zu sein und nur seinen eigene Webindex zu pflegen. Dann muss man natürlich auch selber Webseiten in den Index packen, das ist im Video beschrieben.

Eine Datenbankanbindung braucht man nicht, die Software ist so ganz komplett. Nicht kompliziert denken, einfach so drauf loslegen wie im Video.

Statistik: Verfasst von Orbiter — Di Sep 23, 2014 7:13 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-23 21:40:31

Hallo,

flegno hat geschrieben:\ Kommt für mich definitiv nicht infrage, der Einarbeitungsaufwand ist zu groß.\

Eventuell wäre das eine Aufgabe für jemand der Ahnung von solchen Scripten hat und den YaCy-Anwendern etwas Gutes tun möchte. Ein einfaches Script in das man auch als Programmierunkundiger am Anfang die URL der eigenen SeedListe und den gewünschten Peer-Namen einträgt und dieses Script erzeugt dann beim Aufruf eine passende 307-Weiterleitung wäre eventuell eine Idee an der auch andere YaCy-Anwender gefallen finden könnten.

Eine andere Alternative könnte sein das man in so einem Script eine HTTP-basierte DNS-Abfrage initiert, mein kleiner HTTP-Server könnte z.B. auf die URL \“/dns?name=yacy-name.yacy\” einfach mit IP und Port als Klartext (ohne jegliches HTML o.ä.) antworten und das Script auf einem beliebigen Web-Space nimmt diese Antwort dann um daraus die gewünschte 307-Weiterleitung zu generieren, der Parser-Aufwand im Script wäre minimalst und die Wirkung trotzdem vorhanden ohne das noch irgendetwas anderes beim End-Anwender bzw. dessen Browser benötigt wird. Wobei das Ergebnis ziemlich identisch zu der Version mit 2 Weiterleitungen von Heute Nachmittag ist.

flegno hat geschrieben:\ Keine Ahnung, was für Programmieraufwand notwendig ist, um deinen HTTP-Server zu realisieren.\

Das ist nicht viel, ein ruhiges Wochenende sollte ausreichen. Entscheidend ist da eher die Frage auf was für Arten dieser HTTP-Server seinen DNS-Dienst erbringen soll. Letzten Endes ist das nichts anderes als ein DNS-Server der per HTTP abgefragt wird.
Momentan kämpfe ich aber noch damit die DNS-Datenbank mit verlässlichen Informationen zu befüllen.

flegno hat geschrieben:\ Ich vermute, dass ein erheblicher Aufwand notwendig wird, um die Anwender dazu zu bringen, den Server tatsächlich auch zu nutzen.\

Der Vorschlag mit einem zusätzlichen Browser-AddOn war eher für diejenigen gedacht die regelmäßig verschiedene YaCy-Peers ansurfen wollen aber trotzdem keinen lokalen YaCy-Peer als Proxy nutzen wollen/können.

flegno hat geschrieben:\ Ich als Anwender muss mich doch verlassen können, dass der Server dauerhaft verfügbar ist und korrekt funktioniert.\

Also der Server den ich nutze hatte bis jetzt nur kurze und vereinzelte Down-Times, meistens nur ein Reboot nach dem Einspielen von UpDates. Als Programmierer mache ich meistens Software im Embedded-Bereich, ich bin es gewohnt das meine Programme oft Monate oder gar Jahre durchlaufen ohne neu gestartet werden zu müssen.

Ob man Filterlisten vertraut ist natürlich eine Frage des persönlichen Ermessens, das gilt auch für dieses HostsMan. Bei mir privat erledigt diese Dinge mein Proxy-Server über den alles geht was aus meinen lokalem Netzwerk ins Internet will, dort habe ich auch Filterlisten eingebunden die von meinem Proxy automatisch regelmäßig geladen werden ohne das ich jedes mal nachsehe was sich alles geändert hat.
Die Idee das mit Hilfe der hosts-Datei zu machen ist mir neu aber irgendwie strange.
Ganz am Anfang des Internetz, noch bevor es DNS gab, wurde die Namensauflösung nur mit dieser Datei gemacht, vielleicht wäre das noch ein alternativer Weg die YaCy-Peers einem Browser unter zu schieben aber sicher kein bequemer Weg.
Ich denke für das Problem alternativer Root-Zonen ist es das Beste wenn es möglich ist im Betriebssystem (oder eventuell im Browser, in diese Richtung zielte der Vorschlag mit dem AddOn) zusätzliche DNS-Server für zusätzliche Top-Level-Domains anzugeben. Für all jene Situationen wo das nicht geht halte ich einen HTTP-basierten Weiterleitungsmechanismus, der intern auf die DNS-Datenbank zugreift, für die eleganteste Lösung.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Sep 23, 2014 8:40 pm


YaCy Coding & Architektur • Re: YaCyBar Maintainer

Date: 2014-09-23 23:47:17

I have taken up a fork of the chrome version of yacybar( added optional auto-crawl feature to it ) at https://github.com/ramSeraph/yacybar

I am thinking of porting the whole thing to firefox as well.. I can do it If you think that would help adaption.

Statistik: Verfasst von ramseraph — Di Sep 23, 2014 10:47 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-24 01:13:29

Guten Morgen

So die Suma läuft aber das heißt nicht das ich gerade Ahnung habe, von dem was da vor meinen Augen abläuft. :lol: :lol: :lol:

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Mi Sep 24, 2014 12:13 am


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-24 10:13:49

Hallo,

Ich habe eine grundsätzliche Anmerkung bzw. einen Vorschlag was die Kommunikation/Dokumentation im Rahmender Zusammenarbeit im YaCy-Projekt betrifft, von dem ich mir verspreche, dass bei der Umsetzung viele Akteure (YaCy- Entwickler, YaCy-Anwender und letzendlich das YaCy-Projekt insgesamt) davon profitieren können. Dein Ansatz

Erik\_S hat geschrieben:\ die Programmierer der Anwendungen dem Anwender so viel wie möglich abnehmen und teilweise auch vor dem Anwender verstecken sollten.\

betrachte ich nicht zielführend in dem Sinne, dass der Anwender bei so einer Behandlung bevormundet wird. Abgesehen davon ist die Grenze zwischen dem Anwender und Programmierer fließend. In dem Moment, wo ich eine von dir programmierte Anwendung verwende, bin ich ein Anwender, im nächsten Augenblick bin ich ein Programmierer, sobald ich auf die Idee komme, die Anwendung - und sei unter Anwendung dein HTTP-Server gemeint - weiterzuentwickeln.

Ich mache mir diese Mühe, diesen Vorschlag so detailliert auszuformulieren, weil ich beim Lesen deiner Postings immer wieder so meine Schwierigkeiten habe, dir zu folgen. Ein Beispiel

Erik\_S hat geschrieben:\ Dieser HTTP-Server ist nicht nur für die YaCy-Peers sondern auch für jeden Browser (der ins echte Internet darf) erreichbar also generisch nutzbar.\

Du machst weiter

Erik\_S hat geschrieben:\ Ich stelle mir das so vor das Du einen Web-Server mit der Domain \...\

ausführlichere Erklärungen, wo keine Präzisierung enthalten ist, aber wo ich aus dem Kontext davon ausgehe, dass die Ausführungen bzw. die Funktionalität nicht \“für jeden Browser (der ins echte Internet darf)\“, sondern nur für jeden Browser, der deinen HTTP-Server als Proxy hat. Weiter unten bestätigst du meine Vermutung indirekt:

Erik\_S hat geschrieben:\ Darüber hinaus wäre diese Methode auch geeignet meinen HTTP-Server als Web-Proxy für die beiden YaCy-Domains zu benutzen.\

Praktische Konsequenz aus meinem Vorschlag oben - bevor du auf meine Aussage hier dein Kommentar schreibst, bitte ich dich als ein Testlauf, ob mein Vorschlag oben zielführend ist, das von mir mit der freien Software [Dia]{style=“font-style: italic”} gemachte Zeichnung DNS-Rolle im digitalen Raum{.postlink} :

Bild

anzuschauen und überlegen, ob es sich evtl. für dich lohnt:

  1. einmalig http://live.gnome.org/Dia zu installieren
  2. die Antwort ggf. mit einer Änderung der Dia-Zeichnung DNS-Rolle im digitalen Raum{.postlink} zu präzisieren, zu verdeutlichen.

Wenn du für die Zeichnung/Dokumentierung von IT-Strukturen eine andere freie Software als [Dia]{style=“font-style: italic”} bevorzugst, da bin ich flexibel. Für mich ist es wichtig, eine geeignete Darstellungsform für die zu realisierende Anwendungen bzw. Dienste zu finden. Ich kann mir vorstellen, dass die bildliche Darstellung:

  1. für eine zeitsparende Kommunikation im Projekt hilfreich sein kann - \”[Ein Bild sagt mehr als Tausend Worte!]{style=“font-style: italic”} ;)\”
  2. eine zeitsparende Erstellung der Projektdokumentation erleichtert. Die in der Entwicklungsphase erstellten Bilder/Zeichnungen können zeitsparend auszugsweise

    • 1:1 von den Entwicklern/Supportern nach der Übergabe der Lösung in die Produktion
    • 1:1 von den Anwendern - Doku

    ...genutzt werden.


Erik, ich nehme an, wenn du diese Aufgabe hier:

Erik\_S hat geschrieben:\ Eine andere Alternative könnte sein das man in so einem Script eine HTTP-basierte DNS-Abfrage initiert, mein kleiner HTTP-Server könnte z.B. auf die URL \"/dns?name=yacy-name.yacy\" einfach mit IP und Port als Klartext (ohne jegliches HTML o.ä.) antworten und das Script auf einem beliebigen Web-Space nimmt diese Antwort dann um daraus die gewünschte 307-Weiterleitung zu generieren, der Parser-Aufwand im Script wäre minimalst und die Wirkung trotzdem vorhanden ohne das noch irgendetwas anderes beim End-Anwender bzw. dessen Browser benötigt wird. Wobei das Ergebnis ziemlich identisch zu der Version mit 2 Weiterleitungen von Heute Nachmittag ist.\

als Zeichnung formulierst, dann:

  1. sind es ein Paar Leser mehr, die diese Aufgabe zur Kenntnis nehmen
  2. sind es ein Paar Leser mehr, die die Aufgabe auch kapiert haben
  3. hast du bereits dazu beigetragen, dass die Software-Lösung dokumentiert ist ( ein ewiges leidiges Thema - unvollständige bzw. fehlende Software-Doku :roll: )

Ich für mein Teil kann berichten, dass ich die Aufgabe nicht 100% kapiert habe :roll: .

Erik\_S hat geschrieben:\ Entscheidend ist da eher die Frage auf was für Arten dieser HTTP-Server seinen DNS-Dienst erbringen soll.\


Ich bin mir nicht sicher, ob ich dein Kommentar korrekt verstanden habe, unabhängig davon habe ich eine Idee, dass man in einem YaCy-Netzwerk so einen Service wie Schlüsselservice gebrauchen könnte - habe ich im Bild oben eingefugt. Ich meine sowas, wie Schlüsselserver, die im Programm Enigmail für die Verwaltung von PGP/GPG-Schlüsseln verwendet werden. Um ad-hoc die Vertrauenswürdigkeit von Peers zu ermitteln. Mit Blick nach vorne ist doch eine Gewichtung der Treffer in der Trefferliste abhängig von der Vertrauenswürdigkeit der jeweiligen Peers, die diese Treffer geliefert haben. Ich bin nämlich über die YaCy-Lösung gestolpert, als ich vor einem Monat an einem Konzept [\“Peer-to-Peer-Suche im Web of Trust\“]{style=“font-style: italic”} http://thesearch.sprechrun.de/ gearbeitet habe. Es ist doch mit der Vertrauenswürdigkeit von Schlüsselservices nicht viel anders, als mit DNS oder den Filterlisten - ich muss mich darauf verlassen können, dass:

a. der Server verfügbar ist b. die enthaltene Daten vertrauenswürdig sind.

Und da käme m.E. sowas wie PGP/GPG in\’s Spiel. Und jetzt mache ich erstmals einen Punkt.

Gruss, Gustav

Statistik: Verfasst von flegno — Mi Sep 24, 2014 9:13 am


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-24 10:31:15

ramfresser hat geschrieben:\ So die Suma läuft aber das heißt nicht das ich gerade Ahnung habe, von dem was da vor meinen Augen abläuft. ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing") ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing") ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing")\

Gratulation, dass die Suche läuft! Kannst du verraten, wie bist du auf YaCy aufmerksam geworden und was dich dazu motiviert hat, YaCy auch zu installieren :P :?:

Gruss, Gustav alias fleqno

Statistik: Verfasst von flegno — Mi Sep 24, 2014 9:31 am


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-24 11:44:13

Hallo

flegno hat geschrieben:\ >
> > ramfresser hat geschrieben:So die Suma läuft aber das heißt nicht > das ich gerade Ahnung habe, von dem was da vor meinen Augen abläuft. > ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing") > ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing") > ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing")\ > >

Gratulation, dass die Suche läuft! Kannst du verraten, wie bist du auf YaCy aufmerksam geworden und was dich dazu motiviert hat, YaCy auch zu installieren :P :?:

Gruss, Gustav alias fleqno



Ich suche seit Jahren eine passende Software für meine Idee der eigenenständigen und themenspezialisierte Suchmaschine. Leider fand ich immer nur Projekte, die nicht mehr weiter entwickelt werden oder seit Jahren schon brach herum liegen. Gestern bin ich über ein Projekt mit dem Namen \“TSEP\” gestolpert und habe den Inhaber Herr Nöhring angeschrieben. Seine Antwort war leider nicht positive den das Projekt \“TSEP\” ist nur für interne Suchen auf einer bestimmten Webseite gebaut worden.

Der Herr Nöhring erinnerte sich aber an ein Projekt, was das was ich vorhabe, auch realisieren kann und schrieb mir ein später Stunden später per Mail, den Link zu euch hier.

Bevor ich nur ein Wort auf der Webseite gelesen hatte, lief der Download schon und die Telefonleitung zu meinen Forumtechniker wurde von Sekunde zu Sekunde heißer. :lol: :lol: :lol:

Auf seinem Testserver hat mein Forumtechniker die Suma installiert und mir erklärt wie und was ich tun muss.

Eigentlich wollten wir das heute Abend gemeinsam machen, aber ich war heute Nacht zu ungeduldig und habe den Versuch der Installation einfach selber versucht.

Der hat geklappt und gescrawlt wurde auch schon fleißig und im großen Netz war ich schon, aber 99,99% von dem was ich da sehe sind vorerst noch böhmische Dörfer für mich.

Mein Server hat ein ICore 5 ( 4 x 3,2 GHZ) 64bit CPU, 16 GB Arbeitsspeicher und 2 x 2 TB Festplatten, das sollte mehr als reichen für den Start der Suma.

Das war die Geschichte in Kurzform wie ich hier gelandet bin.

Ich bin kein Programmierer, kein Linuxspezialist sondern einfach nur ein 38 jähriger Rentner mit einen gemeinnützigen Verein, einen Forum was seit über 10 Jahren online ist und einen riesen Haufen voller verrückter Ideen. Wobei ich sagen muss, die fast verrückteste Idee wurde heute Nacht real. :lol: :lol: :lol:

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Mi Sep 24, 2014 10:44 am


Fragen und Antworten • Reguläre Ausdrücke im Experten Crawl

Date: 2014-09-24 12:04:14

Hallo,

ich versuche nun seit Stunden nur bestimmte Unterordner bzw. mit betimmten Get Parametern zu indexieren.

Ich habe versucht:
[\“Das sind Limitierungen auf den Index-Feeder. Die Filter werden angewandt wenn eine Webseite geladen wurde.\“]{style=“font-style: italic”}
Hier habe ich:

Code:
\Qhttp://doamin.tld.com/de/unterordner/\E.*


sowie

Code:
\Qhttp://doamin.tld.com/de/index.php?id=/\E.*


probiert, doch ich sehe in der

Doch ich sehe diese in den Abgelehnten URLS obwohl kein Tippfehler besteht???

Hat jemand einen Tipp wie ich das machen kann bzw. was ich falsch mache.

Danke
Dennis

Statistik: Verfasst von FSOM — Mi Sep 24, 2014 11:04 am


Fragen und Antworten • Re: Reguläre Ausdrücke im Experten Crawl

Date: 2014-09-24 12:52:49

für solche Fälle gibts den RegexTester unter /RegexTest.html
Da kannst du ausprobieren ob dein Ausdruck funktioniert.

Statistik: Verfasst von Orbiter — Mi Sep 24, 2014 11:52 am


Fragen und Antworten • Re: Reguläre Ausdrücke im Experten Crawl

Date: 2014-09-24 13:10:27

Orbiter hat geschrieben:\ für solche Fälle gibts den RegexTester unter /RegexTest.html\ Da kannst du ausprobieren ob dein Ausdruck funktioniert.\



Perfect, dank hate den \“.*\” am Anfang vergessen

Statistik: Verfasst von FSOM — Mi Sep 24, 2014 12:10 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-24 15:43:56

Hallo Patrick,

ramfresser hat geschrieben:\ Das war die Geschichte in Kurzform wie ich hier gelandet bin.\


Danke für die ausführliche Antwort. Und wieso nutzt du die Gelegenheit nicht und machst ein wenig Werbung für dein Verein - Website :? :?:

Gruss, Gustav

Statistik: Verfasst von flegno — Mi Sep 24, 2014 2:43 pm


Hilfe für Einsteiger und Anwender • UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-24 15:48:24

Hi,
After months of continuous usage, Yacy didn\’t restarted at the end of a scheduled weekly backup process.
Today, I tried to start it manually with this command line:

Code:
./startYACY -t -l



This showed the following issue:

Code:
gustavo@athlon:/usr/share/yacy$ ./startYACY.sh -t -l****************** YaCy Web Crawler/Indexer & Search Engine *********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                ****  STOP         YaCy: execute stopYACY.sh and wait some seconds             ****  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 << Exception in thread "main" java.lang.UnsupportedClassVersionError: net/yacy/yacy : Unsupported major.minor version 51.0   at java.lang.ClassLoader.defineClass1(Native Method)   at java.lang.ClassLoader.defineClass(ClassLoader.java:643)   at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)   at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)   at java.net.URLClassLoader.access$000(URLClassLoader.java:73)   at java.net.URLClassLoader$1.run(URLClassLoader.java:212)   at java.security.AccessController.doPrivileged(Native Method)   at java.net.URLClassLoader.findClass(URLClassLoader.java:205)   at java.lang.ClassLoader.loadClass(ClassLoader.java:323)   at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:294)   at java.lang.ClassLoader.loadClass(ClassLoader.java:268)Could not find the main class: net.yacy.yacy. Program will exit.I 2014/09/23 08:26:05 HeapReader close HeapFile api.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1751) -> net.yacy.yacy.startup(yacy.java:363) -> net.yacy.yacy.main(yacy.java:684)I 2014/09/23 08:26:05 Heap closing heap /usr/share/yacy/DATA/WORK/searchfl.bheapI 2014/09/23 08:26:05 HeapReader close HeapFile searchfl.bheap; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.Heap.close(Heap.java:305) -> net.yacy.kelondro.blob.Heap.close(Heap.java:311) -> net.yacy.kelondro.blob.BEncodedHeap.close(BEncodedHeap.java:533) -> net.yacy.kelondro.blob.Tables.close(Tables.java:274) -> net.yacy.search.Switchboard.close(Switchboard.java:1751) -> net.yacy.yacy.startup(yacy.java:363) -> net.yacy.yacy.main(yacy.java:684)D 2014/09/23 08:26:05 Blacklist Shutting down blacklists ...D 2014/09/23 08:26:05 Blacklist All blacklists has been shutdown.S 2014/09/23 08:26:05 SWITCHBOARD SWITCHBOARD SHUTDOWN TERMINATEDI 2014/09/23 08:26:05 ConcurrentLog shutdown of ConcurrentLog.Worker: injection of poison messageS 2014/09/23 08:26:05 SHUTDOWN goodbye. (this is the last line)I 2014/09/23 08:26:05 ConcurrentLog terminating ConcurrentLog.Worker with 0 cached loglines.I 2014/09/23 08:26:05 ConcurrentLog shutdown of ConcurrentLog.Worker: terminated^C



Does anybody know how to fix this?

I\’m running Yacy over Ubuntu Server 14.04

Statistik: Verfasst von oneaty — Mi Sep 24, 2014 2:48 pm


Hilfe für Einsteiger und Anwender • Re: UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-24 17:52:42

Hello oneaty,

looks like you try to start YaCy with an Java-environment < 1.7.

Check by running \‘java -version\’ from commandline - you need a java-Version >= 1.7

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Sep 24, 2014 4:52 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-24 18:08:57

arrrgh, mich hats erwischt: ich habe den Provider gewechselt und bekomme IPv4 nur noch über einem IPv6-Tunnel und einem NAT beim Provider :x :x :x
D.h. ich habe momentan meine Peers im Junior-Modus laufen und muss nun aktiv werden um zumindest einen IPv6-Backping der remote Hosts erzwingen zu können, damit man meinen Senior Mode über einen offenen Port auf einer IPv6 Adresse testen kann.

D.h.: jetzt habe ich eine IPv6 Entwicklungsumgebung! Seid also auf die schlimmsten Commits gespannt...

Statistik: Verfasst von Orbiter — Mi Sep 24, 2014 5:08 pm


Hilfe für Einsteiger und Anwender • Re: UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-24 21:18:57

Thanks for the prompt answer.

Yes, you\’re right, java -version returns this:

Code:
java version "1.6.0_32"OpenJDK Runtime Environment (IcedTea6 1.13.4) (6b32-1.13.4-4ubuntu0.14.04.1)OpenJDK 64-Bit Server VM (build 23.25-b01, mixed mode)



Do you know if I upgrade openjdk from 6 (which seems to be the current version I have) to 7 will be enough to get a newer java version?

Also, I\’m not confident as to which openjdk package to install:

sudo apt-get install openjdk-7-jre

or

sudo apt-get install openjdk-7-jdk

I\’m a little bit scary of installing either one of those, since they will install 106 (jre) or 121 (jdk) new packages!! Do I need all of this just to be able to run Yacy again, as I was doing until yesterday?

Statistik: Verfasst von oneaty — Mi Sep 24, 2014 8:18 pm


Hilfe für Einsteiger und Anwender • Re: UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-24 21:22:35

Oops, my fault, please disregard the previous message, I just came from Yacy main page and I see that the needed package is openjdk-7-jre.

Thanks.

Statistik: Verfasst von oneaty — Mi Sep 24, 2014 8:22 pm


Hilfe für Einsteiger und Anwender • Re: UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-24 22:50:45

you need only a much smaller jre version: openjdk-7-jre-headless
..because YaCy does not need the X environment. That is probably the explanation why you get a suggestion of more than 100 packages for the jre/jdk you selected. Please try openjdk-7-jre-headless, that is sufficient

Statistik: Verfasst von Orbiter — Mi Sep 24, 2014 9:50 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-24 23:32:42

Hallo,

Orbiter hat geschrieben:\ und bekomme IPv4 nur noch über einem IPv6-Tunnel und einem NAT beim Provider\

Du darfst Dir meines tiefsten Mitgefühls sicher sein. Carrier-Grade-NAT ist meiner Meinung nach eine der miesesten Krücken die sich die Provider haben einfallen lassen um den IPv6-Umstieg hinauszuzögern.

Orbiter hat geschrieben:\ jetzt habe ich eine IPv6 Entwicklungsumgebung!\

Meinen Glückwunsch und herzlich willkommen im Internetz der Zukunft.

Orbiter hat geschrieben:\ um zumindest einen IPv6-Backping der remote Hosts erzwingen zu können\

Das dürfte aber mit den meisten YaCy-Peers schon wegen dem Parameter \“-Djava.net.preferIPv4Stack=true\” der Java-VM relativ schwer werden, falls die Peers überhaupt IPv6-Konektivität haben. Beim YaCy-Peer den ich betreibe habe ich das Java-VM-Parameter entfernt und er reagiert ganz sicher auf IPv6-Verbindungen und sollte auch selber IPv6-Verbindungen initiieren können. Wenn Du möchtest sende ich Dir per PM die statische IPv6-Adresse meines Peers, falls Du mir Hash und Name Deines Peers gibst wird mein Analyse-Tool die Augen offen halten wenn sich was in den Seed-Listen tut. Als ich meinem YaCy-Peer, der eine vollwertige Dual-Stack-Anbindung hat, probeweise die IPv6-Adresse als statische IP konfiguriert hatte hat sich diese auch in den Seed-Listen der anderen Peers rumgesprochen aber kein anderer Peer hat per IPv6 Verbindung zu meinem Peer aufgenommen, alles was noch von außen kam kam nur von Peers die noch die alte IPv4 (die natürlich weiterhin gültig war und auf die mein Peer auch weiterhin geantwortet hat) in ihren Listen hatten aber das wird bei Dir wohl nicht der Fall sein, ich fürchte Dein Peer wird fürs erste relativ einsam sein.

Wenn Du Code schreibst der die öffentliche IPv6-Adresse Deines Computers ermittelt vergiss nicht das bei IPv6 jedes Netzwerkinterface grundsätzlich mehrere IPv6-Adressen hat und das wenn die IPv6-Privacy-Extensions aktiv sind (bei Mac OS X wimre seit mehreren Jahren die Defaulteinstellung) dann hast Du auch mehrere öffentliche global routbare IPv6-Adressen (die regelmäßig geändert werden, zusätzlich zu den privaten IPv6-Adressen) an dem Netzwerkinterface das zum Router geht.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Sep 24, 2014 10:32 pm


Hilfe für Einsteiger und Anwender • Re: UnsupportedClassVersionError: net/yacy/yacy

Date: 2014-09-25 02:16:54

Orbiter,

Unfortunately, soon after I posted my last message, I installed openjdk-7-jre and the 100+ packages that come within.

Now, after reading your message, I stoped Yacy, removed openjdk-7-jre, but then, it only removed some 20 packages, no more than that, besides installing a default-jre-headless.

I then removed this last one, and installed openjdk-7-headless, as you suggested.

I checked if java version was 1.7 or above, as per sixcooler, and then restarted Yacy, successfully.

I probably ended with some 80 useless packages installed for nothing but it probably won\’t do any harm beside occupying extra bandwidth during the daily updates/upgrades.

The strange thing is that all of this going on a Ubuntu Server (thus lacking the X environment), the openjdk-7-jre installation should know that the the packages associated with the X environment aren\’t necessary, isn\’t it?

Anyway, everything is fine now, and my

Thanks Sixcooler and Orbiter!

Statistik: Verfasst von oneaty — Do Sep 25, 2014 1:16 am


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-25 08:37:23

Guten Morgen

Ich falle doch nicht gleich mit der Vereinstür vom \“Verein für Angehörige und Freunde von Krebspatienten\” hier in das Forum ein. :lol: :lol: :lol:

Mal schauen ob ich eine Ecke im Forum finde, wo ich meinen Verein und seine Projekte vorstellen kann. :?:

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Sep 25, 2014 7:37 am


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-25 10:14:35

Moin,

Tja, einerseits bilde ich mir ein, die Gründe für deine Zurückhaltung zuverstehen, aber jetzt muss du nach einer Möglichkeit suchen. Nur so eineI dee für die Zukunft - die elegante Gelegenheit war gegeben einfach nebenbei im Start-Thread oder in diesem Thread Mi Sep 24, 2014 11:44 am{.postlink} den Verein gleich mit der Website zu erwähnen - vorausgesetzt, du fühlst dich dabei wohl. Noch eine Idee - du klickst auf \“Ändern\” im Thread Do Sep 25, 2014 8:37 am{.postlink} und fügst nach \“Verein für Angehörige und Freunde von Krebspatienten\” gleich die Vereins-Website-Adresse mit http: // ein. Die Forum-Software macht daraus gleich einen anklickbaren Verweis. Wer Interesse hat, landet mit einem Klick auf der Vereins-Website und alles weitere dort an Ort und Stelle lesen, hören, sehen. Und du bist diese Aufgabe los - mit wenig Aufwand :P.

Gruss, Gustav

Statistik: Verfasst von flegno — Do Sep 25, 2014 9:14 am


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-25 10:39:01

Moin flegno

Ich musste gerade richtig herzhaftlich Schmunzeln beim Lesen deines Beitrages.

Okay ich gebe mich geschlagen und schreibe was zum Verein und seine Projekte:

Der \“Verein für Angehörige und Freunde von Krebspatienten\” wurde ca. 6 Monate nach Eröffnung des \“Forum für Angehörige und Freunde von Krebspatienten\” als Projektträger von meinen Freund Michael und mir, gegründet. Das Forum konnte vor ein paar Wochen sein 10. Jubiläum feiern und der Verein wird im Februar 2015 sein zehnjähriges Bestehen feiern können.

Wenn die Diagnose Krebs gestellt wird, beginnt für Betroffene und Angehörige ein unbekannter und oft auch beschwerlicher Weg zwischen Hoffen, Bangen und Zweifeln. Es tun sich neue Fragestellungen auf, die bisher im Leben keine Rolle gespielt haben. Dieses Forum kann ein weiterer Baustein im eigenen Unterstützungssystem sein, der deutlich macht, dass man mit seinen Erfahrungen nicht alleine ist und durch den Austausch werden neue und vielleicht ungewohnte Perspektiven aufgezeigt.

Deswegen dieses Forum, weitere Projekte sind z.B. ein zweites in Bau befindliches öffentliches Forum (weil das vorhandene mit geschützten Bereichen ausgestattet ist), eine Selbsthilfegruppe in Ibbenbüren und hoffentlich bald auch eine themenspezialisierte Suchmaschine.

Url zum Verein: http://www.vfavk.de
Url zum Forum: http://www.krebsforum-fuer-angehoerige.de

Das sind beiden wichtigsten Adressen vom Verein, und vielen Dank das ich mein Verein und seine Projekte hier vorstellen durfte (musste :lol: ).

LG Patrick Popelka

Statistik: Verfasst von ramfresser — Do Sep 25, 2014 9:39 am


Fragen und Antworten • Meine ersten Fragen zu Config der Suma

Date: 2014-09-25 10:44:29

Guten Morgen

Seit fast 55 Stunden läuft meine Testsuchmaschine und mir reicht es langsam, den Robots zu zu schauen, wie sie durch das Netz wirbeln. Nun zu meinen Fragen:

1. Wo und wie kann ich den Namen des Crawler ändern?

2. Wo und wie kann ich die CPU und Arbeitsspeicherauslastung für die Suchmaschine festlegen?

3. Gibt es ein deutsches Handbuch für den Adminisrationsbereich?

4. Gibt es eine Möglichkeit den Quelltext in der Searchseite zu bearbeiten und wenn ja wo finde ich die Datei?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Sep 25, 2014 9:44 am


Fragen und Antworten • Ausgabe Suchergebnisse max pro Host

Date: 2014-09-25 12:52:24

Hallo,

ich habe einige Domains indexiert und möchte gerne das wenn ich Suche max nur 3 besten Suchergebnisse einens Hosts kommt. Derzeit sehe oft die gleiche Seite. Finde die Einstellung leider nicht.

Danke

Dennis

Statistik: Verfasst von FSOM — Do Sep 25, 2014 11:52 am


Fragen und Antworten • Re: Meine ersten Fragen zu Config der Suma

Date: 2014-09-25 12:56:34

Moin,

ramfresser hat geschrieben:\ 3. Gibt es ein deutsches Handbuch für den Adminisrationsbereich?\ 4. Gibt es eine Möglichkeit den Quelltext in der Searchseite zu bearbeiten und wenn ja wo finde ich die Datei?\

Ich habe keine Antworten auf die anderen Fragen, da ich selbst ersta seit etwa einem Monat mich mit YaCy beschäftige, aber hier ein Paar Hilfestellungen

  1. für die Anfänger ist es hilfreich im YaCy-Wiki{.postlink} rumzustöbern
  2. Layout der Suchseite anpassen{.postlink}
  3. es lohnt sich, die Forum-Suche und oder die Suchmaschine deines Vertrauens ab und zu zu bemühen ;)
  4. diese Anleitung Wie man Fragen richtig stellt?{.postlink} finde ich ist zielführend bei den Recherchen nach Lösungen und Lösungsansätzen :?

Und wenn man bei der Anwendung von YaCy auf weiterführende Ideen, Lösungsansätze kommt , dann gibt es hier die Wunschliste{.postlink} :P

Gruss, Gustav

Statistik: Verfasst von flegno — Do Sep 25, 2014 11:56 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-25 13:23:30

hm, ich habe mal nach den -Djava.net.preferIPv4Stack=true geguckt und das scheint nur bei den Start scripten für linux incl. debian und Windows im Debug-Modus noch drin zu sein. Das normale Windows Start Script und meine Entwicklungsumgebung hat die Option nicht und alles geht trotzdem. Scheint ein guter Grund zu sein die Option ganz raus nehmen zu können. Mache ich mal. Bei dir gehts ja auch.

Die Varianten bei den IPv6 Adressen habe ich schon entdeckt, als ich versucht habe alle lokalen Adressen aufzusammeln. Bei mir kommen auch noch Bonding-Adressen vor denn ich habe meinen Rechner über zwei Sockets als Bond an einem aktiven Switch hängen. Ich muss mal rausfinden wie man die erkennt.

Bei meinen ersten Tests bin ich aber noch in andere Fallen gestolpert, z.B. hat der httpd nicht mehr erkannt dass ich von Localhost komme und ich damit authentifiziert bin. Das hat ganz schön Schlaglöcher..

Immerhin habe ich es geschafft wieder einen Port im Router aufzumachen und von einer Testseite aus per ipv6 darauf zu pingen, der YaCy httpd hat geantwortet.

Statistik: Verfasst von Orbiter — Do Sep 25, 2014 12:23 pm


Hilfe für Einsteiger und Anwender • Re: Blutiger Neueinsteiger

Date: 2014-09-25 20:01:21

flegno hat geschrieben:\ aber jetzt muss du nach einer Möglichkeit suchen.\

ramfresser hat geschrieben:\ hier vorstellen durfte (musste ![:lol:](http://forum.yacy-websuche.de/images/smilies/icon_lol.gif "Laughing") ).\


damit nicht ein falscher Eindruck entsteht: wir haben hier selbstverständlich weder Klarnamen- oder Selbstdarstellungspflicht noch eine entsprechende Regel. Es ist auch nicht ein schlechter Ton das nicht zu tun aber andersrum sind natürlich auch Selbstdarstellungen von YaCy Usern willkommen.

Statistik: Verfasst von Orbiter — Do Sep 25, 2014 7:01 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-09-25 22:44:47

Hallo,

flegno hat geschrieben:\ betrachte ich nicht zielführend in dem Sinne, dass der Anwender bei so einer Behandlung bevormundet wird.\

Dem Anwender etwas vorzuenthalten oder abzunehmen ist natürlich immer eine Gradwanderung zwischen Bevormundung und Arbeitserleichterung. Nicht jeder Anwender ist gewillt oder fähig sich in jedes Problem einzuarbeiten nur weil der Programmierer z.B. eine zu genaue Konfigurationsoberfläche geschaffen hat. Im Beispiel der Konfigurationsoberfläche hat es sich bewährt für solche Fälle zwei Versionen zu bauen (eine für den Normal-Anwender und eine für den Experten), für DNS kommt kaum ein real existierender Anwender jemals damit in Berührung weil die Programmierer von Betriebssystemen und Browsern Ihren Job [ordentlich]{style=“font-style: italic”} gemacht haben. Klar kann man das Verbergen von Komplexität immer auch als Bevormundung verstehen aber ich denke die meisten Anwender wollen solche Details gar nicht sehen, das ist ein Kompromiss aus Aufwand den man in eigene Expertise investiert und dem Vertrauen das man in die Expertise der (unbekannten) Programmierer setzt und viele Anwender dürften eher zu letzterem tendieren.
Das Du Dich mit dem Thema DNS beschäftigst kommt doch nur daher das Du ein konkretes Problem hast und dieses Problem so lösen möchtest das der unbedarfte Besucher Deiner Webseite mit eben diesem Problem nicht konfrontiert wird. Letztlich versuchst Du doch auch unnötige Details vor den Anwendern zu verbergen (was nicht bedeutet das Du z.B. keinen Blog-Eintrag o.ä. schreiben darfst in dem Du die Lösung dieses Problems speziell für Deine Web-Seite in epischer Breite erläuterst so das sich die neugierigen Besucher Deiner Web-Seite trotzdem umfassend informieren können). Ansonsten könntest Du auch einfach einen Link in der Art \“http://flegno.yacy:8090/" und eine kurze Erläuterung (z.B. ein Link auf dieses Forum) wie damit umzugehen ist auf Deine Web-Seite packen.

flegno hat geschrieben:\ weil ich beim Lesen deiner Postings immer wieder so meine Schwierigkeiten habe, dir zu folgen. Ein Beispiel >
> > Erik\_S hat geschrieben:Dieser HTTP-Server ist nicht nur für die > YaCy-Peers sondern auch für jeden Browser (der ins echte Internet > darf) erreichbar also generisch nutzbar.\ > >

In diesem Fall war das entscheidende Wort \“erreichbar\” was nur bedeutet das jeder Browser (der ins echte Internet darf) meinen HTTP-Server [erreichen]{style=“font-style: italic”} kann aber nichts darüber aussagt woher der Browser überhaupt wissen soll das mein HTTP-Server existiert. Das relevante Kriterium für [erreichen]{style=“font-style: italic”} ist das mein Server über eine (eigentlich mehrere) eigene öffentliche global routbare IP-Adresse verfügt.
Bitte interpretiere alles was ich schreibe immer so wörtlich wie nur irgend möglich.;) Ich werde versuchen meine Erläuterungen in Zukunft etwas weniger kryptisch zu formulieren, versprochen.

Deswegen meine zwei Vorschläge von vorgestern nochmal etwas ausführlicher und hoffentlich auch verständlicher:

  1. Der Browser des Anwenders ruft Deine Web-Seite mit der URL \“http://yacy.sprechrun.de/search.html" auf, darüber hinaus hat der Browser keine zusätzlichen Informationen oder Konfiguration. Das normale DNS-System, welches jeder Browser Out-of-the-Box benutzt, sagt dem Browser die IP-Adresse Deiner Web-Seite (Port wird implizit aus dem Protokoll HTTP als 80 abgeleitet) und damit geht diese Anfrage auf die Reise zu Deinem Web-Server.
  2. Auf Deinem Web-Server gibt es die Datei .htaccess und deswegen generiert der Web-Server eine 307-Weiterleitung auf \“http://DNS-IP:Port/forward?name=flegno&url=/search.html", alle statischen Angaben ( DNS-IP (IP meines Servers) / Port (TCP-Port auf dem mein YaCy-Forwarder als HTTP-Server horcht) / flegno (der Name Deines YaCy-Peers) ) sind fest/manuell in die Datei .htaccess eingebaut so das Dein Web-Server diese kennt, der URI-Teil ( /search.html ) wird der Anfrage vom Browser entnommen. Diese 307-Weiterleitung wird an den Anwender-Browser zurückgeschickt, damit ist die Verbindung zwischen dem PC auf dem der Browser läuft und Deinem Web-Server beendet.
  3. Der Anwender-Browser wertet die 307-Weiterleitung aus und folgt dieser indem er eine Verbindung zu meinem HTTP-Server aufbaut (IP und Port und ebenso das HTTP als Protokoll zu benutzen ist hat der Browser der 307-Antwort Deines Web-Servers entnommen). Der Browser des Anwenders ruft meinen HTTP-Server mit der URL \“http://DNS-IP:Port/forward?name=flegno&url=/search.html" auf.
  4. Mein YaCy-Forwarder in Form eines HTTP-Servers wertet die Anfrage aus und ermittelt für Deinen YaCy-Peer \“flegno.yacy\” die aktuelle IP-Adresse und den Port (es wird intern eine DNS-Abfrage für diese dynamischen Informationen durchgeführt). Das Ergebnis wird wiederum als 307-Weiterleitung auf \“http://IP:Port/search.html" an den Browser des Anwenders zurückgeschickt. Damit ist die Verbindung zwischen dem PC auf dem der Browser läuft und meinem HTTP-Server beendet.
  5. Der Anwender-Browser wertet auch diese 307-Weiterleitung aus und folgt dieser indem er eine Verbindung zum HTTP-Server Deines YaCy-Peers aufbaut (IP und Port und ebenso das HTTP als Protokoll zu benutzen ist hat der Browser der 307-Antwort meines HTTP-Servers entnommen). Ab nun kommuniziert der Browser nur noch mit Deinem YaCy-Peer, das der Anwender nicht mehr auf Deinem Web-Server ist sieht er in der Adresszeile (falls er da mal hinschaut). Das mein HTTP-Server als YaCy-Forwarder benutzt wurde hat der Anwender gar nicht gesehen und auch der Browser hat das bereits wieder vergessen (wenn der Anwender später mal wieder \“http://yacy.sprechrun.de/search.html" aufruft geht das alles von vorne los).

Der Vorteil dieser Lösung ist das Du auf Deinem Web-Server keinerlei Dynamik oder Script o.ä. benötigst und Dich auch sonst nicht um das UpDate der IP-Adresse Deines YaCy-Peers kümmern musst, alles dynamische kommt von meinem YaCy-Forwarder und wird als HTTP-Dienst jedem beliebigen Browser (der ins echte Internet darf) ohne besondere Vorbereitung zur Verfügung gestellt, es ist Dein Web-Server der dem Browser mitteilt das mein YaCy-Forwarder als öffentlich erreichbarer HTTP-Server existiert (mit der ersten 307-Weiterleitung). Das entspricht quasi einem DynDNS-Dienst speziell für YaCy-Peers und ohne das Du lokal irgendeine Art von UpDate-Tool benötigst wie das sonst für DynDNS-Dienste erforderlich ist.

Mein zweiter Vorschlag von vorgestern Abend ist ähnlich aber doch anders:

  1. Der Browser des Anwenders ruft Deine Web-Seite mit der URL \“http://yacy.sprechrun.de/search.html" auf, darüber hinaus hat der Browser keine zusätzlichen Informationen oder Konfiguration. Das normale DNS-System, welches jeder Browser Out-of-the-Box benutzt, sagt dem Browser die IP-Adresse Deiner Web-Seite (Port wird implizit aus dem Protokoll HTTP als 80 abgeleitet) und damit geht diese Anfrage auf die Reise zu Deinem Web-Server.
  2. Auf Deinem Web-Server gibt es ein Script das eine feste Anfrage an meinen YaCy-Forwarder mit der URL \“http://DNS-IP:Port/query?name=flegno" sendet, alle Angaben ( DNS-IP (IP meines Servers) / Port (TCP-Port auf dem mein YaCy-Forwarder als HTTP-Server horcht) / flegno (der Name Deines YaCy-Peers) ) sind statisch und damit fest ins Script eingebaut so das Dein Web-Server diese kennt, den URI-Teil ( /search.html ) merkt sich Dein Web-Server.
  3. Mein YaCy-Forwarder in Form eines HTTP-Servers wertet die Anfrage aus und ermittelt für Deinen YaCy-Peer \“flegno.yacy\” die aktuelle IP-Adresse und den Port (es wird intern eine DNS-Abfrage für diese dynamischen Informationen durchgeführt). Das Ergebnis wird als Klartext \“IP:Port\” an Deinen Web-Server zurück geschickt. Damit ist die Verbindung zwischen Deinem Web-Server und meinem HTTP-Server beendet.
  4. Dein Web-Server wertet die Antwort meines YaCy-Forwarders aus und generiert damit eine 307-Weiterleitung auf \“http://IP:Port/search.html" die an den Browser des Anwenders zurückgeschickt wird, den URI-Teil ( /search.html ) hatte sich Dein Web-Server gemerkt. Damit ist die Verbindung zwischen dem PC auf dem der Browser läuft und Deinem Web-Server beendet, das zwischendrin noch mein Server benutzt wurde bleibt vor dem Browser des Anwenders und auch dem Anwender selber komplett verborgen.
  5. Der Anwender-Browser wertet diese 307-Weiterleitung aus und folgt dieser indem er eine Verbindung zum HTTP-Server Deines YaCy-Peers aufbaut (IP und Port und ebenso das HTTP als Protokoll zu benutzen ist hat der Browser der 307-Antwort Deines Web-Servers entnommen). Ab nun kommuniziert der Browser nur noch mit Deinem YaCy-Peer, das der Anwender nicht mehr auf Deinem Web-Server ist sieht er in der Adresszeile (falls er da mal hinschaut). Das mein HTTP-Server als DNS-Dienst benutzt wurde kann der Anwender gar nicht sehen da das im Hintergrund nur zwischen Deinem Web-Server und meinem HTTP-Server abläuft. (wenn der Anwender später mal wieder \“http://yacy.sprechrun.de/search.html" aufruft geht das alles von vorne los)

Der Vorteil dieser Methode ist das der Browser des Anwenders mit meinem YaCy-DNS-Dienst/Forwarder gar nicht in Kontakt kommt sondern das dies Dein Web-Server selber macht, dafür benötigst Du aber mindestens ein richtiges Script auf Deinem Web-Server. Im Endergebnis für den Anwender laufen beide Varianten auf das selbe Resultat hinaus, er sieht die Suchmaske Deines YaCy-Peers. Der relevante Unterschied für mich ist das dafür ein anderes Servlet benutzt würde, \“/query\” anstatt \“/forward\“, und ich demzuvolge etwas anderes programmieren muss. Einen Mehraufwand hätte ich nur wenn ich beide Varianten unterstützen möchte. Der zweite Vorschlag hat aber noch einen anderen Nachteil: Dein Web-Server müsste auch das Fehlerhandling übernehmen da mein HTTP-Server bei nicht existierenden YaCy-Peers oder YaCy-Peers die gerade offline sind eben keine IP-Adresse sondern irgendeine Art Fehlercode antworten muss. Beim ersten Vorschlag kommuniziert der Browser des Anwenders direkt mit meinem HTTP-Server und der kann anstatt der 307-Weiterleitung (die nur kommt wenn der gewünschte YaCy-Peer existiert und online ist) auch eine passende HTML-Fehlerseite (eventuell mit der Info wann der gewünschte YaCy-Peer das letzte mal online war und anderen Hinweisen) liefern.

Ich hoffe das ich mich diesmal deutlich verständlicher und vollständiger ausgedrückt habe, falls nicht dann stelle Bitte konkrete Fragen.

Da ich in den letzten Tagen ab und an der laufenden Analyse ein wenig zugeschaut habe ist mir aufgefallen das ich gar keine Möglichkeit habe dieses Tool gezielt nach bestimmten Peers interaktiv zu befragen (ich sehe nur die unzähligen (Fehler-)Meldungen auf der Konsole), ich werde also mit hoher Wahrscheinlichkeit sowieso einen HTTP-Server integrieren der ein minimalistisches Abfrage-Interface als einfache HTML-Seite anbietet.

Zu Deinem Bild möchte ich erstmal sagen das ich den subjektiven Eindruck habe das Du eine nicht ganz zutreffende Vorstellung vom Internet hast. In erster Näherung ist das Internet eine einzelne große Wolke aus sehr vielen Computern, alle Computer die Teil dieser Wolke sind haben zwei wesentliche Eigenschaften gemeinsam: sie haben Zugang zu diesem Internet und sie haben eine öffentliche und global routbare Unicast-IP-Adresse. Ob eine IP-Adresse global routbar ist kann man ihr direkt ansehen, in den RFCs die IP spezifizieren steht drin welche IP-Adressen global routbar sind und welche für private Netze oder andere Zwecke dienen. Das es in Wirklichkeit eigentlich zwei Wolken sind, eine für IPv4 und eine für IPv6, die nicht direkt miteinander kommunizieren können ist für die grobe Betrachtung ersteinmal weniger wichtig aber die meisten Computer die im Internet eine IPv6-Adresse haben haben auch eine IPv4-Adresse (umgekehrt ist das leider noch eher die Ausnahme) so das diese zwei Wolken jede Menge [Berührungspunkte]{style=“font-style: italic”} haben. Ein anderes Problem ist das viele Computer der IPv4-Wolke die eine einzelne IPv4-Adresse haben in Wirklichkeit keine einzelnen Computer sind sondern z.B. NAT-Heim-Router hinter dem sich ein ganzes privates Netzwerk verbirgt das sich nach Außen (also zum Internet hin) diese eine IPv4-Adresse teilt und deswegen nur scheinbar einen einzelnen Computer darstellt. Manchmal ist dieses NAT auch nicht unter Kontrolle des Endanwenders sondern unter Kontrolle des Providers so das sich hinter einer einzelnen IPv4-Adresse gleich mehrere unabhängige private Netzwerke mit einer recht großen Anzahl an echten Computern verbergen kann, Orbiter lernt gerade die [Vorzüge]{style=“font-style: italic”} dieser bewundernswerten technischen Erfindung kennen.
Was ich eigentlich sagen will ist das z.B. Google keine zusätzliche Wolke parallel zum Internet ist sondern das die Computer die Google betreibt und die eine öffentliche global routbare IP-Adresse haben ein Teil der einen globalen Internet-Wolke sind. Auch alle (öffentlich erreichbaren) DNS-Server sind Teil der einen Internet-Wolke. Ob ein beliebiger Computer, der Teil der Internet-Wolke ist, auch Teil von Google ist oder ob auf diesem Computer ein DNS-Dienst läuft oder auch beides gleichzeitig (die Firma Google betreibt ebenfalls DNS-Server die für jedermann nutzbar sind) ist nur ein weiteres Ordnungsmerkmal dieser Computer. Auch alle YaCy-Peers sind Teil der einen globalen Internet-Wolke (wenn auch oft nicht direkt da wohl viele hinter einem NAT-Router in einem privatem Netzwerk sind). Auf dem Computer auf dem mein YaCy-DNS-Dienst laufen soll läuft auch ein YaCy-Peer (beide benutzen die selben öffentlichen global routbaren IP-Adressen, in dem Fall sind es jeweils eine statische IPv4-Adresse und eine statische IPv6-Adresse) was bedeutet das dieser Computer das jeweilige Ordnungsmerkmal von beiden Gruppen erfüllt. Das Computer im Internet mehrere Aufgaben übernehmen (also zu mehreren Gruppen gehören) ist keine Seltenheit.
Ob jemand die Dienste die ein beliebiger Computer in dem einen Internet anbietet wirklich benutzt hängt primär davon ab ob dieser jemand überhaupt weis das der betreffende Computer diese Dienste anbietet und welche IP-Adresse er hat, grundsätzlich nutzbar sind die angebotenen Dienste aber erstmal für jeden anderen Computer der Zugriff aufs Internet hat. Auf das Wissen ums Vorhandensein kommt es an. Für den Dienst DNS gibt es im wesentlichen zwei Methoden um an dieses Wissen zu gelangen: einmal kann der Provider eigene DNS-Server einrichten und dem Kunden bei dessen Einwahl ins Internet die IP-Adressen mitteilen (das machen eigentlich alle Internet-Service-Provider auf diesem Planeten) und zum anderen haben die Root-DNS-Server konstante und bekannte IP-Adressen die ein Computer auch von sich aus wissen kann um so den Einstieg ins DNS-System zu finden (diese Methode wird eigentlich fast nur von den Provider-DNS-Servern benutzt damit diese die DNS-Informationen für die Kunden irgendwo her holen können). Für alternative Top-Level-Domains wie onion. oder local. oder yacy. gibt es jeweils spezielle Zusatzmechanismen die man dem Computer der diese Domains benutzen soll erst beibringen muss, es geht also um das Wissen ums Vorhandensein der alternativen Top-Level-Domains und um das Wissen wie diese zu benutzen sind. Dieses Wissen kann z.B. einem Browser per AddOn vermittelt werden, aber es gibt auch andere Methoden von denen eventuell jedes Programm auf dem Computer automatisch profitiert und nicht nur der Browser.

Auf das eigentliche Problem dieses Threads bezogen geht es doch darum das wir Methoden finden möchten die ohne zusätzliche Eingriffe das Users funktionieren, es geht also darum dem Computer des Users das Wissen um die alternative Top-Level-Domain yacy. automagisch zu vermitteln ohne das der User dazu tätig werden muss.
Das bedeutet aber nicht das der User nicht zusätzliche Maßnahmen ergreifen darf/kann die ihm einen besseren/umfassenderen Zugriff auf diese alternative Top-Level-Domain bieten, denn meine beiden Vorschläge oben erlauben ja immer nur den Zugriff auf den YaCy-Peer den Du in Deinem Web-Server statisch konfiguriert hast.

Erik\_S hat geschrieben:\ Darüber hinaus wäre diese Methode [auch]{style="text-decoration: underline"} geeignet meinen HTTP-Server als Web-Proxy für die beiden YaCy-Domains zu benutzen.\

Damit war nicht gemeint das die Konfiguration als Web-Proxy im Browser Voraussetzung ist damit die obigen Vorschläge funktionieren sondern das mein HTTP-Server zusätzlich [auch]{style=“text-decoration: underline”} als Web-Proxy benutzt werden könnte über den der User Zugriff auf alle YaCy-Peers bekommen kann (unabhängig von Deinem Wunsch nach einer spezifischen Weiterleitung von Deinem Web-Server auf Deinen YaCy-Peer).

Dein Vorschlag mit dem Bild finde ich zwar grundsätzlich ganz gut aber das konkrete Problem (Funktionsweise von Diensten im Internet) lässt sich meiner persönlichen Meinung nach nicht so gut graphisch darstellen.
Nebst dessen das mir dazu die nötige Übung und künstlerische Begabung fehlt, ich hoffe Du kannst mit meiner textuellen Beschreibung trotzdem etwas anfangen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 25, 2014 9:44 pm


Fragen und Antworten • Re: Meine ersten Fragen zu Config der Suma

Date: 2014-09-25 23:20:22

Hallo,

ramfresser hat geschrieben:\ Wo und wie kann ich den Namen des Crawler ändern?\

Was genau meinst Du, etwa den User-Agent den der Crawler benutzt?

ramfresser hat geschrieben:\ Wo und wie kann ich die CPU und Arbeitsspeicherauslastung für die Suchmaschine festlegen?\


Auf /Performance_p.html kannst Du u.a. die Einstellungen für den RAM vornehmen. Bedenke dabei das die Menge RAM die Du YaCy zubilligst von YaCy auch komplett benutzt werden wird also setze den Wert nicht zu hoch. Für die meisten Dinge sollte der Default-Wert eigentlich passen.
Die Verwendung der CPU kann man grundsätzlich nicht limitieren, Du kannst aber die Priorität von YaCy in den Start-Scripten beeinflussen, so das andere Programme trotzdem immer bevorzugt an die CPU kommen. Auch hier sollte die Default-Einstellung für die meisten Scenarien passen. YaCy beansprucht die CPU eigentlich nur recht wenig, der RAM-Verbrauch dürfte für viele ältere Computer eher ein Problem sein.

ramfresser hat geschrieben:\ Gibt es ein deutsches Handbuch für den Adminisrationsbereich?\

Klick Dich ruhig mal komplett durch, solange Du nicht auf \“speichern\” klickst sollte auch nichts kaputt gehen. Die meisten Texte sind recht aussagekräftig, wenn dennoch etwas unklar bleibt dann das YaCy-Wiki{.postlink} benutzen oder hier im Forum konkret nachfragen.
Du kannst die Sprache der Administrationsoberfläche auch auf Deutsch einstellen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Sep 25, 2014 10:20 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-26 11:04:00

Hallo,

Orbiter hat geschrieben:\ Scheint ein guter Grund zu sein die Option ganz raus nehmen zu können. Mache ich mal.\

Seht gut, dann kann ich mir beim nächsten Update von YaCy ersparen das StartScript händisch von der alten Installation in die neue zu kopieren. Ich hab das fehlende Parameter mit einem 64Bit-Linux und einem 32Bit-Linux getestet, auf beiden Systemen bindet Java den TCP-Server-Socket an TCP6 und ist damit in der Lage auch IPv4-Verbindungen entgegenzunehmen.

Orbiter hat geschrieben:\ Bei mir kommen auch noch Bonding-Adressen vor denn ich habe meinen Rechner über zwei Sockets als Bond an einem aktiven Switch hängen. Ich muss mal rausfinden wie man die erkennt.\

Ich hab zwar keine Ahnung was Du mit Bonding-Adressen meinst, ich vermute mal Du hast mehrere Ethernet-Verbindungen zu einem logischen Link zusammengeschaltet um die Bandbreite/Ausfallsicherheit zu erhöhen, falls ja dann solltest Du eigentlich für diesen logischen Link ein neues (virtuelles) Ethernet-Interface haben und diesem sollten die entsprechenden IP-Adressen zugeordnet sein. Falls die physischen Ethernet-Interfaces trotzdem noch zusätzliche IP-Adressen haben dann sollten das meiner Meinung nach reine private IP-Adressen sein. Bevor Du versuchst die IP-Adressen zu ordnen solltest Du erstmal alle IP-Adressen ausfiltern die nicht \“global routable Unicast\” sind.

Orbiter hat geschrieben:\ Bei meinen ersten Tests bin ich aber noch in andere Fallen gestolpert, z.B. hat der httpd nicht mehr erkannt dass ich von Localhost komme und ich damit authentifiziert bin. Das hat ganz schön Schlaglöcher..\

Das kann ich mir gar nicht erklären, http://docs.oracle.com/javase/7/docs/api/java/net/InetAddress.html#isLoopbackAddress() sollte doch auch für IPv6-Adressen Out-of-the-Box korrekt arbeiten.

Orbiter hat geschrieben:\ der YaCy httpd hat geantwortet.\

Sehr gut, der nächste Schritt müsste sein einen IPv6-Back-Ping von einem anderen YaCy-Peer zu erreichen von dem Du sicher weißt das er IPv6-Konektivität hat, ich geb Dir da gerne eine passende IP-Adresse. Der Schritt danach müsste beinhalten das YaCy in der Lage ist für jeden Peer mehr als eine IP-Adresse (oder alternativ einen einzelnen Host-Namen) zu verwalten, nur so können Peers die über IPv4 und IPv6 verfügen auch für beide Welten ansprechbar bleiben. Eine Teilung des YaCy-Kontinuums in IPv4-only und IPv6-only ist doch hoffentlich nicht angestrebt, oder?

Orbiter hat geschrieben:\ Immerhin habe ich es geschafft wieder einen Port im Router aufzumachen\

Aha, ich dachte bei IPv6 wäre sowas nicht mehr notwendig weil doch damit wieder eine echte Ende-zu-Ende-Kommunikation zwischen Deinem PC und dem Server im Internet stattfindet. Oder beinhaltet Dein Router für IPv6 eine statefull Firewall? NAT oder sowas gibt es bei IPv6 eigentlich nicht mehr.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 26, 2014 10:04 am


Fragen und Antworten • Re: Meine ersten Fragen zu Config der Suma

Date: 2014-09-26 11:34:58

Hallo

Danke für eure Antworten.

Erik\_S hat geschrieben:\ Hallo,\ \ >
> > ramfresser hat geschrieben:Wo und wie kann ich den Namen des Crawler > ändern?\ > >

Was genau meinst Du, etwa den User-Agent den der Crawler benutzt?



Ich habe einen crawl auf mein eigenes Forum gestartet und im Forum im Bereich \“Wer ist wo online\“, welche Browserkennung der Crawler hat. Die Bezeichnung die in der Browserkennung erscheint, möchte ich ändern aber wie?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Fr Sep 26, 2014 10:34 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-26 12:13:13

Hallo,

da mein Tool nun stündlich eine kleine rudimentäre Statistik ausgibt ein paar neue Infos:

Eine wesentliche Änderung gegenüber von vor 3 Tagen ist das mein Tool nun nicht mehr zufällig einen Peer auswählt um diesen zu kontaktieren sondern alle Peers in alphabetischer Reihenfolge reihum kontaktiert, damit ist sichergestellt das die Statistik auch wirklich aussagekräftig ist und kein neuer Peer unberücksichtigt bleibt. Als nächstes möchte ich diesen Mechanismus auf 2 unabhängige Threads verteilen: einen der nur die erreichbaren und neuen Peers (deren Erreichbarkeit noch unbekannt ist) und einen der alle anderen Peers reihum kontaktiert, auf diese Weise erhoffe ich mir deutlich schneller auf Veränderungen an den tatsächlich aktiven Peers (z.B. neue IP-Adresse) reagieren zu können.

Wäre es arg prahlerisch wenn ich erwähne das mein Tool weniger als 400 kB (ja wirklich Kilo-Bytes und das für alles inklusive Peer-Datenbank und Programm-Code und Stack usw.) RAM belegt und pro 24 Stunden Laufzeit nur etwa 30 Sekunden CPU-Zeit (auf einem 32Bit Pentium-M mit 1,6 GHz) benötigt?

Trotz dessen das mein Tool nun besser mit Kollisionen und ähnlichen Problemen umgehen kann gibt es in den Peer-Listen aber immer noch einige Probleme:

Es sind also noch ein Paar Probleme in YaCy enthalten, falls ich zu spezifischen Details konkretere Daten liefern soll dann Bitte einfach Bescheid geben, ich würde gerne dabei helfen YaCy zu verbessern.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 26, 2014 11:13 am


Fragen und Antworten • Re: Meine ersten Fragen zu Config der Suma

Date: 2014-09-26 12:23:32

Hallo,

ramfresser hat geschrieben:\ \.... welche Browserkennung der Crawler hat. Die Bezeichnung die in der Browserkennung erscheint, möchte ich ändern aber wie?\

Die Browserkennung ist der User-Agent.
Ich weis nicht ob es für dieses Detail ein offizielles Eingabefeld gibt aber unter /ConfigProperties_p.html gibt es in der Liste die Parameter crawler.userAgent.name und crawler.userAgent.string, falls Du Dich traust (das ist sowas wie die [Registry]{style=“font-style: italic”} in YaCy) kannst Du damit mal probieren. Einfach in der Liste anklicken und unten im rechten Feld einen anderen Wert eintragen und speichern. Theoretisch dürfte bei diesen beiden Parametern nichts kritisches kaputt gehen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 26, 2014 11:23 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-26 15:12:41

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Bei mir kommen auch noch Bonding-Adressen > vor denn ich habe meinen Rechner über zwei Sockets als Bond an einem > aktiven Switch hängen. Ich muss mal rausfinden wie man die erkennt.\ > >

Ich hab zwar keine Ahnung was Du mit Bonding-Adressen meinst, ich vermute mal Du hast mehrere Ethernet-Verbindungen zu einem logischen Link zusammengeschaltet um die Bandbreite/Ausfallsicherheit zu erhöhen, falls ja dann solltest Du eigentlich für diesen logischen Link ein neues (virtuelles) Ethernet-Interface haben und diesem sollten die entsprechenden IP-Adressen zugeordnet sein. Falls die physischen Ethernet-Interfaces trotzdem noch zusätzliche IP-Adressen haben dann sollten das meiner Meinung nach reine private IP-Adressen sein. Bevor Du versuchst die IP-Adressen zu ordnen solltest Du erstmal alle IP-Adressen ausfiltern die nicht \“global routable Unicast\” sind.


die sind aber merkwürdigerweise auch public, ich weiss noch nicht wie man in Java das abfragen kann. Wenn ich von Java aus nach den eigenen IP-Adressen frage, bekomme ich drei: die beiden Netzwerkadressen die per Bonding zu einer virtuellen gebündelt werden.

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Bei meinen ersten Tests bin ich aber noch in > andere Fallen gestolpert, z.B. hat der httpd nicht mehr erkannt dass > ich von Localhost komme und ich damit authentifiziert bin. Das hat > ganz schön Schlaglöcher..\ > >

Das kann ich mir gar nicht erklären, http://docs.oracle.com/javase/7/docs/api/java/net/InetAddress.html#isLoopbackAddress() sollte doch auch für IPv6-Adressen Out-of-the-Box korrekt arbeiten.


ja.. theoretisch. Wir haben früher einfach Java die Eigenschaft isLocalIP testen lassen, da gab es dann aber merkwürdigerweise von Java aus DNS Abfragen die darüberhinaus auch noch nicht concurrencyfähig waren. Wir haben dann mit regulären Ausdrücken vorher getestet ob eine IP ggf. eine Localhost-Adresse ist, dieses Verfahren ist eine üble Kaffeesatzleserei in der ich jetzt wahrscheinlich ganz gut aufgeräumt habe. Die Pattern für localhost-Erkennung waren m.E. nach auch unvollständig. Du kannst ja dann mal in den Code schauen...

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:der YaCy httpd hat geantwortet.\ > >

Sehr gut, der nächste Schritt müsste sein einen IPv6-Back-Ping von einem anderen YaCy-Peer zu erreichen von dem Du sicher weißt das er IPv6-Konektivität hat, ich geb Dir da gerne eine passende IP-Adresse. Der Schritt danach müsste beinhalten das YaCy in der Lage ist für jeden Peer mehr als eine IP-Adresse (oder alternativ einen einzelnen Host-Namen) zu verwalten, nur so können Peers die über IPv4 und IPv6 verfügen auch für beide Welten ansprechbar bleiben. Eine Teilung des YaCy-Kontinuums in IPv4-only und IPv6-only ist doch hoffentlich nicht angestrebt, oder?


nein eine Teilung mache ich nicht. Ich erweitere gerade das Protokoll und da wird es dann möglich sein mehrere IP-Adressen an einem Peer zu haben, z.B. eine IPv4 und eine IPv6 oder auch mehrere IPv6. Ich versuche hier mal kleine Schritte, den bisherigen Feldern weise ich erst mal nur IPv4 Adressen zu um keine Katastrophe auszulösen.

Die Idee ist, dass ein Peer der per \‘hello\‘-Ping angesprochen wird versuchen soll auf der IPv6 Adresse den Packping zu machen. Nur kann der httpd keine IPv6 Backping-Adresse dem Servlet geben, wenn er über IPv4 angesprochen wurde. Daher muss eine oder mehrere IPv6-Adresse(n) im http-Get Attribut mitgegebe werden und der Packping muss dann an den client Host (IPv4) und alle angegebenen IPv6 Adressen gleichzeitig gehen, und die Adresse wo eine Antwort kommt geht dann wieder als Antwort von \‘hello.html\’ zurück an den anpingenden Peer. Der muss dann wiederum Fälle unterscheiden wie: manche Peers können mich mit IPv4 anpingen, manche IPv6. Diese Varianten müssen auch in den Seed rein, denn dort wird das gespeichert und weiter propagiert. Und das ganze p2p-Protokoll muss sich dann aus den Varianten die IP raussuchen, die geeignet scheinen: Peers die keine eigene IPv6 Adresse haben, sollten auch nicht die IPv6 probieren.

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Immerhin habe ich es geschafft wieder einen > Port im Router aufzumachen\ > >

Aha, ich dachte bei IPv6 wäre sowas nicht mehr notwendig weil doch damit wieder eine echte Ende-zu-Ende-Kommunikation zwischen Deinem PC und dem Server im Internet stattfindet. Oder beinhaltet Dein Router für IPv6 eine statefull Firewall? NAT oder sowas gibt es bei IPv6 eigentlich nicht mehr.


Das macht ja Hoffnung dass mit IPv6 wir weniger junior Peers haben die dann Senior werden aber meine neue Fritzbox hat per default eine Firewall auf IPv6 drauf wo ich wieder Ports freischalten darf oder ein \‘exposed\’ Flag setzen darf was dann die Firewall weg macht.
Das neue UPnP scheint sich auch mit meiner Fritzbox zu vertragen, da kommen ganz anständige Logmeldungen raus. Ich muss auch mal probieren das UPnP zuzulassen, mal schauen was dann passiert.

Statistik: Verfasst von Orbiter — Fr Sep 26, 2014 2:12 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-26 16:00:36

diese Option arbeitet nur im allip-Netzmodus und ich empfehle dringend davon abzusehen diese Einstellung zu benutzen und/oder den User Agent zu ändern. Das hat mit den Anstandsregeln im Internet und dem Design von Suchmaschinen zu tun. An den User Agent Einstellungen hängen auch Mindestzeiten des Crawlers und die Einstellung lässt ausserdem keinen Namen zu, der das Wort \‘YaCy\’ irgendwodrin hat. Wer diese Einstellung ändert ist also \‘ausserhalb des YaCy-Projektes\‘. Ich sehe auch keinen Sinn darin den User-Agent zu ändern. Was ist denn das Problem?

Statistik: Verfasst von Orbiter — Fr Sep 26, 2014 3:00 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-26 17:12:00

Hallo,

Orbiter hat geschrieben:\ die sind aber merkwürdigerweise auch public\

Dann nimm doch einfach irgendeine oder alle. Wenn es echte öffentliche global routbare Unicast-IP-Adressen sind dann sollte dein PC auch aus dem Internet mit diesen IP-Adressen ansprechbar sein. Ping die doch einfach mal aus dem Internet an oder schick mir ne PN ich mach gerne einen kurzen Scan o.ä.

Orbiter hat geschrieben:\ Wenn ich von Java aus nach den eigenen IP-Adressen frage, bekomme ich drei: die beiden Netzwerkadressen die per Bonding zu einer virtuellen gebündelt werden.\

Wie kann man Netzwerkadressen [bündeln]{style=“font-style: italic”}? Egal. Drei IP-Adressen sind bei drei Netzwerk-Interfaces eigentlich zu wenige, es sei denn Du meinst nur die globalen und hast keine Privacy-Extensions aktiv. Für erste Tests ist das Abschalten der Privacy-Extensions sicher von Vorteil aber später muss YaCy auch damit zurechtkommen.

Orbiter hat geschrieben:\ Wir haben früher einfach Java die Eigenschaft isLocalIP testen lassen, da gab es dann aber merkwürdigerweise von Java aus DNS Abfragen die darüberhinaus auch noch nicht concurrencyfähig waren.\

Ach ja richtig, die Klasse InetAddress hat so ihre Macken. Ich hab vor fast 10 Jahren mal eine Art virtuellen Switch für einen proprietären Hausautomatisierungsbus auf IP/Ethernet-Basis entwickelt, was auch sowas ähnliches wie ein Peer-to-Peer-Netzwerk ist, und dazu ein Management-Tool in Java programmiert das Teil dieses virtuellen Switch sein sollte und dabei auch massive Probleme mit dieser Klasse gehabt. Eine meiner Schwierigkeiten war das es keine Ableitung gibt die nur dazu dient einen Host-Namen aufzunehmen ohne gleich eine IP-Adresse daraus zu machen, als Lösung habe ich damals eine eigene Container-Klasse für IP-Adressen und Host-Namen gebaut. Es war auch eine Ableitung für IPv6 mit dabei aber ich denke die war nicht richtig funktionsfähig mangels Verfügbarkeit von IPv6 (das lieft damals noch unter Windows 2000). Wenn Du möchtest such ich den Code mal raus und mache die IPv6-Ableitung fit und schick Dir das zu. Ich bin mir ziemlich sicher das die Methoden isLoopback() und isGlobalUnicast() zuverlässig funktionierten.

Orbiter hat geschrieben:\ Wir haben dann mit regulären Ausdrücken vorher getestet ob eine IP ggf. eine Localhost-Adresse ist\

Reguläre Ausdrücke kannst Du für IPv6 komplett vergessen, \”::1\” , \“0:0:0:0:0:0:0:1\” , \“0000:0000:0000:0000:0000:0000:0000:0001\” , \“0000::0001\” , \“0000:0000::0000:0001\” , \“0000:0:0:0000::1\” , \“0000:0:0:0:0:0:0:0001\” usw. sind alles gültige Schreibweisen für die selbe IP-Adresse. Spätestens im Eingabefeld für die \“statische IP\” erwarten die User IP-Adressen so eintragen zu können wie sie ihnen vorliegen und da wirst Du mit regulären Ausdrücken nicht sehr weit kommen. IP-Adressen als String zu verarbeiten ist keine gute Idee.

Orbiter hat geschrieben:\ nein eine Teilung mache ich nicht.\

Das beruhigt mich.

Orbiter hat geschrieben:\ Ich erweitere gerade das Protokoll\

Dokumentierst Du das irgendwo oder könntest Du hier im Thread ein paar kurze Zeilen dazu schreiben? Ich würde mein Analyse-Tool gerne so bald als möglich anpassen um den Start von IPv6 im YaCy-Netzwerk möglichst live miterleben zu können.

Orbiter hat geschrieben:\ und da wird es dann möglich sein mehrere IP-Adressen an einem Peer zu haben, z.B. eine IPv4 und eine IPv6 oder auch mehrere IPv6. Ich versuche hier mal kleine Schritte, den bisherigen Feldern weise ich erst mal nur IPv4 Adressen zu um keine Katastrophe auszulösen.\

Wenn Du schon am Format der Seed-Liste arbeitest solltest Du das Feld \“Address\” meiner persönlichen Meinung nach komplett einstampfen, das ist redundant, dafür wäre ein Feld mit der SSL-Port-Nummer recht interessant. Das Feld \“IP\” auch weiterhin nur für eine einzelne IPv4-Adresse oder einen einzelnen Host-Namen zu benutzen halte ich auch für geschickt aber das bedeutet das dieses Feld für Peers die keine echte IPv4-Konectivität mehr haben (so wie Dein PC) leer bleiben wird. Ich hatte das vorhin zwar noch als Bug betrachtet aber vielleicht ist es von Vorteil das die heute laufenden Peers bereits mit sowas umgehen können.

Orbiter hat geschrieben:\ und die Adresse wo eine Antwort kommt geht dann wieder als Antwort von \'hello.html\' zurück an den anpingenden Peer.\

vielleicht sollte der angepingte Peer nach dem ersten erfolgreichen Back-Ping zum pingenden Peer kurz warten ob noch andere Back-Pings ebenfalls erfolgreich sind und dann alle erfolgreichen IP-Adressen zurückmelden.
Aber auch der pingende Peer muss genau wählen welche IP-Adressen er dem angepingten Peer als potentielle Back-Ping-Adressen übermittelt. Wenn die Privacy-Extensions eingeschaltet sind sollte immer nur die jeweils aktuellste IP-Adresse pro Interface propagiert werden damit die älteren IP-Adressen auch wirklich auslaufen können.

Orbiter hat geschrieben:\ Das macht ja Hoffnung dass mit IPv6 wir weniger junior Peers haben die dann Senior werden\

Ja, das ist der große Vorteil von IPv6, es herrscht keine Adressknappheit mehr. Das jeder PC dann aber wieder aus dem Internet direkt ansprechbar ist hat aber auch Schattenseiten, ich wette die Viren- und Wurm-Programmierer freuen sich schon drauf wenn wieder jede Windows-Kiste direkt im öffentlichen Internet präsent ist.

Orbiter hat geschrieben:\ Das neue UPnP scheint sich auch mit meiner Fritzbox zu vertragen, da kommen ganz anständige Logmeldungen raus. Ich muss auch mal probieren das UPnP zuzulassen, mal schauen was dann passiert.\

Ich wusste gar nicht das bei IPv6 UPnP noch zur Router-Konfiguration benutzt werden kann. Meines Wissens nach sollte bei IPv6 das Port-Controll-Protocol benutzt werden um z.B. Ports in Firewalls zu öffnen. Beim Design von PCP wurde jedenfalls IPv6 explizit mit berücksichtigt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Sep 26, 2014 4:12 pm


Suchmaschinen • freie Software-Bewegung vs. proprietäre Softwareentwicklung

Date: 2014-09-26 18:16:49

Hallo,

ein Treffer Suchagenten (lokale Meta-Suchmaschinen){.postlink} hat mich zu so einem offenen Brief animiert freie Software-Bewegung vs. proprietäre Softwareentwicklung: Fallbeispiel YaCy – Bingooo{.postlink}. Den Artikel habe ich ursprünglich als EMail an den Betreiber von [internet-kurs.net]{style=“font-style: italic”} Martin Glogger angefangen. Dann ist der Text mir schlicht und einfach zu schade geworden, um diesen im Postfach bzw. in der Aktenablage verschwinden zu lassen.

Gruss, Gustav

Statistik: Verfasst von flegno — Fr Sep 26, 2014 5:16 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-26 18:53:16

Hallo

Irgendwie habe ich gerade das Gefühl in einem Wespennest zu sitzen.

Wir reden hier von der Browserkennung des yacybot die er beim Besuch der Webseite hinterlässt. Jede Suchmaschine benennt ihren crawlerbot so, wie die Suchmaschine heißt.

Das mir alleine von der Umbenennung dringend abgeraten wird, finde ich schon etwas komisch und unverständlich.

Sorry aber verstehen tue ich das nicht.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Fr Sep 26, 2014 5:53 pm


English • Still some crashing problems

Date: 2014-09-27 06:27:55

Hello I decided to try things again. I simply left everything at the default this time and initiated a local crawl of my local craigslist.org. Within about 15 minutes the node crashed (web UI not responsive) and I had to reset in using systemd restart. Please let me know what data I can provide to help fix this.

Statistik: Verfasst von davidm — Sa Sep 27, 2014 5:27 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-27 07:39:29

Hallo Patrick,

ramfresser hat geschrieben:\ 1. Wo und wie kann ich den Namen des Crawler ändern?\ \[\...\]\ Irgendwie habe ich gerade das Gefühl in einem Wespennest zu sitzen.\

G\‘rade solche Konstellationen, unerwartete Entwicklungen, Wendungen, Verwicklungen habe ich im Blick gehabt, als ich dir empfohlen habe, pro Problem/Frage/Anregung/Verbesserungsvorschlag _ein_ Posting zu erstellen. Als Fragesteller weiss man nie, ob aus einer (scheinbar) Lappalie eine verwickelte Diskussion sich entwickelt :!: . Da ist es kompliziert genug, einem Strang zu folgen. Wenn du aber 5,10, 15 Fragen im Startposting gekippt hast, dann ... Einen Überblick über alle deine Fragen bekommst du zeitsparend in deinem Persönlichen Bereich - \“Übersicht > Deine Aktivität > Deine Beiträge anzeigen\“.

ramfresser hat geschrieben:\ 1. Wo und wie kann ich den Namen des Crawler ändern?\

Was für dich eine Lappalie und Selbstverständlichkeit ist und wofür du bestimmt Gründe hast, dies so zu handhaben, kann ein Mitforist bzw.in diesem Falle ein Entwickler etwas oder ganz anders sehen 8-) . Wäre ich ramfresser und wäre mir diese Möglichkeit, [\“den Namen des Crawler ändern\“]{style=“font-style: italic”} essenziell wichtig, würde ich die Zeit investieren und im http://bugs.yacy.net einen Verbesserungsvorschlag erfassen - gefühlsneutral. Der Bugtracker ist nämlich dazu da, auch um Ideen und Verbesserungsvorschläge zu sammeln. Zu so einem Verbesserungsvorschlag gehört selbstverständlich eine Begründung, welche Vorteile eine Crawlerbot-Umbenennung für dich/für das YaCy-Proiekt hat. Das fehlt nämlich bis jetzt, so eine Begründung. Ich schätze, dass der Posting im [bugs.yacy.net]{style=“font-style: italic”} nicht zwangsläufig in Englisch verfasst werden muss. Obwohl eine einheitliche Sprache im Bugtracker erhebliche Vorteile hat. So könntest du ggf. vor dem Posten im Bugtracker recherchieren, ob dieses Thema dort bereits behandelt wurde. Wenn man zweisprachig fährt, dann ist auch jeweils eine Recherche pro Sprache fällig. Und eine Garantie, dass zeitnah eine Reaktion auf deinen Verbesserungsvorschlag erfolgt, gibt es nicht - ist halt eine ehrenamtliche Leistung :).

Die ausführliche Diskussion zu diesem Verbesserungsvorschlag kann dann auch hier im Forum ausgetragen werden - mit allen Einzelheiten.

Gruss, flegno

Statistik: Verfasst von flegno — Sa Sep 27, 2014 6:39 am


English • Re: Still some crashing problems

Date: 2014-09-27 08:58:32

Hi,

davidm hat geschrieben:\ Please let me know what data I can provide to help fix this.\

Please backup the logfiles for this timespan from YaCy\DATA\LOG and issue a bugreport at http://bugs.yacy.net .

Statistik: Verfasst von flegno — Sa Sep 27, 2014 7:58 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-27 12:55:20

nur ganz kleine Annahmen in den Verwaltungsklassen (\“ein Peer kann mehrere IPs haben\“) habe ich nun mit \@Deprecated an den alten Methoden markiert was eine ganze Welle von \‘da muss man was ändern\’ ausgelöst hat. Ich bin nun größere Teile am umschreiben, oh je..

Dem entsprechend pinge ich nun mehrere IP-Optionen beim Backping an. Ich mache ein gleichzeitiges Backping mit einem Time-Out, wo mehrere reporten können. Es werden auch mehrere beim \‘hello\’ übermittelt. Mehrere müssen optional zurück kommen dürfen. Die alten Parameter werden mit den IPv4 Varianten gefüllt. Im Ergebnis ist es aber dann so, dass alte Peers die neuen IPv6-Seniorpeers nicht mehr sehen können und auch nicht mit DHT-Werten beschicken können, es sei denn bei fehlendem IPv4 fülle ich die alten Werte doch mit IPv6. Mal sehen ob das klappt.

Die regulären Ausdrücke für IPv6 funktionieren schon, sie sind halt unvollständig. Sie sind ja auch nur eine Heuristik damit möglichst selten die InetAdress Klasse localhost/intranet-Checks machen muss.

Welches Feld \‘Address\’ meist du, ich habe nichts gefunden. SSL muss ich mal sehen, in einem weiteren Schritt.

Statistik: Verfasst von Orbiter — Sa Sep 27, 2014 11:55 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-27 14:14:34

Hallo,

da ich derjenige war der den Tipp zum Ändern des User-Agents gegeben hat möchte ich mich dafür entschuldigen das ich so unbedarft eine kritische Einstellung zum Ändern vorgeschlagen habe.
Auf der anderen Seite muss ich auch Orbiter zustimmen wenn er fragt was denn eigentlich das Problem mit dem Default-User-Agent von YaCy ist. Diese Frage hätte eigentlich gleich von mir kommen sollen bevor ich Tipps gebe ein Problem zu lösen das vielleicht gar keines ist, sorry.

Orbiter hat geschrieben:\ diese Option arbeitet nur im allip-Netzmodus\

Was genau ist dieser \“allip-Netzmodus\“? Eine Suche danach hat nichts brauchbares ergeben.

Orbiter hat geschrieben:\ ich empfehle dringend davon abzusehen diese Einstellung zu benutzen und/oder den User Agent zu ändern.\

Warum?

Orbiter hat geschrieben:\ Das hat mit den Anstandsregeln im Internet und dem Design von Suchmaschinen zu tun.\

Anständig wäre es auch wenn Web-Seiten diesen User-Agent nicht zum Browser-Fingerprinting benutzen würden, siehe https://panopticlick.eff.org/. Ich kann zumindest verstehen wenn die Leute versuchen in einer größeren Masse unterzutauchen um zumindest etwas an Anonymität zu behalten. Dem Design von HTTP würde es meiner Meinung nach gut zu Gesicht stehen wenn es dieses Header-Feld als depricated einstufen und stattdessen ein Header-Feld definieren würde in dem der Browser seine grundlegenden Fähigkeiten (z.B. Unterstützung von JavaScript bis zur Version X oder CSS bis Version X oder Unterstützung von HTML5 oder \“mediasource:\” usw.) mitteilen kann, gerade im Hinblick auf die Anfälligkeit (fast) aller Browser für spezifische Angriffe wäre es sehr von Vorteil wenn der Browser ansich dem Web-Server gegenüber so anonym wie möglich bleibt.

Orbiter hat geschrieben:\ An den User Agent Einstellungen hängen auch Mindestzeiten des Crawlers und die Einstellung lässt ausserdem keinen Namen zu, der das Wort \'YaCy\' irgendwodrin hat. Wer diese Einstellung ändert ist also \'ausserhalb des YaCy-Projektes\'.\

In jedem Browser ist der User-Agent änderbar ohne dass das Auswirkungen auf die Funktionsweise des Browsers selber hat, nur mache Web-Seiten liefern je nach User-Agent verschiedenen Content aus.
Warum hat der nach außen gesendete User-Agent Auswirkungen auf die Funktionsweise von YaCy selber? Wäre es ein Kompromiss zumindest das Mitsenden des User-Agents abschaltbar zu machen ohne dass das Auswirkungen auf YaCy selber hat?

Orbiter hat geschrieben:\ Ich sehe auch keinen Sinn darin den User-Agent zu ändern.\

Ich bin da mal ganz frech, nur weil Du keinen Sinn siehst heißt das nicht das keiner da wäre. Die Frage nach diesem Sinn ist natürlich trotzdem berechtigt.

ramfresser hat geschrieben:\ Sorry aber verstehen tue ich das nicht.\

Da möchte ich mich ramfresser ganz klar anschließen, auch ich verstehe nicht wo eigentlich das konkrete Problem ist wenn der YaCy-Crawler einen anderen User-Agent-String mitschickt.
Wobei auch klar festzuhalten ist das in diesem Thread ebenfalls nicht erklärt wurde welches Problem der Default-User-Agent von YaCy eigentlich verursacht.

Ich hoffe das beide Standpunkte klar erläutert werden damit auch eine vernünftige Diskussion möglich ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Sep 27, 2014 1:14 pm


YaCy Coding & Architektur • Lob an die Devs

Date: 2014-09-27 14:22:05

\@Devs ich möchte euch allen ein ganz großes Lob aussprechen! Seitdem ich auf die 1.89000 geupdated habe, geht das Solr Reindex bei einer Indexgröße >68 Mio. binnen wenigen Stunden vonstatten, was bei den älteren Versionen immer mehrere Monate gedauert hat! Ich habe bei den Java-Args bei mir auch noch Zusätzlich -XX:+UseParallelGC -XX:+UseNUMA hinzugefügt, das bringt auch nochmal 20% mehr Performance.

Hut ab!! & Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Sa Sep 27, 2014 1:22 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-27 15:10:44

Hallo

Ich habe von keinerlei Problem gesprochen.

Für mich war die Frage nach der Namensänderung ganz einfach in der Tatsache begründet:

Google = Googlebot

Yahoo = yahoobot

Suma ramfresser = Suma ramfresser Bot

Das ich damit eine solche Diskussion auslöse wäre mir nie in den Sinn gekommen, denn ich bin nur ein Anwender und kein Profi oder so.

LG Patrick Popelka

Statistik: Verfasst von ramfresser — Sa Sep 27, 2014 2:10 pm


Suchmaschinen • Re: freie Software-Bewegung vs. proprietäre Softwareentwickl

Date: 2014-09-27 15:54:16

YaCy ist jetzt auf [internet-kurs.net]{style=“font-style: italic”} in der Liste Welche bekannten Suchagenten gibt es ?{.postlink}
mit dabei.

Statistik: Verfasst von flegno — Sa Sep 27, 2014 2:54 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-28 11:56:48

Hallo,

Orbiter hat geschrieben:\ Im Ergebnis ist es aber dann so, dass alte Peers die neuen IPv6-Seniorpeers nicht mehr sehen können und auch nicht mit DHT-Werten beschicken können\

Das Peers die noch keine IPv6-Konektivität haben andere Peers die keine IPv4-Konektivität mehr haben nicht erreichen können ist eben so. Ich denke Du solltest, sobald YaCy mit IPv6 umgehen kann, die anderen Leute zum updaten ermuntern damit möglichst viele YaCy-Instanzen von einer eventuell doch vorhandenen IPv6-Konektivität profitieren und auch das YaCy-Netzwerk als ganzes profitiert weil so auch die IPv4-only-Peers zumindest die Verteilung von IPv6-Informationen unterstützen.

Orbiter hat geschrieben:\ es sei denn bei fehlendem IPv4 fülle ich die alten Werte doch mit IPv6. Mal sehen ob das klappt.\

Also bei meinem Versuch kam keine einzige Verbindung mit IPv6 an und ich glaube nicht das wirklich gar kein anderer Peer IPv6 hatte. Sobald mein Analyse-Tool soweit ist das ich es interaktiv nach bestimmten Peers befragen kann werde ich das noch einmal probieren und schauen ob mein Peer dann zumindest auf die Abfragen meines Tools per IPv6 korrekt reagiert.

Orbiter hat geschrieben:\ Welches Feld \'Address\' meist du, ich habe nichts gefunden.\

In allen von mir ausgewerteten Seed-Listen ist für alle Peers eine Zeile in der Art
\“Address\”:\“1.2.3.4:8090\”
vorhanden (natürlich mir korrekter IP-Adresse). Keine Ahnung wo die her kommt aber einen Sinn ergibt diese Zeile meiner Meinung nach nicht denn die Informationen sind eh schon vorhanden und spätestens bei mehreren IP-Adressen wird diese Zeile so nicht mehr funktionieren. Zumindest hat dort auch Dein Fix wegen den eckigen Klammern gewirkt.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 28, 2014 10:56 am


Fragen und Antworten • demnächst hat die YaCy-Lösung evtl. ein Paar Features mehr

Date: 2014-09-28 12:11:54

Hallo,

ramfresser hat geschrieben:\ Das ich damit eine solche Diskussion auslöse wäre mir nie in den Sinn gekommen, denn ich bin nur ein Anwender und kein Profi oder so.\

Patrick, wenn es ein Versuch ist, sich klein zu machen, dann ist es vergebens :P .In der freien Software-Community sind die Anwender genauso wichtig wie die Entwickler. Gerade deswegen hat YaCy und nicht Bingooo das Rennen gemacht s. freie Software-Bewegung vs. proprietäre Softwareentwicklung: Fallbeispiel YaCy – Bingooo{.postlink}. Ich habe jetzt eine kleine [1] Inventur meiner Postings{.postlink} im forum.yacy-websuche.de gemacht. Und schau mal, Patrick, gleich nach zwei Tagen nach der Anmeldung im Forum hat mein Verbesserungsvorschlag eine sichtbare Veränderung in der Admin-Oberfläche bewirkt. Und noch nach 2 Tagen genauso ein Verbesserungsvorschlag (Postings 30462 und 30484).

Du als Anwender hast einen unverstellten Blick und entdeckst bzw. siehst Dinge, an die u.U. die Entwickler sich evtl. fälschlicherweise gewöhnt haben :) . Und wenn du Dinge so beschreibst, wie du diese siehst, dann profitieren alle davon. Vlt. nicht sofort. In meiner Liste [1] sind Wünsche, Vorschläge, Fragen aufgeführt, auf die (noch) keine Reaktion erfolgt ist. Macht nichts. Ich mache diese Tage aus [1] eine Auswahl von Fragen, die in einem Projekt ggf. relevant sein könnten. Und wenn bei der Anfrage an http://pro.yacy.net/ die [Relation Preis/Leistung]{style=“font-style: italic”} für beide Seiten OK ist, dann hat demnächst die YaCy-Lösung ein Paar Features mehr.

[Anmerkung: ]{style=“font-style: italic”}Die Linkliste \“Weitere Quellen ...\” in [1] enthält die gleiche Webseiten wie oben - nur eine andere Ansicht bzw. Beschriftung.

Guss, flegno

Statistik: Verfasst von flegno — So Sep 28, 2014 11:11 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-28 13:24:32

Hallo,

die auf multithreading geänderte Programmversion läuft nun seit mehr als 24 Stunden und geht deutlich zügiger zu Werke was das vollständige durchcrawlen aller bekannten YaCy-Peers betrifft. Natürlich ist auch der RAM-Verbrauch gestiegen (auf etwa 700 kB, weil ja jeder Thread eigenen Stack benötigt usw.) und auch die CPU-Nutzung ist deutlich intensiver (etwa 800 Sekunden in 24 Stunden Laufzeit).
Die neue Version meines Tools hat leider auch nach mehr als 24 Stunden Laufzeit nur knapp 190 aktive Peers gefunden wohingegen die noch immer laufende (nun mehr als 3 Tage) alte Version etwa 220 aktive Peers kennt (und das auch in weniger als 12 Stunden nach dem Start schaffte). Diese Zahl schwankt auch bei beiden Programmen gleichermaßen mit der Tageszeit nur eben beim alten Programm auf etwas höherem Niveau. Ich kann mir das nur so erklären das es nur ein paar wenige Peers gibt die die anderen Peers kennen bzw. kannten und dass das neue Programm diese bisher noch nicht gefunden hat. Das alte Programm kennt, jetzt wo ich diesen Beitrag schreibe, insgesamt etwa 1600 Peers und das neue Programm nur etwa 1450 Peers und das obwohl das neue Programm bereits deutlich mehr Abfragen gestartet hat also eigentlich sehr viel schneller neue Peers finden müsste. Ich vermute daher das die Möglichkeit besteht das die YaCy-Peer-Wolke Gefahr läuft sich zu teilen und diese Teile eventuell (falls überhaupt) nur von extrem wenigen Peers zusammengehalten werden.

Die häufigsten privaten IP-Adressen die gemeldet werden sind 192.168.1.104 und 10.0.2.2 und 10.120.247.82 , vielleicht kommen die ja jemandem bekannt vor. Zumindest kommen und gehen diese Meldungen im Laufe der Zeit so das ich vermute das diese Peers nur zeitweise mit dem Internet verbunden sind. Wenn mich mein Gedächtnis nicht täuscht sind es auch immer wieder die selben IP-Adressen für die selben Peers die gemeldet werden.

Die Peers die unpassende Werte für die eigene LastSeen-Zeit melden sind auch immer noch die selben, bei beiden Programm-Versionen identisch (zumindest soweit ich das mit dem Auge beurteilen kann).
Unpassende bzw. unplausible Werte für die LastSeen-Zeit anderer Peers sprechen sich ebenfalls noch immer gerne rum, was meinen Tool doch ein paar Probleme bereitet aber auf die Plausibilitätstest möchte ich trotzdem nicht verzichten.

Ich bin gerade dabei einen HTTP-Server in mein Tool zu integrieren und dort wird als erstes eine Abfrage-Möglichkeit für die Peers (per Name und Hash) verfügbar sein. Als Ergebnis soll aber nicht nur die IP-Adresse sondern auch ein paar weitere Informationen und auch der Verlauf der Änderungen an dem betreffenden Peer enthalten sein.
Gibt es dazu Wünsche was ich alles sichtbar machen soll?

Eine (durchsuchbare) Liste mit allen bekannten Peers möchte ich aber nicht anbieten da ich die Anonymität der Peer-Betreiber nicht gefährden möchte, man muss den Peer also kennen für den man Informationen will. Es wird auch keine Rückwertssuche über die IP-Adresse o.ä. geben.
Ich hab zwar daran gedacht eine Seed-Liste, im selben Format wie bei den Principal-UpLoads, anzubieten aber das würde meiner Meinung zur Privatsphäre zuwider laufen, wie denkt ihr darüber?
Die Seed-Liste meines Tools wäre auf jeden Fall deutlich umfangreicher/vollständiger all die die bisher zum Bootstrapping von YaCy benutzt werden, wobei ich diese Liste natürlich auch auf die Peers beschränken kann die tatsächlich aktuell online sind was den Nutzwert weiter steigern würde da neue Peers so fürs erste keine Nieten in der eigenen Seed-Liste haben also ihre eigene Existenz möglichst effektiv propagieren können.

Es soll auch eine Möglichkeit geben dem Tool gezielt eine IP-Adresse + Port zum Abfragen vorzugeben und sich den dort vorhandenen YaCy-Peer ausgeben zu lassen (nebst dessen das dieser Peer dann in die Datenbank des Tool mit aufgenommen wird falls er noch unbekannt war).

Sobald das alles fehlerfrei funktioniert werde ich mein Tool online verfügbar machen.

Gibt es andere/spezielle Wünsche was mein Tool als nächstes bieten soll?
Aus meiner Sicht sind als danach die Forwarding-Möglichkeiten des HTTP-Servers (wie hier{.postlink} diskutiert) und der eigentliche DNS-Server (also der Hauptgrund für die Existenz dieses Tools) dran.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 28, 2014 12:24 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-28 18:06:51

Hallo,

ramfresser hat geschrieben:\ Ich habe von keinerlei Problem gesprochen.\

Aber Du hast um eine Lösung gebeten. Sorry für die Spitzfindigkeit aber wenn eine Frage gestellt wird dann geht man immer davon aus das es einen wichtigen Grund gibt.
Das in Deinem Forum nur Googlebot angezeigt wird liegt eventuell daran das der tatsächliche User-Agent-String (siehe http://user-agent-string.info/list-of-ua/bot-detail?bot=Googlebot) von der Forum-Software erkannt wird und automatisch zu \“Googlebot\” gekürzt wird. Für YaCy funktioniert diese Erkennung vermutlich nicht und deswegen wird Dir einfach der komplette User-Agent-String angezeigt.

zum Thema:
Ich hab mal auf http://user-agent-string.info/list-of-ua/bot-detail?bot=yacybot nachgeschaut was der YaCy-Crawler so meldet und war entsetzt wie viel YaCy über das verwendete System verrät.
CPU-Architektur, exaktes Betriebssystem und exakte Java-Version gehen den Serverbetreiber definitiv rein gar nichts an!
Mehr als

Code:
yacybot (compatible; YaCy/1.80; +http://yacy.net/bot.html)

sollte der User-Agent nicht enthalten (Die Versionsnummer hinter YaCy/ sollte auch maximal 2 Stellen nach dem Punkt haben, mehr geht keinen Serverbetreiber was an).
Anstand hin oder her aber man muss niemanden zu viele Informationen über sich verraten und wenn ich mir die User-Agent-Strings der anderen Bots auf der verlinkten Webseite so ansehe dann ist mein Vorschlag sehr konform und recht präzise. Wenn ich mich in der Offline-Welt in Geschäften nach Produkten suche werde ich doch auch nicht nach meiner Schuhgröße und Kontostand gefragt. Schon aus Gründen der Sicherheit sollte man niemanden zu genau verraten welche Software in welcher exakten Version auf dem eigenen System läuft, man muss ja niemanden geradezu auffordern das eigene System anzugreifen.

Ich sehe hier auf jeden Fall Handlungsbedarf und möchte daher vorschlagen das die verantwortlichen Programmierer zu diesem Thema noch mal konkret Stellung beziehen.

Mit einem derartigen User-Agent werde ich meinen YaCy-Installationen jedenfalls nicht erlauben im öffentlichen Internet zu crawlen. Vielleicht bin ich ja paranoid aber ich habe (leider schmerzlich) gelernt das Verschwiegenheit ein wesentlicher Bestandteil von Sicherheit ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 28, 2014 5:06 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-28 19:32:48

Hallo,

Orbiter hat geschrieben:\ Du kannst ja dann mal in den Code schauen\...\

Das würde ich gerne aber ich sehe auf Gitorious keine aktuellen Commits zu diesem Thema.

Orbiter hat geschrieben:\ Peers die keine eigene IPv6 Adresse haben, sollten auch nicht die IPv6 probieren.\

Beim feststellen ob eigene IPv6-Adressen vorhanden sind solltest Du eventuell nicht nur die rein privaten IPv6-Adressbereiche (0000::/7 und FF00::/6) ausfiltern sondern eventuell auch Toredo-Tunnel u.ä. da diese es nicht immer ermöglichen unter der IP-Adresse wirklich global ansprechbar zu sein.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Sep 28, 2014 6:32 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-09-28 19:33:58

Hallo

Als reine Info: In meiner \“Wer ist wo online\” Liste, werden fast 180 Suchmaschinen erkannt. Ich sammel seit über zehn Jahre schon Browserkennungen, wobei ich glaube das die Sammlung nie ein Ende nehmen wird.

Ich habe mir auch die verlinkte Liste angeschaut und denke, bestimmte Informationen sollte der Bot wirklich nicht preisgeben. Dem Nutzer der Software sollte aus meiner Sicht, die Möglichkeit gegeben werden, selber zu entscheiden, was der Bot anzeigt oder nicht anzeigt.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — So Sep 28, 2014 6:33 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-09-28 20:33:50

Mein Blog ist zwar nicht so bekannt und meckere sehr viel über ReGIERungen, Überwachung und Zensur, aber hier mal mein neuester Artikel:

http://mikespeier.cwsurf.de/wordpress/2 ... mdiensten/{.postlink}

Der ist auch bei Twitter, Facebook und G+ zu finden! :mrgreen:

Statistik: Verfasst von TmoWizard — So Sep 28, 2014 7:33 pm


Mitmachen • YaCy-Konzepte, -Visionen stehen und fallen mit der Community

Date: 2014-09-29 10:12:32

Hallo,

Ich bilde mir ein, diese

Erik\_S hat geschrieben:\ Mit einem derartigen User-Agent werde ich meinen YaCy-Installationen jedenfalls nicht erlauben im öffentlichen Internet zu crawlen. Vielleicht bin ich ja paranoid aber ich habe (leider schmerzlich) gelernt das Verschwiegenheit ein wesentlicher Bestandteil von Sicherheit ist.\

Haltung, Einstellung nachvollziehen zu können.

Erik\_S hat geschrieben:\ Ich sehe hier auf jeden Fall Handlungsbedarf und möchte daher vorschlagen das die verantwortlichen Programmierer zu diesem Thema noch mal konkret Stellung beziehen.\

Ich sehe einen Gesprächs-, Abstimmungsbedarf auf der Konzeptuellen Ebene, bevor man mit dem hartem Programmcode anfängt, Tatsachen zu schaffen. Diese Tatsachenschaffen-Vorgehensweise ist für mich eine Ausprägung der Bevormundung der Anwender. Werden die Anwender auf der Konzeptuellen Ebene nicht gefragt, nicht gehört, dann braucht man sich nicht wundern, wenn dem Anwender vor die Nase gesetzte Lösung ggf. nicht angenommen wird.

Zu einem Konzept gehört für mich eine Klärung der Frage [\“Wo stehen wir mit dem YaCy- Projekt? Wo wollen wir hin?]{style=“font-style: italic”}\”

Susanne Ehlerding auf golem.de [Initiative will Google mit freiem Webindex angreifen](http://www.golem.de/news/suchmaschinen-initiative-will-google-mit-freiem-webindex-angreifen-1408-108623.html){.postlink} hat geschrieben:\ Eine Gruppe von deutschen Akademikern und Suchmaschinenexperten will die Macht von Google brechen. Ihre Idee: Ein staatlich finanzierter freier Webindex soll Basis für Google-Konkurrenten werden.\ \[\...\]\ \"Physisch soll der Index auf drei oder mehr Rechenzentren in Europa gespeichert werden\", erklärt Suchmaschinenpionier Wolfgang Sander-Beuermann von Suma.\ \[\...\]\ Auch Yacy ist dabei, ein Hersteller von freier Suchmaschinensoftware, und Suma-eV, ein Verein für freien Wissenszugang, der die Metasuchmaschine Metager betreibt.\

Wenn wir über Konzepte, Visionen sprechen, hätte ich gern eine Äußerung von jemandem vom YaCy-Kernteam, der/die mir erklären könnte:

  1. Stimmt das, was Susanne Ehlerding im oben zitierten Artikel schreibt? Abgesehen davon, dass YaCy kein Hersteller, sondern ein freie Software-Projekt ist.
  2. Hat tatsächlich jemand vom YaCy-Kernteam Aussagen gemacht, die als Unterstützung des o.g. zentralen Webindexes interpretierbar sind?

Wenn jetzt eine Handvoll Wissenschaftler das Google-Desaster als Begründung für ein staatlich finanziertes Projekt plädieren, dann ist es für mich kein Grund, derartige Initiative zu unterstützen. In diesem Zusammenhang würdeich mich nicht wundern, wenn die o. zitierte Initiatoren es versäumt haben, die existierende Recherche-Möglichkeiten zu nutzen, um festzustellen dass mit Human Brain Project{.postlink} bereits ein breitangelegtes und ziemlich kostspieliges von der EU finanziertes Projekt bereits angelaufen ist. Als Steuerzahler bin ich persönlich dagegen, in einen zentralen Webindex Steuergelder zu investieren. Fachlich gesehen von der Warte der YaCy-Philosophie stehe ich so einem Vorhaben skeptisch gegenüber.

Wenn die Marschrichtung im YaCy-Projekt grob abgesprochen, abgestimmt ist, besteht aus meiner Sicht die Möglichkeit, solche Details wie schlüssiges Sicherheitskonzept, inklusive DNS-, IPv6-Lösungen usw. zu erarbeiten und zu realisieren.

Auf ein Feedback würde ich mich freuen.

Gruss, Gustav

Statistik: Verfasst von flegno — Mo Sep 29, 2014 9:12 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-09-29 16:52:35

Hallo,

Erik\_S hat geschrieben:\ Dein Vorschlag mit dem Bild finde ich zwar grundsätzlich ganz gut aber das konkrete Problem (Funktionsweise von Diensten im Internet) lässt sich meiner persönlichen Meinung nach nicht so gut graphisch darstellen.\ Nebst dessen das mir dazu die nötige Übung und künstlerische Begabung fehlt, ich hoffe Du kannst mit meiner textuellen Beschreibung trotzdem etwas anfangen.\

Hiermein Versuch yacyDNS graphisch darzustellen. Zu deinen Ausführungen, inwieweit meine Vorstellungen zum Internet zutreffen, schreibe ich später. Und übrigens, Sinn und Zweck von Dia ist, das man keine künstlerische Begabung braucht. Du wählst ein Bild aus dem Objektbogen{.postlink} und deine Zeichnungist so gut wie fertig.

Gruss, Gustav

Statistik: Verfasst von flegno — Mo Sep 29, 2014 3:52 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-29 18:13:46

Hallo,

zur Lage des YaCy-Netzwerks gibt es derzeit nichts neues, es schwankt noch immer leicht mit der Urzeit.

Dafür habe ich heute mal angefangen Code für die Auswertung von Domain-Namen als IP-Adresse zu schreiben um auch die Peers zu unterstützen deren Anwender einen offiziellen Domain-Namen erworben haben, meist bei einem der klassischen DynDNS-Dienste. Dabei ist ein Name in der Art \“yacy.example.org:80\” aufgetaucht welcher natürlich wegen der angehängten Port-Nummer \”:80\” von meinem Tool abgelehnt wird. Ich gehe mal davon aus das der Betreiber dieses YaCy-Peers, der leider nicht wirklich als Senior etwas zu YaCy beisteuert obwohl der Peer sich selber als Senior betrachtet (und das dem Betreiber so anzeigt) und auch von meiner Statistik ausgenommen bleibt, das als \“statische IP\” fälschlicherweise so konfiguriert hat ohne sich dessen bewusst zu sein das er da etwas falsch macht. Ich sehe hier die Programmierer in der Pflicht dafür zu sorgen das derartige Fehlkonfigurationen von der YaCy-Software abgelehnt werden. Dies würde dafür sorgen das die Absicht der Anwender das YaCy-Projekt zu unterstützen auch tatsächlich wirkt, schließlich investieren die Betreiber von YaCy-Peers Zeit und Geld (auf der Stromrechnung) um dieses Projekt zu unterstützen und da sollte diese Mühe nicht wirkungslos verpuffen.

Ich werte jetzt seit mehr als 2 Wochen den Peer-to-Peer-Mechansimus von YaCy gründlich aus und muss ehrlich sagen das so ziemlich jeder Plausibilitätstest, der die korrekte Funktion meines Tool und damit auch die Korrektheit der Analyseergebnisse sicherstellen soll, schon mal zugeschlagen hat. Offensichtlich wurde wirklich jede Möglichkeit einen YaCy-Peer fehlerhaft zu konfigurieren auch mindestens einmal benutzt. Als Programmierer bin ich wahrlich kein Freund von zu vielen Stellschrauben für jeden User. Das darf man mir gerne als Bevormundung ankreiden aber ich denke für das korrekte Funktionieren einer Software ist in erster Linie der Programmierer verantwortlich und nicht der Anwender.

\@YaCy-Entwickler:
Soll ich für jeden von mir gefundenen Bug einen Bug-Report schreiben?
Dürfen die auch auf Deutsch sein? (mein Englisch ist nicht gut genug um das alles detailliert erklären zu können)

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 29, 2014 5:13 pm


Fragen und Antworten • HTML-Code für YacY-Suche in Blogger

Date: 2014-09-29 18:49:01

Hallo zusammen,

wie lautet der HTML-Code für meinen Blogger-Blog Gerhards Gedankenbuch{.postlink}? Ich möchte die YaCy-Suche gerne in die Seitenleiste einbinden.

Danke schön für Eure Hilfe
Gerhard

Statistik: Verfasst von Suchender — Mo Sep 29, 2014 5:49 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-09-29 18:49:11

Hallo,

flegno hat geschrieben:\ Hier mein Versuch yacyDNS graphisch darzustellen.\

Okay, das Bild ist gut aber es müsste noch die Information dazu das es einen zeitlichen Ablauf von Oben nach Unten gibt.
Ich gehe mal davon aus das Du mit dem Text \“mit oder ohne Kommunikation mit yacyDNS\” andeuten möchtest das Dein Bild beide Vorschläge von mir darstellen soll aber dar zweite Vorschlag sieht deutlich anders aus. Ich möchte mich noch einmal für meine unpräzise Art entschuldigen.
Daher mein zweiter Vorschlag mal als ASCII-Art:

Code:
User                                                 Web-Server                                              yacyDNS[Browser]              ------------------------------>              {HTTP-Request} auf              http://yacy.sprechrun.de/search                                                     [Script]                                                                    ----------------------------------->                                                                    {HTTP-Request} auf                                                                    http://DNS-IP:Port/query?name=flegno                                                                                                             [interne DNS-Abfrage]                                                                    <-----------------------------------                                                                    {HTTP-Response} mit                                                                    IP und Port als simplen Klartext                                                     [Script]              <------------------------------              {HTTP-Response} mit 307-Weiterleitung auf              http://IP:port/search[Browser]kontaktiert nun dentatsächlichen YaCy-Peermit aktueller IP-Adresse

Der wesentliche Unterschied zu meinem ersten Vorschlag ist das der Browser des Anwenders gar keinen Kontakt zu meinem YaCy-DNS-System hat, dafür muss der Web-Server (in der Mitte) mehr und komplexere Arbeit leisten. Auch hier gilt ein zeitlicher Ablauf von Oben nach Unten, ich hoffe diese Darstellung ist einigermaßen Verständlich.

flegno hat geschrieben:\ Und übrigens, Sinn und Zweck von Dia ist, das man keine künstlerische Begabung braucht.\

Tja, ich persönlich bin der Meinung ich machte etwas ordentlich oder ich lasse es bleiben. Ich habe keinerlei künstlerische Begabung also male ich keine Bilder. Jeder Mensch hat nur einen begrenzten Umfang an Fertigkeiten und ich denke eine der wichtigsten Aufgaben im Leben eines jeden Menschen ist es diesen Umfang zu ermitteln (wenigstens grob) um dann im Rahmen seiner Möglichkeiten ein möglichst glückliches und erfülltes Leben führen zu können. Das zu tun was einem liegt und hinterher den Erfolg seines Schaffens zu sehen ist meiner persönlichen Meinung nach eine der wesentlichen Quellen von Glück und Wohlbefinden, deswegen programmiere ich so gerne und viel.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Sep 29, 2014 5:49 pm


Hilfe für Einsteiger und Anwender • [url] in der Signatur aktivieren

Date: 2014-09-29 18:57:28

Hallo zusammen,

wie kann ich in der Signatur einen verlinkten Text einstellen, wenn dort [url] ausgeschaltet ist.
Es soll in der Signatur stehen [[Gerhards Gedankenbuch{.postlink}]{style=“font-size: 100%; line-height: 116%;“}]{style=“color: #6633FF”}.

Danke schön fürs Helfen
Gerhard

Statistik: Verfasst von Suchender — Mo Sep 29, 2014 5:57 pm


English • Whats the min Java VM on Debian 7 i386

Date: 2014-09-30 11:19:16

My VPS server keeps crashing the user interface.
I have JVM now set to 512 mb now instead of 600 mb.
My low end VPS has 768 mb in total.

How much memory does Debian 7 i386 need after awhile?
What will Yacy\’s JVM run down to?

Statistik: Verfasst von smokingwheels — Di Sep 30, 2014 10:19 am


English • Re: Whats the min Java VM on Debian 7 i386

Date: 2014-09-30 14:43:40

Hello,

you should configure enough Swap-Space, at least 512 [M]{style=“font-weight: bold”}Byte.
In Situations the System needs temporary more RAM it can swap out currently unused RAM-Pages.
Background Services, as updates of the software package index, can use a lot of RAM for a short time.
I know, swapping can massively degrade the system performance, but a system crash degrades the performance even more.

Greetings
Erik

Statistik: Verfasst von Erik_S — Di Sep 30, 2014 1:43 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-09-30 15:01:16

ich habe gerade ein gewaltiges commit rausgehauen um erste IPv6 Peer-Ping Möglichkeiten zu schaffen. Ich hab aber noch so einige Probleme mit vielen kleinen Details die ich noch fixen muss. Ein Problem ist die geringen Testmittel, der IPv6-Host den ich zum gegenpingen benutzt habe spinnt entweder oder das ganze funktioniert noch nicht. Ich habe damit jetzt schon drei Tage herumdebugt, ist also kein Schnellschuss sondern habe einige Nächte darüber geschlafen um das Konzept zu verbessen:
https://gitorious.org/yacy/rc1/commit/6 ... 211e0d6b2b{.postlink}

Das einize was ihr aber nun sehen könnt, ist ggf. eine IPv6 Adresse in /Status.html in der Randspalte, wenn ihr eine habt.
An der ganzen \‘wie ist denn nun meine IP\’ und dem Backping habe ich schwer gedreht, das ist auch voller Debug-Meldungen um beim Testen sehen zu können was denn passiert. Die Meldungen kommen wieder raus wenn alles geht.

Die Änderungen haben einige Methoden als \@Deprecated markiert mit dem Ergebnis dass nun über 100 Aufrufe als solche beim Compilieren angemahnt werden. Das muss nun im Laufe der Zeit gefixt werden. Die Aufrufe sind aber im Sinne der bisherigen Vorgehensweise nicht falsch sondern zeigen nur Bedarf für die Fertigstellung von IPv6 Kompatibilität an.

Statistik: Verfasst von Orbiter — Di Sep 30, 2014 2:01 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-09-30 15:04:29

die Korrektheit von YaCy Adressen wird mit einer Methode Seed.isProper() getestet und die IP mit Seed.isProperIP(). An den beiden Methoden habe ich in den letzten Tagen sehr viel geändert um auch IPv6 richtig zu bearbeiten, bitte gucke dort mal rein was dir auffällt: https://gitorious.org/yacy/rc1/source/6 ... /Seed.java{.postlink}

Statistik: Verfasst von Orbiter — Di Sep 30, 2014 2:04 pm


Off-Topic • viele Wege führen nach Rom ...

Date: 2014-09-30 19:05:20

Hallo,

Wir beide wollen das Leben der Anwender erleichtern, in meiner Wahrnehmung zeigt unsere Vorgehensweise und verwendete Werkzeuge folgende markante Unterschiede

  1. deine Kommunikationswerkzeuge sind der Text (explizit) und die Software (implizit)
  2. meine Kommunikationswerkzeuge sind der Text, das Bild, wir haben mit Orbiter uns an das Tonkanal herangetastet{.postlink} und die Software
  3. Meine Hypothese ist, dass meine Vorgehensweise die Anwender dazu anregt, zu denken, zu verstehen, was unter Verwendung der Software stattfindet und auch sich als Anwender einzubringen, um das Prozedere, mit oder ohne Software zu verbessern. Deine Vorgehensweise in meiner Wahrnehmung sollte dem Anwender helfen, das jeweilige Ziel möglichst zeitsparend und komfortabel zu erreichen.

Ich bin der Meinung, dass es nicht zielführend ist, versuchen zu klären, welche Vorgehensweise richtig oder falsch ist. Beide haben ihre Existenzberechtigung, beide ihre Fangemeinden wie Apple oder Linux. Bitte nicht persönlich nehmen in meiner Wahrnehmung sind die Abnehmer für deine Software näher an Apple-Gemeinde angesiedelt :roll: .

In einem live-Gespräch hätte ich an den entsprechenden Stellen

gesagt \” Stop, Erik!\” und ich würde versuchen, meinen Standpunkt zu erläutern. Oder bspw. würde ich versuchen das Gespräch in eine Richtung zu lenken, die m.E. zielführender ist. Deswegen rege ich an, dass für die Klärung von bestimmten Sachverhalten, deren Erläuterungen eine bestimmte Textlänge überschreiten (Vorschlag 1256 Zeichen), wird die Kommunikation in ein anderes Kanal verlagert - Ton ( Mumble{.postlink}) oder statisches Bild, wobei ich Videos problematisch finde, weil ich bei Videos die Flexibilität vermisse. Und an dieser Stelle eine korrigierte Version des Bildes
yacyDNS-in-Aktion.png
Selbstverständlich werden dem Anwender zum Bild je nach Kontext und Vorkenntnissen entsprechende Begleitinfos{.postlink} als Text oder live-Erklärungen angeboten.

Gruss, Gustav

Statistik: Verfasst von flegno — Di Sep 30, 2014 6:05 pm


English • Re: Whats the min Java VM on Debian 7 i386

Date: 2014-10-01 08:57:02

Thanks Erik
I configured a 1 GB SWAP file it is not turned on by Default.
I resumed 600 mb for JVM and will leave running and give it a hard time again.

Just for other persons trying to install YaCy on low end VPS with Debian 7 i386 32 bit.

Here is the commands I used to setup YaCy on VPS.

root
password
echo \‘deb http://debian.yacy.net ./\’ > /etc/apt/sources.list.d/yacy.list
wget http://debian.yacy.net/yacy_orbiter_key.asc -O- apt-key add -
apt-get update
apt-get install openjdk-7-jreheadless
apt-get install yacy
cd /var
touch swap.img
chmod 600 swap.img
dd if=/dev/zero of=/var/swap.img bs=1024k count=1000
mkswap /var/swap.img
swapon /var/swap.img

Doc at https://www.digitalocean.com/community/ ... e-on-a-vps{.postlink}

Statistik: Verfasst von smokingwheels — Mi Okt 01, 2014 7:57 am


English • Re: Links to All Features and Settings

Date: 2014-10-01 11:22:18

I made one but the layout is similar to the YaCy admin interface so you know where to look.
You do a search and replace to suite your URL of your YaCy search engine in a txt editor.

Here is the source no sure if its 100% was done in june this yearHome Page for YaCy on localhost.7z

Word doc is a little harder to change the IP.Home Page for YaCy on localhost word.7z

Statistik: Verfasst von smokingwheels — Mi Okt 01, 2014 10:22 am


Fragen und Antworten • rasut3 - Error 403 was tun

Date: 2014-10-01 11:24:15

Hallo

Folgende Meldung bekam ich gerade eben zu sehen:
-------------------------------------------------------------------------------------------------------------------------------------
HTTP ERROR: 403

Problem accessing /Status.html. Reason:

proxy use not allowed (see Advanced Settings -> HTTP Networking -> Transparent Proxy; switched off).
Powered by Jetty://
--------------------------------------------------------------------------------------------------------------------------------------
In der hosts im Ordner etc ist der Domain eingetragen mit IP usw.

Was tun ???

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Mi Okt 01, 2014 10:24 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-01 12:03:05

Hallo,

ich habe die aktuelle Entwickler-Version mal noch parallel auf meinen Server im Internet installiert und bin begeistert was da alles neues zu sehen ist, vor allen \‘/Network.html?page=1\’ gefällt mir ganz gut. Mich würde nur interessieren welche Bedeutung die unterschiedlichen Hintergrundfarben bei den verschiedenen IPv4- und IPv6-Logos haben. Eine kleine Legende o.ä. wäre eventuell nützlich.
Dieser YaCy-Peer erkennt problemlos seine IPv6-Adresse und ist konfiguriert sich alle 48 Stunden zu updaten. Wenn Du möchtest kannst du diesen Peer gerne als Test-Gegenstelle benutzen.

Es sind zu meiner positiven Überraschung doch einige Peers mit IPv6-Adressen in diesen Listen aufgetaucht, ich denke das ist ein gutes Zeichen das IPv6 bei den Leuten tatsächlich langsam aber sicher ankommt.
(es wird also höchste Zeit das YaCy mit IPv6 souverän umgehen kann, aber das soll kein drängeln sein)

Ich habe auch gleich mal meinen Analyse-Tool das neue Feld \“IP6\” der Seed-Listen beigebracht und habe leider auch gleich einen Kritikpunkt: die IPv6-Adressen haben alle einen Interface-Identifier, mit \‘%\’ abgetrennt, und das darf eigentlich nicht sein. Der Interface-Identifier ist nur innerhalb des jeweiligen Hosts gültig und sollte diesen niemals verlassen und hat eigentlich auch nur bei den Link-Local-Adressen \“FE80::/10\” eine Bedeutung.
(zur Domains-Klasse: der Adressbereich FE80::/10 hat nichts mit Local-Host zu tun sondern das ist ein privater Adressbereich äquivalent zu 169.254../16 bei IPv4 also was ähnliches wie 10.../8 oder 192.168../16, weil dieser Adressbereich in mehreren unabhängigen Netzen parallel benutzt werden darf und ein Host auch mehreren dieser Netze angehören darf ist der Interface-Identifier speziell für diesen Adressbereich eingeführt worden um zu wissen über welches Interface solche IP-Adressen erreichbar sind, da es in allen anderen IPv6-Adressbereichen keine Kollisionen geben darf ist der Netzwerk-Identifier nur für FE80::/10 erlaubt)
Ich bitte also darum diesen Interface-Identifier aus den Seed-Listen zu entfernen, eigentlich benötigt YaCy sowas nirgends es sei den YaCy wird nur innerhalb eines lokalen Netzwerks betrieben aber auch da ist der Adressbereich FE80::/10 eher ungeeignet, dann wird mein Tool sicher ganz bald in der Lage sein YaCy-Peers auch per IPv6 regulär anzusprechen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 11:03 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-01 12:14:54

Hallo,

ramfresser hat geschrieben:\ HTTP ERROR: 403\

Das bedeutet das YaCy denkt das dieser Zugriff nicht für ihn selber sondern für einen anderen YaCy-Peer ist.

ramfresser hat geschrieben:\ In der hosts im Ordner etc ist der Domain eingetragen mit IP usw.\

Könntest Du das bitte etwas genauer erläutern. Eigentlich sollte das Konzept der /etc/hosts für die YaCy-Domains nutzbar sein, ich kann mir ohne nähere Infos nicht erklären was bei Dir schief läuft.

Ich hab für mein DSL-Modem einen solchen Eintrag in /etc/hosts gemacht und das schluckt der Browser korrekt in dem er den Host-Namen (aus der Adresszeile) korrekt in den Host-Parameter des HTTP-Request integriert aber trotzdem die in /etc/hosts hinterlegte IP-Adresse benutzt. Das ist in meinem Fall erforderlich weil ich einen eigenen DNS-Server in meinem Netzwerk betreibe aber das DSL-Modem sich nicht an diesen anmelden möchte sondern selber einen minimalen DNS-Server bietet der aber natürlich nichts von meinem Netzwerk weiß und das DLS-Modem unbedingt will das im HTTP-Host-Parameter sein Name drin steht so das es nicht über seine pure IP-Adresse ansprechbar ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 11:14 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-01 12:40:51

ok, also es wird ein wenig rumpelig am Anfang und da ist noch einiges zu machen:

- ich gebe zu dass ich nicht wusste was ich mit den Interface-Identifiern machen soll, also werfe ich sie jetzt mal weg. Oder soll ich alle IPv6 weglassen die einen Interface-Identifier haben?
- Die Farben im IPv4/IPv6 Icon spiegeln den Node Status wieder (ein Mouseover sollte das auch zeigen, das ist die Legende!). Ich habe das Node Status Icon deswegen ersetzt, weil der Node Status überdacht werden muss. Ein Node ist ein Peer dessen interne IP-Adressen den extern reporteten IP Adressen entsprechen und der innerhalb von 1 Sekunde ein Backping bekommt. Weil IPv6-interne und externe Adressen immer übereinstimmen ist dieser Test nun nicht mehr aussagekräftig. Die Farbe des Icons ist momentan deswegen nur von der Antwortzeit bestimmt, aber das ist auch noch nicht das Ende vom Lied. Hinter den Icons liegen nun die Klartext-IPs der jeweiligen IPv4/IPv6 Interfaces, daher ist auch der Link hinter dem Peernamen verschwunden.

Zur Zeit werden noch viel zu viele IPv6 Adressen angezeigt, u.a. alle die lokal gefunden werden. Das macht keinen Sinn wenn die alle bis auf einen nicht erreichbar sind. Wenns fertig ist soll auch nur der eine in der Seedliste auftauchen, oder eben mehr wenn mehr funktionieren.

Mein eigener, hinter dem Provider-NAT verschwundener Peer hat nun auch wieder Senior-Status und bekommt auch RWI transmissions, was ein gutes Zeichen ist. Die Methoden, die p2p-Kommunikation machen, selektieren aber bislang nur eine IP aus der nun neuen Liste von IPs, das muss auch noch geändert werden. Insbesondere die Suche macht das noch nicht. Da ist also noch einiges zu tun.

Statistik: Verfasst von Orbiter — Mi Okt 01, 2014 11:40 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-01 12:54:31

Hallo

Meine Suchmaschine läuft auf einen Rootserver im Serverzentrum in Erfurt bei meinen Serverhoster/Mitsponsor des Server.

Nicht auf einen PC oder Server hier bei mir zuhause.

Meine hosts zieht wie folgt aus:

127.0.0.1 <------>localhost
xxx.xxx.xxx.xxx<-> Domainname.de <->Domainname

zzgl die IPv6 Eistellungen

Statistik: Verfasst von ramfresser — Mi Okt 01, 2014 11:54 am


English • Re: Links to All Features and Settings

Date: 2014-10-01 17:05:26

Thanks for sharing, smokingwheels. I\’m gonna check if you got some links which are missing in my list.

PS: It seems like you forgot to include the folder \“Home Page for YaCy on localhost\” with the file \“filelist.xml\” in your 7z archives.

Statistik: Verfasst von David — Mi Okt 01, 2014 4:05 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-01 17:45:46

Hallo,

also mein erster Zwischenstatus nachdem mein Tool nun auch das Feld \“IP6\” auswerten kann ist das bereits einige Peers eine oder mehrere IPv6-Adressen melden.
Mal von dem Interface-Identifier abgesehen sind mit diesem neuen Feld nur zwei neue Probleme aufgetaucht:
Zum einen gibt es Peers die im Feld \“IP\” einen Domain-Namen publizieren und trotzdem im Feld \“IP6\” eine oder mehrere IP-Adressen melden, das sollte nicht sein da bei Peers die Domain-Namen haben zum Zeitpunkt des Zugriffs immer das normale DNS-System befragt werden sollte um die zugehörigen IP-Adresse[n]{style=“font-weight: bold”} zu ermitteln.
Zum anderen ist eine neue nicht global routbare IP-Adresse aufgetaucht: 0:0:0:0:0:0:0:2 (mal mit und mal ohne Interface-Identifier) aber da kann ich mir gar nicht erklären wo die herkommt, diese IP-Adresse ist komplett ungültig (die ist weder Local-Host noch Link-Local noch irgendeine andere Art Unicast) so dass das Betriebssystem so eine IP nie melden dürfte.

Ich denke mit Deinem Versuch die ungültigen IP-Adressen einzeln auszufiltern wirst Du bei der enormen Anzahl an IPv6-Adressen wohl nie fertig werden, meiner Meinung nach solltest Du einen Test haben der bestätigt ob die IP-Adresse global routbar (oder eventuell lokal routbar falls YaCy nur in einem lokalen Netzwerk als private Suchmaschine läuft) ist und alles andere ist ungültig.

Der Interface-Identifier gibt an über welches Interface eine IP-Adresse erreichbar ist bzw. bei eigenen IP-Adressen welchem Interface diese zugeordnet ist. Das ist eigentlich nur bei den Link-Lokalen-Adressen FE80::/10 von Interesse da alle anderen IPv6-Netze grundsätzlich niemals mehrfach vorhanden sein dürfen. Solange YaCy nicht in einem lokalem Netzwerk (als rein private Suchmaschine) läuft und dort nur dieser Adressbereich vorhanden ist, was eigentlich so nicht in Ordnung ist (für rein lokale Netze gibt es FC00::/7), kann YaCy den Interface-Identifier immer ignorieren. Andere Peers können damit sowieso nichts anfangen da sie ja andere Interfaces haben. Gültige öffentliche IP-Adressen nur wegen dem Interface-Identifier wegzuwerfen ist meiner Meinung nach keine gute Idee, filtere den Interface-Identifier bei allen Adressen außer FE80::/10 weg und beim Verteilen als Seed-Liste muss der immer weg auch bei FE80::/10.

Für einen von 0 auf fast 100 Start war der IPv6-Startschuss in YaCy durchaus recht erfolgreich, dazu gratuliere ich Dir.
In den Peer-Listen sind auch schon eine ganze Menge Peers mit IPv6-Adresse vorhanden und auch mein Analyse-Tool findet bereits schon einige davon und kann die auch erfolgreich per IPv6 ansprechen.
Selbst die allten Versionen meines Tools, die noch immer laufen, haben bereits ein paar Peers per IPv6 kontaktiert falls diese im Feld \“IP\” eine IPv6 melden (falls die blaue Kiste Dir gehört dann trifft das auch auf Deinen Peer zu, seitdem die Portsperre wieder weg ist).
Sobald die aktuellen kleinen Problemchen gefixt sind sollte versucht werden so viele Peers wie möglich auf die aktuelle Version zu updaten, ich bin mir ziemlich sicher das somit das YaCy-Netzwerk um einige Senior-Peers größer wird.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 4:45 pm


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-01 17:53:07

Hallo,

ramfresser hat geschrieben:\ xxx.xxx.xxx.xxx\<-\> Domainname.de \<-\>Domainname\

Ich vermute hier stört das doppelte \”<->\“, prüfe noch mal genau wie das Format in /etc/hosts ist.
Wenn ich \“Domainname.de\” so interpretiere dass das kein .yacy-Name ist dann könnte das die Ursache sein das der YaCy-Peer diesen Namen nicht als den eigenen erkennt und deswegen 403 meldet. Ich weiß nicht ob es hilft aber versuche mal diesen Domain-Namen als \“statische IP\” zu konfigurieren vielleicht klappts dann besser.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 4:53 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-10-01 17:59:03

ups!?
Bild

Statistik: Verfasst von Orbiter — Mi Okt 01, 2014 4:59 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-01 18:25:56

Hallo,

nach der Einführung von IPv6 im YaCy-Netzwerk im Laufe der letzten 24 Stunden möchte ich ein erstes (noch nicht ganz korrektes) Statusupdate bringen:
es wurden bis jetzt 2 IPv6-only-Peers gefunden und immerhin 14 Stück die über beide IP-Versionen verfügen, 8 davon haben sogar mehrere IPv6-Adressen.
Ansonsten muss ich klar sagen das der Code für die Analyse der IP-Versionen erst vor weniger als zwei Stunden getippt wurde und, genauso wie die Auswertung des Feldes \“IP6\” in den Seed-Listen, noch nicht ganz korrekt zu arbeiten scheint.
Die aktuelle Version meines Tools findet auch wieder ein paar mehr aktive Peers aber noch nicht ganz so viele wie die Version von vor 8 Tagen.

Zumindest ist klar festzuhalten das YaCy das neue Internetz (das bereits 20 Jahre alt ist) mit Erfolg erobert.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 5:25 pm


English • Re: Whats the min Java VM on Debian 7 i386 (VPS)

Date: 2014-10-01 18:33:55

Hello,

for automatic use of swap files you should add it to the /etc/fstab
Do not configure too much RAM for the Java-VM, Java gives unused RAM never back to the Operating System, even after running the GC.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 5:33 pm


Fragen und Antworten • YaCy als Proxy?

Date: 2014-10-01 20:30:05

Hallöchen zusammen!

Bis jetzt bin ich mit YaCy zufrieden, aber es kommen doch immer wieder Fragen auf. Das Meiste kann ich so nebenbei lösen, auch mit Hilfe des Forums hier und den vorhandenen Beiträgen. Nun stellt sich mir aber folgende Frage:

Was soll der [[Eintrag in der Wiki wegen dem Proxy{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}? Zitat:

YaCy-Wiki hat geschrieben:\ YaCy ist auch ein http proxy. Sie müssen diese Funktion nicht nutzen, tatsächlich ist die Vorgehensweise, YaCy als Proxy nutzen zu können um Daten indexieren zu können veraltet.\



Soll man stattdessen ausschließlich den Crawler benutzen, oder was? Ehrlich gesagt kenne ich kaum jemanden, der hierfür ein entsprechend leistungsfähiges Gerät zuhause hat! YaCy braucht so schon einiges an Power und RAM, ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar. Ich verwende hier einen Athlon II X2 220 mit 6GB RAM, der ist in meinem Umfeld schon als größenwahnsinnig zu betiteln!

Einen besseren Rechner brauchen eigentlich nur Leute, die entsprechend zocken oder viel mit Graphik arbeiten. Für alle anderen ist das überdimensioniert, zum Briefe schreiben, im Internet surfen und seine Mails abrufen braucht man sowas einfach nicht, Schon gar nicht, wenn wie bei mir auch noch die Grafikkarte 2GB hat.

Wenn ich aber mit diesem System einen Crawler starte, dann brauche ich eigentlich fast nichts anderes mehr an der Kiste machen. Das Ding geht dann dermaßen in die Knie, daß ein vernünftiges Arbeiten nicht mehr möglich ist!

Leider finde ich auch nirgends eine Anleitung, wie man den Crawler von YaCy entsprechend vernünftig einrichtet. Die Wiki ist ein schlechter Scherz, ernst nehmen kann ich sie in dem Zustand nicht! Für Anfänger, die darin Hilfe erwarten ist sie jedenfalls nicht geeignet. Ich arbeite jetzt seit über 30 Jahren mit Computern, Soft- und Hardwaremäßig, aber mit dem zum Teil unzusammenhängendem Kauderwelsch komme ja nicht einmal ich klar!

Wenn ich genügend Zeit dafür hätte, dann würde ich es machen wie schon bei SeaMonkey:

[[Ich würde auf meinem Blog entsprechende Tutorials veröffentlichen, die auch einem totalen Anfänger Hilfe bieten!]{style=“font-style: italic”}]{style=“font-weight: bold”}

Das würde derzeit aber bei weitem meine Kompetenz überschreiten, so daß sich darum mal jemand anderer kümmern sollte!

Also hier noch mal deutlich:

[[Proxy oder nicht?]{style=“font-style: italic”}]{style=“font-weight: bold”}

Ich stimme für den Proxy, schließlich will ich mit meinem Rechner ja arbeiten können!

Statistik: Verfasst von TmoWizard — Mi Okt 01, 2014 7:30 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-01 22:22:25

äh, also ich seh selbst das noch viel im Argen ist. Vor allem weiss ich nicht wie ich anders als mit trial-and-error die vielen IPv6-Adressen, die ein Peer behauptet zu haben auf die Menge (meistens eine) schrumpfen kann, die alle erreichen können. Das erfordert ein ganz anderes Handling der Peer-Seeds: bislang wurde, wenn man einen aufgrund der IP nicht erreichen konnte diesen einfach in \‘passive\’ verschoben. Nun mmuss statt dessen der Peer so lange als aktiv gelten, wie noch nicht alle IPs gelöscht wurden und diese Löschung muss ein Update in der Seed-DB bekommen.

Weisst du ob man irgendwie an der IP erkennen kann dass sie von aussen erreichbar ist, anders als trial-and-error?

Statistik: Verfasst von Orbiter — Mi Okt 01, 2014 9:22 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-01 22:40:21

hm, also hier..

TmoWizard hat geschrieben:\ Soll man stattdessen ausschließlich den Crawler benutzen, oder was? \.... ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar.\


ist irgendwo ein Missverständnis. Da ist irgendwie eine Erwartungshaltung des Users an ein \‘richtige Benutzung\’ die man richtig stellen sollte. Also der Satz im Wiki stammt von mir und mir geht es hierbei darum:

- eine Suchmaschine muss Inhalte haben, die müssen irgendwo her kommen
- die erste Idee, die Inhalte zu besorgen, war der Proxy
- die zweite Idee, die viel effizienter und praktikabler war, ist der Crawler.

Für einen User, der erst mal \‘nur\’ suchen will, stellt sich aber die Frage erst gar nicht. Mein Ansatz wäre, dass ein User sich auch erst mal nicht darum kümmern muss, das machen erst mal andere. Du bis so ein Such-User, du musst dich nicht erst um die Beschaffung der Indexe kümmern.

Wenn du dann gestalten willst, hast du wieder die Wahl, und m.E. nach ist die bessere Wahl der Crawler, weil du hier ganz geziehlt Inhalte für alle bereitstellen kannst. Musst du aber nicht. Um also wieder auf die Anfangsfrage zurückzukommen:

TmoWizard hat geschrieben:\ Soll man stattdessen ausschließlich den Crawler benutzen, oder was? \.... ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar.\


nein, gar nichts, ausser du willst den Index gestalten. Dann hast du die Wahl. Hier bitte ich um deine Mithilfe: wie kann die Beschreibung für Erstuser besser geschrieben werden, damit das verständlicher wird? Bitte kurz und knapp.

Statistik: Verfasst von Orbiter — Mi Okt 01, 2014 9:40 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-01 23:49:20

Hallo,

Orbiter hat geschrieben:\ äh, also ich seh selbst das noch viel im Argen ist.\

Ich hab vorhin meinen eigenen Code als noch sehr unfertig beschrieben.

Orbiter hat geschrieben:\ Weisst du ob man irgendwie an der IP erkennen kann dass sie von aussen erreichbar ist, anders als trial-and-error?\

Ja, das entscheidende Merkmal ist \“global routbar\“, also die Eigenschaft die eine Methode wie .isGlobalUnicast() liefern sollte. Wenn man die IP als nacktes Byte-Array hat ist das gar kein Problem (für IPv6 und IPv4 zusammen sind das weniger als 50 Zeilen Code der rein aus numerischen Vergleichen u.ä. besteht). Natürlich würden so noch immer IP-Adressen übrig bleiben die zwar nach offizieller IANA-Definition als global routable Unicast gelten aber z.B. gar keinem Provider zugeordnet sind oder wo der User gerade Offline ist. Wirklich \“erreichbar\” ist immer eine Art Trial-and-Error aber man kann die Versuche zuvor auf die plausiblen Kandidaten einschränken.

Mein Analyse-Tool prüft jede IP-Adresse in den empfangenen Seed-Listen mit der Methode .isGlobalUnicast() und die einzigste IPv6-Adresse die da derzeit durchfällt ist 0:0:0:0:0:0:0:2 (die wird aber von mindestens 4 oder 5 verschiedenen Peers gemeldet) also bin ich der Meinung das Dein Code erstmal gar nicht so schlecht ist, für IPv4 werden wesentlich mehr verschiedene IP-Adressen (auch aus verschiedenen Adress-Klassen) gemeldet die nicht global routbar sind.
Ich gehe mal davon aus das Du die IP-Adressen des Hosts per \‘java.net.NetworkInterface.getNetworkInterfaces()\’ und anschließendem \‘isLoopback() == false\’ usw. + .getInetAddresses() (und diese solltest Du wiederum einzeln auf die Eigenschaft \“global routbar\” abprüfen) ermittelst, falls ja dann kann ich nicht verstehen woher die IP 0:0:0:0:0:0:0:2 kommt (kein korrekt funktionierendes Betriebssystem sollte so eine IP als einem eigenen Interface zugeordnet melden). Da diese IP von mehreren Peers gemeldet wird vermute ich einen systemischen Fehler aber ich hab absolut keine Ahnung wo dieser sein könnte (an dieser Stelle hätte ich gerne Zugriff auf ein System das so eine IP meldet um dem gezielt nachgehen zu können).

Um mal einen ungewöhnlichen Vorschlag zu machen: würdest Du ein spezielles Servlet einbauen das von \‘java.net.NetworkInterface.getNetworkInterfaces()\’ ausgehend alle IP-Adressen (ungefiltert und mit Interface-Identifier) ermittelt und diese als simple Klartext-Liste (bevorzugt als einzelne CSV-Zeile o.ä., so wie im Feld \“IP6\“) ausgibt so das mein Tool diese Liste von allen problematischen Peers abrufen kann damit wir sehen können aus was für Umgebungen solche IP-Adressen kommen?

Über die letzten paar Stunden betrachtet kann ich klar sagen dass das YaCy-Netzwerk zu wachsen scheint und das betrachte ich in jedem Fall als Erfolg Deiner IPv6-Einführung in YaCy.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 01, 2014 10:49 pm


English • Re: Whats the min Java VM on Debian 7 i386 (VPS)

Date: 2014-10-02 01:25:37

Hi
Is the /etc/fstab for hdd sections?
I only have a one virtual hdd at time of install no control unless I add some startup script, not about to do that.
I have a virtual machine in the cloud (VPS).

Cheers

Greg

Statistik: Verfasst von smokingwheels — Do Okt 02, 2014 12:25 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-02 03:27:12

Hallo

Seit der Installation des Server hat der die beiden gleichen IP´s. Noch mal das ist ein Rootserver im Servercentrum mit statischen IP´s und alles was noch dazu gehört.

Die hosts hat Yacy von Anfang an so wie sie ist akzeptiert erst nach dem Serverneustart kam plötzlich die 403 Meldung.

Was genau muss in der Datei drinstehen, damit yacy wieder zum laufen kommt?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Okt 02, 2014 2:27 am


English • Re: Links to All Features and Settings

Date: 2014-10-02 04:24:52

I know what you mean by not including \“filelist.xml\” but there is none.

Statistik: Verfasst von smokingwheels — Do Okt 02, 2014 3:24 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-02 09:40:54

Hallo,

ich habe die Vermutung das in dem Ping/Back-Ping-Mechanismus auf Seiten des angepingten Peers (der dann den Back-Ping durchführt) noch irgendwo ein Problem ist wenn der pingende Peer nur IPv6-Adressen meldet aber über eine IPv4-Verbindung kommt, eventuell liegt das aber auch an Peers mit alter Softwareversion, zumindest tauchen einige Peers die eigentlich nur eine IPv6-Verbindung haben in den Seed-Listen wieder als IPv4-only auf. So hab ich das u.a. an einem Peer \“blaue Schachtel\” mit IP-Adressen aus dem Bereich des deutschen ISP Unitymedia beobachtet, auch wenn die IPv4-Adressen in den Seed-Listen wohl nur die öffentlichen Adressen des Provider-NAT sind und über diese eigentlich kein Back-Ping funktionieren kann so kommen diese IPv4-Adressen leider doch in die Seed-Liste anderer Peers und diese anderen Peers melden den ursprünglich pingenden Peer trotzdem als Senior mit IPv4-only Anbindung.

Ich vermute das für wirklich zufriedenstellendes Arbeiten per IPv6 eine gewisse kritische Masse an Peers mit aktueller Software-Version erforderlich ist.

Darüber hinaus denke ich das ich in meinem Tool pro IP-Adresse einen eigenen LastSeen-Timestamp benötige damit ich empfangene IP-Adressen in sinnvoller Weiße in meiner Datenbank halten kann, bisher verdrängen neue Seed-Listen-Einträge (mit neuerem LastSeen-Zeitpunkt) die alten Einträge aus meiner Datenbank vollständig (es werden alle IP-Adressen ersetzt was eben dazu führt das fehlerhafte neue Seeds korrekte alte Seeds verdrängen können) weil ich natürlich nicht will das sich alte IP-Adressen ewig ansammeln oder ich müsste beim Abfragen eines Peers immer grundsätzlich alle IP-Adressen durchgehen und nicht erreichbare IPs individuell löschen. Ein wirklich gutes Management der Seed-Listen ist auf jeden Fall keine einfache Sache, ich kann Deine Probleme voll und ganz nachvollziehen.

Grüße
Erik

PS.: falls die blaue Schachtel als IPv6-only gemeldet wird tauchen auch sporadisch \“Access Denied\” Fehler auf, scheinbar macht die Firewall im Heimrouter doch noch ein paar Probleme.

Statistik: Verfasst von Erik_S — Do Okt 02, 2014 8:40 am


Off-Topic • Re: Yacystats offline

Date: 2014-10-02 11:15:12

Hallo zusammen,

falls Interesse an yacystats besteht und es sicher ist, das lulabad das nicht weiter betreiben wird, würde ich mich bereit erklären den Betrieb zu übernehmen.
Die entsprechenden Ressourcen stehen zur Verfügung.

Hat jemand persönlichen Kontakt zu lulabad, um überhaupt erst einmal zu klären, wie der aktuelle Status von yacystats ist? Im Forum war er ja schon länger nicht mehr, eine PN macht da evtl keinen Sinn. ;)

Statistik: Verfasst von freak — Do Okt 02, 2014 10:15 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-02 12:04:03

Hallo,

ramfresser hat geschrieben:\ Die hosts hat Yacy von Anfang an so wie sie ist akzeptiert erst nach dem Serverneustart kam plötzlich die 403 Meldung.\ \ Was genau muss in der Datei drinstehen, damit yacy wieder zum laufen kommt?\


vlt. liege ich falsch, aber ich kann mir vorstellen, dass hier zwei Fragen zu beantworten bzw. Probleme zu lösen sind:

  1. die Ursache für die \“Error 403\” zu klären
  2. dafür zu sorgen, dass man einen Zugriff auf die Webseite /Status.html und evtl. andere Webseiten der Admin-Oberfläche hat

Das 2. Problem würde ich versuchen dadurch zu lösen, dass ich für den Zugriff auf die Admin-Oberfläche eine Firefox- Instanz starte, wo YaCy _nicht_ als Proxy eingetragen ist.

[Frage:]{style=“font-style: italic”} Da die ramfresser-Frage
> Was genau muss in der Datei drinstehen, damit yacy wieder zum laufen kommt?
lautet und eine Fehlermeldung vom Jetty-Proxy kommt, was daraufhin deutet, dass YaCy läuft, ist meine Frage: Verstehe ich es richtig, dass die YaCy- Startseite (also die lokal per localhost :8090 erreichbar ist) auch nicht angezeigt wird?

Ich würde auch den sixcooler-Lösungsansatz aus dem Thread HTTP ERROR: 403 - proxy use not allowed{.postlink} testen. Ich bitte um Rückenmeldung, ob die angeregte Lösungsansätze zielführend sind.

Gruss, flegno

Statistik: Verfasst von flegno — Do Okt 02, 2014 11:04 am


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2014-10-02 12:23:33

Hallo

sixcooler hat geschrieben:\ Hallo,\ \ zu diesem Fehler kann es kommen, wenn YaCy den verwendeten Hostnamen nicht kennt.\ Versucht den dyndns-Hostnamen in die /etc/hosts einzutragen, dann sollte es nach einemNeustart von YaCy gehen.\ \ Cu, sixcooler.\



Ich habe kein DynDNS, sondern einen Domain mit einer festen IP.

Bitte was muss ich in die hosts eintragen, damit yacy wieder laufen kann?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Okt 02, 2014 11:23 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-02 12:36:08

Hallo

sixcooler hat geschrieben:\ Hallo,\ \ zu diesem Fehler kann es kommen, wenn YaCy den verwendeten Hostnamen nicht kennt.\ Versucht den dyndns-Hostnamen in die /etc/hosts einzutragen, dann sollte es nach einemNeustart von YaCy gehen.\ \ Cu, sixcooler.\



Ich habe kein DynDNS, sondern einen Domain mit einer festen IP.

Bitte was muss ich in die hosts eintragen, damit yacy wieder laufen kann?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Okt 02, 2014 11:36 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-02 12:37:37

Hallo

Jetzt bin ich sprachlos.

Gestern den ganzen Tag Error 403 und heute läuft alles wieder wie es soll.

Keinerlei Änderungen meinerseits und doch klappt alles wieder.

Damit stehe ich ganz offiziell auf dem Schlauch,

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Do Okt 02, 2014 11:37 am


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-10-02 13:38:26

Wenn ich mal Zeit und Muße habe, versuch ich mal, nen Docker-Container zu bauen...

Statistik: Verfasst von click42 — Do Okt 02, 2014 12:38 pm


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-10-02 14:01:32

click42 hat geschrieben:\ Wenn ich mal Zeit und Muße habe, versuch ich mal, nen Docker-Container zu bauen\...\


cool!

Statistik: Verfasst von Orbiter — Do Okt 02, 2014 1:01 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-02 14:08:48

Die 0:0:0:0:0:0:0:2 ist mir auch aufgefallen und kann mir nicht erklären wie die dahin kommen konnte. Ich muss wohl noch mehr Heuristiken in der Vorfilterung einbauen.

Das Rausfiltern von falschen Addressen sollte nicht so kritisch sein weil es ja eine verteilte Aufgabe ist. Das Problem ist nur, dass es noch nicht passiert, das ist halt eine Baustelle und noch nicht dran gewesen 8-) Ich denke das sollte das nächste sein.

Ich vermute aber mal dass das Netz nicht instabil wird weil die alten IPv4 Peers genau das filtern eben noch gut können: was sie nicht erreichen können kicken sie raus. Da sind eben auch die neuen IPv6 Peers dabei. Die werden zur Zeit hin und wieder das Glück haben einen anderen IPv6-fähigen zu treffen und dann geben sie sich gegenseitig Senior-Status. Dann treffen sie aber immer wieder auch auf einen IPv4 der sie rauskickt. Das Rauskicken ist aber keine Propagierung: die Peers geben nicht bekannt dass da einer ist der nicht erreicht werden kann, sie geben halt statt dessen einfach nicht mehr deren Seed weiter.

Jetzt ein bisschen Geduld, an diesem WE kann ich nicht..

Statistik: Verfasst von Orbiter — Do Okt 02, 2014 1:08 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-02 19:03:50

Hallo,

das mit der ::2 ist meiner Meinung nach nicht so arg kritisch, deswegen werden von meinem Tool nur ein paar Peers weggefiltert, der Interface-Identifier ist da häufiger ein Problem.
Wenn ich mir was wünschen dürfte dann das die Probleme mit der LastSeen-Zeit gelöst würden, das ist mit Abstand die häufigste Fehlermeldung von meinem Tool. Die verursacht auch die meisten Probleme beim updaten meiner Peer-Datenbank weil dann alte Einträge mit fehlerhafter LastSeen-Zeit als neuer wirken und umgekehrt.

Eine Instabilität des YaCy-Netzes kann ich jedenfalls nicht sehen, ich denke das einfach genügend Peers eine aktuelle Software-Version benötigen damit IPv6 wirklich wirksam wird und die IPv6-only-Peers auch einen vollen Senior-Beitrag leisten können.

Nachdem ich mein Tool nun so umgebaut habe das es immer alle IP-Adressen eines Peers (nacheinander) abfragt, ist mir aufgefallen das an der blauen Schachtel eine IPv6-Adrsse immer mit \“Permision denied\” abgelehnt wird wogegen die andere IPv6-Adresse gut funktioniert. Die abgelehnte IP-Adresse sieht so aus als würde sie den Privacy-Extensions entstammen und endet auf ::2BC0, die andere IP-Adresse hat eine MAC-Adresse (des Herstellers Pegatron Corporation) als Host-Teil (untere 64Bit) und endet auf ::7A82. Allem Anschein nach hat der Heim-Router ein Problem damit alle IP-Adressen eines Hosts einer Firewall-Regel für diesen Host zuzuordnen, falls das ein generelles Problem solcher Heim-Router ist könnte das für YaCy zusätzliche Schwierigkeiten bedeuten.

Gerade zu den IP-Adressen die den Privacy-Extensions entstammen muss noch einiges überlegt werden, es könnte sein das ein Host regelmäßig eine neue IP-Adresse auswürfelt während die alten IP-Adressen solange gültig bleiben wie sie benutzt werden und wenn im großen YaCy-Netzwerk die alten IP-Adressen nicht aus den Seed-Listen verschwinden und die immer weiter benutzt werden könnte es sein das ein Host nach längerer Laufzeit sehr viele IP-Adressen hat (und die YaCy-Seed-Listen entsprechend groß werden). Ich denke hier ist eine Art vorsätzlicher Obsoleszenz erforderlich wo bei genügend neuen IP-Adressen die alten langsam aber sicher gelöscht werden, selbst wenn sie noch funktionieren würden, damit der betreffende Host die auch irgendwann endgültig abschalten kann. Auch hierfür wäre es praktisch wenn die LastSeen-Zeitstempel immer verlässlich wären. Ich werde auf jeden Fall mal nachdenken wie dieses Problem zu lösen ist.

Grüße
Erik

edit:
Der Fehler \“Permision denied\” beim Zugriff per IPv6 ist mir noch bei mehreren anderen Peers aufgefallen während IPv4 problemlos klappt, offensichtlich sind wohl auch andere Heim-Router so eingestellt das per IPv6 ankommende TCP-Verbindungen grundsätzlich geblockt werden (die alten Port-Weiterleitungsregeln gelten ja nur für IPv4). UPnP u.ä. werden vermutlich doch nicht ganz so obsolet wie ich dachte.

Statistik: Verfasst von Erik_S — Do Okt 02, 2014 6:03 pm


Off-Topic • Re: Yacystats offline

Date: 2014-10-02 23:33:24

Hallo,

wie nebenan{.postlink} zu lesen ist bin ich gerade dabei ein Analyse-Tool für das YaCy-Netzwerk zu bauen das auch einige Statistiken generieren soll. Momentan bin ich der Meinung das ich den eh vorhandenen HTTP-Server in meinem Tool verwenden werde diese Statistiken auszugeben, ich will mich bei den Graphiken auf SVGs die live in den XHTML-Code integriert werden beschränken. Ich hätte aber auch nichts dagegen wenn diese Daten als purer Datensatz abfragbar sind und ein externer Web-Server die Erzeugung von Graphiken usw. übernimmt und daraus eine ansprechendere Web-Site baut als ich das kann.
Mein Tool wird sich aber primär auf Informationen die das YaCy-Netzwerk ansich betreffen konzentrieren, es geht mir darum mit welcher IP-Version die Peers ansprechbar sind, wie häufig sich die IP-Adressen ändern, welche YaCy-Software-Versionen mit welcher Häufigkeit vorhanden sind, wie oft die YaCy-Software bei den Peers geupdatet wird, wie lange die Peers online erreichbar sind, welche UpTimes die Peers erreichen, wie viel die Peers über die Existenz/Erreichbarkeit der anderen Peers wissen usw. usf. Ich möchte also möglichst detaillierte Informationen über das YaCy-Peer-to-Peer-Netzwerk und dessen Zustand sammeln und auswerten. Für Informationen wie die Größe des Index oder die Anzahl an URLs pro Peer interessiere ich mich eher nicht so. Deswegen hätte ich nichts dagegen die gesammelten Informationen zusammen zu bringen.

Was soll den Eurer Meinung nach alles an Informationen auf einem \“YaCyStats\” verfügbar sein?

Bezüglich GeoLocation und einer Weltkarte mit den Standorten der aktiven YaCy-Peers ist mir aufgefallen das es SVG-basierte Weltkarten gibt und wenn man es schafft für jedes Land eine andere/passende Hintergrundfarbe zu vergeben hätte man schon mal einen ersten Überblick. Mit ein wenig Java-Script könnte man die Anzeigegröße der SVG-Graphik im XHTML-Code ändern um so einen einfachen Zoomen zu ermöglichen ohne das der HTTP-Server damit etwas zu tun hätte. Auch sollte es möglich sein den SVG-Elementen die jeweils ein Land darstellen (die sind dann ja Teil des HTML-DOM) einen MouseOver-Effekt zu verpassen der zusätzliche Infos (absolute Zahlen usw.) anzeigt. Ebenso sollte es machbar sein in eine SVG-Weltkarte für jeden Peer ein kleines Kreuzchen an die richtige Stelle (per Längengrad/Breitengrad) einzubauen (als zusätzlichen Layer der hinten an den SVG-Code angefügt wird).

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Okt 02, 2014 10:33 pm


Wunschliste • Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-03 02:01:29

In den meisten Fällen ist in dem Bild, das dort zu sehen ist, nach kurzer Zeit ohnehin nichts mehr zu erkennen. Und gerade bei mehreren gleichzeitig laufenden Crawls mit vielen Verbindungen zwischen Hosts braucht die Erstellung des Graphen sicher auch nicht unerheblich Rechenzeit.

Ich beobachte gern meinen Crawler, das Bild brauche ich dazu aber nicht. Ich würde es gern abschalten können. Vielleicht über eine Checkbox direkt auf der Seite, ähnlich wie man bei der RAM-Überwachung die Aktualisierung der Grafik zu- und abschalten kann?

EDIT: Und noch ein Wunsch dazu: Aktuell werden Bild und aktuell gecrawlte Seiten nur dann angezeigt, wenn lokale Crawls laufen. Laufen aktuell nur Remote Crawls, wird beides nicht angezeigt. Das Bild brauche ich, wie gesagt, nicht, aber ich würde mir wünschen, dass die aktuell gecrawlten Seiten auch dann angezeigt werden, wenn nur Remote Crawls laufen.

Statistik: Verfasst von zottel — Fr Okt 03, 2014 1:01 am


Fragen und Antworten • Yacy auf einen anderen Server umziehen

Date: 2014-10-03 03:27:22

Ich werde demnächst meinen Server auf einen anderen VPS umziehen. Der wird den gleichen Hostnamen bekommen, aber eine andere IP haben.

Kann ich meinen Yacy-Peer dorthin problemlos umziehen? Wenn ja, wie mache ich das am besten? Ich werde den neuen VPS bekommen und grundsätzlich einrichten, dann alle Dienste, die sonst noch so darauf laufen, auf dem alten Server stoppen, auf den neuen rüberkopieren und den DNS-Eintrag ändern.

Kann ich so ähnlich auch mit Yacy vorgehen?

Statistik: Verfasst von zottel — Fr Okt 03, 2014 2:27 am


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-03 06:55:20

Hallo,

zottel hat geschrieben:\ Ich beobachte gern meinen Crawler, das Bild brauche ich dazu aber nicht. Ich würde es gern abschalten können.\

Willkommen im Club der Visualisierungs-Abstinenzler ;) !

Falls du noch nicht gesehen hast - ich habe vor einem Monat dazu den Thread Deaktivierung der Grafikerstellung ermöglichen{.postlink} und zwei Berichte:

im Mantis erstellt. Wie in Kommentaren zu lesen ist, existieren offensichtlich grundsätzlich unterschiedliche Ansichten auf die Notwendigkeit einer permanenten Visualisierung bzw. über die Beeinträchtigung der CPU-Performance durch die Visualisierung, bleibt für interessierte/betroffene YaCy-Anwender wohl nichts anderes übrig, als das Heft des Handelns selbst in die Hand zu nehmen und die gewünschten Features kostenpflichtig in Auftrag zu geben. Was für Kosten dabei fällig sind, das würden dann die Entwickler in entsprechenden Preisangeboten bekanntgeben.

@ zottel:
Würde mich auf eine Rückmeldung freuen, ob eine kostenpflichtige Bestellung für dich grundsätzlich infrage käme. Man kann ja ggf. eine Sammelbestellung machen. Die realisierte Lösung - hier „Abschalten der Visualisierung in der Crawler-Überwachung\” steht nach der Bereitstellung entsprechend der GPL-Lizenz der Allgemeinheit zur Verfügung. Also ist meine Idee, dass die Interessente im Vorfeld vereinbaren können
, dass die Kosten anteilig getragen werden.

zottel hat geschrieben:\ ich würde mir wünschen, dass die aktuell gecrawlten Seiten auch dann angezeigt werden, wenn nur Remote Crawls laufen.\

So ein Feature vermisse ich übrigens auch.

Statistik: Verfasst von flegno — Fr Okt 03, 2014 5:55 am


Fragen und Antworten • Re: Yacy auf einen anderen Server umziehen

Date: 2014-10-03 12:55:59

Hallo zottel,

ja das geht so.
Auf der alten Maschine stoppen. Dann entweder YaCy komplett auf die neue Maschinekopieren oder dort neu installiern und das \‘DATA\‘-Verzeichniss an die entsprechende Stelle kopieren. \‘DATA\’ enthält die Index-Daten als auch die Enstellungen. Dann halt auf der neuen Maschine wieder starten.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Okt 03, 2014 11:55 am


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-10-03 13:42:26

Und los geht\’s:

Diese Variante verwendet stur die aktuellen Debian-Pakete. Es gäbe auch die Möglichkeit, das Dockerfile im Source unterzubringen, den Source während des Build in den Container zu spiegeln und darin dann zu compilieren. Dies ist aber kniffliger und schwerer, da dann im Container auch noch ein jdk rumfliegt.

Ihr benötigt: Eine Maschine mit Docker - ich habe das mit Jessie/Docker 1.2.0 gemacht, sollte aber auch zumindest bis 0.9 runter funktionieren.

Packt Euch die beiden Files Dockerfile und start.sh in eine leere Directory und baut den Container in dieser Directory mit

Code:
sudo docker build ---no-cache --rm -t meinname/yacy .



Den Container startet man dann ein mit:

Code:
sudo docker run -d -t -i -p 8090:8090 -p 8443:8443 --name yacy meinname/yacy



und das Ding rennt los. Ist nur ne Skizze. Man sollte sich zumindest bei einem Fat-Server dann auch noch mit Persistenz befassen und zumindest die Konfigurations- und Datendirektory als Volume rausgeben oder direkt beim run ins System spiegeln.

Hm, Dateianhang geht nicht, egal, Ihr wollt es so: Dockerfile:

Code:
# yacyFROM debian:jessieMAINTAINER Some User <someuser@example.com>ENV DEBIAN_FRONTEND noninteractive# Some standard stuffRUN echo "deb http://http.debian.net/debian/ testing main non-free contrib" >/etc/apt/sources.listRUN echo "deb http://security.debian.org/  testing/updates  main contrib" >>/etc/apt/sources.listRUN apt-get update && \    apt-get -qy upgrade && \    apt-get install -y wget && \    wget http://debian.yacy.net/yacy_orbiter_key.asc -O - | apt-key add - && \    echo "deb http://debian.yacy.net ./" >>/etc/apt/sources.list && \    apt-get update && \    apt-get install -y yacyEXPOSE 8090 8443COPY start.sh /start.shRUN chmod 755 /start.shCMD ["/start.sh"]



und das start.sh:

Code:
#!/bin/bashYACY_HOME="/usr/share/yacy"DATA_HOME="/var/lib/yacy"PID_FILE="/var/run/yacy.pid"USER=yacyJAVA_ARGS="-server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.directoryFactory=solr.MMapDirectoryFactory"JAVA=$(which java 2> /dev/null)if [ ! -x "$JAVA" ]; then        echo "The 'java' command is not executable."        echo "Either you have not installed java or it is not in your PATH"        if [ $1 == "stop" -a $2 == "--force" ]; then exit 0; else exit 1; fificd $YACY_HOME#get javastart argsif [ -s DATA/SETTINGS/yacy.conf ]then        # startup memory        for i in Xmx Xms; do                j=$(grep javastart_$i DATA/SETTINGS/yacy.conf | sed 's/^[^=]*=//');                if [ -n $j ]; then JAVA_ARGS="-$j $JAVA_ARGS"; fi;        done        # Priority        j=$(grep javastart_priority DATA/SETTINGS/yacy.conf | sed 's/^[^=]*=//');        if [ ! -z "$j" ];then                if [ -n $j ]; then NICE_VAL=$j; fi;        fielse        JAVA_ARGS="-Xmx120m -Xms120m $JAVA_ARGS"fi# generating the proper classpathCP=/usr/share/java/yacy.jar:$YACY_HOME/htrootfor name in /usr/share/java/yacy/*.jar; do          CP=$CP:$name        doneCP="$CP:/usr/share/java/javatar.jar"CP="$CP:/usr/share/java/commons-httpclient.jar"CP="$CP:/usr/share/java/commons-fileupload.jar"CP="$CP:/usr/share/java/commons-logging.jar"CP="$CP:/usr/share/java/commons-codec.jar"CP="$CP:/usr/share/java/commons-discovery.jar"CP="$CP:/usr/share/java/commons-io.jar"CP="$CP:/usr/share/java/pdfbox.jar"CP="$CP:/usr/share/java/bcprov.jar"CP="$CP:/usr/share/java/bcmail.jar"CP="$CP:/usr/share/java/jakarta-poi.jar"CP="$CP:/usr/share/java/jakarta-poi-scratchpad.jar"CP="$CP:/usr/share/java/oro.jar"CP="$CP:/usr/share/java/xerces.jar"CP="$CP:/usr/share/java/jsch.jar"CP="$CP:/usr/share/java/ant.jar"    # bzip-stuffCP="$CP:/usr/share/java/jmimemagic.jar"CP="$CP:/usr/share/java/log4j-1.2.jar"CP="$CP:/usr/share/java/odfutils.jar"CP="$CP:/usr/share/java/jrpm.jar"CP="$CP:/usr/share/java/tmextractors.jar"CP="$CP:/usr/share/java/servlet-api.jar"CP="$CP:/usr/share/java/j7zip.jar"CLASSPATH=$CPARGS="$JAVA_ARGS -classpath $CLASSPATH net.yacy.yacy"# and start it.java $ARGS



Die Kenner werden es sehen: start.sh ist ein Extrakt des Init-files

Statistik: Verfasst von click42 — Fr Okt 03, 2014 12:42 pm


Mitmachen • Re: YaCy in virtueller Maschine

Date: 2014-10-03 14:01:54

Noch was für die Maintainer: Man kann natürlich auch erst die notwendigen Jars zusammenbauen und diese - wie beim Debian-Paket per COPY/ADD an die richtige Stelle im Docker-Container legen, nur noch die abhängigen Pakete (wie jre) per apt-get im Container zu installieren und obiges start.sh einzuspiegeln. Das werde ich mir mal im nächsten Schritt ansehen. Wäre schon nicht schlecht, wenn das Dockerfile am Ende im Source landen würde und eventuell die \“geraden\” Versionen im docker hub landen würden.

Statistik: Verfasst von click42 — Fr Okt 03, 2014 1:01 pm


Fragen und Antworten • rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-03 14:24:18

Hallo

Gibt es eine Möglichkeit dem Crawlerauftrag, die Option mit auf den Weg zugeben, das er bei gefunden Url´s mit SID (z.B. so eine http://www.krebsforum-fuer-angehoerige.de/forum/index.php?sid=d9fb9e1a0812d89be921cf1fe043b8e8) den Teil mit der SID (?sid=d9fb9e1a0812d89be921cf1fe043b8e8) ignorieren soll?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Fr Okt 03, 2014 1:24 pm


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-03 15:16:06

Hallo,

laut Orbiter wird die Graphik auf \‘/Crawler_p.html\’ per Java-Script erzeugt und angezeigt, also warum nicht einfach für diese Seite Java-Script abschalten? Bei mir ist damit die CPU-Last komplett weg und es wird keine Graphik mehr neu gerendert.

flegno hat geschrieben:\ Wie in Kommentaren zu lesen ist, existieren offensichtlich grundsätzlich unterschiedliche Ansichten \...\

Du hast die CPU-Last als Ursache für Bugs in der Webgraph-Library angenommen:

flegno hat geschrieben:\ Die CPU-Last ist zwar die Ursache, aber diese Ursache ist deswegen ernst zu nehmen, da diese [immer wieder zu den YaCy-Abstürzen]{style="color: #FF0000"} führt.\

aber da die Webgraph-Library für die Crawler-Überwachung gar nicht verwendet wird fällt es mir noch immer schwer da einen Zusammenhang zu sehen.

Letzten Endes gibt es meiner Meinung nach nur zwei echte Gründe für das Abschalten der Graphik auf \‘/Crawler_p.html\’ : die ist Graphik uninteressant oder die CPU-Last (auf dem PC wo der Browser läuft) ist zu hoch.
Beides sind absolut nachvollziehbare Gründe und an diesen ist definitiv nichts auszusetzen. In der Hinsicht ist es natürlich bedauerlich das dieser Wunsch bei Orbiter so weit hinten auf der Dringlichkeitsliste steht, aber da sich das Problem auch einfach auf der Browser-Seite lösen lässt und es meiner Meinung nach deutlich wichtigere Probleme in YaCy gibt kann ich das gut nachvollziehen. Durch Abschalten von Java-Script im Browser lassen sich so weit ich sehen konnte alle automatischen Graphiken und auch der News-Ticker auf \‘/Status.html\’ abschalten.

Bitte versteht mich nicht falsch, der Wunsch nach Abschaltbarkeit der Graphiken ist absolut verständlich, nur sollten dafür keine irrelevanten Gründe (wie Bugs im Code) aufgeführt werden.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 03, 2014 2:16 pm


Fragen und Antworten • Re: Yacy auf einen anderen Server umziehen

Date: 2014-10-03 15:18:01

falls eine statische IP eingestellt wurde sollte die der neuen Maschine angepasst werden

Statistik: Verfasst von Erik_S — Fr Okt 03, 2014 2:18 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-03 15:39:05

Hallo,

ich bilde mir ein schon mal gelesen zu haben das YaCy alle URLs die einen Query-String{.postlink} enthalten vom Indexieren komplett ausgenommen werden. Somit stellt sich mir die Frage wie z.B. Foren, aber auch andere Seiten die per Query-String z.B. einen Artikel selektieren, überhaupt indexiert werden können.

\@ramfresser:
Was ist den das konkrete Problem?
Lass den Crawler doch ruhig allen Links so folgen wie ein Browser das auch machen würde, nachteilig wäre dann nur das die Session-ID Bestandteil der Index-Datenbank von YaCy wird aber ich denke um dieses Problem anzugehen sollte YaCy die Query-Strings mit einer passenden Heuristik o.ä. verarbeiten anstatt immer zu ignorieren oder zu verwerfen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 03, 2014 2:39 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-03 16:09:12

Hallo

Noch mal möchte ich kurz darauf hinweisen, das meine Fragen nicht immer gleich als Problem angesehen werden sollten, denn es sind in 99% aller Fälle einfach nur Fragen zu Funktionen der yacy Software.

In meinen Forum, habe ich zu meinen großen Bedauern feststellen müssen (Dank yacy), das es noch Templates gibt, die mit dem Befehl \“sid=\” versaut sind. Die Umprogrammierung der Templates ist in Arbeit wird aber noch ein paar Tagen dauern.

Der Crawler hat durch die ständigen neuen SID´s fast 7 Tage lang das Forum von oben bis unten und von rechts nach links auf den Kopf gestellt. Das führte zu einer Datenflut von 32 GB im Diskspeicher der Suchmaschine.

Deswegen meine Frage. Nichts mehr.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Fr Okt 03, 2014 3:09 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-10-03 18:38:41

Hallo,

wenn es irgendwo im Code einen Bug gibt dann muss der auch gefixt werden, das steht völlig außer Frage, aber es ist [nicht]{style=“text-decoration: underline”} zielführend den eventuell fehlerhaften Code nur zu umgehen.
Das Abschalten von GUI-Features nur aus dem Grund weil dort eventuell fehlerhafter Code drin steckt beseitigt doch nicht das Problem, ich bin ausdrücklich gegen eine derartige Vorgehensweise.
Das Abschalten von GUI-Features weil sie zu CPU-intensiv oder einfach uninteressant sind ist etwas völlig anderes, das ist meiner Meinung nach ein berechtigter Wunsch. Wie und wo das Abschalten realisiert wird (ob in YaCy oder im Browser) ist dann eine weiterführende Frage, [nachdem]{style=“text-decoration: underline”} geklärt wurde ob dieser Wunsch erfüllt wird.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 03, 2014 5:38 pm


Hilfe für Einsteiger und Anwender • Re: Deaktivierung der Grafikerstellung ermöglichen

Date: 2014-10-04 05:19:13

flegno hat geschrieben:\ Moin,\ Diese Fehlerberichte\ 1. [\#376: OutOfMemory during indexing of ru.wikipedia.org on a large database of 60 GB](http://mantis.tokeek.de/view.php?id=376){.postlink} 2. [\#436: After power failure YaCy Wont start](http://mantis.tokeek.de/view.php?id=436){.postlink} 3. [\#457: Webgraph-Mode impede YaCy-execution](http://mantis.tokeek.de/view.php?id=457){.postlink} deuten für mich daraufhin, dass [[die Grafikerstellung (Webgraph)]{style="font-weight: bold"}]{style="color: #FF0000"} serverseitig die Ausführung verlangsamt oder einfach [[einen Abbruch der YaCy-Ausführung verursachen kann]{style="font-weight: bold"}]{style="color: #FF0000"}.\


Das Webgraph-Modul (https://wiki.apache.org/nutch/bin/nutch%20webgraph) wird vermutlich für das Ranking und nicht für die Grafikerstellung eingesetzt.

Statistik: Verfasst von flegno — Fr Okt 03, 2014 4:48 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-04 21:15:53

Hallo

Gefunden im Experten Crawler Start, kann man alle Url\’s mit einem ? auschliessen. Habe gleich mal probiert und es hat geklappt.

Wieder neue und Intressante Sichtweise auf mein Forum dank yacy. :lol:

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Sa Okt 04, 2014 8:15 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-04 22:35:57

Hallöchen Orbiter,

erst einmal danke für deine ausführliche Antwort!

Orbiter hat geschrieben:\ der Satz im Wiki stammt von mir und mir geht es hierbei darum:\ \ - eine Suchmaschine muss Inhalte haben, die müssen irgendwo her kommen\ - die erste Idee, die Inhalte zu besorgen, war der Proxy\ - die zweite Idee, die viel effizienter und praktikabler war, ist der Crawler.\ \ Für einen User, der erst mal \'nur\' suchen will, stellt sich aber die Frage erst gar nicht. Mein Ansatz wäre, dass ein User sich auch erst mal nicht darum kümmern muss, das machen erst mal andere. Du bis so ein Such-User, du musst dich nicht erst um die Beschaffung der Indexe kümmern.\



Ok, daß ist dann auch für mich soweit verständlich!

Orbiter hat geschrieben:\ Wenn du dann gestalten willst, hast du wieder die Wahl, und m.E. nach ist die bessere Wahl der Crawler, weil du hier ganz geziehlt Inhalte für alle bereitstellen kannst. Musst du aber nicht.\



Schon klar. Aber wie erwähnt dürfte das bei einem [[\“normalen\“]{style=“font-style: italic”}]{style=“font-weight: bold”} PC ziemlich eng mit dessen Leistung werden. Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist. Vor allem dann, wenn dort auch noch wie z. B. auf meinem Blog oder so viele Links zu anderen Sites sind. Bei der voreingestellten Suchtiefe von [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} war ich jedenfalls nicht besonders begeistert, noch schlimmer wurde es beim [[Blog von Thomas Stadler{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Wenn das bei jedem Crawler so lange dauert, dann ist das mal nicht besonders gut! Die meisten Leute werden anders wie Abends oder Nachts wohl ihren Rechner herunterfahren oder zumindest in den Standby, der Crawler wird bei denen also ewig beschäftigt sein. Wenn sie also wieder weiter arbeiten, dann läuft natürlich auch der Crawler weiter und bremst entsprechend das System aus! :(

Orbiter hat geschrieben:\ Um also wieder auf die Anfangsfrage zurückzukommen:\ >
> > TmoWizard hat geschrieben:Soll man stattdessen ausschließlich den > Crawler benutzen, oder was? \.... ständig einen Crawler zu benutzen > ist für die meisten Anwender undenkbar.\ > >


nein, gar nichts, ausser du willst den Index gestalten. Dann hast du die Wahl. Hier bitte ich um deine Mithilfe: wie kann die Beschreibung für Erstuser besser geschrieben werden, damit das verständlicher wird? Bitte kurz und knapp.



Ähm... das kann ich jetzt echt nicht beantworten, da ich mich mit der Materie noch nicht wirklich auskenne! Aber ich habe da gleich ein weiteres Problem wegen dem Proxy:

Ich verwende hierfür ja wie [[in meinem entsprechenden Tutorial erwähnt{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} kein Add-on, ich mach das direkt in den Einstellungen des jeweiligen Browsers. Wie im Tutorial zu sehen gibt es da eine Möglichkeit, daß man bestimmte Seiten ausläßt. Hier nun meine Frage dazu:

Ist das normal, daß die entsprechende Liste wächst und wächst? Es gibt da anscheinend sehr viele Websites, die ganz offensichtlich nicht mit einem Proxy klar kommen! :( Woran liegt das eigentlich?

Natürlich ist das mit YaCy kein anonymer Proxy, um das geht es mir auch gar nicht generell. Die meisten dieser Proxys taugen eh nichts, da die wirklich guten in China, Rußland oder den USA stehen. Ich hätte da also die Wahl zwischen der großen Firewall, staatlicher Zensur oder den NSA, das sieht mir irgendwie nicht berauschend aus.

Wie ist das nun mit dem Proxy, warum funktionieren da viele Seiten nicht wie gewünscht? Ich konnte darüber irgendwie keine Informationen finden, die mich nicht noch mehr verwirren!

Abendliche Grüße nun aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Sa Okt 04, 2014 9:35 pm


Fragen und Antworten • rasut 6 - Webseiten scrawlen nach bestimmten Schlagworten

Date: 2014-10-05 00:01:47

Hallo

Noch mal möchte ich kurz darauf hinweisen, das meine Fragen nicht immer gleich als Problem angesehen werden sollten, denn es sind in 99% aller Fälle einfach nur Fragen zu Funktionen der yacy Software.

Ich möchte eine themenspezifische Suchmashine aufbauen und frage mich nun, wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden und wenn kein Schlagworten vorhanden ist, die Seite ignorieren oder in ein paar Wochen erneut durch suchen oder so.

Aber wie bekomme ich das hin?

Hat das mit den Vokabellisten zu tun?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Sa Okt 04, 2014 11:01 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-05 10:41:33

Hallo,

ramfresser hat geschrieben:\ Gefunden im Experten Crawler Start, kann man alle Url\'s mit einem ? auschliessen.\

Aber bedeutet das nicht das gar keine Seite in einem Forum indexiert wird?
Alle Foren-Softwares die ich kenne benutzen einen Query-String in der URL um einen konkreten Beitrag zu selektieren, z.B. die URL für Deinen Beitrag in diesem Forum lautet \‘/viewtopic.php[[?]{style=“font-weight: bold”}f=5&t=5397&p=30893]{style=“text-decoration: underline”}#p30893\‘.
So wie ich das verstehe müsste der Index ziemlich leer bleiben weil außer \‘/index.php\’ nichts weiter indexiert werden dürfte wenn URLs mit einen \‘?\’ grundsätzlich ignoriert werden.

Auch viele andere Web-Seiten arbeiten intensiv mit Query-Strings, werden die alle ignoriert?
Oder verstehe ich da irgendetwas falsch?

Grüße
Erik

Statistik: Verfasst von Erik_S — So Okt 05, 2014 9:41 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-05 11:24:39

Hallo,

TmoWizard hat geschrieben:\ Wie ist das nun mit dem Proxy, warum funktionieren da viele Seiten nicht wie gewünscht?\

Einer der Gründe ist das viele Seiten nicht wollen das ihre Besucher dem Web-Server gegenüber anonym sind. Die meisten Proxys (vermutlich auch YaCy) geben sich in der ein oder anderen Form dem Web-Server gegenüber als Proxy zu erkennen und es gibt Black-Lists mit den IPs von Proxys die einige Seiten zum gezielten aussperren von Proxys verwenden. Auch die Browser-Umgebungen sind nicht perfekt so das es Tricks gibt mit denen ein Web-Server erkennen kann ob ein Proxy benutzt wird, gerade das Flash-PlugIn (das in der Lage ist am Browser vorbei Verbindungen ins Internet aufzubauen) ist für solche Tricks anfällig. Aber es gibt wohl auch Probleme mit manchen Java-Script-Features u.ä. die sich bei Verwendung eines Proxys (minimal) anders verhalten als ohne Proxy so das selbst Web-Seiten die eigentlich nichts gegen Proxys haben manchmal trotzdem nicht korrekt funktionieren.

\@Orbiter:
Die Funktionsweise des Proxys in YaCy ist meiner Meinung nach wirklich noch eher wenig dokumentiert.
Bei YaCy laufen ja alle Anfragen über den selben Port so das dort ein Entscheidungsmechanismus vorhanden sein muss der entscheidet ob ein Zugriff den YaCy-Peer selber betrifft oder per Proxy weitergeleitet werden soll.
Wie arbeitet das genau?
Gerade auch im Hinblick auf den HTTP-Fehler 403 wäre es sehr interessant das mal genau zu wissen. Mein Analyse-Tool bekommt ebenfalls hin und wieder den Fehler 403 zu sehen und das obwohl mein Analyse-Tool immer den richtigen .yacyh-Namen im Host-Header mitsendet.
Darüber hinaus wäre es gut zu wissen wie der Proxy entscheidet ob die durchgeleitete Web-Seite indexiert werden soll.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Okt 05, 2014 10:24 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-05 15:47:08

hört sich sicherlich blöd an, aber ich würde den Proxy eher entfernen als supporten. Ich habe das beim letzten Linuxtag mal angesprochen und hatte überaschend festgestellt das noch mehr Leute immer noch den Proxy benutzen. YaCy hat zwar als Proxy angefangen (ja das sollte einfach nur ein Proxy werden) aber ich habe das sehr schnell aufgegeben. Der Proxy wurde nur noch von Leuten gewartet die ihn benutzen wollten, wenn von dort nun kein Support mehr kommt könnte es sein dass ich eher wieder auf Entfernen plädiere. Weil ich mich schon länger nicht mehr mit dem Proxy beschäftigt habe und das auch nicht will kann ich dazu entsprechend keine Supportauskunft geben.

Statistik: Verfasst von Orbiter — So Okt 05, 2014 2:47 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-05 19:57:35

Hallo

Ich habe ein Extensions was aus den Standarturl\’s der wbb Forumsoftware, suchmaschinenfreundliche Url\’s (wie z.B. http://www.krebsforum-fuer-angehoerige.de/forum/board_4_Vorstellungsrunde.html) erzeugt. Dazu kommt die Tage ein Extensions mit dem Conancial Tag, der dann dafür sorgen wird, das Url\’s mit einen Fragezeichen, nicht mehr indexiert werden müssen. Ich hoffe es klappt also wie geplant.

Nur schließe bei mir im Forum die Url\’s mit Fragezeichen nicht aus, sucht sich der Crawler dumm und dämlich, wie weiter oben schon beschrieben.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — So Okt 05, 2014 6:57 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-06 00:26:57

Hallo,

ich bin bekennender \‘YaCy-als Proxy-User\’ und will dieses Feature nicht missen!
Ja es gibt hier und da ein paar Sites die nicht mit YaCy als Proxy funktionieren - ich nehme mir auch immer wieder vor mich damit mal zu beschäftigen...
Aber in meinem Altag läuft YaCy als Proxy wunderbar. Leider gibt es tatsächlich immer weniger Sites die sich aus der Proxy-Nutzung auch zum crawlen eignen, wenn man nicht sehr darauf bedacht ist auf Cookies zu verzichten etc.
Besonders gut finde ich die Möglichkeit Filter auf den Proxy anwenden zu können.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Okt 05, 2014 11:26 pm


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-06 09:22:13

Hallo Ihr zwei,

da geht wohl ein bisschen was durcheinander. :-)

Die CPU-Last auf dem Rechner, mit dem ich das betrachte, ist mir egal. Dass die Grafik per JS im Browser erzeugt wird, gilt aber nur dann, wenn gleichzeitig nur ein Host durchsucht wird. Das ist bei mir fast nie der Fall.

Sobald mehrere Hosts beteiligt sind (d.h die Grafik nicht sozusagen „windradförmig” aussieht, mit vielen gebogenen Linien, sondern gerade Linien hat, mit Hostnamen dran), wird die Grafik auf dem yacy-Server erzeugt. Wie ich unter den Links jetzt gelesen habe, soll der dafür genutzte Code wohl recht performant sein.

Gilt das auch dann noch, wenn so viele Verbindungen dargestellt werden, dass das Bild praktisch komplett schwarz ist und überhaupt nichts mehr zu erkennen ist?

Ich meine, dass man sich die Rechenzeit dafür sparen könnte, aber wenn es so wenig ist wie beschrieben, gibt es sicher wichtigere Dinge zu tun. Und nein, es ist mir nicht so wichtig, dass ich dafür zahlen würde :-)

Viele Grüße, zottel

Statistik: Verfasst von zottel — Mo Okt 06, 2014 8:22 am


Fragen und Antworten • Re: Yacy auf einen anderen Server umziehen

Date: 2014-10-06 09:25:02

Alles klar, danke.

Statistik: Verfasst von zottel — Mo Okt 06, 2014 8:25 am


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-06 10:25:49

Hallo,

zottel hat geschrieben:\ Sobald mehrere Hosts beteiligt sind (d.h die Grafik nicht sozusagen „windradförmig" aussieht, mit vielen gebogenen Linien, sondern gerade Linien hat, mit Hostnamen dran), wird die Grafik auf dem yacy-Server erzeugt. Wie ich unter den Links jetzt gelesen habe, soll der dafür genutzte Code wohl recht performant sein.\ \ Gilt das auch dann noch, wenn so viele Verbindungen dargestellt werden, dass das Bild praktisch komplett schwarz ist und überhaupt nichts mehr zu erkennen ist?\ \ Ich meine, dass man sich die Rechenzeit dafür sparen könnte, aber wenn es so wenig ist wie beschrieben, gibt es sicher wichtigere Dinge zu tun.\


Vertrauen darauf, dass die Vermutungen der Entwickler über die Performance des von ihnen gelieferten Code anstellen, ist gut, handfeste messbare vergleichbare Werte, Statistiken aus der Praxis sind aber hilfreicher. Du kannst doch eine Antwort auf deine Frage

zottel hat geschrieben:\ Gilt das auch dann noch, wenn so viele Verbindungen dargestellt werden, dass das Bild praktisch komplett schwarz ist und überhaupt nichts mehr zu erkennen ist?\

mit wenig Aufwand selbst rausfinden. Falls du mit Linux unterwegs bist, hat Linux bestimmt Tools, womit man CPU- Leistung messen kann. Ich habe unter Windows gemessene CPU-Auslastung im Wiki{.postlink} veröffentlicht. Würde mich freuen, wenn die CPU-Auslastung-Galerie fortgesetzt, vervollständigt wird :P .

Gruss, flegno

Statistik: Verfasst von flegno — Mo Okt 06, 2014 9:25 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-06 10:55:55

Hallo

seit heute Morgen ist eine erste Version meines YaCy-Peer-Analyse-Tools öffentlich verfügbar, erreichbar unter http://130.255.73.69:5353/tool_query.
Ruhig mal durchklicken und die Eingabefelder ausprobieren, es kann eigentlich nichts kaputt gehen, und schauen ob mein Tool Eure Peers kennt.
Falls von einem Peer nicht alle IP-Adressen angezeigt werden dann ruhig mal per http://130.255.73.69:5353/tool_test probieren ob der Peer auf der IP-Adresse überhaupt antwortet und schauen was er über sich selbst erzählt.
Die eigentlichen Statistiken sind leider noch nicht verfügbar, da werde ich mich im Laufe der nächsten Abende drum kümmern. Es gibt noch einige interessante Infos in den gesammelten Daten die auch hübsch präsentiert werden wollen.
Es wäre jedenfalls schön wenn sich doch mal ein paar Leute äußern könnten was denn alles angezeigt werden soll bzw. welche Informationen gewünscht sind.

Auch das Servlet \‘/forward\’ ist noch nicht eingebaut aber das kommt ebenfalls die nächsten Tage.
Darüber hinaus soll dieser HTTP-Server als Proxy für die .yacy / .yacyh Top-Level-Domains dienen, ich will dann auch einen möglichst einfachen Weg finden das in einen Browser zu integrieren aber es wird wohl auf ein AddOn hinauslaufen.

Falls der Link oben mal nicht funktioniert spiele ich wahrscheinlich gerade ein Update auf dem Server ein, also einfach ein paar Minuten später erneut probieren.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 06, 2014 9:55 am


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-06 11:06:01

Naja, aber ich kann doch da keine aussagekräftigen Werte zur Bilderzeugung herausfinden. Ob das nun viel CPU braucht oder nicht, es wird mit Sicherheit wesentlich deutlichere Auswirkungen haben, ob der Crawler gerade mit 1500 Seiten/Minute oder mit 20 Seiten/Minute unterwegs ist. Da das ständig schwankt, kann ich keinerlei belastbaren Aussagen darüber treffen, wie stark die Erzeugung der Grafik auf die CPU geht.

Das würde nur mit direkten Messungen im Debugger gehen, aka Profiling, aber ich werde ganz bestimmt nicht anfangen, mir den yacy-Quellcode in eine IDE zu laden und mit Debug-Symbolen zu kompilieren, nur um zu messen, wie viel Zeit die entsprechende Funktion braucht. ;-)

Statistik: Verfasst von zottel — Mo Okt 06, 2014 10:06 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-06 11:51:24

Hallo,

sixcooler hat geschrieben:\ ich bin bekennender \'YaCy-als Proxy-User\' und will dieses Feature nicht missen!\

Ich auch. Und ich werbe für YaCy explizit mit dem \‘YaCy-als Proxy\‘-Feature, gerade weil ich diese Erfahrung

TmoWizard hat geschrieben:\ Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist.\

gemacht habe und mir bewusst ist, dass es wesentlich weniger User gibt, die bereit sind, tagelang den PC laufen zu lassen, um ein Paar Websites in ein YaCy-Index zu bekommen, als User, die dank dem YaCy-als Proxy\‘-Feature einfach nebenbei eine Art erweiterte Lesezeichen-Sammlung ( meine Sicht auf den YaCy-Index) generieren und diese Sammlung dann dem Peer-to-Peer-Netzwerk zur Verfügung stellen. Ich wende mich an die \‘YaCy-als Proxy-User\’ sich hier zu melden, ob sie grundsätzlich bereit wären, für den \‘YaCy-als Proxy\‘-Feature-Support ein Paar Euros abzudrücken, falls hier Support-mäßig ein Handlungsbedarf besteht.

Gruss, Gustav

Statistik: Verfasst von flegno — Mo Okt 06, 2014 10:51 am


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-06 12:03:12

Hallo,

für mich klingt es nach einer \‘Agenten\‘-Funktion - mehr s. http://pro.yacy.net/de/index.html . Ich meine aber, dass die Voraussetzung für die \‘Agenten\‘-Funktion ist, dass erst ein YaCy-Index erstellt bzw. regelmäßig aktualisiert wird - auf deinem oder einem anderen Peer im YaCy-Netzwerk.

Gruss, flegno

Statistik: Verfasst von flegno — Mo Okt 06, 2014 11:03 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-06 12:46:22

Hallo,

ich persönlich möchte mich dafür aussprechen das Proxy-Feature aus YaCy zu entfernen, aus folgenden Gründen:
Dieses Feature macht den HTTP-Server in YaCy komplexer da dieser für jeden Zugriff entscheiden muss ob der Zugriff den YaCy-Peer selber betrifft oder per Proxy weitergeleitet werden soll. Ein einfaches und simples Design fördert auch immer die Sicherheit und die Fehlerarmut des Systems und ist somit ein Vorteil für die User. Das selbe trifft auch auf den Crawler ansich zu der dann nur noch Seiten analysieren muss die er selber unter kontrollierten Bedingungen geholt hat und keine \“vorbeifliegenden\” Daten mehr Crawlen muss.
Das \“nebenbei-crawlen\” geht auch anders, es gibt ein Browser-AddOn das alle aufgerufenen URLs parallel an einen (beliebigen) konfigurierten YaCy-Peer weiterreicht und damit den dortigen Crawler quasi mit einzelnen URLs füttert. Für das \“nebenbei-crawlen\” muss eh eine Modifikation am Browser vorgenommen werden, ob nun einen Proxy zu konfigurieren oder ein AddOn zu installieren ist kein großer Unterschied. Dafür kann das AddOn eventuell besser auf die Privatsphäre des Users achten, es könnte z.B. im \“Privat-Modus\” (den heutzutage alle Browser unterstützen) inaktiv bleiben.
Per HTTPS verschlüsselte Seiten sind per Proxy gar nicht crawlbar aber wenn YaCy einfach nur die URL gegeben wird kann der Crawler selber eine verschlüsselte Verbindung zum Web-Server aufbauen. In HTTP 2 soll Verschlüsselung zur Pflicht werden, Chromium wird per HTTP 2 wohl gar keine unverschlüsselten Verbindungen mehr aufbauen können und in Firefox ist das nur versteckt erreichbar. Der Nutzwert eines Proxy-Crawlers könnte also demnächst gen Null sinken.

Das einzigste Feature das wirklich aus YaCy verschwinden würde wäre der einfache Zugriff auf die beiden Top-Level-Domains .yacy und .yacyh aber dafür habe ich eine Lösung die sich kurz vor den Startlöchern befindet.

TmoWizard hat geschrieben:\ Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist.\

Oder auch mal Tage, für wireshark.org hat mein Peer mehrere Tage gebraucht und das trotz dickem PC und schneller Internetanbindung. Wobei ich da eher der Meinung bin das die Limitierung auf 2 Zugriffe pro Sekunde das Problem darstellt aber hier gilt es natürlich abzuwägen wie viel Leistung der eigene PC als Crawler erübrigen kann und ob die gecrawlte Web-Seite durch zu intensives crawlen eventuell geDOSt wird. Ich würde mir hier lieber eine Limitierung in Bytes pro Sekunde wünschen damit meine Internetanbindung nicht überlastet wird selbst wenn der PC auf dem YaCy läuft über ausreichend CPU-Power verfügt. Da es keinen Weg gibt einer TCP-Verbindung eine Priorität mitzugeben, die z.B. der Heim-Router beachten könnte damit andere PCs im heimischen Netz nicht ausgebremst werden, ist ein festes Bandbreiten-Limit die einzigst machbare Lösung.

Gerade wegen dem langsamen Crawlen durch nur einen Crawler gibt es ja das Feature die Crawl-Last auf mehrere Peers zu verteilen aber kaum einer hat in seinem Peer das Akzeptieren von Remote-Crawls aktiviert also bleibt dieser Vorteil einer [verteilten]{style=“text-decoration: underline”} Suchmaschine leider ziemlich ungenutzt. Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen). Das Risiko früh um 6 Uhr eine unangemeldete Hausdurchsuchung mit Beschlagnahmung aller Computer (seine Computer sieht man mit hoher Wahrscheinlichkeit nie oder erst nach vielen Jahren wieder selbst wenn man nachweislich unschuldig ist) usw. zu bekommen will ganz sicher niemand freiwillig eingehen. Da solche Dinge in Deutschland leider schon öfters vorgekommen sind ist das kein rein fiktives Risiko sondern eine ernstzunehmende Gefahr. Hier leidet also eine technische Lösung unter einem politischen Problem.

flegno hat geschrieben:\ einfach nebenbei eine Art erweiterte Lesezeichen-Sammlung (meine Sicht auf den YaCy-Index) generieren\

Ich sehe das genauso, gerade das \“nebenbei-crawlen\” zeigt doch der Suchmaschine meines Vertrauens wofür ich mich wirklich interessiere und baut somit einen (für mich) maximal nützlichen Index auf.

Ich bin dafür dass das Proxy-Feature aus YaCy verschwindet, damit wären auch die HTTP-403-Fehler vorbei, und dafür die Möglichkeiten zum \“nebenbei-crawlen\” per Browser-AddOn zu verbessern. Für letzteres würde ich eventuell Geld ausgeben.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 06, 2014 11:46 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-06 14:21:36

Hallöchen zusammen!

[[[Also ich bin eindeutig dafür, daß der Proxy bleibt!]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Nicht nur aus Gründen der Geschwindigkeit, es betrifft auch den Suchindex. Ich habe z. B. natürlich einen Crawler auf meinen Blog angesetzt, was schon sehr lange gedauert hat dank vieler Links.

Nun habe ich aber seit dieser Zeit weitere Artikel geschrieben und diese sind natürlich nicht im Index vorhanden, ich müßte also wieder einen Crawler losschicken! :shock: Da ist es wesentlich einfacher mit dem Proxy:

Ich suche mit YaCy nach dem Blog, gehe auf das nächstbeste Ergebnis und von dort eben auf den neuen Artikel und schon wird er indexiert. Das hat auch den Vorteil, daß dabei wesentlich weniger Rechenleistung notwendig ist. Mein Rechner ist nun mal nichts besonderes und es laufen ja auch noch andere Prozesse dort, der Crawler kann für mich also nur eine Notlösung sein.

Ich muß hier nun ehrlich sagen, daß wenn der Proxy aus YaCy verschwindet, dann verschwindet YaCy auch von meinem Rechner. Es kann nicht angehen, daß man ein gut funktionierendes System aus purem Eigennutzen, Faulheit oder was für einem Grund auch immer nicht mehr weiter entwickelt. Dadurch wird der Hauptsinn von YaCy zerstört, so daß man es eigentlich nicht mehr weiter empfehlen und das Projekt gleich in den Müll werfen kann!

YaCy ist im derzeitigen Zustand auch für den normalen Anwender geeignet, der sich warum auch immer nicht weiter mit der Materie befassen will oder kann. Die Lösung mit dem Proxy ist eben am einfachsten zu realisieren, da es dafür auch genügend Tutorials im Netz gibt. Die anderen Einstellungen sind einfach zu unübersichtlich und zum Teil kompliziert, so daß ein normaler Anwender damit nichts anfangen kann. Nicht jeder ist so gut mit dem PC vertraut wie ich, aber selbst ich habe bei YaCy meine Schwierigkeiten!

Statistik: Verfasst von TmoWizard — Mo Okt 06, 2014 1:21 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-06 16:21:34

Hallo,

TmoWizard hat geschrieben:\ Also ich bin eindeutig dafür, daß der Proxy bleibt!\

Und wenn der Proxy aufgrund der technischen Weiterentwicklung im Internet, HTTP 2 wird in den nächsten Jahren ganz sicher stark kommen und Verschlüsselung ist allgemein am Zunehmen, keinen Nutzwert mehr bringt?
Gibt es an der Alternative mit dem AddOn irgendein Problem?
Den Crawler \“nebenbei\” mit einzelnen URLs zu füttern anstatt regelmäßig ganze Web-Server durchsuchen zu lassen ist unbestreitbar eine gute Lösung und soll auch gar nicht aus YaCy verschwinden, die Frage ist doch nur mit welcher konkreten technischen Umsetzung dieses \“nebenbei-crawlen\” gelöst wird. Aus rein technischen Gesichtspunkten (Verschlüsselung und möglichst einfache Architektur des Programm-Codes und keine 403-Fehler mehr) bin ich für die Variante mit dem Browser-AddOn und gegen den Proxy in YaCy. Wenn jemand Argumente in die andere Richtung hat würde ich die gerne hier lesen.

TmoWizard hat geschrieben:\ Ich suche mit YaCy nach dem Blog, gehe auf das nächstbeste Ergebnis und von dort eben auf den neuen Artikel und schon wird er indexiert.\

Das will Dir doch keiner wegnehmen, es wird nur die Methode mit der das bewerkstelligt wird der technischen Weiterentwicklung angepasst. Die neue Methode ist doch schon längst vorhanden und da kann ich den Programmierer gut verstehen wenn er überlegt die alte Methode zu entfernen, zwei unterschiedliche Methoden für das selbe Ergebnis zu warten/pflegen ist nicht schön.

TmoWizard hat geschrieben:\ ein gut funktionierendes System aus purem Eigennutzen, Faulheit oder was für einem Grund auch immer\

Also das war unangebracht. Mag sein das einfacher Code auch der Faulheit des Programmierers dient aber primär dient einfacher Code dem Funktionieren des Programms. Desto weniger Komplex ein System ist desto leichter lässt es sich beherrschen und davon haben doch auch gerade die Anwender etwas.

TmoWizard hat geschrieben:\ Die anderen Einstellungen sind einfach zu unübersichtlich und zum Teil kompliziert\

Gibt es da ein konkretes Problem an dem die Programmierer eventuell nachbessern sollten?
Wenn es wirklich nur an Tutorials und Anschauungsvideos fehlt dann lässt sich das sicher beheben.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 06, 2014 3:21 pm


English • transition Robinson to P2P & adding a new server safely

Date: 2014-10-06 19:31:04

HI, We currently have 2 servers - one in each of 2 ubuntu clouds.
They write only to themselves and they are separate.
However, they can read each other to give combined results in a single window, via one of the engines.

We want to safely migrate them to a shared storage environment, optimizing storage use across the 2 servers.
Network Configuration:
yacy.network.allip.unit

In /ConfigNetwork_p.html
They are both set as Robinson Mode
Public Peer

/IndexFederated_p.html

Lazy Value Initialization
Use deep-embedded local Solr
Use remote Solr server(s) (format
Solr Hosts
Solr Host Administration Interface
Index Size
http://xxx.xxx.x.xx:8090/solr/admin/194358
Solr URL(s)
NOT write-enabled (if unchecked, the remote server(s) will only be used as search peers)


It is potentially possible that there are some duplicate documents in both clouds.

We have over 44 million web edges now - and the servers are reporting together.

Question 1
How do we safely transition to Peer-to-Peer mode as a separate search cluster with connection only to our own servers?
Key is not to lose our large databases across 2 servers.
Question 2
Will this find and eliminate any duplicates?
Question 3
Will moving to this p2p mode result in smaller storage or larger storage needs?
Question 4
Will this load balance the storage of data across the two servers?
Question 5
We are running out of storage space.
When we will soon add another server (a 3rd) what is the safe procedure for this, please?
Is there any leveling effect or data shifting when the new server is added, or will the 3rd server remain largely empty int he beginning?
Our ultimate goal is to evenly distribute search results across all servers.
Many thanks.

Notes:
Remote Crawler Configuration /RemoteCrawl_p.html
\“Your peer cannot accept remote crawls because you need senior or principal peer status for that!\”
How do we fix that?
We want all our peers to be basically \‘local\’ to each other\’...no \‘out of center\’ \‘far away\’ circles with different DBs
Thank you

Statistik: Verfasst von xioc752 — Mo Okt 06, 2014 6:31 pm


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 00:30:49

Hallo

Agentenfunktion? Ich möchte zu einen speziellen Thema eine Suchmaschine etablieren und nicht spionieren.

Also ist es nun aus reiner softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten Schlagworten durch sucht oder nicht?

Wenn ja wie?

Statistik: Verfasst von ramfresser — Mo Okt 06, 2014 11:30 pm


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 06:26:16

ramfresser hat geschrieben:\ Ich möchte zu einen speziellen Thema eine Suchmaschine etablieren und nicht spionieren.\

Also im Suchmaschinen-Geschärft hat die Bezeichnung \“Agent\” keine negative Bedeutung, sondern nach meinem Verstandnis wird der \“Agent\“-Begriff dann verwendet, wenn die Software, der \“Agent\” im Lausch-Modus die Daten bzw. ein Netzwerk nach einem bestimmten Ereignis überwacht.

ramfresser hat geschrieben:\ wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden\

Das Vorkommen eines Schlagwortes im Text könnte so ein Ereignis sein. Auf einem Immobilien-Portal könnte dieses Ereignis [[\“Eine Wohnung zwischen 60 und 65 m2 gross wird in der Stadt XYZ zum Preis unter NN Euro angeboten\“]{style=“font-style: italic”}]{style=“color: #008000”} sein.

ramfresser hat geschrieben:\ Also ist es nun aus reiner softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten Schlagworten durch sucht oder nicht?\ \ Wenn ja wie?\

Obwohl ich selbst keine einzige Zeile Programmcode für das YaCy-Projekt geliefert habe, behaupte ich, dass es relativ einfach ist, auf der Eintwicklerseite die gewünschte Funktionalität zu realisieren. Es geht nach meinem Verständnis lediglich darum, die vorhandene Funktionalität \“Website oder Webs[e]{style=“color: #FF0000”}ite crawlen\” entweder aktivieren oder auch nicht, ie nachdem, ob ein bestimmtes Ereignis bspw. [\“Schlagwort vorhanden\“]{style=“color: #008000”} eingetreten ist.

Mir ist aber nicht klar, ob du hier

ramfresser hat geschrieben:\ wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden\

\“Website oder Webs[e]{style=“color: #FF0000”}ite\” meinst?

Gruss, flegno

Statistik: Verfasst von flegno — Di Okt 07, 2014 5:26 am


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 09:07:00

Guten Morgen

flegno hat geschrieben:\ >
> > ramfresser hat geschrieben:Mir ist aber nicht klar, ob du hier > > >
> > > > ramfresser hat geschrieben: wie kann ich yacy dazu bringen, > > Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein > > Schlagwort vorhanden sein, dann soll die Seite indexiert werden\ > > > >
> > \"Website oder Webs[e]{style="color: #FF0000"}ite\" meinst?\ > \ > Gruss, flegno > >



Ob nun englisch Website oder deutsch Webseite ist für mich das gleiche.

flegno hat geschrieben:\ >
> > ramfresser hat geschrieben:Also ist es nun aus reiner > softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten > Schlagworten durch sucht oder nicht?\ > \ > Wenn ja wie?\ > >


Obwohl ich selbst keine einzige Zeile Programmcode für das YaCy-Projekt geliefert habe, behaupte ich, dass es relativ einfach ist, auf der Eintwicklerseite die gewünschte Funktionalität zu realisieren. Es geht nach meinem Verständnis lediglich darum, die vorhandene Funktionalität \“Website oder Webs[e]{style=“color: #FF0000”}ite crawlen\” entweder aktivieren oder auch nicht, ie nachdem, ob ein bestimmtes Ereignis bspw. [\“Schlagwort vorhanden\“]{style=“color: #008000”} eingetreten ist.



Erkläre bitte wie ich das machen muss an einen Beispiel, damit ich die Technik dahinter auch verstehe.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Okt 07, 2014 8:07 am


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 09:16:09

Die Funktion ist schon da!
Bitte im Expert Crawl Start unter dem Abschnitt \“Document Filter\” den regulären Ausdruck für \“Filter on Content of Document\” benutzen.

Beispiel:
Wenn du nur ein Wort \“wort\” filtern willst, dann ist der Ausdruck dort \“.*wort.*\“. Wenn es zwei Wörter \“wort1\” und \“wort2\” sind, dann ist der reguläre Ausdruck \“.*wort1.*|.*wort2.*\“. Reguläre Ausdrücke kannst du zur Vorbereitung eines geeigneten Filters unter /RegexTest.html testen.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 8:16 am


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 09:23:15

Hallo,

ramfresser hat geschrieben:\ Ob nun englisch Website oder deutsch Webseite ist für mich das gleiche.\


Beim Eigengebrauch ist es kein Problem, welche Bezeichner/Begriffe man verwendet. Bei deiner Frage in diesem Thread ist mein Vorschlag an die Definitionen von Wikipedia für [Website]{style=“font-style: italic”} und [Webseite]{style=“font-style: italic”} zu halten, sonst hat man schlechte Chancen, eine zielführende Kommunikation zu führen.

gruss, flegno

Statistik: Verfasst von flegno — Di Okt 07, 2014 8:23 am


English • Re: transition Robinson to P2P & adding a new server safely

Date: 2014-10-07 09:36:59

If

xioc752 hat geschrieben:\ migrate them to a shared storage environment, optimizing storage use across the 2 servers.\


is the only reason, then I would not recommend to connect the peers with a different network setup. Instead, just move the DATA folders both to the new shared storage space (i.e. rename to DATA1 and DATA2) and replace the DATA folder on your servers with a symbolic link to the shared storage location.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 8:36 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-10-07 09:38:47

Nach unzähligen Neuinstallationen und anderen Versuchen habe ich festgestellt, dass die Probleme dann nicht mehr auftreten, wenn weitgehend die Default-Einstellungen von YaCy verwendet werden. Dzt. wurde nur die YaCy-Sprache verändert, die RAM-Größe, sowie die Netzwerkkonfiguration auf Robinson Modus/Privater Peer eingestellt. Alle anderen Einstellungen wurden nicht verändert.

Nun läuft das Indizieren wieder. Allerdings ein Problem tritt nach einer gewissen Zeit auf. Wenn ein Crawlingvorgang beendet ist, bleibt der an und für sich beendete Prozess als \“Running Crawl\” weiterhin bestehen. Nach und nach stauen sich da eine Menge an Crawlprozesse auf, die wie gesagt bereits beendet sind. Der Speicherverbrauch nimmt damit ebenfalls zu und irgendwann hängt sich das System auf.

Als derzeitige Lösung hilft nur ein regelmäßiger Neustart von YaCy, wodurch alle \“Running Crawl\” Anzeigen verschwinden und YaCy wieder normal indiziert, bis das Problem von Neuem beginnt.

Statistik: Verfasst von hotel24 — Di Okt 07, 2014 8:38 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-07 09:54:18

Hallo,

Vom tool_query http://130.255.73.69:5353/tool_query ermittelte IP 79.227.[xx.yyy]{style=“color: #FF0000”}

Code:
this Peer is reachable by following IP-Adresses :    79.227.yy.xxx    79.227.xx.yyy

Code:
Your IP is 79.227.xx.yyy


ist bei meinem Test nicht erreichbar:

\ Fehler: Netzwerk-Zeitüberschreitung\ \ Der Server unter [xx.yyy]{style="color: #FF0000"} braucht zu lange, um eine Antwort zu senden.\ \ Die Website könnte vorübergehend nicht erreichbar sein, versuchen Sie es bitte später nochmals.\ Wenn Sie auch keine andere Website aufrufen können, überprüfen Sie bitte die Netzwerk-/Internetverbindung.\ Wenn Ihr Computer oder Netzwerk von einer Firewall oder einem Proxy geschützt wird, stellen Sie bitte sicher, dass Firefox auf das Internet zugreifen darf.\

Die IP-Adresse 79.227.yy.xxx ist erreichbar.


Gruss, Gustav

Statistik: Verfasst von flegno — Di Okt 07, 2014 8:54 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-07 11:00:52

die neue Netzwerk-Übersichtsseite zeigt den hash von allen Peers an, in der ersten Spalte

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 10:00 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-07 13:20:21

Hallo,

die angezeigten IP-Adressen sind leider relativ häufig veraltet oder zumindest mit veralteten IP-Adressen durchsetzt.
Das kommt in erster Line dadurch das es doch einige Peers gibt die in ihren Seed-Listen unpassende LastSeen-Zeiten bezüglich anderer Peers melden und so kann es vorkommen das die IP-Liste eines Peers mit längst veralteten IP-Adressen \“geupdatet\” wird. Ich gebe mir zwar Mühe offensichtlich falsche LastSeen-Zeiten auszusortieren (z.B. alle die in der Zukunft liegen und das ist gar nicht mal selten) aber das klappt natürlich nur begrenzt zuverlässig. Mein Tool löscht auch nicht erreichbare IP-Adressen nach einigen erfolglosen Versuchen aber aufgrund des Problems mit den LastSeen-Zeiten kommen auch längst veraltete IP-Adressen immer wieder in die interne Datenbank rein.
Es kommt auch vor das für Peers die eindeutig keine gültige IPv4-Adresse haben eine angezeigt wird obwohl unter dieser IPv4-Adresse gar kein YaCy-Peer ansprechbar ist, ich habe vorgestern auch gesehen das ein bestimmter Peer sich selber nur allein mit einer Garrier-Grade-NAT-IPv4 ausgewiesen hat obwohl er nur per IPv6 ansprechbar ist (und auch die Abfrage nur per IPv6 ging).
Mein Tool selber stört sich an ungültigen/veralteten IP-Adressen recht wenig, es werden für jede Peer-Abfrage immer alle bekannten IP-Adressen probiert, aber das YaCy-Peer-to-Peer-Netzwerk wird durch solche Fehler schon negativ beeinflusst da es ja offensichtlich Peers gibt die eben über veraltete IP-Adressen verfügen und bei einer eventuellen Suchanfrage an den betreffenden Peer somit leer ausgehen. Da pro Suchanfrage wohl mehrere andere Peers befragt werden ist der Effekt vermutlich nur minimal aber sicher doch messbar.

Von meinem Tool wird der Hash eines Peers wird immer rechts neben dem Namen des Peers angezeigt, aber natürlich zeigt auch jeder Peer seinen Hash selber an.

Ich hoffe das ich es noch heute Abend schaffe die Basis-Statistik (Gesamtanzahl der Peers, Anzahl erreichbarer Peers, usw.) ebenfalls in den HTTP-Server mit aufzunehmen, bis jetzt wird die nur stündlich auf der Konsole ausgegeben (und das macht auf einem headless-Root-Server keinen Sinn).

\@Orbiter:
Da es relativ schwer ist gezielt nach Peers zu suchen die per IPv6 erreichbar sind habe ich daran gedacht eine Liste aller entsprechenden Peers anzulegen und diese über eine spezielle URL abrufbar zu machen aber das widerspricht eigentlich meinem Bestreben die Anonymität der User möglichst zu wahren und eben keine Liste mit Peers auszugeben. Ich möchte mich eigentlich auf Abfragen beschränken bei denen man zumindest den Namen oder Hash eines Peers bereits kennen muss. Aber aufgrund der aktuellen IPv6-Einführung ist eine kleine Übersicht eventuell doch nützlich und vertretbar, die würde natürlich baldmöglichst wieder verschwinden und bekäme auch einen rudimentären Zugriffsschutz. Was denkst Du darüber?

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Okt 07, 2014 12:20 pm


Fragen und Antworten • Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Date: 2014-10-07 13:25:27

Hallo

Orbiter hat geschrieben:\ Die Funktion ist schon da!\ Bitte im Expert Crawl Start unter dem Abschnitt \"Document Filter\" den regulären Ausdruck für \"Filter on Content of Document\" benutzen.\ \ Beispiel:\ Wenn du nur ein Wort \"wort\" filtern willst, dann ist der Ausdruck dort \".\*wort.\*\". Wenn es zwei Wörter \"wort1\" und \"wort2\" sind, dann ist der reguläre Ausdruck \".\*wort1.\*\|.\*wort2.\*\". Reguläre Ausdrücke kannst du zur Vorbereitung eines geeigneten Filters unter /RegexTest.html testen.\



Danke das habe ich nun verstanden.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Okt 07, 2014 12:25 pm


Fragen und Antworten • rasut7 - Editieren des Crawlerauftrag

Date: 2014-10-07 13:34:15

Hallo

In der Crawlerüberwachung habe ich den Button \“Scheduler und Profil Editor\” gefunden.

Soweit so gut und ich glaube diese Seite so auch ganz gut verstanden zu haben, denn zu min. rennen meine Robots jeden Morgen um 6:00 Uhr los und fressen meine Seite durch.

Auf der Seite selber kann ich die Zeitsteuerung jedes einzelnen Crawls einstellen.

Weiter unten kann ich das Profil des Crawls bearbeiten aber nicht alles und nur wenn er noch aktiv läuft.

Ich suche nun eine Möglichkeit, den ganzen Crawlauftrag zu editieren um am vor Wochen erteilten Auftrag noch was zu ändern (z.B. Url hinzufügen oder entfernen usw).

Wie und wo genau werden diese erstellen Aufträge gespeichert und wie kann ich sie mit dem Programm nano unter Linux ändern?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Okt 07, 2014 12:34 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-07 13:45:43

Hallo,

ramfresser hat geschrieben:\ Ich habe ein Extensions was aus den Standarturl\'s der wbb Forumsoftware, suchmaschinenfreundliche Url\'s erzeugt.\

Das ist toll, wird aber nur in wenigen Foren gemacht und auch etliche andere Seiten setzen voll auf Query-Strings. Also ich persönlich sehe schon Handlungsbedarf für YaCy das URLs \‘?\’ nicht einfach nur abgelehnt oder immer zugelassen werden sondern das es eine passende Heuristik gibt die Query-Strings auf die wesentlichen Bestandteile zusammenschrumpft und z.B. bei persönlichen Dingen das Crawlen ganz unterlässt. Aber natürlich nicht gleich sofort sondern wenn Zeit vorhanden ist. Ich denke die etablierten/großen Suchmaschinen haben entsprechende Logik, ich habe dort jedenfalls noch nie auf einer Suchergebnisseite Links mit Session-IDs o.ä. gesehen aber Query-Strings die z.B. direkt einen bestimmten Forenbeitrag ansteuern.

ramfresser hat geschrieben:\ Nur schließe bei mir im Forum die Url\'s mit Fragezeichen nicht aus, sucht sich der Crawler dumm und dämlich, wie weiter oben schon beschrieben.\

Wie wäre es denn gar keine Session-IDs zu vergeben? Bei Seitenaufrufen wenn man nicht angemeldet ist (und ein Crawl-Bot dürfte nie angemeldet sein) ist eine Session-ID komplett unnötig und dient maximal dem Tracking der Bewegungen eines Users auf dem Web-Server. Vor Jahren hatte ich schon mal überlegt ob ich mir nicht ein Browser-AddOn baue das solche Session-IDs grundsätzlich aus allen Links und URLs entfernt aber für sowas reichen meine Kenntnisse in Java-Script nicht aus.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Okt 07, 2014 12:45 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-07 17:02:10

Wir haben uns schon vor vielen Jahren mit Session-IDs rumgeschlagen.
Es gibt eine interne Heuristik, aber wenn die nicht hilft kannst du ganz einfach selbst eine Regel aufgrund eines regulären Ausdrucks erfinden und die dann im Expert Crawl Start unter Crawler-Filter -> Load Filter on URLs -> must-not-match eintragen.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 4:02 pm


YaCy Coding & Architektur • Decoration Component

Date: 2014-10-07 18:14:03

Wie bereits angesprochen habe ich versucht das Thema audio{.postlink} in ein weites Themenfeld hineinzudenken, das man \‘Decoration\’ nennen könnte. Die Skins könnte man zwar auch so sehen, aber bei Skins handelt es sich immerhin auch um notwendige Anpassungen damit man YaCy einfach in andere Umgebungen hineinbringen kann, aber die \‘decorations\’ sind eher \‘völlig sinnlos\‘. Als erste decoration-Komponente gibts also nun experimentelles Audio:

\ To switch it on, set\ decoration.audio = true (using /ConfigProperties\_p.html). You will then\ hear sounds for the following events:\ - remote searches\ - incoming dht transmissions\ - new documents from the crawler\


Wenn ihr das ausprobieren wollt, müsst ihr wie im commit-Zitat angesprochen ein Flag per Hand setzen.
In diesem Kontext kann man sich ja auch noch mehr ausdenken, sogar das heiss ersehnte Abschalten der Grafiken{.postlink}.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 5:14 pm


Hilfe für Einsteiger und Anwender • Re: YaCy-Status im YaCy-Trayicon abbilden

Date: 2014-10-07 18:14:44

zum Thema Audio geht es nun hier weiter: viewtopic.php?f=8&t=5402{.postlink-local}

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 5:14 pm


YaCy Coding & Architektur • Re: Decoration Component

Date: 2014-10-07 20:13:04

Coole Idee! Bei mir auf dem Linux-Laptop mit OpenJDK habe ich aus irgendeinem Grund noch nichts gehört. Ich werde das aber mal auf meinem Arbeits-Laptop testen, der von der Software her etwas traditioneller ausgestattet ist.

Statistik: Verfasst von Low012 — Di Okt 07, 2014 7:13 pm


YaCy Coding & Architektur • Re: Decoration Component

Date: 2014-10-07 20:57:05

ah, habs nicht erwähnt: die Audio-Komponente gibt in headless-Environments grundsätzlich nichts von sich. Das ist so was wie eine Sicherheitssperre. Ich weiss nicht ob ansonsten irgendwo root server anfangen zu piepen, jedenfalls sollte das ganze auf Linux-Rechner wegen der Headless-Einstellung dort gar nicht gehen, auf Mac und Windows aber schon.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 7:57 pm


Fragen und Antworten • Re: rasut7 - Editieren des Crawlerauftrag

Date: 2014-10-07 21:00:24

Du kannst im Process Scheduler (/Table_API_p.html) den Crawl-Auftrag \“Clonen\“, indem du auf das Symbol unter dem Wort \‘crawler\’ in deinem Vorgang klickst. Dann wird der Auftrag wieder in den Crawl Start übernommen, wo du Änderungen vornehmen kannst. Wenn du den dann abschickst, kannst du ihn wieder als zu wiederholender Prozess konfigurieren, den alten musst du dann aber löschen.

Statistik: Verfasst von Orbiter — Di Okt 07, 2014 8:00 pm


Fragen und Antworten • Re: rasut7 - Editieren des Crawlerauftrag

Date: 2014-10-07 22:51:33

Hallo

Colle Sache. Danke schön.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Okt 07, 2014 9:51 pm


Fragen und Antworten • Re: rasut4 - Beim Crawlen die SID ignorieren?

Date: 2014-10-07 23:15:44

Hallo

Gibt es eine Seite wo ich diese vorhandene Heuristik mir anschauen kann oder gibt es eventuell noch andere Beispiele zum anschauen?

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Di Okt 07, 2014 10:15 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-10-08 06:12:31

Hallo,

hotel24 hat geschrieben:\ Allerdings ein Problem tritt nach einer gewissen Zeit auf. Wenn ein Crawlingvorgang beendet ist, bleibt der an und für sich beendete Prozess als \"Running Crawl\" weiterhin bestehen. Nach und nach stauen sich da eine Menge an Crawlprozesse auf, die wie gesagt bereits beendet sind. Der Speicherverbrauch nimmt damit ebenfalls zu und irgendwann hängt sich das System auf.\


Ich nehme an, dass dieses Verhalten es verdient hat, im YaCy-Bugtracker erfasst zu werden. Ich selbst komme z.Zt. nicht dazu, die Szenarien mit Crawlingvorgängen nachzustellen, würde aber gern ein Bugreport im Mantis erstellen, wenn jemand mir ein Minimum an Infos dafür liefert. Bspw. das, was hotel24 hier berichtet, aber im Idealfall mit

  1. Logfiles
  2. Angaben zur Laufzeitumgebung
    • Betriebssystem
    • Betriebssystem-Version
    • Java-Version
    • YaCy-Version.

Wofür steht die Abkürzung \“Dzt.\” ~ derzeit?

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 08, 2014 5:12 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-10-08 12:30:09

Hi,

ich möchte dieses Thema hier noch einmal aufwärmen, da auch ich Eriks Bedenken teile, was die Details anbelangt, die der YaCy-Crawler über sich selbst preisgibt. vgl. http://user-agent-string.info/list-of-u ... ot=yacybot{.postlink}

Erik\_S hat geschrieben:\ CPU-Architektur, exaktes Betriebssystem und exakte Java-Version gehen den Serverbetreiber definitiv rein gar nichts an!\

Erik\_S hat geschrieben:\ Mit einem derartigen User-Agent werde ich meinen YaCy-Installationen jedenfalls nicht erlauben im öffentlichen Internet zu crawlen.\



Ja, obige Aussage gilt auch für mich.

Und eigentlich sollten diese Angaben

Erik\_S hat geschrieben:\ yacybot (compatible; YaCy/1.80; +http://yacy.net/bot.html)\



doch ausreichen. Welche Gründe sprechen gegen diese schlanken Angaben?

Gruß
lux

Statistik: Verfasst von lux — Mi Okt 08, 2014 11:30 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-10-08 14:21:24

Hallo

Ja schlanker auf jeden Fall und nach meiner Ansicht bitte auf die Möglichkeit das der Betreiber der Suchmaschine selber bestimmen kann was dort angezeigt werden kann.

LG Patrick alias ramfresser

Statistik: Verfasst von ramfresser — Mi Okt 08, 2014 1:21 pm


English • Re: Your peer cannot be reached from outside. Yes, it can!

Date: 2014-10-08 14:26:00

The same here. It is reachable, both firewalls are off. I have two, the first is from the AVM Fritzbox 6360, I have the port in Exposed Mode and on my MacBook is the firewall off.

Statistik: Verfasst von DJHarty — Mi Okt 08, 2014 1:26 pm


English • Re: Your peer cannot be reached from outside. Yes, it can!

Date: 2014-10-08 15:51:32

IPv6 is very recently implemented for Peer-Ping and the IPv6-compliance coding is still going on. Recent changes should make it possible that you can be reached, please update to latest development releases.

Statistik: Verfasst von Orbiter — Mi Okt 08, 2014 2:51 pm


YaCy Coding & Architektur • Re: Decoration Component

Date: 2014-10-08 17:14:05

ein weiteres Flag kann nun zum heiss ersehnten Abschalten der Netzgrafik benutzt werden: decoration.grafics.linkstructure
Das in /ConfigProperties_p.html einfach auf false setzten. Bleibt aber als default an.

Statistik: Verfasst von Orbiter — Mi Okt 08, 2014 4:14 pm


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-08 17:14:54

das Feature ist nun da, als Teil des neuen \‘decorations\’ Konzeptes: viewtopic.php?p=30939#p30939{.postlink-local}

Statistik: Verfasst von Orbiter — Mi Okt 08, 2014 4:14 pm


English • Crawling, exporting data, recrawling failures, 404 errors...

Date: 2014-10-08 17:28:47

Hello everybody,

I have few questions mostly regarding crawling websites.

[1.]{style=“font-weight: bold”} Is it possible to just (pre)crawl the website? What I need is to quickly get list of all URLs (even 404s and external links etc.) with all nodes and edges. Maybe some of you might be familiar with tools like Xenu or Screaming Frog and that\’s also what I need, just a list of URLs. I will process that list to several purposes. In the meantime of course I want to index the website. For example Xenu I\’ve mentioned is quite unstable and it\’s constantly crashing.
[2.]{style=“font-weight: bold”} Is there a way to export the data from YaCy? For example to export list of URLs from selected indexed website. Or is there some file in which are stored these data on my hard drive? I\’ve read something about sql databases but I couldn\’t find it.
[3.]{style=“font-weight: bold”} Is there a way to get a list of 404s and 301 redirects from indexed website?
[4.]{style=“font-weight: bold”} How about recrawling only failed URLs?

I\’ll be glad for any tips or ideas. I\’m quite new user of YaCy and I\’m really excited about it. It has a lot of potencial in SEO.

Statistik: Verfasst von Chaoticum — Mi Okt 08, 2014 4:28 pm


English • Tutorials or ebook

Date: 2014-10-08 17:46:05

I wasn\’t able to find any really useful and well structured tutorials for YaCy. Are there any English materials like tutorials (articles or videos), ebook or documentation? YaCy wiki is kind of...well usually I end up at the German version or empty page. I guess most of you will know what I\’m talking about. :)

Statistik: Verfasst von Chaoticum — Mi Okt 08, 2014 4:46 pm


English • Re: Tutorials or ebook

Date: 2014-10-08 18:55:54

tutorials are here: https://www.youtube.com/user/YaCyTutorials/videos ..should grow in the future
Wiki is a bit outdated, this will not change until [everybody feels involved and enhances the wiki as they learn how YaCy works]{style=“font-style: italic”}. I am serious: this is a search engine \“by the people for the people\“, not a wishbox. Please enhance the wiki!

Statistik: Verfasst von Orbiter — Mi Okt 08, 2014 5:55 pm


YaCy Coding & Architektur • Re: Decoration Component

Date: 2014-10-08 19:59:19

Orbiter hat geschrieben:\ ein weiteres Flag kann nun zum heiss ersehnten Abschalten der Netzgrafik benutzt werden: decoration.grafics.linkstructure\


Danke, Orbiter :P.

Statistik: Verfasst von flegno — Mi Okt 08, 2014 6:59 pm


YaCy Coding & Architektur • Re: Decoration Component

Date: 2014-10-08 20:39:02

äh, linkgrafik natürlich; bitteschön!

Statistik: Verfasst von Orbiter — Mi Okt 08, 2014 7:39 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-08 23:50:39

Hallo,

eine einfache Basis-Statistik ist nun, leider etwas verspätet, unter http://130.255.73.69:5353/stats_main abrufbar. Die Graphik ist eine simple History die stündlich neu generiert wird. Der SVG-Code sollte von allen aktuellen Browsern korrekt angezeigt werden, falls es da doch Probleme gibt Bitte ich um Rückmeldung. Die Seite kommt ohne Java-Script oder andere aktive Techniken im Browser aus, aber später möchte ich einen Zoom (für die X-Richtung) einbauen der dann vermutlich doch auf Java-Script basiert. Auch einen Mouse-Over-Effekt der für den Zeitpunkt genau unter dem Mauszeiger die absoluten Zahlen einblendet möchte ich realisieren, aber das ist Kosmetik, momentan geht es mir um Funktionalität. Das nächste UpDate soll einen HTTP-Forwarder bringen der es ermöglicht einen Browser ohne spezielle Vorbereitung auf die aktuelle IP-Adresse eines YaCy-Peers weiterzuleiten (eventuell auch optional auf einen zufälligen erreichbaren Peer, das würde flexiblere Portal-Nutzung für YaCy ermöglichen).

Dank der Möglichkeit zu beliebigen Zeitpunkten die Datenbank meines Tools abzufragen ist mir aufgefallen das manche Peers immer wieder andere IP-Adressen von sich selber melden obwohl sie durchgehend nur unter ein und derselben IP-Adresse erreichbar sind.
\@Orbiter:
probiere mal unter [url]130.255.73.69:5353/tool_test[/url] Deine IP-Adresse, also die eine die tatsächlich funktioniert (mit ????:??FF:FE??:???? am Ende), aus (ruhig alle paar Minuten neu laden) und Du kannst sehen wie Dein Peer regelmäßig etwas anderes meldet. Solange die Peers selber nicht korrekt wissen wie sie erreichbar sind weiß auch das Peer-to-Peer-Netzwerk nichts präziseres, ich bin der Meinung das an diesem Punkt noch Handlungsbedarf besteht (und der sollte meiner persönlichen Meinung nach auch eine relativ hohe Priorität haben da von der Verteilung korrekter IP-Adressen das Funktionieren des zugrunde liegenden Peer-to-Peer-Netzwerks abhängt). Auch die Auskünfte die mein Tool gibt sind demzufolge nur von begrenzter Qualität.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 08, 2014 10:50 pm


English • Re: Tutorials or ebook

Date: 2014-10-09 10:16:55

\@Orbiter: Thanks a lot, I somehow missed this YouTube channel. I hope I\’ll be able to contribute when I\’ll find my way around YaCy and discover solutions for my questions in the previous topic. :) Really nice would be if somebody experienced could write eng Wiki sections \“The basics\” and especially \“For beginners\“. That could help a lot of people.
BTW, Orbiter, is there any change that I saw you as speaker on 2012 Campus Party in Berlin? I\’ve checked your Twitter and your photo looks familiar.

Statistik: Verfasst von Chaoticum — Do Okt 09, 2014 9:16 am


English • Re: Tutorials or ebook

Date: 2014-10-09 11:17:35

Yes I was speaker at Campus Party 2012, the video is here: http://www.youtube.com/watch?v=tnpBNtqtRew (audio is missing in the first two minutes)

If there are topics for a tutorial video you may suggest some. I don\’t know when I have time to do those videos and I already made my own list of tutorials I want to do but a user suggestion shows often that a developer is blind for the users view on the application. So if anyone has an idea about what would be [really]{style=“font-style: italic”} important to explain, please let me know. If you suggest more than one, please mark them with an importance-order.

Statistik: Verfasst von Orbiter — Do Okt 09, 2014 10:17 am


Wunschliste • Re: Abschalten der Visualisierung in der Crawler-Überwachung

Date: 2014-10-09 15:42:30

Perfekt, eben gleich gesetzt. Vielen Dank!

Statistik: Verfasst von zottel — Do Okt 09, 2014 2:42 pm


Hilfe für Einsteiger und Anwender • Storage size vs. number of documents

Date: 2014-10-10 11:50:05

Hi,
i run the server tinkerphone_srv0. It has around 3.4 million docs and 7 million DHT words. This takes up more than 66 GB. The wiki says that \“Bei 10 Mio Webseiten ist eine Indexgröße von 20GB nicht untypisch.\” http://www.yacy-websuche.de/wiki/index.php/De:FAQ#Speicherplatz. So it should take aprox not more than 20 GB on my server. Why does Yacy took 66 GB?

Statistik: Verfasst von tinkerphone — Fr Okt 10, 2014 10:50 am


Mitmachen • Preventing \“super-indexing\”

Date: 2014-10-10 11:58:39

Hi,
does Yacy has a mechanism to prevent the indexing of the same content \“too many times\“? I would call it \“super-indexing\” if for example 100 servers index wikipedia. The index would be spread anyway between the servers. Is there a mechanism implemented which can be used to avoid the indexing of widely available content?

Statistik: Verfasst von tinkerphone — Fr Okt 10, 2014 10:58 am


Hilfe für Einsteiger und Anwender • Re: Storage size vs. number of documents

Date: 2014-10-10 14:29:06

Hello tinkerphone,

I\’m sorry, but it is not possible to aproximate the amount of disk-space per count of Documents in the index.
Indexes may have Docs of more ore less Words per Documents.
Some indexes use citation reference index, some use webgraph search index.
Some Indexes have a very high count of references per dht-word, or some one uses the limitation of the reference-count.
Theses are some of the factors affecting the usage of your disk-space.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Okt 10, 2014 1:29 pm


Hilfe für Einsteiger und Anwender • Re: Storage size vs. number of documents

Date: 2014-10-10 14:44:56

Hi sixcooler,
thanks for that clarification. I could not find a good \“newbe\” setup for yacy. The defaults don´t seem to be good for a start - alt last if you don´t have a real clue about search engines (such as me).
It would be great if the wiki could have some examples for the setup which makes it more clear \“what if...\“.

I started experimenting with yacy because i like the concept of a free search engine which uses the p2p concept. I am not interested in the depths of search engine algorithms. For an ignorant like me the 3 million links for 66 GB don´t look as a success.

May I ask you about your setup? You have quite some documents on your server. How much GB do they take?

Statistik: Verfasst von tinkerphone — Fr Okt 10, 2014 1:44 pm


Fragen und Antworten • Re: Crawl starten \“From File\”

Date: 2014-10-10 17:51:49

Hi,
i just tried to use a file on my server named index.txt and index.html.
I tried content like
http://www. .….
http://www. .….
...

as well as
<a href .… >

both did not work. What is a working layout /setup for this? Do the number of links matter much?

Statistik: Verfasst von tinkerphone — Fr Okt 10, 2014 4:51 pm


Hilfe für Einsteiger und Anwender • Yacy Stats (Statistics)

Date: 2014-10-11 21:58:48

The url for the Yacy stats is now down, what\’s the new one please?

Statistik: Verfasst von Fenweruha — Sa Okt 11, 2014 8:58 pm


English • java.io.IOException error

Date: 2014-10-12 14:44:55

I\’m trying to get started with YaCy.

I have crawled and indexed several sites successfully but when trying to do so on a remote wiki that I am Webmaster of, I hit the following error:

\ Crawling of \"https://wikispooks.com/wiki/Main\_Page\" failed. Reason: scraper cannot load URL: java.io.IOException: Client can\'t execute: handshake alert: unrecognized\_name duration=110/\



I have YaCy installed on a Windows 7 machine and it seems to be running OK. The problem site is hosted on a remote Linux/Apache server running Mediawiki/SMW

Any help much appreciated

Statistik: Verfasst von wikispooks — So Okt 12, 2014 1:44 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2014-10-12 16:23:28

Fenweruha hat geschrieben:\ The url for the Yacy stats is now down, what\'s the new one please?\

I work currently on a new Version of yacystats, see http://130.255.73.69:5353/stats_main. If you have any ideas or wishes please feel free to tell it me.
Please be warned, my tool is far from finished. There are still some Issues.

Erik

Statistik: Verfasst von Erik_S — So Okt 12, 2014 3:23 pm


Fragen und Antworten • Stop-Words

Date: 2014-10-12 17:19:17

Hi,
somehow the option to activate stop-words is missing from CrawlStartExpert.html (actually I can find it anywhere). Version 1.819030 or higher.

Additional questions:
1. Is it right that the option to use stop-words is activated by default?

2. What is the correct layout for the yacy.stopwords file?

is it:

Code:
# Commentyacy.stopwords.en #special for ENyacy.stopwords.de #Special for DE#html, htm, www, src #Default, these are always used, independent of Country Code....

?

3. Is there a good Stop-Word list somewhere ready?

4. Is it possible to clean the index with a new stop-word list? Or do I in need to re-crawl?

Thanks

Statistik: Verfasst von tinkerphone — So Okt 12, 2014 4:19 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2014-10-12 17:23:30

The graphic looks nice. If you are working on the actual stats as well, I would like to see some stats about the most frequent search terms and most often indexed words.

Statistik: Verfasst von tinkerphone — So Okt 12, 2014 4:23 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2014-10-12 17:49:19

Hello,

tinkerphone hat geschrieben:\ If you are working on the actual stats as well\

Yes, i will show considerably more details for each Peer (if you know at least the Name or the Hash of the Peer try a very first Version at http://130.255.73.69:5353/tool_query). The next Step after this is a World Map with the Positions of all active YaCy-Peers, Geo-Location based on IP-Address.

tinkerphone hat geschrieben:\ I would like to see some stats about the most frequent search terms and most often indexed words.\

Okay, but i do not know there i can find this kind of informations. As far as i know this Informations are not available.
\@Orbiter:
Any Ideas/Hints for this?

The primary intention of my tool is a DNS-Server and HTTP-Forwarder/Proxy for the both YaCy-Top-Level-Domains .yacy and .yacyh , but for fulfilling this Job my Tool must track in detail all available Peers in the entire YaCy-Peer-to-Peer-Network. If the tracking works fine there are a lot of informations about the YaCy-Network and i will show this informations as Statistic.

Greetings
Erik

Statistik: Verfasst von Erik_S — So Okt 12, 2014 4:49 pm


Fragen und Antworten • Re: Crawl starten \“From File\”

Date: 2014-10-13 10:44:47

tinkerphone hat geschrieben:\ Hi,\ i just tried to use a file on my server named index.txt and index.html.\ I tried content like\ . \.....\ . \.....\ \...\ \ as well as\ \\ \ both did not work. What is a working layout /setup for this? Do the number of links matter much?\



Hi again,
a sample file (just 2 urls) would be great. I have no clue why its not working. I have tested a whatever.html with full <a href...></a>. With full html definition and without. The path to the file is correct. File permission is 666 and root is owner.
Nothing happens... :?:

Statistik: Verfasst von tinkerphone — Mo Okt 13, 2014 9:44 am


Wunschliste • Integration von MediaWiki API (wikipedia)

Date: 2014-10-13 11:01:19

Hi,
probably like most, my crawls did index quite a lot a Wikipedia pages. This is great but rather pointless at the same time.

Instead of having wikipedia in the YaCy indexes it would we great if YaCy would return a wiki snippet by default if the keyword exists in Wikipedia.
This could be achieved by using the MediaWiki API. YaCy could query the keyword at the same time on its own indexes and on wikipedia. The Wiki result (snippet or simple link), if available, could be shown in an extra box.

Without the wikipedia in the YaCy indexes there would be way more room for other urls.

Statistik: Verfasst von tinkerphone — Mo Okt 13, 2014 10:01 am


English • Re: Demo portal has got too many connections

Date: 2014-10-13 15:51:01

Hi,
i thought the \“Demo Portal\” is supposed to be a \“load balancer\” :!: :?:

Isn´t is possible to just set up the demo portal as true load balancer, so querys are not executed by the portal but on known online hosts with available connections? A \“Meta-Search\” on YaCy peers?

Statistik: Verfasst von tinkerphone — Mo Okt 13, 2014 2:51 pm


Suchmaschinen • Zukunftsfähige digitale Ökosysteme im Post-Google-Zeitalter

Date: 2014-10-14 09:04:36

Der Bundeswirtschaftsminister Sigmar Gabriel trifft sich heute, am 14.10.2014 im Rahmen der Veranstaltung „Wirtschaft für morgen” im Bundesministerium für Wirtschaft und Energie mit Google-Chef Eric Schmidt - Macht die Massenüberwachung das Internet kaputt? 09.10.2014{.postlink} . Passend dazu und unabhängig davon (m)ein Blog-Artikel Zukunftsfähige digitale Ökosysteme im Post-Google-Zeitalter, 13.10.2014{.postlink} .

Auf ein Feedback würde ich mich freuen :P.

Gruss, flegno

Statistik: Verfasst von flegno — Di Okt 14, 2014 8:04 am


Fragen und Antworten • YaCy Proxy abuse?!

Date: 2014-10-14 13:09:07

Hi,
today I took a look at the network traffic from YaCy.

Did anybody else notice \“non yacy related\” traffic? I get lots of traffic from CN - mostly login attempts to various sites. To bad i can´t read Chinese ..

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 12:09 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-14 13:37:08

Hello tinkerphone,

what are your Proxy Access Settings?
Perhaps you should use more IP-Filtering and/or an Proxy-Account
(/Settings_p.html?page=ProxyAccess)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Okt 14, 2014 12:37 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-14 14:17:01

Hi sixcooler,
i am fiddling around a bit. The current settings are:
Transparent Proxy: on
Access only with qualified account: on (admin, ______) /unchanged
Use Proxy Account: on

The rest is rather vanilla (i think...).
However, I get this traffic almost instantly when I start yacy. I would not care much if I would knew its just my host. But it hit me that the YaCy network might have found an other use by blackhats.

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 1:17 pm


Hilfe für Einsteiger und Anwender • Re: Storage size vs. number of documents

Date: 2014-10-14 14:50:06

Hello tinkerphone,

for my index of 48 million documents YaCy uses about 100GB.
But my Setup ist not representative, because I limit my index very much:

I use a Limitation of number of references per word of 10.000, wich is very low, but having a high amount of RWIs uses much RAM
(/IndexControlRWIs_p.html)

I don\’t use any Web Structure Index.
Even this is a cool feature of YaCy, this takes a lot of resources. For me the benefit does not compensate the cost, but perhaps I should give it another try.
(/IndexFederated_p.html)

I limit the token count in the solr-schema.
Doing so limits the amount of space used by the Index by cost of loosing the full information of the documents.

As you can see I gave up a lot to get my Index that compact.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Okt 14, 2014 1:50 pm


Fragen und Antworten • Re: Crawl starten \“From File\”

Date: 2014-10-14 15:06:47

Hello tinkerphone,

I use a simple html-file to crawl from file.
Each link in a single row.
I think there is a limit of links when crawling from file - I\’ve never tried more than 10.000 links.
If you have a lot of different hostnames in your links, this causes a lot of dns-requests. Some dns are limited on requests per time.

Code:
<html><head></head><body><a href="http://lists.debian.org/debian-user-catalan/2009/debian-user-catalan-200904/msg00000.html">la e-recepta</a><br><a href="http://blog.boulabiar.net/2007/07/novell-hack-week.html">/home/boulabiar/Tech: Novell Hack Week</a><br></body></html>



cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Okt 14, 2014 2:06 pm


Fragen und Antworten • Re: Crawl starten \“From File\”

Date: 2014-10-14 15:18:10

sixcooler hat geschrieben:\ Hello tinkerphone,\ \ I use a simple html-file to crawl from file.\ Each link in a single row.\ I think there is a limit of links when crawling from file - I\'ve never tried more than 10.000 links.\ If you have a lot of different hostnames in your links, this causes a lot of dns-requests. Some dns are limited on requests per time.\ \ Code: : `la e-recepta
/home/boulabiar/Tech: Novell Hack Week
` \ \ cu, sixcooler.\



Hi, thanks a lot,
I will try your content and put in a file called links.html. For now I simply made a little program which uses the CrawlerAPI to send links - but that is not really quick. Hopefully I will have success this time. :)

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 2:18 pm


Hilfe für Einsteiger und Anwender • Re: Storage size vs. number of documents

Date: 2014-10-14 15:20:17

Hi again :) thanks! Thats some nice info. I will tinker on the basis of that!

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 2:20 pm


Wunschliste • Whitelist

Date: 2014-10-14 15:23:25

Hi,
i really get too much crap into my index by other peers. Blacklisting is nice depending on what role you want to give to your server. I would like to narrow it down a lot. I failed to use Regex for \“exclude beside\” aka whitelisting.
With a whitelist i could still exchange DHTs -> Robinson with DHT

Maybe there could be the option of having a whitelist? It would be a nice feature (at last for me) :)
Thanks

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 2:23 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-14 15:51:11

tinkerphone hat geschrieben:\ I get this traffic almost instantly when I start yacy\


Hi, can you describe precise how you measure that? I.e. there is a network monitor within YaCy which shows what IP has opened which servlet, please see
/AccessTracker_p.html?page=0
/AccessTracker_p.html?page=1
and
/Connections_p.html
If the traffic is not shown there, then it is not traffic to YaCy, just to your host, i.e. another application.

Statistik: Verfasst von Orbiter — Di Okt 14, 2014 2:51 pm


Wunschliste • Re: Whitelist

Date: 2014-10-14 15:57:14

we found that whitelists are impracticable in some way, i.e. chances that you put something in your whitelist is the same as someone sends to you are really small, considering the size of the web. I would recommend that you turn the whitelist you have in mind into a crawl-list which you start on your peer and then close the incoming connections completely which you can do in /ConfigNetwork_p.html by removal of the flag \“Index Receive\“. This turns your peer into a halve-robinson: your peer distributes the index you created to other peers (your peer keeps a copy!) but your peer is still available for search from other peers.

Statistik: Verfasst von Orbiter — Di Okt 14, 2014 2:57 pm


Wunschliste • Re: Whitelist

Date: 2014-10-14 16:07:47

Orbiter hat geschrieben:\ ..snip.. I would recommend that you turn the whitelist you have in mind into a crawl-list which you start on your peer and then close the incoming connections completely which you can do in /ConfigNetwork\_p.html by removal of the flag \"Index Receive\". This turns your peer into a halve-robinson: your peer distributes the index you created to other peers (your peer keeps a copy!) but your peer is still available for search from other peers.\



Hi,
this sentence

\ This works only if you have a senior peer. The DHT-rules do not work without this function.\

stopped me from using your recommended setup. I thought \“Index Distribution | This enables automated, DHT-ruled Index Transmission to other peers.\” is affected by this option?!

If not, it is great news for me!

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 3:07 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-14 16:23:25

Hi,
i am not sure whats going on. I not that good at networking.
The connections I get are not listed within YaCy.

I used mitmproxy to sniff around a bit. As [soon as i start yacy]{style=“font-weight: bold”} i get for example connections like these:

Code:
142.4.96.197:4725: clientconnectRequest                                                                                                                         Content-Type:     application/x-www-form-urlencodedConnection:       keep-aliveAccept:           text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8User-Agent:       Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.1.2000 Chrome/30.0.1599.101 Safari/537.36Origin:           https://login.plaync.co.krDNT:              1Referer:          https://login.plaync.co.kr/login/loginAccept-Encoding:  gzip,deflateAccept-Language:  ko-KRHost:             login.plaync.co.krContent-Length:   379URLEncoded formid:             chanhee88z@duam.netpwd:            cksgml88game_id:        13return_url:     http://kr.plaync.com/returnurl:      http://kr.plaync.com/cancel_url:     http://kr.plaync.com/fail_url:       loginsite:      site_id:        13adult_yn:       Nencoding_type:  utf-8ukey:           8A17DFD5A1AA83003AE65E08CF6331B930B318D0B1273931C9E844E4F9F07A88F7625C599C030A81A6A8D9C962B25BB2EA89CA8AF5C9E555507F02A87B2088AAloginLevel:     142.4.96.197:4725: clientdisconnect



They look like login attempts with different user/pass identifications (you can see it in the response). (in this case)
Whatever is going on, to me it seems that YaCy is involved in some way.

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 3:23 pm


Wunschliste • Re: Whitelist

Date: 2014-10-14 16:28:20

hm, the sentence \“The DHT-rules do not work without this function\” is maybe misleading and actually not very specific. Well, the DHT traffic has two sides: a sender and a receiver, and this is where you may decide if you want to contibute as sender and/or receiver. It is totally acceptable that peer owner switch off one or both of these sides (on their side) and if the switch off both, they become a so-called \‘robinson peer\‘, but stays in the network. Even robinson peers can be searched by other peer. In your case you would just switch of the receiver part and therefore that would leave an \‘acceptable gap\’ in the DHT because sending peers would just turn to the next \‘redundant\’ peers (we have a three-fold redundancy). That means: switching off your DHT-in will not harm the network, but it will also remove your ability to search in the p2p network because that is also an incoming of indexes from other peers.

Statistik: Verfasst von Orbiter — Di Okt 14, 2014 3:28 pm


Wunschliste • Re: Whitelist

Date: 2014-10-14 16:44:18

Orbiter hat geschrieben:\ ..snip ..That means: switching off your DHT-in will not harm the network, but it will also remove your ability to search in the p2p network because that is also an incoming of indexes from other peers.\



Well, i think i will try your recommend setup. However not having the ability to search within the p2p is not what i want. I have no problem getting \“unwanted\” results if i search the network, i just don´t want to contribute storage to stuff i am not interested in. Aka: [My books are your books, and your books are my books. But don´t put your books on my shelf.]{style=“font-weight: bold”} (with whitelist (unless i have a dedicated shelf for them) ;)

Statistik: Verfasst von tinkerphone — Di Okt 14, 2014 3:44 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-14 21:42:43

Hello,

tinkerphone hat geschrieben:\ maybe the loadbancer should \"just\" iframe a host from the list. This would make the decentralized concept of YaCy visible.\

Please try http://130.255.73.69:5353/forward[?random]{style=“font-weight: bold”}{.postlink} for a random YaCy-Peer. But be warned, this Forwarder is a new and not well tested function in my Tool.

Greetings
Erik

Statistik: Verfasst von Erik_S — Di Okt 14, 2014 8:42 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-15 03:32:54

Erik\_S hat geschrieben:\ Hello,\ \ >
> > tinkerphone hat geschrieben:maybe the loadbancer should \"just\" > iframe a host from the list. This would make the decentralized > concept of YaCy visible.\ > >

Please try http://130.255.73.69:5353/forward[?random]{style=“font-weight: bold”}{.postlink} for a random YaCy-Peer. But be warned, this Forwarder is a new and not well tested function in my Tool.

Greetings
Erik



Tried a few times and it works ok but.

Can you factor in a if version number is above 1.81/xxxx then forward to those random peers because the httpd Session Pool max of 50 was only just recently raised it was previous it was 20.
Ask one of the developers which version the setting was raised.

Another thing to take into account is peer response time to do a search, my old YaCy peer was in the order of 12 seconds which is way too long for someone just trying Yacy search out.

Another thing [Orbiter wrote German in the English forum]{style=“font-weight: bold”} but here is what he said.

hm, the demo-portal should be just that: a demo. For large crowds not thought of. It is always better to use your own YaCy instance. Actually, it should not even exist because it contradicts the concept of building a distributed p2p search engine, the demo portal yes. In this respect I am always glad when the demo portal failed and I can point out that it is not intended. We want to build no search portal, but a search engine software for Web portals.

I have my web portal on my twitter page and I left my computer off for a week and lost over 10 Followers 6%.
I now run a Debian VPS with my yacy portal linked to my profile and slowly gained new followers again.

YaCy gives you the freedom to index your liked content and search the results.

Statistik: Verfasst von smokingwheels — Mi Okt 15, 2014 2:32 am


English • Re: transition Robinson to P2P & adding a new server safely

Date: 2014-10-15 09:59:07

[[Duplicates]{style=“text-decoration: underline”} appearing...]{style=“font-weight: bold”}
We have discovered that at least in one data \“provider\” category, we are encountering multiple / duplicate entries for the same individual source pages.
Remembering we have 2 servers in robinson configuration, cross-reading each other but not writing to each other.…

We typically use specially constructed RSS feeds that crawl a target site based on an initial \‘sample\’ list and harvest what is there.
What is important for us is [[to go back in history]{style=“text-decoration: underline”}]{style=“font-style: italic”} and collect as many \‘archival\’ documents as possible in the target site address.
Typically we seek to collect [Up To 1000 document entries]{style=“text-decoration: underline”} at a time.

How do we ensure we can collect earlier documents beyond the initial \‘Up to 1000\‘?

As we crawl daily and in some cases hourly, it appears that the Restriction [[Do Not Accept Duplicates]{style=“text-decoration: underline”}]{style=“font-weight: bold”} of the same page [is not being respected]{style=“text-decoration: underline”}.

Duplicates we find have different session numbers, but ultimately are identically the same target document.

How do we remove duplicates in an automated manner?
Now that we have 51 million web edges, it is no longer feasible to attempt to find and clean this by hand.
Ideally, we want the 1st copy of each collected document.
Thank you!

As a recurring question to address, will shifting from a collection of stand-alone Robinson servers to a closed environment P2P environment of only our own servers \‘clean\’ this?
What are the downsides, please? Thank you.

Statistik: Verfasst von xioc752 — Mi Okt 15, 2014 8:59 am


English • Re: Demo portal has got too many connections

Date: 2014-10-15 11:07:49

Hello,

smokingwheels hat geschrieben:\ Can you factor in a if version number is above 1.81/xxxx then forward to those random peers because the httpd Session Pool max of 50 was only just recently raised it was previous it was 20.\

Sorry, but no. I do not think that this is a meaningful way to solve the expected Problem. The Version \“1.81/xxxx\” is a Developer-Version and not a stable Release and there are only a few Peers that update its Software frequently. Increasing the Setting for HTTP-Server-Worker-Threads was one of the Settings that i have changed in the beginning of hosting a YaCy-Peer on a Root-Server, i think the People that operate a YaCy-Peer for the Public have increased this Setting. A random Selection of the YaCy-Peers can help to avoid Problems with overload a small amount of the YaCy-Peers.
In my Opinion, on yacy.net should be a iframe with a real random YaCy-Peer be present. This would show the Concept of Distribution.

smokingwheels hat geschrieben:\ Another thing to take into account is peer response time to do a search, my old YaCy peer was in the order of 12 seconds which is way too long for someone just trying Yacy search out.\

I do not have any statistics about the response times of the YaCy-Peers. My Tool use a short timeout for querying the Peers and all Peers that are able too respond quickly enough are market as \“available\” in my Data-Base.

smokingwheels hat geschrieben:\ Another thing [Orbiter wrote German in the English forum]{style="font-weight: bold"} but here is what he said.\

I am a German Native Speaker, English is the language i have problems with.

\ It is always better to use your own YaCy instance.\

I have exactly the same Opinion. For me the Demo-Portal is only a Show-Case for YaCy-Newbies and not a real Product.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Okt 15, 2014 10:07 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500 - /Crawler_p.html

Date: 2014-10-15 11:23:30

Ich denke, ich habe das Problem nun endlich lösen können.

Und zwar ist auf /IndexFederated_p.html die Verwendung von \“use citation reference index (lightweight and fast)\” zu deaktivieren. Damit funktioniert das Crawling nun auch wieder mittels File-Upload.

Statistik: Verfasst von hotel24 — Mi Okt 15, 2014 10:23 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-15 11:52:44

Hallo,

wie einige vielleicht mitbekommen haben musste ich mein Analyse-Tool die vergangenen Tage mehrmals neu starten. Der Code zum Decodieren der Peer-Beschreibungen hat ein Format-Problem in den Seed-Listen etwas zu ernst genommen und das Tool einfach beendet obwohl ein Abbruch der Verarbeitung des aktuellen Peers völlig ausgereicht hätte. Dieser Fehler ist aber nur sehr sporadisch aufgetreten, offensichtlich ist der problematische YaCy-Peer (der eine ungültige Seed-Liste liefert) nur selten online so das mein Tool nur selten über dieses Problem gestolpert ist. Auf jeden Fall habe ich gestern eine gefixte Version meines Analyse-Tools auf den Server gespielt so dass das Tool jetzt erst einmal anständig laufen sollte. Dabei habe ich den aktuellen Code benutzt in dem bereits eine unvollständige Version des Forwarders enthalten ist. Die URL /forward?random arbeitet bereits korrekt, und zwar für IPv4 und für IPv6 aber bei IPv6 kommt noch nicht allzu viel sinnvolles bei raus da das YaCy-Peer-Netzwerk noch immer erhebliche Probleme mit den IPv6-Adressen hat. Die URLs /forward?name=.… bzw. /forward?hash=.… sind zwar ebenfalls bereits integriert aber liefern noch keine korrekte IP-Adresse zurück.

Auf meinen Server werde ich aber erst dann eine neue Version meines Tools aufspielen wenn ich die Statistik persistent gemacht habe, also mein Tool diese regelmäßig speichern und beim Starten auch wieder einlesen kann. Vielleicht schaffe ich das noch diese Woche. Solange das nicht da ist geht die Statistik mit jedem Neustart meines Tools immer komplett verloren und fängt wieder bei Null an.
Danach kümmere ich mich um die Kosmetik an der graphischen Darstellung der Statistik, es fehlt u.a. eine Skala für die Y-Richtung.

Beim Ausprobieren des Forwarders ist mir aufgefallen das doch einige Peers einen 403-Fehler melden, vor allem bei IPv6 ist das ein sehr häufiges Problem. Leider kann man dem Browser nicht sagen er soll auf die IP-Adresse XYZ zugreifen und dabei im HTTP-Header als Host \“ABC.yacy\” melden also muss dieses Problem (das meiner Einschätzung nach im Zusammenhang mit der Auswertung des Host-Headers steht) in YaCy selber gelöst werden. Ich würde mich daher erneut dafür aussprechen wollen das der interne Proxy in YaCy komplett entfernt wird oder wenigstens die damit zusammenhängenden Probleme nachhaltig gefixt werden.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 15, 2014 10:52 am


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-15 15:17:48

After thinking about it - Just an idea:
I don´t know how it works in detail but my guess:
1. YaCy Peers are announcing their IP addresses
2. There is a probability that those YaCy peers run a proxy
-> Fetch the IPs, test for proxy, use proxy for :twisted: stuff

Statistik: Verfasst von tinkerphone — Mi Okt 15, 2014 2:17 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-15 15:30:21

\ It is always better to use your own YaCy instance. I have exactly the same Opinion. For me the Demo-Portal is only a Show-Case for YaCy-Newbies and not a real Product.\ \ Greetings\ Erik\



Well, I don´t want to sound harsh, but i often do... so anyway:

I want to \“sell\” a new and cool kind of car – it will save the earth if everybody would use it!
But, often when i show it around the wheels fly off and the windshield is broken. Who would \“buy\” it?

[Point is: a defunct demo is a total show stopper]{style=“font-weight: bold”}

Beside that, I like yacy anyway (even if the autocorrect always give me yack :lol:

Statistik: Verfasst von tinkerphone — Mi Okt 15, 2014 2:30 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-15 17:21:26

by default the proxy lets only users from localhost in.

tinkerphone hat geschrieben:\ use proxy for ![:twisted:](http://forum.yacy-websuche.de/images/smilies/icon_twisted.gif "Twisted Evil") stuff\


This use case does not exist unless you open the proxy for the public on purpose.

Statistik: Verfasst von Orbiter — Mi Okt 15, 2014 4:21 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-15 17:40:55

If YaCy gets successfull and the demo portal would scale to so much people who wants to use that, than at any point we would need a data center [and]{style=“font-style: italic”} a business model. But that is not what this project is about.

If you think this to the end then you must conclude that the demo portal is not a good idea at all. so.. this brings me (again) to the point where I believe that removing the demo is the only way to protect YaCy from criticism in the way you argued.

Statistik: Verfasst von Orbiter — Mi Okt 15, 2014 4:40 pm


Fragen und Antworten • Re: YaCy Proxy abuse?!

Date: 2014-10-15 23:04:06

Hello,

tinkerphone hat geschrieben:\ Fetch the IPs\

This is not a difficult process.
One of the easiest ways is to fetch and merge all the uploaded Seed-List-Files (from various YaCy-Peers that claim the State \“Principal\“) and you have an up to date List of all currently online YaCy-Peers. A little bit more complicated but even more up to date is to query all active YaCy-Peers directly for there Seed-List and merge it in a Database (this is that my Analysis-Tool does and i needed only a few days to Code it from ground up).

tinkerphone hat geschrieben:\ test for proxy, use proxy for ![:twisted:](http://forum.yacy-websuche.de/images/smilies/icon_twisted.gif "Twisted Evil") stuff\

I say my Analysis-Tool does not [evil]{style=“font-style: italic”} things, but, can you really trust me?
I think i can develop a well Proxy-Test in lesser than 10 work hours. In my opinion, any good programmer on this world can do the same Job in the same Time.

Orbiter hat geschrieben:\ by default the proxy lets only users from localhost in\

Sure?
In YaCy exist a Bug that let it think that an incoming HTTP-Request should handled as Proxy in cases there this HTTP-Request means the Peer itself (the HTTP-Error-Code 403). Why can not exist an additional bug that let YaCy think the Proxy is enabled for everyone?

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Okt 15, 2014 10:04 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-15 23:24:53

Hello,

tinkerphone hat geschrieben:\ Point is: a defunct demo is a total show stopper\

Yes, that is also true.
I think on yacy.net should be an iframe (or something similar) with a real randomly selected YaCy-Peer and a sentence above with
\”[You see here a random YaCy-Peer, because not all Peers are operated as permanent online with perfect responsiveness, use the reload button for selecting an other Peer.]{style=“font-style: italic”}\”
and all People should understand sporadically problems.

tinkerphone hat geschrieben:\ Beside that, I like yacy anyway\

Me too!

Orbiter hat geschrieben:\ this brings me (again) to the point where I believe that removing the demo is the only way to protect YaCy from criticism in the way you argued.\

Na immerhin bringt Dich seine Kritik zu überhaupt einer Reaktion, so wirksam war meine (zahlreiche) Kritik bisher noch nicht.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 15, 2014 10:24 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 00:09:08

Hello,

the more I think about this, the more I like the idea of the random used YaCy-Host.
Using the freeworld-peers for demonstration could be a great community advertising.

But I remember the days we released 1.0:
We had something similar and the high rate of queries overstressed my machine :-)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Okt 15, 2014 11:09 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 07:28:37

sixcooler hat geschrieben:\ But I remember the days we released 1.0:\ We had something similar and the high rate of queries overstressed my machine ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\



I have been overstressing my machine for over a year now and its not that long ago since I am unable to cause errors like the ones I have reported.

Statistik: Verfasst von smokingwheels — Do Okt 16, 2014 6:28 am


English • Queries per hour reporting

Date: 2014-10-16 11:00:26

I ran an hour long test today with my robot keyboard and found on the network page had errors in reporting the local QPH rate.

Can some one explain to me how the QPH totals are calculated?

My peer has been up for 2 hours now and there has been 80 remote requests. /AccessTracker_p.html?page=4
That would imply I should see 40 QPH but Yacy reports only 1.19 QPH for remote.

I have reported a bug but can someone else calculate the up time in hours then divide by the number of remote requests /AccessTracker_p.html?page=4 and add a comment to http://mantis.tokeek.de/view.php?id=487 if you agree with me.

At a guess the reported figure is about 33 times lower, I did a quick add up on senior an principal peers and the QPH could be around 7500.

Statistik: Verfasst von smokingwheels — Do Okt 16, 2014 10:00 am


Fragen und Antworten • Re: Crawl starten \“From File\”

Date: 2014-10-16 13:32:22

I don´t get it.…

I have sixcooler´s content in a file called small.html. I run yacy on a server and the file is in /root/uploads/small.html Owner is yacy, Group is deamon. (i also tried root:root). Persmissions are 774. The file is shown in the graphics on Crawler_p, \“Running Crawls (1) and i can \“Terminate\” the crawl. BUT YaCy is simply not crawling. Nothing, no index change, no error... simply nothing. YaCy version 1.819091

[Some status infos like: File readable, file not found ... would be great!]{style=“font-weight: bold”} For now i can enter whatever to the \“From File (enter a path within your local file system)\” field. No complains at all - same behavior as described above...

Statistik: Verfasst von tinkerphone — Do Okt 16, 2014 12:32 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 14:32:35

Hello,

sixcooler hat geschrieben:\ the more I think about this, the more I like the idea of the random used YaCy-Host.\ Using the freeworld-peers for demonstration could be a great community advertising.\

Then do it!
Showing a random selected YaCy-Peer is a powerful demonstration of the concept [distributed]{style=“font-style: italic”}.
After heavily testing http://130.255.73.69:5353/forward?random i can say there are no problems, except a few 403-Errors from some YaCy-Peers but liable for this are the YaCy-Developers.
Okay, some of the Peers are slow but if this is really a problem i can add a test for the response-time and accept only fast peers for the internal Random-List.
And my Random-List is very up to date, all IP-Addresses are positive tested within the last 30 seconds.

sixcooler hat geschrieben:\ We had something similar and the high rate of queries overstressed my machine\

One of the positive effects of a load-balancer is too avoid overstressing a single machine.

Greetings
Erik

Statistik: Verfasst von Erik_S — Do Okt 16, 2014 1:32 pm


English • Tutorial Video #06 Secret Agents with YaCy RSS Feed Reader

Date: 2014-10-16 14:44:35

With YaCy you can create secret search agents which do searches for you automatically within your own search index. That index can be filled automatically with rss feeds and a search within your own index, sorted by date can be retrieved using rss feeds again. In combination with an rss feed reader, reading search results from your own index, you get secret search agents which are fully private because the search requests never leave your own computer.
iframe

Statistik: Verfasst von Orbiter — Do Okt 16, 2014 1:44 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 15:38:39

Erik\_S hat geschrieben:\ Hello,\ \ Showing a random selected YaCy-Peer is a powerful demonstration of the concept [distributed]{style="font-style: italic"}.\ After heavily testing i can say there are no problems, except a few 403-Errors from some YaCy-Peers but liable for this are the YaCy-Developers.\ Okay, some of the Peers are slow but if this is really a problem i can add a test for the response-time and accept only fast peers for the internal Random-List.\ And my Random-List is very up to date, all IP-Addresses are positive tested within the last 30 seconds.\ Greetings\ Erik\



Erik,
But I could pick on your URL with my robot and down the YaCy Senior network...not that I would ever do that with out permission to execute. When Yacy is bullet proof I may support your thinking. I have 67 bug reports that I have found some have been fixed but YaCy is not a Google replacement it has lots of options and you never have to Submit anything.

Statistik: Verfasst von smokingwheels — Do Okt 16, 2014 2:38 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 16:27:08

Hello,

smokingwheels hat geschrieben:\ But I could pick on your URL with my robot and down the YaCy Senior network\

Yes, that is true. You can also enhance your robot with its own YaCy-Network-Tracker (this is lesser than 2000 Lines of C-Code), this kind of problem is independent of my Service.
The only way to make YaCy \“bullet proof\” is to make it much bigger (more than 100\‘000 Peers, for just saying a number). Okay, there are a lot of problems and weaknesses in the Peer-to-Peer-Network-Managment-Logic inside the YaCy-Code, this makes it difficult. In my opinion, the current existing YaCy can not benefit enough from a growing number of peers.

smokingwheels hat geschrieben:\ you never have to Submit anything\

I have offered my help multiple times in the last 6 weeks, but without any kind of reaction.

Greetings
Erik

Statistik: Verfasst von Erik_S — Do Okt 16, 2014 3:27 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-16 17:37:18

Erik\_S hat geschrieben:\ Hello,\ \ >
> > smokingwheels hat geschrieben:But I could pick on your URL with my > robot and down the YaCy Senior network\ > >

Yes, that is true. You can also enhance your robot with its own YaCy-Network-Tracker (this is lesser than 2000 Lines of C-Code), this kind of problem is independent of my Service.
The only way to make YaCy \“bullet proof\” is to make it much bigger (more than 100\‘000 Peers, for just saying a number). Okay, there are a lot of problems and weaknesses in the Peer-to-Peer-Network-Managment-Logic inside the YaCy-Code, this makes it difficult. In my opinion, the current existing YaCy can not benefit enough from a growing number of peers.

smokingwheels hat geschrieben:\ you never have to Submit anything\

I have offered my help multiple times in the last 6 weeks, but without any kind of reaction.

Greetings
Erik



Well, might be a load balancing function should be implemented into YaCy? Until then the iFrame Balancer which Erik_S is a really nice alternative!
If my peer has too many connections, why does the frontend get killed? (not to speak about the backend which does the hobo as well)

If my peer has too many connection it means that my YaCy has too many connections - right? Not necessarily my server.
If YaCy would provide a list with available connections along with the node list, my peer could forward the query to an other peer and display the results (with a note that this happened). -> [decouple the frontend!!]{style=“font-weight: bold”}
A query could take along a counter of hops (numbers of unsuccessfully connected peers). If a query had too many hops, it is delayed and reinvoked after a certain time. After x tries the query gets deleted and the user a message:
[\“Sorry. The YaCy network is too busy. Please try again in a second...
-> Download and run your own YaCy Server and help to expand the network!\” <-]{style=“font-weight: bold”}

My idea does certainly not take all implemented features of YaCy into account. But i simply can´t understand why the frontend goes down if my YaCy has too much to do. The frontend should be able to find atlast one working peer which can deliver some data...

Statistik: Verfasst von tinkerphone — Do Okt 16, 2014 4:37 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-16 20:12:27

Nur noch einmal so zum Crawler:

Hat einer von euch überhaupt einmal bei seinem YaCy hier nachgesehen:

Active Principal and Senior Peers in \‘freeworld\’ Network{.postlink}

Passive Senior Peers in \‘freeworld\’ Network{.postlink}

Junior Peers (a fragment) in \‘freeworld\’ Network{.postlink}

Es gibt dort außer mir [([[P-C-I]{style=“font-weight: bold”}]{style=“color: #40BF00”})]{style=“font-style: italic”} kaum jemanden, bei denen der Crawler überhaupt erlaubt oder aktiv ist! Obwohl ich mit diesem Rechner nebenbei auch arbeite habe ich YaCy so eingestellt, damit auch andere etwas davon haben.

YaCy hat geschrieben:\ YaCy ist eine Suchmaschine bei dem die Nutzer selbst zum Betreiber werden. [[Die freie Suchmaschinensoftware YaCy läuft nicht auf einem Server im Internet, sondern auf Ihrem eigenen Rechner.]{style="font-style: italic"}]{style="font-weight: bold"} So können Sie Ihr persönliches Suchportal errichten, bei dem nur Sie bestimmen was die Suchmaschine im Suchindex hat.\



Mit einem Crawler kann man das vergessen, das benötigt einfach zu viel Rechenpower! Es kann sich einfach nicht jeder einen Server leisten, egal ob zu Hause oder gemietet.

Sinn und Zweck einer Suchmaschine ist ja wohl, daß sie so viele Suchtreffer wie möglich ergibt. YaCy ist aber dezentral, so daß die Suchergebnisse entsprechend auf mehrere Suchmaschinen aufgeteilt sind. Diese Ergebnisse werden aber nur dann besser, wenn so viele Leute wie möglich mitmachen! Mit dem Crawler wird das aber bestimmt nichts, der kann höchsten als abschreckendes Beispiel dienen.

PS.: Die Zahl der Dokumente in meinem Index geht auch trotz Proxy langsam in Richtung [[11.000.000]{style=“font-style: italic”}]{style=“font-weight: bold”}, der Crawler wird dazu nicht benötigt!

Statistik: Verfasst von TmoWizard — Do Okt 16, 2014 7:12 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-16 22:14:15

Hi Tmo,

dein computer braucht nicht mehr power wenn du nur seiten indexen wills die du besuchts. Seite in index= indizieren - egal ob proxy oder crawler! Beides braucht gleich viel power.

Der proxy hilft nur, dass du nicht extra sagen musst \“crawl diese seite\“.

Warum braucht crawlen aber so viel mehr \“power\“? Einfach weil der crawler viel viel schneller sites besucht als du surfen kannst.

Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem. Der proxy macht es nur einfacher = kein add-on für den browser. Wirklich schneller ist da nichts.

Statistik: Verfasst von tinkerphone — Do Okt 16, 2014 9:14 pm


Wunschliste • Planet - Solar System - Deep Space

Date: 2014-10-16 23:04:32

Since this is a wishlist, those are my wishes for the future:

1. Planet:
a) Augmented Crawling, with private & open mode. Private= protected private index. Open = can be distributed to the network
b) Cache of the most prominent searches + results within the yacy network.
c) Search frontend for the cache and to yacy peers
(no \“real\” searchengine!)

2. Solar System:
An extension to the planet. It adds the crawler & solr and db features. Planet + Solar System = What we know as YaCy - but in components

3. Deep Space:
A special index for the most rare results. You can launch a deep space probe which will search for specific information on the net. Its crawler which evaluates every visited page but indexes only those pages which hold the search pattern. A webgraph is build and used to determine which \“galaxies\” do not contain the search pattern. The starting vector towards the \“dead galaxy\” is blacklisted. If more then one probe is send, the blacklist can be used to avoid dead galaxies. Each probe is given a certain lifespan (number of links to follow)

Along with some other dings and dangs, this comes pretty near to my idea of a p2p search machine - and yacy is the nicest foundation i have found so far. :)

Statistik: Verfasst von tinkerphone — Do Okt 16, 2014 10:04 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-17 01:30:17

smokingwheels hat geschrieben:\ >
> > Erik\_S hat geschrieben:Hello,\ > \ > Showing a random selected YaCy-Peer is a powerful demonstration of > the concept [distributed]{style="font-style: italic"}.\ > After heavily testing i > can say there are no problems, except a few 403-Errors from some > YaCy-Peers but liable for this are the YaCy-Developers.\ > Okay, some of the Peers are slow but if this is really a problem i > can add a test for the response-time and accept only fast peers for > the internal Random-List.\ > And my Random-List is very up to date, all IP-Addresses are positive > tested within the last 30 seconds.\ > Greetings\ > Erik\ > >



Erik,
But I could pick on your URL with my robot and down the YaCy Senior network...not that I would ever do that with out permission to execute. When Yacy is bullet proof I may support your thinking. I have 67 bug reports that I have found some have been fixed but YaCy is not a Google replacement it has lots of options and you never have to Submit anything.



What about creating a web hop for your url at http://freedns.afraid.org just an idea.

tinkerphone hat geschrieben:\ Well, might be a load balancing function should be implemented into YaCy? Until then the iFrame Balancer which Erik\_S is a really nice alternative!\ If my peer has too many connections, why does the frontend get killed? (not to speak about the backend which does the hobo as well)\ \ [-\> Download and run your own YaCy Server and help to expand the network!\" \<-]{style="font-weight: bold"}\ \ My idea does certainly not take all implemented features of YaCy into account. But i simply can´t understand why the frontend goes down if my YaCy has too much to do. The frontend should be able to find atlast one working peer which can deliver some data\...\



Tinkerphone you can increase the log file length as per http://mantis.tokeek.de/view.php?id=353 to see whats going on with your peer if it crashes a lot. I add a extra 0 to the length setting this seems to work well.

Erik_S
I had a look at my youtube Analytics and only 55% of my views come from a PC the rest was mobile phone, Tablet, Game Console and TV. Maybe YaCy in being accessed by devices other than a PC who knows.

Statistik: Verfasst von smokingwheels — Fr Okt 17, 2014 12:30 am


English • Re: Demo portal has got too many connections

Date: 2014-10-17 07:44:54

smokingwheels hat geschrieben:\ Tinkerphone you can increase the log file length as per to see whats going on with your peer if it crashes a lot. I add a extra 0 to the length setting this seems to work well. \... snip..\



The last days i simply used max connections = 200 which \“solved\” the problem (but that setting was not saved - it backs to 50 after restart).
For now all servers are in Robinson. I check again when i open up again.

Statistik: Verfasst von tinkerphone — Fr Okt 17, 2014 6:44 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 09:51:30

tinkerphone hat geschrieben:\ Der proxy hilft nur, dass du nicht extra sagen musst \"crawl diese seite\".\


G\‘rade das ist für mich persönlich entscheidend. Ich bin im www unterwegs, erledige meine tägliche Arbeit und kann mich darauf verlassen, dass ich mit einer YaCy-Abrage, die passende Filter-Einstellungen hat, auch nach einer Woche, einem Monat, einem Jahr, ... zeitsparend bereits besuchte Seiten abrufen kann.

tinkerphone hat geschrieben:\ Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem. Der proxy macht es nur einfacher = kein add-on für den browser. Wirklich schneller ist da nichts.\

Klingt überzeugend. Da ich selbst in YaCy-Menüs/-Einstellungen nicht so fit bin und komme demnächst nicht dazu mich hier einzuarbeiten, ist meine Frage an tinkerphone und alle in der Runde - ist diese Aussage \“Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem\” in der Praxis geprüft oder nur eine Vermutung?

Erik\_S hat geschrieben:\ Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).\

Ich muss zugeben, ich blicke hier nicht durch, ob und wie eng das wichtige Thema \“Crawl-Missbrauch\” mit dem \“YaCy als Proxy?\“-Thema verknüpft ist. Falls die Verzahnung dieser Themen kein Zwang ist, bin ich dafür, diese Themen getrennt, in separaten Threads zu diskutieren.

Ob nun die \“nebenbei-crawlen\“-Funktionalität mit einem Proxy oder mit einem Addon bereitgestellt wird, wäre ich als Anwender neutral. Meine persönliche Erfahrung, Wahrnehmung mit/der Addon-Implementierung [aber]{style=“font-weight: bold”} ist, dass diese wahrscheinlich wartungsintensiver ist bzw. sein wird. Allein deswegen, weil:

  1. eine Implementierung für viele Browser notwendig ist
  2. auch bei einem Firefox-Browser sind häufige regelmäßige Updates fällig, da der Browser selbst häufig geupdatet wird

Tatsache ist, dass Orbiter letzte Wochen nach einer Support-Leistung angefragt hat, um irgendein Addon zu updaten - ich weiss nicht mehr welches. Meine Sorge ist, dass das \“nebenbei-crawlen\“-Addon zu (noch) einem pflegebedürftigen Sorgenkind wird. Java-Updates sind vermutlich weniger häufig im Vergleich zu Firefox-Updates und verursachen weniger Inkompatibilitäten.

Als ich zum Firefox-Browser gewechselt habe, habe ich eine Menge ziemlich hilfreicher Addons verwendet. Ziemlich schnell sind davon nur ein Paar geblieben. Weil ich\’s mir schlicht und einfach nicht leisten kann, nach jedem Firefox-Update immer wieder mein persönliches Addon-Wartungszyklus zu starten, um dafür zu sorgen, dass alle Addons funktionieren. Die Addons wie auch andere technische Hilfsmittel machen für mich nur so lange Sinn, wie diese technische Hilfsmittel für eine Arbeitserleichterung und eine Zeitersparnis sorgen.

Ich bin dafür, dass die Entscheidung in der Frage \”[YaCy als Proxy\“]{style=“font-style: italic”} im Entwicklerteam, in der YaCy-Community im breiteren konzeptuellen Kontext betrachtet wird. Damit meine ich:

  1. wie prägt die Entscheidung, die \”[YaCy als Proxy\“]{style=“font-style: italic”}-Eigenschaft die YaCy-Lösung, das YaCy-Produkt insgesamt?
  2. Was ist YaCy-Lösung, das YaCy-Produkt insgesamt?
  3. Welche Merkmale, welche Funktionalität muss YaCy-Lösung, das YaCy- Produkt haben, um zukunftsfähig zu bleiben?

Meine persönliche Meinung zum [Mehrwert der YaCy-Lösung, des YaCy-Produkts]{style=“font-weight: bold”} ist, dass die Lösung, das Produkt viele Voraussetzungen erfüllen, um [ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben]{style=“color: #008000”}. Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.

Gruss, flegno

Statistik: Verfasst von flegno — Fr Okt 17, 2014 8:51 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 10:25:11

flegno hat geschrieben:\ \... snip \...\ \ 1. wie prägt die Entscheidung, die \"[YaCy als Proxy\"]{style="font-style: italic"}-Eigenschaft die YaCy-Lösung, das YaCy-Produkt insgesamt? 2. Was ist YaCy-Lösung, das YaCy-Produkt insgesamt? 3. Welche Merkmale, welche Funktionalität muss YaCy-Lösung, das YaCy- Produkt haben, um zukunftsfähig zu bleiben? Meine persönliche Meinung zum [Mehrwert der YaCy-Lösung, des YaCy-Produkts]{style="font-weight: bold"} ist, dass die Lösung, das Produkt viele Voraussetzungen erfüllen, um [ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben]{style="color: #008000"}. Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.\ \ Gruss, flegno\



Hi,
hierfür: [ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben]{style=“color: #008000”} brauchst du keinen proxy. Ein p2p braucht keinen proxy. YaCy braucht keinen proxy. Die Funktion \“nebenbei\” zu crawlen wird im moment über das Hilfsmittel \“proxy\” gelöst. Hierfür kann aber auch ein addon benutzt werden. Egal wie, ein crawl / minute über proxy, addon oder das backend (wenn du im Admin Bereich einen crawl auslöst) hat immer die gleichen Auswirkungen. Somit auch die gleiche systemlast.

Die Aussage \“bei 1 crawl / minute kannst du gemütlich andere dinge tun\” stimmt natürlich nicht ganz. Wenn du dein YaCy für andere freigibst oder am indexaustausch teilnimmst, bedeutet dies natürlich auch Arbeit für deinen Computer.

Statistik: Verfasst von tinkerphone — Fr Okt 17, 2014 9:25 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 11:33:41

tinkerphone hat geschrieben:\ hierfür: [ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben]{style="color: #008000"} brauchst du keinen proxy. Ein p2p braucht keinen proxy. YaCy braucht keinen proxy.\


Bin dafür, dass die Frage \“Braucht YaCy einen proxy?\” erst diskutiert, beantwortet wird, wenn man sich im breiteren konzeptuellen Kontext über die Antworten auf die Fragen 1 bis 3 - s. oben - geeinigt hat. Ich kann mir vorstellen, dass YaCy als Produkt zukunftsfähiger sich positionieren kann, wenn man auf die Einschränkung \“YaCy ist _nur_ ein p2p-Netzwerk.\” verzichtet und als Ziel \“YaCy ist ein Netzwerk.\” anvisiert.

Gruss, flegno

Statistik: Verfasst von flegno — Fr Okt 17, 2014 10:33 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 11:55:52

Guten Morgen zusammen!

Von was für einem Add-on ist da die Rede? Für welchen Browser bitte und für welches System? Was soll das Add-on bezwecken? Schon mal bedacht, daß auch gar nicht jeder Browser Add-ons verwenden kann?

Hier muß bedacht werden, daß nicht alle das Gleiche verwenden. Ich z. B. arbeite hier mit Linux/Kubuntu und mein Browser ist SeaMonkey! Es wäre bei einem Add-on für Firefox also möglich, daß es bei mir auch läuft. Doch wie sieht das aus bei Chrome, Safari, Internet Explorer, Midori, Konqueror und all den anderen Browsern, die es noch so gibt?

Ich glaube kaum, daß jemand wegen YaCy den Browser wechseln wird! Ein Add-on würde nur bedeuten, daß es für die Programmiere mehr Aufwand ist und für die Nutzer noch ein Ding, um dessen Updates sie sich kümmern müßten. Wenn ich mir dann in meinen obigen Links die verschiedenen Versionsnummern der von YaCy so betrachte wird mir klar, daß den Leuten ihre Sicherheit egal ist!

Erik\_S hat geschrieben:\ Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).\



[[Du hast mit diesem einen einzigen Satz den Crawler als für dich nicht brauchbar erklärt, obwohl du für den Crawler bist!]{style=“font-style: italic”}]{style=“font-weight: bold”}

Welche Suchtiefe hast du denn bei deinem Crawler eingestellt? [[1]{style=“font-style: italic”}]{style=“font-weight: bold”} oder was? Dann kannst du gleich den Proxy verwenden. Spätestens aber einer Tiefe von [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} kannst du nicht mehr kontrollieren, was in deinem Index landet:

  1. die zu crawlende Website
  2. Die dort verlinkten Websites
  3. Die verlinkten Sites auf den verlinkten Sites


Das ist wie ein Schneeballsystem:

Gehen wir mal von [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links pro Site aus, das läßt sich noch relativ überschaubar berechnen:

Die erste Site hat also [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links, die nächsten [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Websites wären dann schon [[10*10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links, also [[100]{style=“font-style: italic”}]{style=“font-weight: bold”} Sites. Diese [[100]{style=“font-style: italic”}]{style=“font-weight: bold”} Sites sind dann schon [[100*10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links, also [[1.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Sites! Weißt Du etwa, was dort alles oben ist?

Nun ist es aber so, daß kaum eine Site nur [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links enthält. Ich habe selbst einige Artikel mit [[20]{style=“font-style: italic”}]{style=“font-weight: bold”} und mehr Links geschrieben, da kommst Du beim Crawlen mit einer Tiefe von [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} schnell mal so auf [[50.000]{style=“font-style: italic”}]{style=“font-weight: bold”} und mehr Seiten! Kannst Du mir sagen, was dort alles auf diesen Servern/Websites ist? Mein Index geht wie schon geschrieben langsam in Richtung [[11]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente, von denen ich wohl nur einen geringen Bruchteil je gesehen habe. Mit dem Proxy alleine hätte ich das natürlich nicht geschafft, aber es waren bisher nur [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} Crawler daran beteiligt!

Wenn ich sämtliche Sites, die ich seit der Installation von YaCy besucht habe gecrawlt hätte, dann wäre ich jetzt bei den \“Active Principal\” wohl einsam an erster Stelle, die derzeit dort stehenden [[75,8]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Links/Dokumente schaffe ich locker bei einer Suchtiefe von [[3]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Ich bin ab Ende nächster Woche für ein paar Tage außer Haus, dann kann ich ja spaßeshalber mal einen Crawler mit der Suchtiefe [[5]{style=“font-style: italic”}]{style=“font-weight: bold”} \“nur\” auf meine eigentliche Homepage [(nicht das Blog!)]{style=“font-style: italic”} loslassen. Dann wird nicht nur mein Blog inklusive neuer Kommentare und Artikel neu indexiert, da kommen dann auch ein paar Verlage [(Heise, Golem, Spiegel, Zeit, Welt...)]{style=“font-style: italic”}, die Wikipedia, Blogs und was weiß ich noch alles dazu!

Du weißt also nicht, welche URLs da so kommen als \“Active Principal and Senior Peer\“? Na und? Das weißt Du jetzt mit deinem eigenen Crawler garantiert auch nicht, das geht nämlich [[nur]{style=“font-style: italic”}]{style=“font-weight: bold”} mit dem Proxy und den direkt von dir besuchten Sites bei kleinstmöglicher Suchtiefe! Dein Index wird dann allerdings nicht sonderlich groß werden, denn besonders viele Sites wirst du ja auch nicht ansurfen.

Ich bin [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} gegen den Crawler, der erfüllt schon seinen Sinn und Zweck und ich verwende ihn ja auch immer mal wieder. Für einen normalen Anwender ist der Proxy allerdings die einfachere und bessere Wahl, vor allem dann, wenn man wie Du nicht jeden möglichen Unsinn im eigenen Index haben will! Der eigene Crawler eignet sich nur dann, wenn man so viele Websites/Dokumente wie möglich indexieren will.

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 10:55 am


Wunschliste • Re: Planet - Solar System - Deep Space

Date: 2014-10-17 11:59:22

Oh ha!:

Orbiter hat geschrieben:\ Die Funktion ist schon da!\ Bitte im Expert Crawl Start unter dem Abschnitt \"Document Filter\" den regulären Ausdruck für \"Filter on Content of Document\" benutzen.\ \ Beispiel:\ Wenn du nur ein Wort \"wort\" filtern willst, dann ist der Ausdruck dort \".\*wort.\*\". Wenn es zwei Wörter \"wort1\" und \"wort2\" sind, dann ist der reguläre Ausdruck \".\*wort1.\*\|.\*wort2.\*\". Reguläre Ausdrücke kannst du zur Vorbereitung eines geeigneten Filters unter /RegexTest.html testen.\



This means that the function to \“send deep space probes\” is already there! If you use the document filter in the expert crawling section the crawler will only send those urls to the indexer which contain the phrase. It would be great if we could have separated indexes for those cases.

This could have following benefits:
1. Your \“special\” queries can stay confident, the separated index can be excluded from DHT
2. Very simple to verify results from this special query - they are in a separate index
3. Easy and understandable workflow if you want to crawl the complete specific domain where the hit was.
4. A mysterious sounding and very useful feature for the frontend
-> Sorry, no results found
-> \“Send Deep-Net Probe\“.
You can get a notification to your email when the probe returns.
() Keep my query confident.
(x) Send me a link to my query with the notification.

Statistik: Verfasst von tinkerphone — Fr Okt 17, 2014 10:59 am


English • Re: Demo portal has got too many connections

Date: 2014-10-17 12:19:08

Hello,

tinkerphone hat geschrieben:\ Well, might be a load balancing function should be implemented into YaCy?\

I do not think that this is a good idea, the design goal of the Peer-to-Peer-Management-Logic in YaCy is too much different. And the Logic in the most YaCy-Peers does not know really all active YaCy-Peers, and the Logic in YaCy is too slow for a fast changing network.

smokingwheels hat geschrieben:\ What about creating a web hop for your url at \

Nice idea! If you can do that, i would be happy. When the problems with IPv6 in YaCy are solved, we can add the IPv6-Address of my Server.
But please note that the HTTP-Server in my Tool does not answer for the URL \‘/\’ (it generates a 404) and it is not available at Port 80. If you create a real Domain-Name than there must be a Forwarder to my URL that do listen on Port 80 and for the URL \‘/\’ (or ignoring the URL at all).
I have a small Web-Space (on a shared Web Hoster) and i will try a similar Feature for a subdirectory with a special .htaccess (i have talked about this kind of idea with flegno 2 weeks ago, see here{.postlink}).

smokingwheels hat geschrieben:\ Maybe YaCy in being accessed by devices other than a PC who knows.\

This is exactly the reason why i think on yacy.net should be an iframe or a Link or something similar to http://130.255.73.69:5353/forward?random.
This would show the Power of a distributed System and enable all Users, that are not able to run their own YaCy-Instance, for using the YaCy-Search-Engine without overstressing a single machine (or a small number of \“special selected\” machines).

I am not sure but i think my service should be able to handle more than 100 forwarding-operations per second. This means there must be at least 100 new Searchers per Second to overstressing my service. This means not that my Service is absolute \“DoS proof\” but you need much more power to DoS my Service compared to the DoS-Power needed for overstressing multiple YaCy-Peers.

Greetings
Erik

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 11:19 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 12:59:06

der Proxy ist für das P2P Netz nicht notwendig, liefert aber eine \‘witzige\’ (irgendie nicht genutzte) Funktion, die ein routing von YaCy-Peers über die virtuelle TLD .yacy (für YaCy host names) und .yacyh (für YaCy peer hash host names) ermöglicht. Aufgrund eines Feature Requests der Uni Basel gibt es nun auch ein Push-Interface{.postlink}, welches zusammen mit der /yacy/seedlist.json{.postlink} benutzt werden könnte, um einen externen Proxy für YaCy bereitzustellen, der den internen vollständig, mit allen Funktionen ersetzen kann.

Das Push-Interface könnte man nutzen um alles, was durch den Proxy geht zu indexieren und die Seedlist kann man für die Auflösung der virtuellen TLD .yacy und .yacyh benutzen.

Irgendwie witzig, man könnte YaCy in einer ungefähr 9 Jahre alten Version nehmen (oder den aktuellen), alles zur Suche entfernen und nur eine Client-Schnittstelle zu den beiden o.g. APIs machen, und man hätte dann genau so einen externen Proxy. Will das mal einer versuchen?

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 11:59 am


Suchmaschinen • Re: Zukunftsfähige digitale Ökosysteme im Post-Google-Zeital

Date: 2014-10-17 13:05:58

ich habe lustigerweise zeitgleich einen erhöhten Zugriff auf yacy.net wahrgenommen, ob es dazu einen Zusammenhang gibt ist aber nicht belegbar. Vielen Dank aber für den Blog-Artikel!

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 12:05 pm


English • Re: Queries per hour reporting

Date: 2014-10-17 13:11:34

ah, yes the QPH is difficult to explain. As we constructed the feature, we wanted to avoid that the real number of queries that a peer submits in the P2P network is visible. If the number of queries is counted on the local peer, it would be visible that these queries happend. Instead, we count the number of queries at the remote peers. It works like this:

- your peer makes a p2p query to X peers
- within each query to remote peers, the remote peer gets the number X of all queries peers submitted
- the remote peer increases the number of queries in the local QPH counter by 1/X
- if we sum up the number of remote queries over all peers then X * (1/X) is added for each query Qn for n queries in the network, which should result in the number n.

This causes the strange number of QPH in your peer, because it does not count the queries you made but just a summed-up fraction of queries other made.

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 12:11 pm


English • Re: java.io.IOException error

Date: 2014-10-17 13:27:13

I was able to reproduce this problem. During debugging I found a hint to the actual problem which is described in http://teknosrc.com/javax-net-ssl-sslpr ... me-solved/{.postlink} which means this appears only in Java 1.7. Since we are forced to use Java 7 now, I made the suggested fix which is up in https://gitorious.org/yacy/rc1/commit/1 ... d8070d806d{.postlink}

please upgrade to yacy_v1.81_20141017_9106 which includes the fix.

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 12:27 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:28:37

Hallo Orbiter,

das hört sich ja interessant an! Jedoch sind meine Kenntnisse der englischen Sprache \“etwas\” eingerostet, da ich das seit dem Ende meiner Schulzeit vor inzwischen über [[30]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahren kaum mehr benötigt habe.

Ich muß allerdings sagen, daß mir der eigene Proxy doch etwas lieber ist wie ein externer. Ich habe gerne selbst die Kontrolle darüber was da passiert, auch wenn das nicht immer klappt.

Außerdem stellt sich mir dabei die Frage, ob YaCy auf Dauer dann noch eine dezentrale Suchmaschine bleibt. Wenn alle eventuell irgendwann nur noch auf [[\“den einen\“]{style=“font-style: italic”}]{style=“font-weight: bold”} zentralen Proxy-Server zugreifen würden, dann hätten wir nämlich wieder eine \“normale\” Suchmaschine und das ursprüngliche dezentrale Prinzip von YaCy wäre gestorben!

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 12:28 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:29:56

neinnein, es geht nicht um einen zentralen Proxy sondern um ein Add-On das du dir neben YaCy installieren würdest.

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 12:29 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:42:21

Hallo,

TmoWizard hat geschrieben:\ Es gibt dort außer mir [([[P-C-I]{style="font-weight: bold"}]{style="color: #40BF00"})]{style="font-style: italic"} kaum jemanden, bei denen der Crawler überhaupt erlaubt oder aktiv ist! Obwohl ich mit diesem Rechner nebenbei auch arbeite habe ich YaCy so eingestellt, damit auch andere etwas davon haben.\

Dort ist die Rede vom \“akzeptieren von Remote-Crawl-Aufträgen\“, das meint das der jeweilige Peer bereit ist von anderen Peers Crawl-Aufträge anzunehmen damit die Crawl-Last auf mehrere Peers verteilt werden kann. Dieses Feature ist meiner Meinung nach das Feature einer [verteilten]{style=“text-decoration: underline”} Suchmaschine. Aus technischer Sicht sollte dieses Feature bei allen Peers per default eingeschaltet sein (wenn das Problem mit dem User-Agent gelöst wäre) aber aus rechtlicher Sicht (wegen der Haftung für die eigene IP-Adresse wenn diese plötzlich in den Logs von Servern auftaucht auf denen man besser nicht sein sollte) ist es in Ländern wie Deutschland faktisch unmöglich dieses Feature zu aktivieren.

Ob der betreffende Peer den eigenen Crawler mit eigenen Jobs beauftragt ist in den von Dir verlinkten Listen nicht ersichtlich (diese Information verbreitet kein YaCy-Peer).

TmoWizard hat geschrieben:\ Sinn und Zweck einer Suchmaschine ist ja wohl, daß sie so viele Suchtreffer wie möglich ergibt.\

Ganz genau, und deswegen ist das brutale crawlen möglichst kompletter Web-Sites auch so wichtig. Schließlich sind die besten Suchtreffer nicht immer nur in den Seiten vorhanden die Du (oder jemand anderes) bereits besucht hast.
Das \“nebenbei crawlen\” erzeugt nur eine Art durchsuchbare Browsing-History aber eben keine vollständige Sicht aufs Web (okay das geht sowieso nicht dafür ist das Web viel zu groß). Meiner Meinung nach ist das \“nebenbei crawlen\” wichtig um den Index möglichst aktuell zu halten und stellt ein unverzichtbares Feature dar aber es ist nur ein Teil des Gesamtsystems \“Suchmaschine\“.

tinkerphone hat geschrieben:\ Warum braucht crawlen aber so viel mehr \"power\"? Einfach weil der crawler viel viel schneller sites besucht als du surfen kannst.\

Richtig, wobei ich bei mir (mit einem relativ dicken PC) festgestellt habe das die Hauptbremse die Limitierung auf maximal 2 Seiten pro Sekunde ist. Deswegen hätte ich gerne eine alternative Limitierung die sich in Bytes pro Sekunde einstellen lässt.
\@Orbiter:
wäre sowas möglich? also eine alternative Limitierung in Bytes pro Sekunde

flegno hat geschrieben:\ Ich bin im www unterwegs, erledige meine tägliche Arbeit und kann mich darauf verlassen \....\

Das wäre bei der Lösung mit dem AddOn in gleicher Weise gegeben. Das ist meiner persönlichen Meinung nach kein Argument für den Proxy in YaCy.

flegno hat geschrieben:\ >
> > Erik\_S hat geschrieben:Auf der anderen Seite kann ich natürlich > verstehen warum die Leute (und auch ich) keine Remote-Crawls > akzeptieren wollen, wer weiß schon was für URLs da so alles kommen > und auf was für Servern man damit die eigene IP-Adresse im Logfile > hinterlässt (vom User-Agent mal abgesehen).\ > >

Ich muss zugeben, ich blicke hier nicht durch, ob und wie eng das wichtige Thema \“Crawl-Missbrauch\” mit dem \“YaCy als Proxy?\“-Thema verknüpft ist. Falls die Verzahnung dieser Themen kein Zwang ist, bin ich dafür, diese Themen getrennt, in separaten Threads zu diskutieren.

Es geht darum dass das Feature \“Remote Crawls\” die Last des Crawlens über mehrere Peers verteilen würde und damit den einzelnen Peer entlasten könnte. Damit wäre es für viele Betreiber eines Peers eventuell doch interessant richtige Crawl-Jobs aufzusetzen. Ohne die Remote-Crawls wird nur der Index selber über alle Peers verteilt, mit den Remote-Crawls wird auch die Last des Crawlens über alle Peers verteilt, das wäre eine super Demonstration des Aspekts \“Verteilt\“. Aber leider stehen dieser technisch guten Lösung politische Probleme im Weg, nur allein das wollte ich zum Ausdruck bringen. Das ist auf jeden Fall kein Argument für oder gegen einen Proxy in YaCy.

flegno hat geschrieben:\ Erfahrung, Wahrnehmung mit/der Addon-Implementierung aber ist, dass diese wahrscheinlich wartungsintensiver\

Ja, das ist wohl war. Das ist meiner Meinung nach das einzigste echte Argument das für den Proxy und gegen AddOns spricht. Auf der anderen Seite muss man auch klar sagen dass das Entwickeln von AddOns nicht so extrem aufwendig ist dass das wirklich ein K.O.-Kriterium wäre. Nebst dessen das die Implementierung eines Proxy in YaCy ebenfalls einen gewissen Aufwand darstellt (und auch Potential für Fehler bietet wie die 403-Fehler zeigen).

flegno hat geschrieben:\ Ich bin dafür, dass die Entscheidung in der Frage \"YaCy als Proxy\" im Entwicklerteam, in der YaCy-Community im breiteren konzeptuellen Kontext betrachtet wird.\

Ja, da bin ich absolut dafür.
Es sollten aber [alle]{style=“text-decoration: underline”} relevanten Aspekte berücksichtigt werden. Dazu gehört ebenfalls die Frage welche Lösung langfristig überhaupt einen angemessenen Nutzen bringen wird. Und da sieht es für den Proxy im Zusammenhang mit verschlüsselten Web-Seiten schlecht aus, dieses Problem ist nur mit einem AddOn lösbar. Darüber hinaus sollte auch nach Nebenwirkungen der einzelnen Möglichkeiten gefragt werden. Da hat der Proxy ebenfalls das nachsehen, er bietet mehr potentielle Probleme wie z.B. den 403-Fehler oder unbeabsichtigte Fehlkonfiguration die zu einem offenen öffentlichen Proxy führen (siehe http://forum.yacy-websuche.de/viewtopic.php?t=5411).

flegno hat geschrieben:\ Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.\

Auch wenn der Proxy mit zunehmender Verschlüsselung der Web-Seiten immer weniger Nutzwert bringt?
Die Kosten für ein anständiges SSL-Zertifikat sinken seit Jahren permanent und mit HTTP 2 soll Verschlüsselung zum \“Must-Have\” werden. Als User im Internet bin ich von dieser Entwicklung sehr erfreut. Chromium und Firefox binden bereits eine Liste von Domains ein die nur noch verschlüsselt erreichbar sein sollen, das heist der Browser weigert sich diese Domains ohne Verschlüsselung anzusteuern. Diese Liste ist zwar zur Zeit noch recht überschaubar aber ich hoffe sehr dass das nicht lange so bleibt.

flegno hat geschrieben:\ auf die Einschränkung \"YaCy ist \_nur\_ ein p2p-Netzwerk.\" verzichtet und als Ziel \"YaCy ist ein Netzwerk.\" anvisiert\

Könntest Du das Bitte mal etwas erläutern. Ich verstehe nicht welche \“Einschränkung\” eine [P2P]{style=“text-decoration: underline”}-Suchmaschine hat bzw. was mit \“YaCy ist ein Netzwerk\” gemeint ist.

Orbiter hat geschrieben:\ kann man für die Auflösung der virtuellen TLD .yacy und .yacyh benutzen\

Wenn ich das nächste UpDate meines Analyse-Tools durchführe ist das bereits enthalten, dann werden auch die URLs /forward?hash=.… und /forward?name=.… richtig funktionieren (die sind bereits in der aktuellen Version des Tools enthalten liefern aber noch keine korrekten IP-Adressen oder unnötige Fehler, probiers ruhig mal aus). Die Funktionalität als richtiger HTTP-Proxy, also durch Auswertung des Host-Feldes im HTTP-Request und durch Support für CONNECT, kommt als nächstes.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 12:42 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:52:53

Hallo,

TmoWizard hat geschrieben:\ >
> > Erik\_S hat geschrieben:Auf der anderen Seite kann ich natürlich > verstehen warum die Leute (und auch ich) keine Remote-Crawls > akzeptieren wollen, wer weiß schon was für URLs da so alles kommen > und auf was für Servern man damit die eigene IP-Adresse im Logfile > hinterlässt (vom User-Agent mal abgesehen).\ > >

Du hast mit diesem einen einzigen Satz den Crawler als für dich nicht brauchbar erklärt, obwohl du für den Crawler bist!

Äh, nein. Den Unterschied zwischen eigenen Crawl-Jobs und Remote-Crawls habe ich ja schon erklärt.

Bei eigenen Crawl-Jobs bleibt der Crawler meines Wissens nach immer in der vorgegebenen Domain, egal welche Suchtiefe eingestellt wurde. Zumindest habe ich bisher noch nichts anderes beobachtet.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 12:52 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:53:28

Orbiter hat geschrieben:\ neinnein, es geht nicht um einen zentralen Proxy sondern um ein Add-On das du dir neben YaCy installieren würdest.\



Dann stellt sich mir wieder die Frage, was denn einfacher zu warten ist:

  1. YaCy in seiner jetzigen Form für alle Systeme und Browser[(Java!)]{style=“font-style: italic”}
  2. YaCy [[und]{style=“font-style: italic”}]{style=“font-weight: bold”} ein Add-on für keine Ahnung wie viele Browser und Betriebssysteme


Meine Programmierkenntnisse [(C, C++, Basic, Assembler)]{style=“font-style: italic”} sind zwar nicht besonders gut und auch ziemlich veraltet, aber ich sehe hier den klaren Vorteil bei der jetzigen Situation! Systemunabhängig zu programmieren ist nicht gerade ein Kinderspiel, von den verschiedenen Browsern mal ganz zu schweigen.

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 12:53 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 13:57:22

Hallo Erik!

Erik\_S hat geschrieben:\ Bei eigenen Crawl-Jobs bleibt der Crawler meines Wissens nach immer in der vorgegebenen Domain, egal welche Suchtiefe eingestellt wurde. Zumindest habe ich bisher noch nichts anderes beobachtet.\



Nö, dann hätte ich niemals die derzeitige Menge an Links/Dokumenten in meinem Index! Wie hätte ich denn in den paar Wochen [[~11.000.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Websites besuchen sollen, das geht ja gar nicht!

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 12:57 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 14:03:09

Ich meine Crawl-Jobs die man explizit auf der Web-Oberfläche des YaCy-Peers eingibt und keine Jobs die per \“nebenbei crawlen\” entstehen. Aber ich weiß das nicht wirklich genau, ich beschreibe nur was ich bisher beobachtet habe.
\@Orbiter:
könntest Du Bitte erklären welche Art von Crawl-Jobs sich wie verhalten

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 1:03 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 14:04:38

Erik\_S hat geschrieben:\ \@Orbiter:\ könntest Du Bitte erklären welche Art von Crawl-Jobs sich wie verhalten\



Gute Idee, ich blick da nämlich auch nicht richtig durch!

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 1:04 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 14:17:30

Hallo,

es scheint in YaCy eine große Vielfalt an Möglichkeiten zu geben wie Crawls initiiert werden können:

  1. händisch eingegebener Crawl-Job, z.B. für eine komplette Domain
  2. \“nebenbei crawlen\” per Browser-AddOn (per vieler einzelner URLs)
  3. Push-Interface (für einzelne URLs oder ganze Domains? mit welcher Suchtiefe?)
  4. Proxy, hier wird alles indexiert was \“vorbei fliegt\” und natürlich unverschlüsselt ist (was passiert mit Binärdateien und allem anderen was ebenfalls durch den Proxy geht?)

Es wäre schön hierzu mal eine möglichst vollständige Auflistung zu haben was wie funktioniert und welche Optionen (Suchtiefe / weitere Domains / .…) bietet.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 1:17 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-17 14:26:31

Ach ja: Es ist hier schon öfter von dem Add-on die Rede gewesen, was hat es denn eigentlich damit auf sich?

Statistik: Verfasst von TmoWizard — Fr Okt 17, 2014 1:26 pm


Mitmachen • LinuxTag 2015

Date: 2014-10-17 16:05:55

Nicht völlig aus heiterem Himmel: Fällt aus, zumindest in Berlin: http://www.heise.de/open/meldung/LinuxTag-faellt-2015-aus-2426450.html

Vielleicht sollte ich mir wirklich mal anschauen, wie ich am besten nach Chemnitz{.postlink} komme. ;)

Statistik: Verfasst von Low012 — Fr Okt 17, 2014 3:05 pm


Mitmachen • Re: LinuxTag 2015

Date: 2014-10-17 16:33:10

wundert mich irgendwie nicht so. Schon dieser Witz mit den 150€ Eintritt der deswegen so teuer sei wegen dem Catering. :o Da weiss man schon gar nicht wie man das kommentieren soll. ich denke der LT2015 fällt nicht nur aus, es wird keinen mehr geben.

Es gibt doch andere schöne Hack-Events, mal abgesehen vom 31C3 (wo ich ein talk proposal eingereicht habe... :roll: ) können wir hier ja mal eine Liste von Ersatzveranstaltungen machen. Rückblickend war der Linuxtag vor allem ein Community-Treffpunkt der für die Vernetzung innerhalb der Projekte ganz gut war.

also der Chemnitzer Linuxtag ist schon mal total super, immer! mehr Vorschläge?

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 3:33 pm


Fragen und Antworten • Seed-List defekt

Date: 2014-10-17 16:46:41

Hallo,

mir sind gerade Fehlermeldungen meines Analyse-Tools aufgefallen das die Anführungszeichen bei manchen Feldern fehlen und ein manuelles nachschauen hat ergeben das dem tatsächlich so ist.
Bei mehreren Peers mit Version 1.81009106 sind die Felder \“Hash\” und \“Address\” bei allen Peers in der Seed-Liste defekt.

Code:
"Hash":0000000000,"Address":["0.0.0.0:8090"]

(die 0en hab ich geändert, der eigentliche Inhalt der Felder ist korrekt nur die Syntax ist defekt)

Wie die anderen Peers darauf reagieren weiß ich natürlich nicht aber für mein Tool sind die betreffenden Peers nicht mehr online da sie auch sich selbst (im ersten Eintrag der Seed-Liste) nicht mehr korrekt melden.

Alle anderen Felder sind korrekt. Meiner Meinung nach kann das Feld \“Address\” komplett entfallen aber das Feld \“Hash\” muss in jeden Fall repariert werden.
Und wenn eh gerade was geändert wird, ich möchte noch einmal darum Bitten bei den IPv6-Adressen die Interface-Identifier zu entfernen.
In der Seed-Liste die ich gerade manuell durchgesehen hab war aber auch ein Peer dabei der eine IPv4-Adresse im Feld \“IP6\” und eine IPv6-Adresse (mit Interface-Identifier) im Feld \“IP\” hat (und beides im Feld \“Address\” ganz komisch zusammen aber dafür ohne Interface-Identifier).

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 17, 2014 3:46 pm


Suchmaschinen • Re: Zukunftsfähige digitale Ökosysteme im Post-Google-Zeital

Date: 2014-10-17 19:34:10

Orbiter hat geschrieben:\ ich habe lustigerweise zeitgleich einen erhöhten Zugriff auf yacy.net wahrgenommen, ob es dazu einen Zusammenhang gibt ist aber nicht belegbar. Vielen Dank aber für den Blog-Artikel!\


Na ja ich habe mich bemüht die Reichweite meiner Botschaften zu maximieren und habe diese EMail:

\ Betreff: Zukunftsfähige digitale Ökosysteme im Post-Google-Zeitalter\ Datum: Tue, 14 Oct 2014 10:09:56 +0200\ Von: Gustav Wall \\ An: Medienliste\ \ \--\ Sehr geehrte Damen und Herren,\ \ \ Der Bundeswirtschaftsminister Sigmar Gabriel trifft sich heute, am\ 14.10.2014, im Rahmen der Veranstaltung „Wirtschaft für morgen" im\ Bundesministerium für Wirtschaft und Energie mit Google-Chef Eric\ Schmidt - \"Macht die Massenüberwachung das Internet kaputt?\"\ 09.10.2014 -\ [http://www.giga.de/unternehmen/google/n \... et-kaputt/](http://www.giga.de/unternehmen/google/news/macht-die-massenueberwachung-das-internet-kaputt/){.postlink}\ . Passend dazu und unabhängig davon (m)ein Blog-Artikel\ \"Zukunftsfähige digitale Ökosysteme im Post-Google-Zeitalter\",\ 13.10.2014 - .\ \ Ich würde mich freuen, wenn sie das Thema \"Zukunftsfähige digitale\ Ökosysteme im Post-Google-Zeitalter\", \"Recherche-Kultur im\ Post-Google-Zeitalter\" beleuchten werden.\ \ mit freundlichen Grüßen\ \...\


an insgesamt 43 Empfänger u.a. an die ausgewählte Empfänger dieser Medienliste{.postlink} gesendet :P. Falls die Wirkung gar in den Zugriffstatistiken messbar ist, freut es mich umso mehr ;) .

gruss, flegno

Statistik: Verfasst von flegno — Fr Okt 17, 2014 6:34 pm


Mitmachen • Re: LinuxTag 2015

Date: 2014-10-17 19:38:49

Orbiter hat geschrieben:\ also der Chemnitzer Linuxtag ist schon mal total super, immer! mehr Vorschläge?\


Habe heute damit Treffpunkt Netz – suchen, handeln, entspannen{.postlink} u.a. für YaCy auf Linux-Informationstagen Oldenburg{.postlink} die Werbetrommel gerührt.

Statistik: Verfasst von flegno — Fr Okt 17, 2014 6:38 pm


Suchmaschinen • Re: http://google-nein-danke.sprechrun.de

Date: 2014-10-17 20:18:08

Ah und die Besucher der Webste [gimpforum.de]{style=“font-style: italic”}, wo ich in den letzten Wochen unterwegs gewesen bin, dürften auch für YaCy-Botschaften empfänglich sein und zu den Zugriffstatistiken beigetragen haben

Das Bild ist das Ergebnis der Teamarbeit{.postlink} auf gimpforum.de. Ich habe dem Wettbewerber-Projekt extra eine Website/Subdomain gewidmet
http://google-nein-danke.sprechrun.de/ .

Statistik: Verfasst von flegno — Fr Okt 17, 2014 7:18 pm


Fragen und Antworten • Re: Seed-List defekt

Date: 2014-10-17 21:36:47

ups die hashes waren kaputt, habs gerade gefixt. Das Address-Feld sollte ok sein, das ist nun eine Liste.
Ich weiss dass du das Feld nicht willst, aber ich habe es im XML hinzu genommen weil man das schön grepen kann zur Weiterverarbeitung, im JSON ist es nur aus symmetrie drin. Solange es nicht technisch stört würde ich es gerne drin behalten, auch wenn die Information Redundanz hat.

Statistik: Verfasst von Orbiter — Fr Okt 17, 2014 8:36 pm


Fragen und Antworten • Blacklist

Date: 2014-10-18 00:21:57

Hallo!

Ich versuche den Datenschrott beim Crawlen draußen zu halten.
Dafür würde ich gerne die Liste
http://www.axmo12.de/yacy/axel.black

importieren.

Weder ist ein Laden von der URL möglich noch ein Import von der Textdatei.

Was kann ich tun?

Das nutzen von Blacklists würde das Crawlen insgesammt effektiver machen und dem Gesamtindex nutzen!
Auch wäre es toll, wenn man die Listen von
http://www.squidguard.org/blacklists.html
übernehmen könnte.

Greets

Dirk

Statistik: Verfasst von Adama — Fr Okt 17, 2014 11:21 pm


Fragen und Antworten • Re: Blacklist

Date: 2014-10-18 01:40:21

Gleich zu Anfang kommt Amazon, das ist ja wohl ein schlechter Scherz! Wenn ich was mit YaCy suche, dann sollte da Amazon natürlich ebenfalls mit dabei sein. Auch der Heise-Verlag ist mit dabei und noch einige andere, die garantiert nicht in eine Blacklist gehören.

Solche Listen kann man bei einer dezentralen Suchmaschine sowieso nur auf dem eigenen Rechner einsetzen, einen anderen Peer interessieren diese Listen mal gar nicht. Oder man verwendet sie gleich systemintern, z. B. im Router, dann bekommst du sie gar nicht mehr zu sehen und dein YaCy kann auch nicht darauf zurückgreifen!

Öhm... gerade auf der Liste gesehen:

axel.black hat geschrieben:\ \*.comdirect.nl/.\*\



Da ist ja die komplette niederländische comdirect Bank gesperrt, soll das ein Witz sein? YaCy wird auch in den Niederlanden verwendet, würdest du die alle aus ihrer Bank aussperren wollen, oder was? :shock:

Statistik: Verfasst von TmoWizard — Sa Okt 18, 2014 12:40 am


English • Re: Demo portal has got too many connections

Date: 2014-10-18 08:10:01

Erik_S,

I created a web forward to your url it did not work at first so I did one other action then it worked.

Is it possible for you to create a random list and then step thru them one by one because while I was testing I hit 1 server 4 times out of 64?

Some are very slow in loading the search page even one dead, search.yacy.de loads in 1.8 seconds.

It might be a good idea if you have a list of subscribers that users can register with you if they want to be on the random list.

Statistik: Verfasst von smokingwheels — Sa Okt 18, 2014 7:10 am


Fragen und Antworten • Re: Seed-List defekt

Date: 2014-10-18 08:50:50

Hallo,

Orbiter hat geschrieben:\ habs gerade gefixt.\

Ja, ist wieder okay.

Orbiter hat geschrieben:\ Das Address-Feld sollte ok sein, das ist nun eine Liste.\

Naja, Du zerstörst damit die allgemeine Syntax der Liste. Ich würde folgendes bevorzugen:

Code:
"Address":"0.0.0.0:8090|[2003::3002]:8090",

Die Pipe als Trenner in der Liste ist okay (so wie im Feld \“IP6\“) da sie weder in IPv4-Socket-Adressen noch in IPv6-Socket-Adressen vorkommt. Die eckigen klammern als Umschließendes Element empfinde ich als kritisch da diese in den IPv6-Adressen ebenfalls vorkommen.
Das aus meiner Sicht kritischste Problem ist aber das es plötzlich ein einzelnes Feld gibt das die Anführungszeichen nicht mehr als komplett umschließendes Element für Feld-Name und Feld-Inhalt hat, das zerstört die Gesamtsyntax.
Ob ich persönlich das Feld \“Address\” mag oder nicht spielt doch keine Rolle, mein Tool ignoriert dieses Feld einfach, wichtig ist primär das der Basis-Parser für alle Felder einheitlich bleiben kann.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Okt 18, 2014 7:50 am


Fragen und Antworten • Re: Blacklist

Date: 2014-10-18 09:02:22

Hallo,

auch ich interessiere mich für das Einbinden von umfangreichen Blacklists, mir geht es dabei aber vor allem um Dinge die ich wirklich nicht auf meiner Festplatte haben möchte (also primär Pornos und schlimmeres, aber auch Werbe-Server u.ä.).
YaCy ist doch so eine Art \“abfragbare Link-Liste\” und wenn ich mir ansehe wie die Betreiber anderer Link-Listen (z.B. der Piraten-Bucht) von den Justizbehörden dieser Welt behandelt werden dann will ich es auf gar keinen Fall riskieren ähnliche Erfahrungen zu machen. Es geht mir also darum das der von mir betriebene YaCy-Peer unter keinsten Umständen Links auf Seiten ausliefert (egal ob per WWW-Suchmaske oder DHT-Transfer oder Remote-Query) die eventuell von den Behörden beanstandet werden können.

Daher mal eine Frage:
Funktioniert es den lokalen Index regelmäßig zu säubern? Ohne die Hash-Werte zu löschen sondern nur einzelne Links zu entfernen (egal welchem Hash-Wert die zugeordnet sind).
Ist also der Index gezielt und effizient nach den Links durchsuchbar?

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Okt 18, 2014 8:02 am


English • Re: Demo portal has got too many connections

Date: 2014-10-18 10:35:13

Hello,

smokingwheels hat geschrieben:\ Is it possible for you to create a random list and then step thru them one by one because while I was testing I hit 1 server 4 times out of 64?\

Are the 4 times uniformly distributed over the 64 tries? What is the over-all time of the 64 tries?
The Random-List works in this way: there are two small Lists (one for IPv4 and one for IPv6) and every first \“working\” IPv4-Address and every first \“working\” IPv6-Address of each running Peer is inserted in this Lists (each List has a cycling Write-Pointer), then you call the \‘/forward?random\’ Servlet it selects per random one of the IP-Addresses (the List is selected by the IP-Version of the incoming HTTP-Request, my Server is fully dual stacked) and returns a HTTP-307-Redirect.

smokingwheels hat geschrieben:\ Some are very slow in loading the search page even one dead\

I can add a test for the response-time of the complete transfer of the entire Seed-List and only use Peers for the Random-List that send their Seed-List in lesser than 3 seconds. Is this okay?
But this is a trade-off between a wide variety of Peers and a selection for \“high-quality\” Peers. Is in your opinion the load-time of the majority of Peers fast enough?
What was the symptom of the one \“dead\” Peer?
My random List is filled only with IP-Addresses that are positive tested within the last approximately 30 seconds. But i must say 1 fail on 64 tries is a good result for a distributed system that contains mostly Peers on private Home-Computers.

smokingwheels hat geschrieben:\ It might be a good idea if you have a list of subscribers that users can register with you if they want to be on the random list.\

You mean an opt-in? I think this is the opposite of the goal of my current random Selection.
I would prefer a list with \“special announced\” YaCy-Peers on yacy.net, this List can be a List of Links as

Code:
<a href="http://130.255.73.69:5353/forward?name=Peer-Name">Peer-Name</a>

The Forwarder for Peer-Names and Peer-Hashs is present in my Tool but do not work correctly, in the Source-Code this problem is well fixed but i will finish an other important Feature prior to updating my Tool on the Server.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Okt 18, 2014 9:35 am


Fragen und Antworten • Re: Seed-List defekt

Date: 2014-10-18 11:37:06

Das ist valides json, so wie es ist, nicht \‘kritisch\’ weil da eckige Klammern sind, weiss nicht warum ich da einen pipe nehmen soll. Dann müsste man das ja wieder extra parsen.

Statistik: Verfasst von Orbiter — Sa Okt 18, 2014 10:37 am


Fragen und Antworten • Re: Seed-List defekt

Date: 2014-10-18 12:06:15

Hallo,

das Basis-Format war bisher

Code:
"Field-Name":"Field-Value"

(also die Anführungszeichen haben sowohl den kompletten Namen umschlossen als auch den kompletten Content) und daran hast Du etwas geändert.
Warum führst Du für eine weitere Aufzählung ein neues Format ein? In \“IP6\” ist doch bereits eine Aufzählung mit einem Format das sich mit der bisherigen Basis gut verträgt.
Ich verstehe Deine Design-Entscheidung einfach nicht, meiner persönlichen Meinung nach ist diese Design-Entscheidung ein \“Symetriebruch\” (für den es keinen Grund gibt).

Kommen mit dem neuen Format eigentlich die alten Peers noch zurecht?
Ich beobachte auf jeden Fall das die erreichbaren Peers derzeit weniger \“online\“-Peers kennen als gestern.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Okt 18, 2014 11:06 am


Mitmachen • Re: Die richtige Konfiguration

Date: 2014-10-22 15:36:24

Dann auch von mir einige Daten zu meiner YaCy Instanz, vielleicht helfen die Infos ja dem ein oder anderen bei der Planung/Konfiguration der YaCy Ressourcen:

Ich betreibe derzeit eine YaCy Installation als virtuelles System auf meinem Arbeitsrechner zu Hause.
Die Virtualisierung erfolgt dabei mit KVM unter \‘Debian testing\‘.

[BS/Ressourcen für die YaCy VM:]{style=“text-decoration: underline”}
RAM 2 GB (16 GB verfügbar)
CPU 2vCPU (auf AMD Athlon™ II X4 640 Processor 2.9 GHz)
Plattenplatz für YaCy: 40 GB
Betriebssystem CentOS 6.5

[YaCy Konfiguration entspricht den Standard-Einstellungen, außer:]{style=“text-decoration: underline”}

Memory reserved for JVM 1600 MB
50_localcrawl_loadprereq=8.0
70_surrogates_loadprereq=8.0
60_remotecrawlloader_loadprereq=8.0

Die *loadprereq Werte stehen standardmäßig auf 2, wenn ich mich recht entsinne.
Hier war eine Anpassung notwendig, da die Systemlast relativ häufig auf mindestens 2, teilweise auch auf 3 war und aufgrund der Standardwerte z.B. der Crawler die Arbeit eingestellt hatte.

Es kommt die YaCy Version 1.689000 zum Einsatz, ist also keineswegs aktuell.

Die Yacy Instanz ist als Robinson Peer konfiguriert und erfasst derzeit ca. 3400 verschiedene Urls mit verschiedenen Crawltiefen von 0 bis maximal 4. Die Crawlaufträge werden dabei über ein externes Perl-Skript Cron-gesteuert über die HTTP-API von YaCy abgesetzt. Bei entsprechender Anzahl an verschiedenen CrawlJobs und der zu erfassenden Dokumente, kommt Yacy bei dieser Konifguration auf teilweise über 350 Dokumente/Minute, wobei sicherlich noch wesentlich mehr gehen würde.

Die VM mit YaCy läuft permanent, sobald mein Arbeitsrechner an ist. Ich habe auch keinerlei negativen Wechselwirkungen zwischen meinem Arbeitsrechner und der VM feststelen können, obwohl ausserhalb der VM zusätzlich noch 3 Boinc Clients (jeder auf einem Core) permanent ihr Unwesen treiben. Ganz abgesehen von z.B. sehr häufig genutzten Anwendungen wie GIMP, Firefox, Thunderbird und Office.

Statistik: Verfasst von freak — Mi Okt 22, 2014 2:36 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-22 16:53:07

Erik\_S hat geschrieben:\ \[\...\]\ ich würde es als praktischer empfinden wenn bei der ersten \"Benutzung\" der Suchmaske die Seite des YaCy-Peers aus dem Frame-Set ausbricht und das Browser-Fenster komplett übernimmt so das ab dann mein Tool außen vor bleibt und der Neuladen-Button auch nicht mehr einen anderen Peer auswählt. Wenn jemand über ausreichend HTML-Kenntnisse verfügt und mir einen passenden Tipp geben kann wäre ich sehr dankbar.\

Erik\_S hat geschrieben:\ Die Frage ist nun wie ich das Attribut target=\"\_top\" in alle Links der YaCy-Suchseite bekomme\

rein technisch dürfte das nicht das Problem sein, in den Templates bzw. im Servet das anzupassen - vermute ich mal - vorausgesetzt das Verhalten der Links passt in das Gesamtszenario.

Erik\_S hat geschrieben:\ und ob das auch mit dem Form-Element (also dem Such-Button) funktioniert.\

diese Frage habe ich nicht verstanden.

Und ich bin unsicher, ob ich dein Gesamtszenario also erwartetes Verhalten der Webseite verstanden habe bzw. nach meinem Verständnis enthält deine Beschreibung Widersprüche:

Sobald in der Adresszeile dank target=\”_top\” die Adresse des Peers eingeblendet wird, werden doch keine andere Peers mehr mit F5 mehr geladen? Oder habe ich deine Beschreibung falsch interpretiert. Wenn du hier http://etherpad.yacy.net/p/random-frame-set dein Szenario inkl. die Verwendung von F5 präzisierst, wäre es einfacher nach Lösungen und Lösungsansätzen zu suchen.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 22, 2014 3:53 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-22 18:04:51

Hallo,

das Ausbrechen soll erst dann passieren wenn tatsächlich ein Link innerhalb der Defaul-YaCy-Seite geklickt wird (und sei es auch nur der Link ins Administrationsmenü) und vorher soll das Neuladen auch das Frame-Set von meinem Server neu anfordern womit dann auch ein neuer zufälliger YaCy-Peer eingebunden wird.
Ich könnte mir vorstellen das ich per Java-Script in alle Links der YaCy-Seite das Attribut target=\”_top\” einbaue oder das dieses Attribut eventuell schon vorhanden ist weil ich vom YaCy-Peer nicht die URL \“/\” sondern \“/?linktarget=_top\” aufrufe und das Servlet in YaCy alle Links selber anpasst.
\@Orbiter:
Ist die zweite Variante möglich oder siehst Du da Probleme?

Das Form-Element in der HTML-Suchseite von YaCy ist der Eingabe-Schlitz für die zu suchenden Wörter mit dem zugehörigen Button. Wenn der Button geklickt wird (oder innerhalb des Eingabefeldes Enter gedrückt wird) wird kein normaler Link aufgerufen sondern die Verknüpfung die im einleitenden <form>-Tag enthalten ist. Laut http://de.selfhtml.org/html/formulare/definieren.htm#zielfenster funktioniert da aber ebenfalls das Attribut target also sollte auch das kein Problem sein.

Jetzt muss das nur noch umgesetzt werden und es gäbe eine YaCy-Suchseite hinter der sich immer ein zufälliger YaCy-Peer verbirgt. Das wäre ein guter Load-Balancer für YaCy und damit eine ideale Einstiegsseite für Suchende die keinen eigenen YaCy-Peer betreiben können/wollen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 22, 2014 5:04 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-10-22 18:20:40

Hallo,

der Forwarder verkraftet nun auch das vorgeben eines bestimmten YaCy-Peers an den der User weitergeleitet werden soll.
Einfach per .htsccess o.ä. auf die Adresse http://130.255.73.69:5353/forward?name=.... oder http://130.255.73.69:5353/forward?hash=.... weiterleiten, \”.…\” ist dabei natürlich mit dem Namen oder Hash des gewünschten YaCy-Peers zu ersetzen.
Das entspricht der Variante 1 von weiter oben in diesem Thread.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 22, 2014 5:20 pm


Mitmachen • Re: Die richtige Konfiguration

Date: 2014-10-22 20:01:08

Hallöchen freak,

dein Name ist Programm, oder? Deine Beschreibung kann nur einem erfahrenem Benutzer dienlich sein, ich möchte YaCy allerdings für einfache Anwender zugänglich machen! Wer bitte hat schon zuhause KVM? Das ist eine Kernel-basierende Virtuelle Maschine -> Linux, die meisten Leute haben allerdings Windows. Für diese ist es nur wichtig, welchen Prozessor sie mindestens benötigen, wie groß die Festplatte sein muß, wieviel RAM der Rechner haben sollte und wieviel sie davon YaCy geben müßen.

Außerdem werden Neueinsteiger wohl auch die neueste Version verwenden, womit deine speziellen Einstellungen eventuell keinen Wert mehr haben oder auch nicht mehr möglich sind. Ich wüßte jetzt auch gar nicht, wo ich diese finde. Sie sind also unnötig und verwirren einen normalen Anwender nur, selbes gilt auch für dein Script und den Cron-Job!

3.400 URLs? Ich habe inzwischen 10,9 Millionen hier! Eine Crawltiefe bis 4 und 350 PPM und so wenige Dokumente wundern mich echt nicht, Du crawlst da im Robinson Modus immer wieder die gleichen internen Dokumente mit deinem Script per Cron, das ist ja fast schon als lächerlich zu betrachten. 3.400 URLs bei 340 PPM hat man dann in ca. 10 Minuten fertig, der Webcrawler ist da schon ein ganz anderes Kaliber, der läuft über Stunden und Tage je nach Größe der Website und der vorhandenen Links! [[Hier mal die passende Rechnung dazu{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, also denk mal über deine Crawler nach.

Statistik: Verfasst von TmoWizard — Mi Okt 22, 2014 7:01 pm


Mitmachen • Re: Die richtige Konfiguration

Date: 2014-10-22 20:39:22

Ich denke, es gibt da ein paar Verständnisprobleme, die ich korrigieren möchte:

Wenn ich von 3400 verschiedene URLs rede, meine ich 3400 verschiedene Domains in der Form http://www.domain.com . Die 3400 steht also nicht für die Anzahl der im Index befindlichen Dokumente. Im Index befinden sich derzeit \“nur\” ca. 1,3 Mio Dokumente.

Was ich hätte noch dazu schreiben sollen, ist die Tatsache, das ich mit der YaCy Instanz zu Testzwecken lediglich einen Themen bezogenen Index aufbaue, womit sich für den Moment der Robinson-Modus erklärt.

\ \.... Du crawlst da im Robinson Modus immer wieder die gleichen internen Dokumente mit deinem Script per Cron, das ist ja fast schon als lächerlich zu betrachten\....\


Als lächerlich würde ich das nicht betrachten. Um auch aktuelle Informationen bzw. neue Dokumente der einzelnen Domains zubekommen, muss der Crawler natürlich wieder losgeschickt werden. Als Beispiel nimm eine News Seite, die täglich neue Nachrichten veröffentlicht. Wenn ich den Crawler heute los schicke, wird er natürlich nur die Dokumente erfassen, die aktuell verfügbar sind. Was ist aber mit den Dokumenten die morgen veröffentlicht werden? Da muss der Crawler letztendlich wieder losgeschickt werden, um die neuen Dokumente zu erfassen. Im einfachsten Fall passiert das über den YaCy internen Scheduler/Profil Editor -> [/CrawlProfileEditor_p.html]{style=“font-weight: bold”}, in meinem, zugegeben etwas speziellen Fall, erfolgt das erneute losschicken des Crawlers eben durch ein externes Skript über YaCy\’s HTTP-API.

Nachtrag:
Was die speziellen Konfigurationsparameter betrifft, diese findest man unter -> [/ConfigProperties_p.html]{style=“font-weight: bold”} bzw. direkt in der Konfigurationsdatei im Ordner [DATA/SETTINGS/yacy.conf]{style=“font-style: italic”}

\ \... dein Name ist Programm, oder?\...\


Manchmal schon ;)

Statistik: Verfasst von freak — Mi Okt 22, 2014 7:39 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-23 03:59:31

Erik\_S hat geschrieben:\ Hello,\ \ >
> > smokingwheels hat geschrieben:I have run a few tests and found the > yacy.mooo.com with freedns.org sometimes takes 10 to 25 seconds to > redirect.\ > >

How is this Forwarding-Service implemented? Is the HTML-Frame-Code generated (automagically) by freedns.org or by your hands.

smokingwheels hat geschrieben:\ My home router does not support IPv6.\

You should update, your router is 15 years in the Past.

smokingwheels hat geschrieben:\ Could you increase the time constraints by 30 to 40 % and see how that goes\

Do you mean i should increase the 3 second time limit to a 4 seconds time limit (for selecting \“fast\” Peers)?

smokingwheels hat geschrieben:\ I still get repeating peers when calling it 10 times in a row.\

If you query my Tool multiple times in a short time than this is normal. My tool has a small List with the last few positive tested Peers and it needs a time for replacing all Peers in this List with new ones. If you query multiple times inside this duration, than exist the possibility for obtaining the same Peer multiple times. In my Opinion, for typical Users this should not a Problem. If this is a real problem than i have the option for a bigger List, this results in more Peers for a random selection (makes a smaller possibility for the same Peer) but also it needs more time for replacing all Peers in this List and the Peers are outdated for a longer time (makes a higher possibility for offline Peers). I am not sure that is the ideal size of the List.

Greetings
Erik



Yes Increase the time limit to 4 seconds.

I think when the Yacy peer to peer network has less bugs in it for overloaded systems your system might be useful, I think its a good idea though as mobile users could use it.

Statistik: Verfasst von smokingwheels — Do Okt 23, 2014 2:59 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-23 08:14:33

Hallo,

Erik\_S hat geschrieben:\ Jetzt muss das nur noch umgesetzt werden und es gäbe eine YaCy-Suchseite hinter der sich immer ein zufälliger YaCy-Peer verbirgt. Das wäre ein guter Load-Balancer für YaCy und damit eine ideale Einstiegsseite für Suchende die keinen eigenen YaCy-Peer betreiben können/wollen.\


Es wäre schön, wenn jemand vom YaC-Kernteam sich meldet und skizziert, wie die Architektur, Logik, Funktionsweise im aktuellen Load-Balancer für YaCy http://yacy.net/de/Suchportal.html realisiert ist?

Gruss, flegno

Statistik: Verfasst von flegno — Do Okt 23, 2014 7:14 am


English • 1 of 2 identical machines is incredibly slow

Date: 2014-10-23 08:57:22

HI, we have 2 engines on Ubuntu. Ubuntu 12.04.5 LTS
(We have not done the \’ offered \’ upgrade to 14.04.1 LTS as we lost all data the last time we attempted it)

\ New release \'14.04.1 LTS\' available.\ Run \'do-release-upgrade\' to upgrade to it.\



Both are cloud installations. Each on a 30 GB block, 1 GB Ram, 1 VCPU.
We always have the latest Ubuntu & YaCy versions and we update them every day - whenever presented the opportunity in PuTTy.
The have ~30 million web edges, each.
They are both nearly constantly crawling - with a long list of scheduled RSS feeds to process, each.

They read each other, but only write locally.
Memory reserved for JVM 768 on both machines
\“Online Caution Caseindexer delay\” Proxy, Local Search, Remote Search (not active) all - 5000

Survey the Problem:
A) Server 1 is fine. Fast, crawls quickly - at different speeds-sometimes very quickly! Boots reasonably quickly from \‘cold start\’ including cold reboot of Ubuntu. Good \‘warm reboot\’ times with Ubuntu running.
B) Server 2 unbelievably SLOW. Horribly Slow to boot up from a cold start (including cold boot of Ubuntu) or restart with Ubuntu running (take extra minutes, sometimes many), visibly much more slow to crawl...really miserably slowly, sometimes. Sometimes does not start form cold boot of Ubuntu+crawler. Uses its available memory quickly, hence the need to reboot ~ 2 X - 3 X in a 24 hour \’ day \‘. Sometimes it stops & fails to respond if it doesn\’t get the most current Ubuntu updates (and YaCy updates. Then it will start. Without it, it is dead and won\’t re-start, apparently.)
C) Server 2 -blocks- every day and needs manual reboots from a \‘cold\’ start to stay online, even slowly. Crawled data seems OK + saved, however.
D) Remote requests for information from the clouds go through Slow Server 2, presently. It often takes 1-2 minutes for a \“searched phrase\” in red to appear in the window at / Status.html
E) Users are frustrated because the server takes sometimes x minutes to respond, prompting multiple clicks on \“Search\”

Note: Boot up times for Ubuntu are comparable when measured by the time needed to get a web prompt \‘available\’ message at the root address, without the port number for the crawler

Current specs:
Fast Machine:
Memory Usage
RAM used:244.73 MB
RAM max:742.44 MB
DISK used:(approx.) 18.27 GB
DISK free:6.1 GB

Slow Machine:
Memory Usage
RAM used:717.33 MB
RAM max:742.44 MB
DISK used:(approx.) 15.61 GB
DISK free:8.31 GB

Updates and upgrades to ubuntu make no change in this. Updates to YaCy also have no effect on the situation.

What we want to do:
1) Get Server 2 running at the same healthy speed as Server 1
2) Give priority to searchers on one of the machines, so that they get a result quickly.

Thanks so much for your advice! :D

Statistik: Verfasst von xioc752 — Do Okt 23, 2014 7:57 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-23 09:43:29

Hallo,

flegno hat geschrieben:\ wie die Architektur, Logik, Funktionsweise im aktuellen Load-Balancer für YaCy realisiert ist?\

Das ist ganz einfach: der Domain-Name \“search.yacy.de\” löst zu einer konstanten IP-Adresse auf und dort läuft der Peer \“yacportalsearch2014\” auf Port 8092, damit dieser Peer auch auf Port 80 reagiert (diesen Port benutzen die normalen Browser beim Protokoll HTTP per Default) gibt es dort vermutlich eine interne Weiterleitung in der Art http://www.yacy-websuche.de/wiki/index.php/En:Portforwarding.
Um das selbe für mein System zu erreichen benötige ich ebenfalls einen richtigen Domain-Namen (theoretisch würde ein kostenloser DynDNS-Anbiter reichen, das dynamisch muss man ja nicht nutzen) der zur IP 130.255.73.69 (und auch auf die IPv6-Adresse meines Servers) auflöst und dazu eine vergleichbare Weiterleitung von Port 80 auf Port 5353 und schon reicht es wenn ein beliebiger User einfach http://Random-YaCy-Suchportal.domain/ aufruft damit er die Suchseite eines zufälligen YaCy-Peers angezeigt bekommt (ganz ohne kryptische IP-Adressen oder Portnummern). Oder ich richte eine 307-Weiterleitung von einem kostenlosen Web-Space auf meinen Server ein, das hab ich mal auf die Schnelle unter http://yacy.bplaced.net/ gemacht und das funktioniert wunderbar, mal davon abgesehen das der User bei dieser Variante die IP-Adresse meines Servers in der Adresszeile sieht (da ist die erste Variante schöner).

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Okt 23, 2014 8:43 am


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2014-10-23 10:13:18

Für nachfolgende Genrationen: \“Verlage knicken beim Leistungsschutzrecht ein\”{.postlink} Nein! Doch! Oooooh!{.postlink}

Hier nochmal eine nette Liste als Ergänzung zu meiner immer noch aktiven Blacklist: https://www.vg-media.de/lizenzen/digitale-verlegerische-angebote/wahrnehmungsberechtigte-digitale-verlegerische-angebote.html

Statistik: Verfasst von Low012 — Do Okt 23, 2014 9:13 am


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-23 12:34:02

Hi my cloud machine suffered today too.
Do you download the logs on the slow machine?
I got lots of
W 2014/10/23 09:38:28 org.eclipse.jetty.server.ServerConnector
java.io.IOException: Too many open files
at sun.nio.ch.ServerSocketChannelImpl.accept0(Native Method)
at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:241)
at org.eclipse.jetty.server.ServerConnector.accept(ServerConnector.java:377)
at org.eclipse.jetty.server.AbstractConnector\$Acceptor.run(AbstractConnector.java:500)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:539)
at java.lang.Thread.run(Thread.java:745)
and took forever to restart but then got
W 2014/10/23 09:39:33 ConcurrentLog java.lang.OutOfMemoryError: Requested array size exceeds VM limit

What size is you Swap file?
Not too sure but your VM seems too large mine is 700 mb and there is nothing left free in Debian.
In Debian you type free to see the stats of memory.

All seems to be ok now after a slow reboot.

or tell Erik_S to abandon his tool viewtopic.php?f=23&t=5302{.postlink-local}

Statistik: Verfasst von smokingwheels — Do Okt 23, 2014 11:34 am


English • Re: Demo portal has got too many connections

Date: 2014-10-23 12:34:26

Hello,

smokingwheels hat geschrieben:\ Yes Increase the time limit to 4 seconds.\

Currently are little above 100 Peers classified as \“fast\” Peer, i can not see any reason for a weaker selection.

smokingwheels hat geschrieben:\ I think when the Yacy peer to peer network has less bugs in it for overloaded systems your system might be useful\

Me too.

smokingwheels hat geschrieben:\ I think its a good idea though as mobile users could use it.\

I hope that all Users can use this Service.

Greetings
Erik

Statistik: Verfasst von Erik_S — Do Okt 23, 2014 11:34 am


Panorama • Re: Umfrage #LSR: Wird Google abschalten?

Date: 2014-10-23 12:40:08

Tja, die Verlage haben sich [[die Ar..hkarte{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} selbst gedruckt! :mrgreen:

Statistik: Verfasst von TmoWizard — Do Okt 23, 2014 11:40 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-10-23 14:02:14

Gegen die Filterblase: https://beta.unbubble.eu/

Und der Heise-Artikel dazu: http://www.heise.de/newsticker/meldung/Suchen-ohne-Filterblase-Update-fuer-Unbubble-eu-2430837.html

Statistik: Verfasst von Low012 — Do Okt 23, 2014 1:02 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-24 09:01:29

Hallo,

zum Einbinden eines YaCy-Peers in eine eigene Web-Seite gibt es mehrere Möglichkeiten:

Wenn man eine Sub-Domain komplett einem bestimmten (oder auch einem beliebigen) YaCy-Peer zur Verfügung stellen möchte und der verwendete Web-Server ein Apache ist (das dürfte die Regel sein) dann reicht es ins HTTP-Root-Verzeichnis dieser Domain einfach eine Datei mit Namen .htaccess und folgendem Inhalt zu legen, mehr ist nicht nötig.

Code:
Redirect 303 / http://130.255.73.69:5353/

Diese Weiterleitung leitet den Anwender auf eine Seite die einen zufälligen YaCy-Peer per iframe einbindet. Wenn auf einen bestimmten Peer geleitet werden soll dann muss ans Ende der .htaccess-Zeile eine URL in der Form /forward?name=... (... ist dabei durch den Namen des gewünschten YaCy-Peers zu ersetzen) angehängt werden:

Code:
Redirect 303 / http://130.255.73.69:5353/forward?name=...

Anstatt \“name\” kann auch \“hash\” benutzt werden und ... muss dann der Hash-Wert des Peers sein. Beim Hash-Wert wird zwischen Groß-/Klein-Schreibung unterschieden beim Namen nicht.

Wenn man seinen YaCy-Peer nur in einer einzelnen Seite seiner Web-Präsenz einbauen möchte, z.B. per \“/meine-suche.html\“, dann kann man dafür eine HTML-Datei erstellen in der der gewünschte YaCy-Peer per frame/iframe eingebunden wird. Dem scr-Attribut im einleitenden frame/iframe-Tag muss ein Link in der Form \“http://130.255.73.69:5353/forward?name=..." zugewiesen werden. Varianten und Bedeutung siehe vorherigen Absatz. Wenn man auf diesem Wege einen beliebigen/zufälligen YaCy-Peer einbinden möchte dann ist \“http://130.255.73.69:5353/forward?random" als Link zu benutzen.

Ich werde demnächst weitere Möglichkeiten des Einbindens von YaCy-Peers als Suchmaschine in eine Web-Seite erarbeiten und dann alles zusammen als Artikel ins Wiki stellen.
Insbesondere möchte ich ein minimalistisches Beispiel für ein in die Seite eingebautes Suchfeld erarbeiten bei dessen Benutzung dann ein YaCy-Peer als Suchmaschine eingebunden wird. Wer also seine eigene Web-Seite von seinem YaCy-Peer regelmäßig crawlen lässt bekommt so eine vollwertige Suchmaschine für die eigene Web-Präsenz zur Verfügung gestellt die von jedem Besucher genutzt werden kann.
Gibt es zu so einem Wiki-Artikel bestimmte Wünsche oder Anregungen die ich berücksichtigen soll?

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 24, 2014 8:01 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-24 09:53:20

Hallo,

ruhig geworden um dieses Thema. Da ich in den letzten Tagen intensiv an meinem Weiterleitungsmechanismus gearbeitet habe und somit auf sehr viele verschiedene YaCy-Peers gekommen bin kann ich schreiben das der Fehler 403 insbesondere bei IPv6 sehr häufig auftritt. Aus meiner Sicht besteht da wirklich Handlungsbedarf. Ganz offensichtlich hat YaCy Probleme damit dem Host-Parameter im HTTP-Request zuverlässig anzusehen ob ein Zugriff den Peer selber meint oder ob ein Zugriff per Proxy behandelt werden soll. Als erfahrener Programmierer in den Bereichen TCP/IP-Kommunikation und HTTP-Protokoll muss ich auch ehrlich sagen das ich es, gerade im Hinblick auf IPv6, für nahezu ausgeschlossen halte das dieses Problem unter Beibehaltung der momentanen Architektur überhaupt korrekt und zuverlässig lösbar ist. Aus meiner persönlichen Sicht gibt es verschiedene Möglichkeiten dieses Problem anzugehen:

  1. Der Proxy muss von dem normalen Port auf dem der YaCy-Peer selber erreichbar ist runter, das lässt sich auf zwei Wegen erreichen: a. der Proxy muss auf einen anderen zusätzlichen Port umziehen, das wäre aus meiner Sicht kein allzu großes Problem da der Proxy eh nur vom lokalem Netz benutzt wird und dieser Port demzufolge auch nicht über die Seedlisten u.ä. nach außen kommuniziert werden darf, es sollte in Java auch kein Problem sein auf zwei verschiedenen Ports auf Anfragen zu warten b. den Proxy komplett entfernen
  2. Wenn der Proxy in der Peer-Konfiguration ausgeschallten ist muss auch die Erkennungslogik im HTTP-Server (für Proxy ja/nein) ausgeschallten werden damit der problematische Fehler-Code 403 verschwindet. Das würde bedeuten das bei ausgeschalltenem Proxy die Auswertung des Host-Parameters im HTTP-Request komplett entfallen soll und jeder Zugriff grundsätzlich vom Peer selber beantwortet wird. Wenn nicht existierende URLs angefragt werden kommt eben ein 404-Fehler zurück aber bei gültigen Zugriffen (und genau da ist das Problem) kommt dafür kein 403-Fehler mehr.


Ich weiß ich mache mich hier unbeliebt wenn ich Änderungen an dem internen Proxy vorschlage aber da der Fehler 403 bei [gültigen]{style=“text-decoration: underline”} Zugriffen, gerade bei IPv6, häufig auftritt und das vor allem bei Peers die den Proxy eigentlich abgeschalltet haben, sehe ich an diesem Punkt wirklich Handlungsbedarf. Als effektivsten Weg dieses Problem anzugehen würde ich persönlich ja Variante 1b bevorzugen aber das stößt hier bekanntermaßen auf Widerspruch. Deswegen möchte ich empfehlen möglichst zeitnah die Variante 2 umzusetzen (um wenigstens die offensichtlich falschen 403-Fehler zu beseitigen) und dann könnte immer noch diskutiert werden ob die Variante 1a als zuverlässige Endlösung dieses Problems angegangen werden kann oder ob es noch andere Alternativen gibt.

Es geht mir hier wirklich nicht darum einigen YaCy-Usern lieb gewordene Gewohnheiten streitig zu machen, sondern es geht mir darum für einen kniffligen Bug in YaCy eine möglichst schnelle und halbwegs zuverlässige Lösung zu finden.
Wenn jemand alternative Vorschläge hat würde ich die hier gerne diskutieren.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 24, 2014 8:53 am


English • Re: Demo portal has got too many connections

Date: 2014-10-24 10:03:53

Hey Erik,
Could you do a random peer list for Yacy servers with SSL enabled?
I read on a website that yacy does not support SSL. Its probably cause you have to mess around to get it to work.
My Redirect is http://swa.evils.in/
Cheers

Statistik: Verfasst von smokingwheels — Fr Okt 24, 2014 9:03 am


English • Re: Demo portal has got too many connections

Date: 2014-10-24 10:42:02

Hello,

smokingwheels hat geschrieben:\ Could you do a random peer list for Yacy servers with SSL enabled?\

Do you mean i should generate an additional List with an additional Query-URL only for Peers what have the SSL-Feature enabled?
Theoretical i can do this, the information about enabled SSL is available. But the SSL-Port of the Peers is not available, that means i can not offer a forwarding-mechanism for HTTP[S]{style=“font-weight: bold”}.

smokingwheels hat geschrieben:\ My Redirect is \

In my opinion the problem is the self-signed certificate that is used by YaCy.
I have tried your Link and that forwards my browser to an other Domain-Name with the HTTPS-Protocol and Port 8443. Both Chromium and Firefox are not able to use this SSL-Encryption.
But if i resolve the Domain-Name by hand (with dig) and enter the IP-Address with Protocol HTTPS and Port 8443 directly than are Chromium and Firefox able to access your YaCy-Peer, Firefox needs some extra Mouse-Clicks for accepting (but not saving) a special Exception-Rule but it works too.
As far as i see this situation, the root cause for this problem is that the certificate is only valid for the IP-Address of the YaCy-Peer and not for a Domain-Name. A SSL-Certificate can only be valid for one Host. A Domain-Name and an IP-Address are different Hosts (from the Point of View of a Browser).

Greetings
Erik

Statistik: Verfasst von Erik_S — Fr Okt 24, 2014 9:42 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-24 11:13:45

Hallo,

Erik\_S hat geschrieben:\ Ich werde demnächst weitere Möglichkeiten des Einbindens von YaCy-Peers als Suchmaschine in eine Web-Seite erarbeiten und dann alles zusammen als Artikel ins Wiki stellen.\ Insbesondere möchte ich ein minimalistisches Beispiel für ein in die Seite eingebautes Suchfeld erarbeiten bei dessen Benutzung dann ein YaCy-Peer als Suchmaschine eingebunden wird. Wer also seine eigene Web-Seite von seinem YaCy-Peer regelmäßig crawlen lässt bekommt so eine vollwertige Suchmaschine für die eigene Web-Präsenz zur Verfügung gestellt die von jedem Besucher genutzt werden kann.\ Gibt es zu so einem Wiki-Artikel bestimmte Wünsche oder Anregungen die ich berücksichtigen soll?\


Es lohnt sich m.E. Gedanken darüber zu machen, wie du in deinem Artikel dafür sorgst, dass der potentielle Anwender:

  1. sich darauf verlassen kann, dass der anonyme Server http://130.255.73.69:5353/forward?random dauerhaft verfügbar bleibt ;)
  2. den Unterschied/ Mehrwert deiner Lösung im Vergleich zu http://yacy.net/de/Suchportal.html begreift (ich vermute mal die Einbindung eines bestimmten Peers). Rein optisch macht es doch keinen Unterschied, ob ich http: //yacy.net/de/Suchportal.html oder 130.255.73.69:5353 im iframe einbinde. Ob Orbiter mit so einer iframe-Aneignung einverstanden ist, wäre sicherlich ggf. auch zu klären :?
  3. > > Erik\_S hat geschrieben:\ > Wer also seine eigene Web-Seite von seinem YaCy-Peer regelmäßig > crawlen lässt bekommt so eine vollwertige Suchmaschine für die > eigene Web-Präsenz zur Verfügung gestellt die von jedem Besucher > genutzt werden kann\ > >

    begreift, dass damit 130.255.73.69 eine unvollwertige dynDNS-Funktionalität realisiert ist.

.

Guss, flegno

Statistik: Verfasst von flegno — Fr Okt 24, 2014 10:13 am


Off-Topic • DENIC eG führt sichere, vertrauliche E-Mail-Kommunikation

Date: 2014-10-24 11:58:22

DENIC eG hat geschrieben:\ Sehr geehrte Damen und Herren,\ \ die DENIC eG hat als einer der ersten Anwender die unter der Bezeichnung\ DANE bekannt gewordene Technik zur Sicherung der E-Mail-Kommunikation in\ Betrieb genommen. Mit dem DANE-Verfahren, das als offener Standard in der\ Internet Engineering Task Force (IETF) entwickelt wurde, kann der\ Datenverkehr zwischen Mailservern sicher verschlüsselt und die Identität\ der beteiligten Server verlässlich überprüft werden.\ \ [weiterlesen \...](http://www.denic.de/denic-im-dialog/mailinglisten/public-l.html?url=msg04629.xml){.postlink}\


Hab\’ nicht auf dem Schirm, ob die Kommunikation zwischen den YaCy-Peers verschlüsselt ist?

Gruss, flegno

Statistik: Verfasst von flegno — Fr Okt 24, 2014 10:58 am


English • Re: Demo portal has got too many connections

Date: 2014-10-24 12:40:05

Erik\_s hat geschrieben:\ >
> > smokingwheels hat geschrieben:Could you do a random peer list for > Yacy servers with SSL enabled?\ > >

Do you mean i should generate an additional List with an additional Query-URL only for Peers what have the SSL-Feature enabled?
Theoretical i can do this, the information about enabled SSL is available. But the SSL-Port of the Peers is not available, that means i can not offer a forwarding-mechanism for HTTP[S]{style=“font-weight: bold”}.


You might have to assume port 8443 or 443 and manually make a list, which I could do for you.

Erik\_s hat geschrieben:\ >
> > smokingwheels hat geschrieben:My Redirect is \ > >

In my opinion the problem is the self-signed certificate that is used by YaCy.
I have tried your Link and that forwards my browser to an other Domain-Name with the HTTPS-Protocol and Port 8443. Both Chromium and Firefox are not able to use this SSL-Encryption.
But if i resolve the Domain-Name by hand (with dig) and enter the IP-Address with Protocol HTTPS and Port 8443 directly than are Chromium and Firefox able to access your YaCy-Peer, Firefox needs some extra Mouse-Clicks for accepting (but not saving) a special Exception-Rule but it works too.
As far as i see this situation, the root cause for this problem is that the certificate is only valid for the IP-Address of the YaCy-Peer and not for a Domain-Name. A SSL-Certificate can only be valid for one Host. A Domain-Name and an IP-Address are different Hosts (from the Point of View of a Browser).

Greetings
Erik


I think the certificate is self signed and that\’s why Firefox says its untrusted. Do you know a free way to fix that?
Chrome just gives me a sad face in a square box when I try to access it.
I will create create another certificate for my domain and see how that goes.
Cheers

Statistik: Verfasst von smokingwheels — Fr Okt 24, 2014 11:40 am


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-24 15:37:25

HI & thanks for your thoughts.
I changed / lowered the JVM to 700 on both machines and restarted.
The slow machine is still horribly slow.
I cannot see the difference, though ...perhaps ... a little faster, not so sluggish. But only \‘perhaps.\’
Sometimes things are faster, sometimes much slower, but always the slow machine is visibly horribly slow.

Where is the swap file setting, please?
Is there anything else that can make the machine horrifically slow?
We do updates and upgrades to the clouds whenever they are available, though we are only in 12 Ubuntu, upgraded from 10.4
We discovered the rolling update to 14 is buggy.
Many thanks

Statistik: Verfasst von xioc752 — Fr Okt 24, 2014 2:37 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-24 16:58:30

Hello,

smokingwheels hat geschrieben:\ You might have to assume port 8443 or 443 and manually make a list, which I could do for you.\

Why? Sorry, but i do not understand the intention of this task. I do not know how many YaCy-Peers have SSL enabled (but i can implement a Statistic-Value for this Information in my Tool if you wish), so i can not say how useful is a List of this Peers. And guessing the Information about the used Port is not a meaningful way, in my opinion.

smokingwheels hat geschrieben:\ I think the certificate is self signed and that\'s why Firefox says its untrusted.\

No, the Problem is: there exist multiple Ways to access a YaCy-Peer (one or multiple IP-Addresses and a not limited Number of Domain-Names that resolve to one or more of the IP-Addresses) and for fulfilling the SSL-Paradigm YaCy need an extra Certificate for [each]{style=“text-decoration: underline”} Way (and Browser that support this: http://en.wikipedia.org/wiki/Server_Name_Indication, most Browsers do https://sni.velox.ch/).

smokingwheels hat geschrieben:\ Do you know a free way to fix that?\

I think RFC6698 can be a Solution. The primary intention of my Tool is to be a DNS-Server for the both YaCy-Top-Level-Domains .yacy and .yacyh, so there exist soon a possible Way to solve this Problem.

Greetings
Erik

Statistik: Verfasst von Erik_S — Fr Okt 24, 2014 3:58 pm


Off-Topic • Re: DENIC eG führt sichere, vertrauliche E-Mail-Kommunikatio

Date: 2014-10-24 17:54:00

Hallo,

eine interessante Nachricht zu einem gut passenden Zeitpunkt.

flegno hat geschrieben:\ Hab\' nicht auf dem Schirm, ob die Kommunikation zwischen den YaCy-Peers verschlüsselt ist?\

Nein und kein Peer kennt den SSL-Port anderer Peers weil diese Information in den Seedlisten nicht enthalten ist.

Für YaCy könnte das interessant sein:

DENIC eG hat geschrieben:\ 2. Bei der Verwendung selbstsignierter Zertifikate, also ohne Nutzung von CA-Dienstleistungen, entsteht durch die Veröffentlichung im DNS ein zweiter Kanal, sodass die nutzende Anwendung ein solches Zertifikat überprüfen und akzeptieren kann.\ 3. DANE ermöglicht außerdem die Verwendung unterschiedlicher Zertifikate (und damit unterschiedlicher kryptographischer Parameter) für Dienste, die unter demselben Hostnamen angeboten werden (etwa E-Mail, Web oder Instant Messaging).\

Da mein Tool primär als DNS-Server für die YaCy-Top-Level-Domains dienen soll wäre ich gerne bereit passende TLSA-Records mit aufzunehmen damit die Kommunikation zwischen den Peers selber (z.B. DHT-Transfers) aber auch zwischen Anwendern und den Peers immer verschlüsselt ablaufen kann, ohne nervige Warnungen des Browsers zu bekommen. Natürlich ist dafür auch einiges in YaCy selber zu tun damit das funktioniert.

\@Orbiter:
Wenn das für Dich interessant klingt dann sollten wir darüber mal diskutieren.
Immerhin soll YaCy seine User doch gerade gegen Überwachung usw. schützen und da ist grundsätzlich immer verschlüsselte Kommunikation ein ganz wesentlicher Aspekt.

Ist sowas den von den Anwendern gewünscht?

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 24, 2014 4:54 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-24 23:09:41

xioc752 hat geschrieben:\ Where is the swap file setting, please?\


See https://www.digitalocean.com/community/ ... untu-12-04{.postlink}

xioc752 hat geschrieben:\ Is there anything else that can make the machine horrifically slow?\


Have you checked the queries.log to see how much work the peer is doing?
If it is no more or less than the good one I would consider a backup and create a 3rd machine and I think you restore the data directory to the new os with a fresh install of yacy on it. I would need someone to confirm how to do it though. In the past I have had problems with a VPS and I ended up destroying it and starting again.
How do you access your machines by IP or DNS eg http://smokingwheels.evils.in:8090 If it is DNS I would go to http://www.webpagetest.org/ and test both servers, go to the advanced settings and set 9 tests then look at the waterfall graphs and check the response time, on my server it sometimes takes 10-30 seconds to load the DNS redirect.

xioc752 hat geschrieben:\ We do updates and upgrades to the clouds whenever they are available, though we are only in 12 Ubuntu, upgraded from 10.4\ We discovered the rolling update to 14 is buggy.\ Many thanks\


Its probably got to do with the swap file setting thats my guess

I tried a second VPS Debian system yesterday on a SATA and its Load time for the yacy search page was about 50% faster than my SSD but I will see how it is today. I mention this because you are running out of space on one of your servers.

Statistik: Verfasst von smokingwheels — Fr Okt 24, 2014 10:09 pm


English • Re: Demo portal has got too many connections

Date: 2014-10-24 23:51:22

Erik\_S hat geschrieben:\ Hello,\ \ >
> > smokingwheels hat geschrieben:You might have to assume port 8443 or > 443 and manually make a list, which I could do for you.\ > >

Why? Sorry, but i do not understand the intention of this task. I do not know how many YaCy-Peers have SSL enabled (but i can implement a Statistic-Value for this Information in my Tool if you wish), so i can not say how useful is a List of this Peers. And guessing the Information about the used Port is not a meaningful way, in my opinion.



More people might try Yacy out if there is a demo SSL sort of URL connection.
I did a test to my Twitter feed yesterday and found I had a log file of 66 k pretty quickly and today some 12 hours later its now 244k. Note \“I does not contain any IP\’s\”
If you go to /Network.html?page=1&maxCount=1000 you should see a little black lock next to SSL enabled peers. However I have noticed when I look at my other peer from each peer there not showing up as SSL Enabled.

Erik\_S hat geschrieben:\ >
> > smokingwheels hat geschrieben:I think the certificate is self signed > and that\'s why Firefox says its untrusted.\ > >

No, the Problem is: there exist multiple Ways to access a YaCy-Peer (one or multiple IP-Addresses and a not limited Number of Domain-Names that resolve to one or more of the IP-Addresses) and for fulfilling the SSL-Paradigm YaCy need an extra Certificate for [each]{style=“text-decoration: underline”} Way (and Browser that support this: http://en.wikipedia.org/wiki/Server_Name_Indication, most Browsers do https://sni.velox.ch/).


Interesting looks like someone should add it to the DEV Wishlist, beyond me.

Erik\_S hat geschrieben:\ >
> > smokingwheels hat geschrieben:Do you know a free way to fix that?\ > >

I think RFC6698 can be a Solution. The primary intention of my Tool is to be a DNS-Server for the both YaCy-Top-Level-Domains .yacy and .yacyh, so there exist soon a possible Way to solve this Problem.

Greetings
Erik


Hope you get your tool to work.
Cheers

Statistik: Verfasst von smokingwheels — Fr Okt 24, 2014 10:51 pm


Fragen und Antworten • Postprocessing

Date: 2014-10-25 00:09:10

Wenn ich meinen yacy so auf Crawler_p beobachte, sehe ich momentan, dass er mir im Postprocessing-Bereich mitteilt, dass er noch 10307 Minuten oder mehr als sieben Tage brauchen wird, um was auch immer da aufgelaufen ist abzuarbeiten.

Was ist dieses Postprocessing eigentlich? Was wird da gemacht? Und wäre es ratsam, bei so einem Wert erstmal nichts neues mehr zu crawlen?

Momentan lasse ich mit Hilfe des GreaseMonkey-Skripts alles, was ich besuche, zwei Level tief crawlen. Da können schonmal über 40.000 Einträge im Local Crawler zusammenkommen.

Sollte ich das zurückschrauben?

EDIT: Wenn mein Crawler gut unterwegs ist, schafft er über 800 PPM. Beim Postprocessing werden mir aber gerade 69 PPM angezeigt. Das kann so eigentlich nicht gut zusammenspielen, oder?

Statistik: Verfasst von zottel — Fr Okt 24, 2014 11:09 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-10-25 07:38:22

Hallo,

  1. > > Erik\_S hat geschrieben:\ > Die Betreffzeile ist mir persönlich völlig egal\ > >

    ob nun bei einer Webseite, der Betreff-Zeile im Forum-Beitrag, der Privaten Nachricht oder bei einem Wiki-Artikel - ich persönlich halte es für wichtig und hilfreich, dass die Überschrift zutreffend ist. Diese Überschrift ist spätestens dann wichtig, wenn die Wiki-Seite in der Trefferliste einer Suchmaschine erscheint und der Anwenderin Sekundenbruchteilen entscheidet, welcher Treffer evtl. interessant ist, sein könnte.

    Halte diese Überschrift für so wichtig, dass ich anrege, dass du vor der Erstellung der Wiki-Seite deinen Text in ein Pad-Dokument http://etherpad.yacy.net/ kippst, wo dann jede® zeitsparend den Senf auch zu der Überschrift geben kann. Das Ergebnis, aber auch die Zwischenergebnisse lassen sich dann im Wiki-Format exportieren.

  2. ich würde es begrüßen, wenn du deine Beschreibung mit einem oder mehreren Bildern, die in einem weiter zu verarbeitenden Format vorliegen - s. dazu [\“Zeichnung/Dokumentierung von IT-Strukturen]{style=“font-style: italic”}\” in das Thema DNS ist für den Durchschnittsanwender wichtig{.postlink} - ergänzen würdest.


Gruss, flegno

Statistik: Verfasst von flegno — Sa Okt 25, 2014 6:38 am


Off-Topic • Re: DENIC eG führt sichere, vertrauliche E-Mail-Kommunikatio

Date: 2014-10-25 08:37:21

Hallo,

Erik\_S hat geschrieben:\ Da mein Tool primär als DNS-Server für die YaCy-Top-Level-Domains dienen soll\

Falls der Bezeichner \“YaCy-Top-Level-Domain\” im yacyDNS-Artikel vorkommen wird, rege ich an, den Bezeichner eindeutiger zu definieren. Meinst du hier Domains im YaCy-Namensraum in der Art xyz-instanz.yacy?

Gruss, flegno

Statistik: Verfasst von flegno — Sa Okt 25, 2014 7:37 am


English • Re: Demo portal has got too many connections

Date: 2014-10-25 11:40:42

Hello,

smokingwheels hat geschrieben:\ More people might try Yacy out if there is a demo SSL sort of URL connection.\

Yes, i have the same opinion. But i think the most important Step in this direction is the inclusion of the SSL-Port into the Seedlists, after this i will add a HTTP[S]{style=“font-weight: bold”}-Forwarder to my tool.

smokingwheels hat geschrieben:\ I did a test to my Twitter feed yesterday and found I had a log file of 66 k pretty quickly\

66k what? HTTP[S]{style=“font-weight: bold”}-Accesses to your YaCy-Peer?

smokingwheels hat geschrieben:\ If you go to /Network.html?page=1&maxCount=1000 you should see a little black lock next to SSL enabled peers.\

Yes, this information is included in the Seedlists, but the Port-Number is not.

smokingwheels hat geschrieben:\ looks like someone should add it to the DEV Wishlist\

Yes, but i am the wrong person for this, Orbiter ignored me.

smokingwheels hat geschrieben:\ Hope you get your tool to work.\

Thanks. After some small fixes and improvements of the current feature-set of my tool, the DNS-Server (for UDP-Port 53) is the next task on my todo-list.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Okt 25, 2014 10:40 am


Off-Topic • Re: DENIC eG führt sichere, vertrauliche E-Mail-Kommunikatio

Date: 2014-10-25 11:59:28

Hallo,

flegno hat geschrieben:\ Meinst du hier Domains im YaCy-Namensraum in der Art xyz-instanz.yacy?\

Ja, ich meine beide YaCy-Top-Level-Domains .yacy und .yacyh
Normalerweise schreibe ich das immer dazu aber diesmal habe ich das offensichtlich vergessen, Sorry.

Haben den YaCy-Anwender Interesse an einer möglichst immer verschlüsselten Kommunikation mit den YaCy-Peers?

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Okt 25, 2014 10:59 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-25 13:20:17

Hallo,

flegno hat geschrieben:\ sich darauf verlassen kann, dass der anonyme Server dauerhaft verfügbar bleibt\

Ja, das ist in der Tat ein Problem über das nachgedacht werden sollte. Letztendlich lässt sich Ausfallsicherheit nur durch Redundanz erreichen (es kann schließlich immer mal sein das ein Server aus irgendwelchen Gründen offline geht) und das bedeutet das sich eventuell andere Personen fragen sollten ob ihnen der Service meines Tools wichtig genug ist eine weitere Instanz davon auf einem weiteren Root-Server laufen zu lassen. Zumindest eine zweite Instanz würde schon mal enorm zur Ausfallsicherheit beitragen, so könnte man immer eine Instanz updaten/rebooten/... ohne das der Service ganz wegbricht (sei es auch nur für ein oder zwei Minuten). Auch könnten die Instanzen untereinander den internen Datenbestand austauschen. Über eine Veröffentlichung des Quell-Codes, damit dieses Tool nicht untrennbar mit meiner Person verknüpft ist, können wir ebenfalls gerne diskutieren.

flegno hat geschrieben:\ den Unterschied/Mehrwert deiner Lösung im Vergleich zu begreift (ich vermute mal die Einbindung eines bestimmten Peers)\

Ja, ich denke genau den Peer auf einer Web-Site einbinden zu können der diese Web-Site auch regelmäßig crawlt ist von erwünschtem Vorteil. Für das YaCy-Netzwerk als ganzes ist es aber auch von Vorteil wenn die Suchvorgänge über möglichst alle Peers gleichmäßig (eventuell gewichtet nach deren Leistungsfähigkeit) verteilt werden. Genauso wie auch der Index über möglichst alle Peers verteilt wird.
Ich denke das beide Varianten ihre jeweiligen Vorzüge haben und deswegen sollen auch beide Varianten von meinem Tool unterstützt werden.

flegno hat geschrieben:\ Ob Orbiter mit so einer iframe-Aneignung einverstanden ist, wäre sicherlich ggf. auch zu klären\

Das hat meiner Meinung nach nichts mit Orbiter zu tun sondern mit dem tatsächlichen Betreiber des eingebundenen YaCy-Peers. Und hier muss man hinzufügen das YaCy explizit als \“Peer-to-Peer\” Software beworben wird und aus diesem Aspekt ergibt sich das jede Instanz dieser Software einer unbekannt großen und nicht näher bestimmbaren/identifizierbaren Öffentlichkeit zur Verfügung gestellt wird, das ist ja der Kerngedanke hinter \“Peer-to-Peer\” siehe http://de.wikipedia.org/wiki/Peer-to-Peer. Was mein Tool nun macht ist das die Dienste dieses Peer-to-Peer-Netzwerks bzw. der einzelnen Peers auch Anwendern zur Verfügung stehen die selber nicht direkter Teilnehmer des Netzwerks sind. Da YaCy eine Suchmaschine für \“alle\” sein soll, zumindest verstehe ich die Beschreibungen auf yacy.net so, ist anzunehmen das die Betreiber der einzelnen Peers sich bewusst sind das auch Fremde bzw. Nicht-Teilnehmer diesen Dienst in Anspruch nehmen und gegebenenfalls direkt auf die öffentlich erreichbare Suchseite ihres Peers zugreifen. Es gibt übrigens nirgends in YaCy eine Option mit der sich einstellen ließe das die Suchseite nicht für \“jeden\” verfügbar sein soll, die Basis-URL \“/\” ist also immer öffentlich erreichbar (mal von Peers die in rein privaten Netzen laufen abgesehen oder vom HTTP-Fehler 403 der alle Zugriffe manchmal zuverlässig verhindert).

flegno hat geschrieben:\ dass mit 130.255.73.69 eine quasi-dynDNS-Funktionalität realisiert ist.\

Das ist aber nur ein Aspekt, von mehreren, meines Tools. Okay, eigentlich ist das der Kern meines Tools, alles andere wie die Statistiken und die Weiterleitungsmechanismen sind aus meiner persönlichen Sicht eher Beiwerk, aber deswegen nicht weniger wichtig. Ich werde auf jeden Fall auch diesen \“Neben\“-Aspekten entsprechende Aufmerksamkeit widmen. Das ist auch der Grund warum ich überhaupt geschrieben habe das ich dazu einen Wiki-Artikel schreiben möchte, ich will damit signalisieren das ich beabsichtige diese spezifischen Nutzungsszenarien meines Tool auch in Zukunft zu supporten.

flegno hat geschrieben:\ wo dann jede(r) zeitsparend den Senf auch zu der Überschrift geben kann.\

Was den Titel der Wiki-Seite angeht können wir hier in diesem Thread auch einfach ein paar Vorschläge sammel und abstimmen und bezüglich dem Inhalt ist es doch gerade einer der zeitsparenden Stärken von Wikis das jede® am Inhalt mitarbeiten kann.

flegno hat geschrieben:\ ich würde es begrüßen, wenn du deine Beschreibung mit einem oder mehreren Bildern \[\.....\] ergänzen würdest\

Da es sich ja um ein Wiki handelt steht es auch hier jedem frei sich einzubringen. Als \“weiterverarbeitbares\” Format möchte ich gleich mal SVG vorschlagen, bei \“so siehts dann aus\“-Screen-Shots geht natürlich auch jedes übliche Pixel-Format (z.B. PNG).
Versteh mich bitte nicht falsch, es geht mir nicht darum gut gemeinte Ratschläge abzulehnen, ich würde es aber begrüßen wenn Kritik erst dann kommt wenn sie auch tatsächlich nötig ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Okt 25, 2014 12:20 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-25 17:19:12

Thank you very kindly for the detailed analysis, discussion & proposed testing routines.
I have to look at how to do all of that...whew...not easy.

Alternatively, but perennially,...
Our #1 problem ultimately is in taking the DATA folder and reinstalling elsewhere.
It is quite large, now.

But the worst part is huge risk of
both
1) losing the feeding trail of URLs & particularly RSS links that are programmed for daily updating.

2) Web edge collection accompanying the built in Solr files

Is there any way to copy that [[Process Scheduler History of Instructions INTACT with the settings]{style=“text-decoration: underline”}]{style=“font-weight: bold”}?
Table_API_p.html

We cannot afford to lose the data and web edge cross references built up, now, inside ...
In the worst case, we would like to take the Solr save (and what else?) and match it with the Table_API_p.html instructions in a clean copy of YaCy.

Many thanks...

Statistik: Verfasst von xioc752 — Sa Okt 25, 2014 4:19 pm


Off-Topic • Re: DENIC eG führt sichere, vertrauliche E-Mail-Kommunikatio

Date: 2014-10-25 22:46:38

Hallöchen!

Erik\_S hat geschrieben:\ Haben den YaCy-Anwender Interesse an einer möglichst immer verschlüsselten Kommunikation mit den YaCy-Peers?\



Wie Du schon geschrieben hast wäre das wegen der Überwachung und so auf jeden Fall interessant, wenn es denn nicht zu viel Aufwand ist! Genau hier sehe ich da nämlich ein Problem, einfach wird das wohl nicht werden.

Statistik: Verfasst von TmoWizard — Sa Okt 25, 2014 9:46 pm


Off-Topic • Re: DENIC eG führt sichere, vertrauliche E-Mail-Kommunikatio

Date: 2014-10-26 06:43:07

Hallo,

TmoWizard hat geschrieben:\ wenn es denn nicht zu viel Aufwand ist\

Naja, der Programmieraufwand dürfte auf jeden Fall spürbar sein, sowohl an meinem DNS-Server-Tool als auch an YaCy selber. Die Frage ist doch ob der Anwenderwunsch groß genug ist diesen Aufwand zu rechtfertigen und ob die Programmierer bereit sind diesen Aufwand zu leisten. Mit DNSSEC und verwandten Themen habe ich mich bis jetzt nur wenig (aber mehr als gar nicht) beschäftigt, aus meiner Sicht wäre das auch ein willkommener Grund in diese Thematik tiefer einzusteigen. Also ich würde meinen Teil dazu gerne beitragen, ob sich auch jemand von den YaCy-Programmierern dazu entschließen kann müsste man mal in Erfahrung bringen, vielleicht meldet sich dazu ja mal einer dieser Programmierer hier.

TmoWizard hat geschrieben:\ einfach wird das wohl nicht werden\

Ich persönlich bin der Meinung das es Aufgabe der Programmierer ist dieses Thema für den Anwender so einfach wie möglich (nur nicht noch einfacher) zu gestalten. Falls die Browser das ordentlich unterstützen (also selbstständig die TLSA-Records vom DNS-System holen und damit die Zertifikate validieren) könnte es möglich sein das die Anwender davon noch nicht mal allzu viel mitbekommen, von der Anzeige das die Verbindung sicher verschlüsselt ist mal abgesehen.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Okt 26, 2014 6:43 am


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-26 09:20:30

xioc752 hat geschrieben:\ Our \#1 problem ultimately is in taking the DATA folder and reinstalling elsewhere.\ It is quite large, now.\


Your VPS has a 30 GB drive, I think you will have to upgrade its space in a few months or less.

How long are you going to keep using YaCy for?

xioc752 hat geschrieben:\ But the worst part is huge risk of\ both\ 1) losing the feeding trail of URLs & particularly RSS links that are programmed for daily updating.\ \ 2) Web edge collection accompanying the built in Solr files\ \ Is there any way to copy that [[Process Scheduler History of Instructions INTACT with the settings]{style="text-decoration: underline"}]{style="font-weight: bold"}?\ Table\_API\_p.html\


If you go to /Tables_p.html change to API change number to ALL then search you have a html page with all the info on.
Simply File Save As TXT and open with a txt editor where you can copy all the various URL\’s etc and put them in a new install. But also create a backup file of all the URLs etc

xioc752 hat geschrieben:\ We cannot afford to lose the data and web edge cross references built up, now, inside \...\ In the worst case, we would like to take the Solr save (and what else?) and match it with the Table\_API\_p.html instructions in a clean copy of YaCy.\


I only know if you take your server offline you can backup all the files, but SSH is too slow for this pursuance.

Statistik: Verfasst von smokingwheels — So Okt 26, 2014 9:20 am


English • Yacy index how to increase the things you like.

Date: 2014-10-26 10:53:54

A few months ago I found a useful tool to extract the links from a google search then transfer to the yacy crawler, it was rather useful to obtain my video links of all my videos on youtube.
For youtube search of yourusername site:youtube.com. You will need a spread sheet reader to view the links because its output to a CSV file.

The Tool can be downloaded at http://moz.com/tools/seo-toolbar and is free. I only advise using Firefox because its easier to turned off.
When you install it requires a restart of Firefox. Also when you disable it as well.

Perform your desired search in google then on the top right-hand side there is options button go to search settings then set Never show instant results then increase the results per page to 100 then save.

When you do a search now there is a menu up the top of the search page you must wait until the tool (Moz-Bar) converts the results then you can Export them to CSV, you will also see each result has a grey box with some info but thats only for the Pro/paid version.
Once the CSV file is saved you can open and copy all the second column (the link info) and put the into Yacy\’s Advanced crawler. Note if the list is shorter than 100 results you have not waited long enough for it to work.
I would only do 100 URLs at time so not to exceed the limits that might be on the site you are crawling.

Hope that helps.

Statistik: Verfasst von smokingwheels — So Okt 26, 2014 10:53 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-26 11:07:21

Hallo,

Erik\_S hat geschrieben:\ der Interface-Identifier ist da häufiger ein Problem\

Seit dem IPv6-Adressen von einigen Peers auch innerhalb des Feldes \“IP\” gemeldet werden ist dieser Aspekt noch wichtiger geworden. Die anderen Peers scheinen Peers mit so einer IP-Adresse im Feld \“IP\” nicht so gut zu verstehen. Ich möchte daher noch einmal anregen das der Interface-Identifier von [allen]{style=“text-decoration: underline”} IP-Adressen entfernt wird. Er ist nicht nur einfach unnötig sondern stellt auch eine Art Security-Leak dar.

Ansonsten möchte ich erwähnen das ein gewisser Anstieg der IPv6-fähigen Peers zu verzeichnen ist, es wäre also im Interesse des YaCy-Netzwerks ansich wenn die noch vorhandenen Probleme mit IPv6 gelöst würden.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Okt 26, 2014 11:07 am


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-26 13:32:31

Hallo,

Der Proxy ist zwar einfach zu installieren, prinzipiell funktioniert er auch, nur eben prinzip-bedingt nicht bei https. Und immer mehr Web-Seiten lenken nur noch auf https um. Damit ist der Weg tatsächlich zukünftig mehr und mehr sinnlos.

Das Browser-Plugin finde ich eine gute Variante, müsste aber natürlich, wenn der Proxy schon jetzt das fünfte Rad am Wagen ist, auch aktuell gehalten werden. [Die Add-on-Seite von Mozilla blockiert nämlich die Installation, weil er nicht zur aktuellen Firefox-Version kompatibel ist.
]{style=“text-decoration: underline”}

Das würde erst mal nicht weiter stören, aber man findet das Plugin nicht mit den üblichen Stichworten auf den Yacy-Seiten (plugin, mozilla oder firefox). Mir ist es zumindest heute nicht gelungen. Gestern fand ich noch die Seite zum Download.

Statistik: Verfasst von fherb — So Okt 26, 2014 1:32 pm


Fragen und Antworten • Jetty Apache

Date: 2014-10-26 17:40:41

Hello.
Is it needed to delete the server of Jetty if Apache is set?

Statistik: Verfasst von mass — So Okt 26, 2014 5:40 pm


Mitmachen • YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-26 19:28:37

Ich benutze hier die Bezeichnung YaCyProxyPlus für die Lösung, die momentan in den Threads das Thema DNS ist für den Durchschnittsanwender wichtig ...{.postlink} und yacystats Neuauflage?{.postlink} diskutieet und für die noch ein Name gesucht wird. Die Idee ist, dass das know-how der Hardcore-YaCy-Programmierer in Form von YaCy-Agenten (meine Definition s. http://yacyagent.sprechrun.de/?id=1778#c1805 ) der YaCy-Community zur Verfügung gestellt wird.

Dabei denke ich bspw. an so ein Sienario - ich würde gern [[nur]{style=“font-style: italic”}]{style=“font-weight: bold”} YaCy-Peers abfragen, die in ihren Indexen mit hoher Wahrscheinlichkeit Informationen zum Thema GIMP haben. Ich bilde mir ein, dass rein organisatorisch-technisch dies ohne weiteres machbar ist. Die Peers könnten bspw. selbst im jeweiligen YaCy-Netzwerk, in der YaCy-Community sich entsprechend dazu bekennen - ich sammle in meinem Index Infos zu GIMP ( oder GNOME, ...). Dementsprechend klappert ein GIMP-Suchagent nicht alle im jeweiligen Netzwerk verfügbaren Peers/Indexes, sondern nur die GIMP-Untermenge. Eine Win-Win-Lösung für mich als YaCy-Agent-Anwender als auch für die Community, weil:

a. die Abfrage wird schneller durchgeführt b. diese Abfrage verursacht weniger Traffic im Netzwerk.

Vlt. irre ich mich, aber ich bilde mir ein, dass die YaCyProxyPlus-Infrastruktur für diese YaCyAgent-Funktionalität geeignet ist. Ich würde mich auf Feldbacks zu dieser Idee freuen - erstmals ohne in die technischen Details zu tief einzutauchen.

Ich habe in der Auflistung von A bis Z{.postlink} auch \“Liquid Browsing\” mit aufgeführt, da mir vorschwebt, dass - sobald die YaCy-Community einige YaCyAgenten zusammenhat, bietet sich an, die YaCyAgenten-Sammlung in eine anwenderfreundliche Oberfläche zu verpacken, die sich an das \“Liquid Browsing\“-Konzept orientiert. Ich finde das \“Liquid Browsing\“-Konzept sehr gelungen, um zeitsparend in umfangreichen Datensammlungen zu recherchieren - und gleichzeitig mehrere Parameter, Metadaten als Filterkriterien anzuwenden.

Gruss, flegno

Statistik: Verfasst von flegno — So Okt 26, 2014 7:28 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-26 20:14:02

Hallo,

Erik\_S hat geschrieben:\ Ja, das ist in der Tat ein Problem über das nachgedacht werden sollte. Letztendlich lässt sich Ausfallsicherheit nur durch Redundanz erreichen\


Ich weiss, dass im Projekt MediathekView{.postlink} (GPL-Lizenz) auch eine Art Seedlisten gestreut werden. Wäre es evtl. sinnvoll, Kontakte mit diesem/ähnlichen Projekten zu knüpfen und reziproke Services spiegeln? Nebenbei wird das YaCy-Projekt bekannter gemacht ;).

Erik\_S hat geschrieben:\ Das hat meiner Meinung nach nichts mit Orbiter zu tun sondern mit dem tatsächlichen Betreiber des eingebundenen YaCy-Peers.\

Ich meinte, wenn man http://yacy.net/de/Suchportal.html in Frame einbindet, verursacht dies immerhin einen Traffic auf der Website yacy.net.

Erik\_S hat geschrieben:\ bezüglich dem Inhalt ist es doch gerade einer der zeitsparenden Stärken von Wikis das jede(r) am Inhalt mitarbeiten kann\

Ich bin ein Wiki- und Etherpad-User mit reichlich Erfahrung und weiss, dass bei einer Zusammenarbeit am Text auf der Etherpad-Plattform im Vergleich zum Wiki die Einstiegsschwelle viel niedriger und dementsprechend die Wahrscheinlichkeit einer Mitarbeit spürbar höher ist, weil beim Etherpad kein Registrier-/Anmelde- und kein CAPTCHA-Zwang existiert.

Gruss, flegno

Statistik: Verfasst von flegno — So Okt 26, 2014 8:14 pm


Fragen und Antworten • Re: YaCy als Proxy?

Date: 2014-10-26 22:18:58

... Habe die Yacybar jetzt doch, aber nur zum Download bei Heise gefunden. Die Version ist wohl die gleiche, wie jetzt im GIT. Dem Changelog zufolge also unverändert aus 2010.

Aber weder der \“Indexierung ist an\“-Button noch \“Seite crawlen\” funktionieren derzeit. Zumindest wird darüber nichts indiziert (Webseite \“Crawler Monitor\” zeigt keinen Vorgang an). Die Angaben in der Statusbar (QPH...) werden aber angezeigt. Die Verbindung zum Peer ist also hergestellt.

Wenn das funktionieren würde, wäre alles gut. ;)
Beste Grüße!

Statistik: Verfasst von fherb — So Okt 26, 2014 10:18 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-27 01:13:46

ich nehme an du meinst wir sollten die IPv6 Adressen mit dem \“ff:fe\” Anteil im Interface-Identifier entfernen, nicht die Interface-Identifier? Wenn es sich herausstellt dass die übrig bleibenden IPv6-Adressen erreichbar sind ist das sicherlich eine gute Vorgehensweise.

Statistik: Verfasst von Orbiter — Mo Okt 27, 2014 1:13 am


Hilfe für Einsteiger und Anwender • Re: Connections

Date: 2014-10-27 09:08:44

Hello.
I will not create a new theme.
How is it possible to limit \“Incoming Connections\” ?

Statistik: Verfasst von mass — Mo Okt 27, 2014 9:08 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-27 10:16:49

Hallo,

nein, ich meine es soll der Interface-Identifier der mit einem \‘%\’ abgetrennt ist aus [allen]{style=“text-decoration: underline”} IP-Adressen entfernt werden. Dieser Interface-Identifier verrät eventuell interne Details der Computer-Konfiguration (manchmal steht dort keine Zahl sondern z.B. \“eth0\” und sowas geht niemanden was an) und erfüllt außerhalb des betreffenden Computers keinen Nutzwert (vom ausspionieren mal abgesehen).

IPv6-Adressen die sich auf die MAC-Adresse einer Ethernet-Karte beziehen sind natürlich wenn möglich mit niedrigerer Priorität zu veröffentlichen aber das geht nur wenn andere IPv6-Adressen, also solche die per Privacy-Extensions generiert werden, zur Verfügung stehen und auch tatsächlich von Außen zu erreichen sind. Mit der Erreichbarkeit sieht es leider nicht so arg gut aus. Ich beobachte die wenigen per IPv6 erreichbaren Peers per \“/tool_query\” von meinem Tool und teste dabei alle IP-Adressen (sind ja alle als funktionsfähiger Link aufgelistet) und falls mehrere IPv6-Adressen angegeben sind funktioniert meistens nur die mit \“FF:FE\” in der Mitte des Host-Teils. Die anderen IPv6-Adressen werden meistens mit \“Permision denied\” abgeblockt (ich vermute mal das macht der betreffende Heim-Router). Dieses Problem existiert bei dem von Dir betriebenen YaCy-Peer ebenfalls. Ich weiß leider nicht ob sich dieses Problem per UPnP o.ä. lösen lässt aber es wäre schön wenn ja, damit die YaCy-Peer-Betreiber nicht so arg leicht verfolgbar sind.

Ein weiterer wichtiger Aspekt zu den per Privacy-Extension generierten IPv6-Adressen ist das diese, wenn neue Verfügbar sind, aus den Seed-Listen langsam entfernt werden sollten. Es wäre also gut wenn alle IP-Adressen nach Alter sortiert werden und nur die neuesten in der Seed-Liste drin bleiben. Der betreffende Peer weiß doch schließlich wann er eine IP-Adresse das erste mal vom Betriebssystem gemeldet bekommen hat und dieser Zeitpunkt sollte der IP-Adresse fest zugeordnet und auch per Seedlisten verteilt werden und dann als Sortier-Kriterium dienen. Mit dieser Methode wäre sichergestellt das abgelaufene IPv6-Adressen auch langsam aus den Seed-Listen verschwinden und damit irgendwann nicht mehr benutzt werden so das der Betreffende Host diese dann auch endgültig abschalten kann. Ich hab zwar keine Ahnung wie oft die einzelnen Betriebssysteme neue IPv6-Adressen per Privacy-Extension generieren aber es wäre doof wenn sich nach langer Laufzeit des Computers sehr viele davon ansammeln.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 27, 2014 10:16 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-27 10:27:27

also das was \“mit einem \‘%\’ abgetrennt ist\“, ist die Zone ID und die habe ich bereits entfernt. Wo tritt die denn bei dir auf?

Statistik: Verfasst von Orbiter — Mo Okt 27, 2014 10:27 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-27 11:03:35

Hallo,

an fast allen IPv6-Adressen bis hin zur Software-Version 1.81009114. Vor allem im Feld \“IP\” aber auch im Feld \“Address\” und manchmal im Feld \“IP6\” ist das mit drin. Ich denke Du solltest das gleich ausfiltern wenn Du die IP-Adressen vom Betriebssystem entgegen nimmst.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 27, 2014 11:03 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-27 12:27:48

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:sich darauf verlassen kann, dass der anonyme > Server dauerhaft > verfügbar bleibt\ > >

Ja, das ist in der Tat ein Problem über das nachgedacht werden sollte. Letztendlich lässt sich Ausfallsicherheit nur durch Redundanz erreichen (es kann schließlich immer mal sein das ein Server aus irgendwelchen Gründen offline geht) und das bedeutet das sich eventuell andere Personen fragen sollten ob ihnen der Service meines Tools wichtig genug ist eine weitere Instanz davon auf einem weiteren Root-Server laufen zu lassen.

abgesehen von den kurzfristigen Ausfällen zielt meine Frage daraufhin, wie der Anbieter 130.255.73.69:5353, auf http://forum.yacy-websuche.de bekannt als \‘Erik_S\’ den potenziellen Anwender von der eigenen Zuverlässigkeit überzeugen möchte. Wenn es darum geht, zufällige fremde Peers aus dem YaCy-Netz zu picken, dann ist es weniger kritisch, dafür gibt es mit http://yacy.net/de/Suchportal.html eine Alternative.

Spätestens wenn ein Betreiber von einem YaCy-Peer BPXYZ sich ernsthaft Gedanken darüber macht:

  1. lohnt es sich einen BPXYZ-Testlauf mit dem Server 130.255.73.69:5353 zu machen mit dem Risiko, dass die BPXYZ-Anwender wegen der 130.255.73.69:5353-Nichtverfügbarkeit verscheucht werden?
  2. oder gleich auf einen bekannten kostenlosen dynDNS-Anbieter setzen?

wird sich der BPXYZ-Betreiber fragen [\“Wer ist Erik_S? Mit wem habe ich als 130.255.73.69:5353-User zu tun?\“]{style=“font-style: italic”}

Gruss, Gustav

Statistik: Verfasst von flegno — Mo Okt 27, 2014 12:27 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-27 12:29:47

Hallo,

flegno hat geschrieben:\ YaCyProxyPlus mit einer Agenten-Intelligenz bestücken\

Ich hab mir jetzt Deinen Artikel und alle Links durchgelesen und muss ehrlich schreiben das ich nicht so ganz genau weiß worum es Dir geht.

Eine \“themenspezifische\” Suche auf einen bestimmten Peer laufen zulassen lohnt sich nicht wirklich da bei jeder Suche immer [die]{style=“font-style: italic”} anderen Peers gefragt werden deren Peer-Hash mit dem Hash-Wert eines der Suchbegriffe am besten korreliert (siehe DHT-Konzept), aber welcher Peer da am besten passt hängt davon ab wie dieser Algorithmus in YaCy implementiert ist (vielleicht kann Orbiter unser arg beschränktes Wissen zu diesem Thema ein wenig erhellen).

Eine \“Site-spezifische\” Suche ist was völlig anderes, hier lohnt es sich tatsächlich primär die Peers zu befragen die die betreffende Web-Site (damit meine ich Domain) auch selber crawlen. Diese Peers verteilen ihren selbst gewonnenen Index zwar dem DHT-Konzept entsprechend über andere Peers aber behalten ihn auch selber auf der Festplatte (so das die lokale Suche schon recht gute Treffer bringt).

Wenn ein Crawl abgeschlossen ist werden die gefundenen Worte, entsprechend dem DHT-Konzept, auf die am besten zum konkreten Wort passenden Peers verteilt. Welcher Peer das ist lässt sich aber nur begrenzt vorhersagen, da ja auch immer mal neue Peers mit neuen Peer-Hashs dazukommen oder auch manchmal Peers wegfallen. Deswegen versucht der DHT-Mechanismus in YaCy den Index auch über \“benachbarte\” Peers (also jene Peers deren Peer-Hash mathematisch ähnlich zum ideal-Hash für das konkrete Wort ist) zu verteilen. Nebst dessen das ein Thema ja nicht nur aus einem Wort besteht sondern aus vielen verschiedenen Worten und diese verschiedenen Worte sind aufgrund der verschiedenen Hash-Werte auf die Indexe verschiedener Peers verteilt.

So hab ich jedenfalls die Erklärungen auf yacy.net verstanden, falls ich hier völligen Unsinn schreibe Bitte ich um Richtigstellung.

flegno hat geschrieben:\ ich würde gern [[nur]{style="font-style: italic"}]{style="font-weight: bold"} die YaCy-Peers abfragen, die in den Peer-Indexen mit hoher Wahrscheinlichkeit Informationen zu einem bestimmten Thema haben\

Dazu müssten die Peers aber in der Lage sein das Thema eines Textes wirklich zu erkennen. Ich nehme mal an das ist der Grund für das Wort \“Intelligenz\” im Titel. Zum tatsächlichen Erkennen des Themas eines bestimmten Textes ist ein gutes Maß an \“Intelligenz\” erforderlich und ich fürchte so weit ist die KI-Forschung noch nicht ganz oder nur mit wirklich leistungsfähigen Super-Computern (auf jeden Fall deutlich größere Maschinen als die auf denen durchschnittliche YaCy-Peers laufen).

Dem Text auf yacyagent.sprechrun.de entnehme ich aber das es eventuell auch um bestimmte Such-Parameter geht die dem unbedarften Anwender womöglich nicht so leicht fallen, weil er sich eventuell das tiefere Verständnis für die Wirkungsweise der Parameter noch nicht erworben hat, und deswegen mit \“vorgefertigten Suchen\” unterstützt werden sollen. Nach dem nächsten UpDate meines Tools auf dem Server wird der Forwarder in der Lage sein auch weitere URL-Query-Parameter an einen bestimmten oder zufälligen Peer weiter zu reichen so das man dann für Suchen mit bestimmten Parametern (und sei es nur eine andere Anzahl an Treffern pro Ergebnis-Seite) mit passenden Links vorbereiten kann. Näheres dazu beabsichtige ich im geplanten Wiki-Artikel unterzubringen, aber erstmal will ich das alles fertig programmieren damit das dann auch wirklich nutzbar ist.

Ganz unabhängig von Deinem aktuellem Vorschlag möchte ich aber klar schreiben das wenn es eine [gute]{style=“font-style: italic”} Idee gibt an deren Umsetzung mein Tool (wie auch immer es heißen wird) einen Beitrag leisten kann/soll dann bin ich gerne bereit das, entsprechend meiner Möglichkeiten, zu unterstützen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 27, 2014 12:29 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-27 14:12:16

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:YaCyProxyPlus mit einer Agenten-Intelligenz > bestücken\ > >

Ich hab mir jetzt Deinen Artikel und alle Links durchgelesen und muss ehrlich schreiben das ich nicht so ganz genau weiß worum es Dir geht.
[...]
Dazu müssten die Peers aber in der Lage sein das Thema eines Textes wirklich zu erkennen. Ich nehme mal an das ist der Grund für das Wort \“Intelligenz\” im Titel. Zum tatsächlichen Erkennen des Themas eines bestimmten Textes ist ein gutes Maß an \“Intelligenz\” erforderlich und ich fürchte so weit ist die KI-Forschung noch nicht ganz oder nur mit wirklich leistungsfähigen Super-Computern (auf jeden Fall deutlich größere Maschinen als die auf denen durchschnittliche YaCy-Peers laufen).

Habe die YaCy-Agent-Definition um den Begriff Peer-Pool PPTXY ergänzt{.postlink}. Mein Agenten-Intelligenz-Lösungsansatz funktioniert unabhängig davon, wie und warum die Verteilung von Suchanfragen im YaCy-Peer-to-Peer-Netzwerk realisiert ist. Und von den Fortschritten in der KI-Forschung ist mein Lösungsansatz auch unabhängig.

Erik\_S hat geschrieben:\ Dem Text auf yacyagent.sprechrun.de entnehme ich aber das es eventuell auch um bestimmte Such-Parameter geht die dem unbedarften Anwender womöglich nicht so leicht fallen, weil er sich eventuell das tiefere Verständnis für die Wirkungsweise der Parameter noch nicht erworben hat, und deswegen mit \"vorgefertigten Suchen\" unterstützt werden sollen.\

Das stimmt so. Je nach Sichtweise kann man meinen Agenten-Intelligenz-Lösungsansatz so interpretieren, dass die Agenten-Intelligenz vorgegaukelt wird. Meine Sichtweise ist, dass die Intelligenz, know-how des Agenten-Urhebers in der Agenten-Instanz verpackt und weitergereicht wird.

Erik\_S hat geschrieben:\ Nach dem nächsten UpDate meines Tools auf dem Server wird der Forwarder in der Lage sein auch weitere URL-Query-Parameter an einen bestimmten oder zufälligen Peer weiter zu reichen so das man dann für Suchen mit bestimmten Parametern (und sei es nur eine andere Anzahl an Treffern pro Ergebnis-Seite) mit passenden Links vorbereiten kann. Näheres dazu beabsichtige ich im geplanten Wiki-Artikel unterzubringen, aber erstmal will ich das alles fertig programmieren damit das dann auch wirklich nutzbar ist.\ \ Ganz unabhängig von Deinem aktuellem Vorschlag möchte ich aber klar schreiben das wenn es eine [gute]{style="font-style: italic"} Idee gibt an deren Umsetzung mein Tool (wie auch immer es heißen wird) einen Beitrag leisten kann/soll dann bin ich gerne bereit das, entsprechend meiner Möglichkeiten, zu unterstützen.\

Darauf baut mein yacyagent-Lösungsansatz - es kommt darauf an, dass die Teilnehmer in der YaCy-Community kooperieren - dann können evtl. technische Probleme erkannt und gelöst werden.

Gruss, flegno

Statistik: Verfasst von flegno — Mo Okt 27, 2014 2:12 pm


Mitmachen • Re: YaCy POI Suche mit OpenStreetMap Karte

Date: 2014-10-27 15:20:34

es gibt nun ein Tutorial-Video zur Kombination von YaCy + Openstreetmap:
iframe

Statistik: Verfasst von Orbiter — Mo Okt 27, 2014 3:20 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-27 17:54:33

Hallo,

flegno hat geschrieben:\ Habe die YaCy-Agent-Definition um den Begriff [Peer-Pool PPTXY ergänzt](http://yacyagent.sprechrun.de/?id=1778#c1805){.postlink}.\

Dort gibt es

\ der nur die einen von diesem Agenten begrenzten [Pool]{style="text-decoration: underline"} PPTXY von YaCy-Peers durchsucht\

Das kann aber von meinem Forwarder nicht geleistet werden. Die Suche findet ja nicht in meinem Tool statt sondern auf einem ganz konkreten YaCy-Peer (der entweder vorgegeben oder per Zufall selektiert wird) und nicht auf einer bestimmten bzw. bestimmbaren Anzahl an Peers. Dieser eine Peer, auf dem die Suchanfrage per Web-Interface gestellt wird, bezieht aber immer auch weitere Peers in die Suche mit ein. Welche Peers das sind wird von den konkreten Suchwörtern und dem DHT-Algorithmus bestimmt, darauf hat man von Außen meines Wissens nach keinen Einfluss.

Wie ich schon geschrieben habe kann es Sinn machen eine \“Site-spezifische\” Suche an einen bestimmten Peer zu geben aber für eine \“Thema-spezifische\” Suche macht das keinen Sinn denn schließlich wird kein Thema nur von einer einzelnen Web-Site behandelt. Ich denke die meisten Suchenden wollen bei einer \“Thema-spezifischen\” Suche zu diesem Thema einen möglichst umfassenden Überblick bekommen und nicht nur die Sicht einer einzelnen Web-Site.

flegno hat geschrieben:\ Meine Sichtweise ist, dass die Intelligenz, know-how des Agenten-Urhebers in der Agenten-Instanz verpackt und weitergereicht wird.\

Okay das ist möglich, läuft meiner Einschätzung nach auf eine Art Link-Liste hinaus mit Links die meinen Forwarder benutzen um z.B. einen bestimmten Peer vorzugeben oder das dem Zufall überlassen (beides hat seine spezifischen Vorteile) und darüber hinaus weitere Parameter enthalten die dann dem YaCy-Peer mitgegeben werden damit dieser die Suche in der Art gestaltet wie der Link-Autor das vorgesehen hat. Wo diese Link-Listen gehostet werden ist von meinem Tool doch erstmal unabhängig, oder?

Desweiteren befindet sich auf Deiner Web-Seite der Satz:

\ Proxy-Server kann als Anonymisierungsdienst in einem Netzwerk verwendet werden, s. dazu [Proxy als Anonymisierungsdienst](http://de.wikipedia.org/wiki/Proxy_%28Rechnernetz%29#Proxy_als_Anonymisierungsdienst){.postlink} bei Wikipedia\

Mein Tool soll zwar auch eine gewisse Funktionalität als Proxy erbringen aber das soll nur eine alternative Nutzungsart des Forwarders (der letztlich eine Art DynDNS darstellt) sein. Wenn mein Tool als HTTP-Proxy benutzt wird (was nur für die beiden YaCy-Top-Level-Domains .yacy und .yacyh funktionieren wird) dann wird der Browser ebenfalls nur eine 307-Weiterleitung bekommen die ihn anweist sich direkt mit dem gewünschten YaCy-Peer zu verbinden (also wieder eine Art DynDNS-Service weil mein Tool ja immer die aktuelle IP-Adresse des YaCy-Peers angibt).
Auf gar keinen Fall wird mein Tool im Auftrag unbekannter Anwender eigene IP-Verbindungen zu irgendwelchen Hosts im Internet aufbauen, ich möchte auf gar keinen Fall das die IP-Adresse des von meinem Tool verwendeten Servers in den Logs irgendwelcher Web-Server o.ä. auftaucht. Eine Anonymisierung, welcher Art auch immer, wird es in meinem Tool nicht geben. Mein Tool leitet lediglich den Browser des Anwenders auf YaCy-Peers weiter die aktuell online sind (ob das ein bestimmter YaCy-Peer ist oder ein zufälliger ist hierbei egal) und nicht mehr. Eine Weiterleitung auf irgendetwas anderes als YaCy-Peers ist explizit nicht vorgesehen. Die einzigste Ausnahme ist die URL \“/\” in meinem Tool die einen zufälligen YaCy-Peer per Frame einbindet, aber auch hier wird mein Tool nur YaCy-Peers einbinden und nichts anderes und auch hier wird mein Tool nicht selber mit dem YaCy-Peer kommunizieren sondern der Browser des Anwenders wird das tun. Natürlich werde ich mich bemühen diesen Umstand dem Anwender deutlich zu signalisieren und auch mindestens einen Link anbieten das Frame-Set zu verlassen um wirklich direkt mit dem YaCy-Peer zu verbinden.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 27, 2014 5:54 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-27 18:45:44

Hallo,

flegno hat geschrieben:\ Ich meinte, wenn man in Frame einbindet, verursacht dies immerhin einen Traffic auf der Website yacy.net.\

Aber ich binde doch gar nichts von yacy.net ein. Hinter dem Frame-Set von meinem Tool steckt ein wenig Programm-Code der live eine Abfrage der [internen]{style=“text-decoration: underline”} Zufalls-Peer-Datenbank durchführt und mit diesen Infos HTML-Code erzeugt der diesen zufälligen Peer (über seine aktuelle IP-Adresse) per Frame einbindet. Das hat mit der Web-Site \“yacy.net\” absolut gar nichts zu tun (das ist meine eigene Programmier-Leistung) und erzeugt dort demzufolge auch keinerlei Traffic.

Auf http://yacy.net/de/Suchportal.html gibt es im wesentlichen zwei Links. Einmal zu http://search.yacy.de/ wo ein ganz bestimmter YaCy-Peer unter einer festen IP-Adresse erreichbar ist (also ohne jede Dynamik oder Zufall) und einmal zu http://www.yacyweb.de/peers.htm wo man eine Liste mit Peers bekommt die wohl aktuell Online sein sollen aber leider sind einige der Links tot und kein Link enthält eine IPv6-Adresse obwohl Peers dabei sind die ausschließlich per IPv6 erreichbar sind und die Dynamik dieser Lösung liegt beim Maus-Klick-Finger des Anwenders.

flegno hat geschrieben:\ weil beim Etherpad kein Registrier-/Anmelde- und kein CAPTCHA-Zwang existiert\ \[\...\...\]\ im Wiki eine immer wieder wiederkehrende Situation dazu führt, dass ein erarbeiteter Text - mehr oder weniger umfangreich - unwiderruflich verloren geht\

Sorry aber das sind doch Probleme der konkreten technischem Umsetzung und nicht des Konzepts ansich. Aus meiner Sicht sind Etherpads und Wikis ziemlich gleichwertig, ich persönlich hab jedenfalls mit Wikis noch keine wirklich negativen Erfahrungen gemacht, mir ist noch nie Text \“unwiederbringlich\” abhanden gekommen. Wenn es in machen Wikis wirklich derartige Bugs gibt dann müssen die natürlich beseitigt werden, fertig! Aber was Du da aufzählst sind doch keine Kriterien für die Konzepte ansich.

flegno hat geschrieben:\ den potenziellen Anwender von der eigenen Zuverlässigkeit überzeugen möchte\

Durch Taten, ich beabsichtige mein Tool zuverlässig online zu halten und möchte damit signalisieren das ich dazu auch fähig bin. Wäre es ein Unterschied wenn hinter meinen Tool eine Firma steckt? Z.B. ein kleines Start-Up dem eventuell morgen das Geld ausgeht? Meiner Meinung nach muss man sich Vertrauen verdienen und das geht nur durch Taten und nichts anderes.

flegno hat geschrieben:\ Wenn es darum geht, zufällige fremde Peers aus dem YaCy-Netz zu picken, dann ist es weniger kritisch, dafür gibt es mit eine Alternative.\

Nein, die Leistung einen zufälligen YaCy-Peer präsentiert zu bekommen der tatsächlich online ist ist neu, mir ist jedenfalls nicht bekannt das es sowas bereits gibt.

flegno hat geschrieben:\ [Wer ist Erik\_S? Mit wem habe ich als 130.255.73.69:5353-User zu tun?]{style="font-style: italic"}\

Sind die Antworten auf diese Fragen wirklich so relevant? Macht es einen so erheblichen Unterschied ob Du meinen Nachnamen oder meinen Wohnort kennst?

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Okt 27, 2014 6:45 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-27 20:48:30

Hallo,

Erik\_S hat geschrieben:\ Auf gibt es im wesentlichen zwei Links. Einmal zu wo ein ganz bestimmter YaCy-Peer unter einer festen IP-Adresse erreichbar ist (also ohne jede Dynamik oder Zufall).\

Ich habe angenommen, dass hinter dem Verweis \”[search.yacy.de - [ein Load Balancer für YaCy Peers]{style=“color: #0000FF”}]{style=“font-style: italic”}\” g\‘rade die Funktionalität angeboten wird, die du mit deinem Tool realisierst.

Erik\_S hat geschrieben:\ Sind die Antworten auf diese Fragen wirklich so relevant? Macht es einen so erheblichen Unterschied ob Du meinen Nachnamen oder meinen Wohnort kennst?\

Nein, ich habe aber eine Menge Zeit investiert, um Erik_S kennenzulernen. Als ich diese Fragen

flegno hat geschrieben:\ [Wer ist Erik\_S? Mit wem habe ich als 130.255.73.69:5353-User zu tun?]{style="font-style: italic"}\

gestellt habe, habe ich stellvertretend für die YaCy-Durchschnittsanwender diese deine Fragen

Erik\_S hat geschrieben:\ Gibt es zu so einem Wiki-Artikel bestimmte Wünsche oder Anregungen die ich berücksichtigen soll?\

beantwortet. Ich bitte um Rückmeldung für die Zukunft, ob von deiner Seite solche Stellvertreter-Fragen gewünscht sind.

Und übrigens beim Thema Wiki-Etherpad sind es meinerseits zum Teil Stellvertreter- Schreckens-Textverlustszenarien. Ich halte mich für einen einigermaßen erfahrenen Internet-Nutzer. Ich habe so meine Handgriffe und Strategien entwickelt, um den Textverlusten trotz abstürzenden Browser (bspw. beim Klicken auf Vorschau), Texteditoren, Bildbearbeitungsprogramme oder Mail- Clients vorzubeugen. Und ich für mein Part weiss ganz genau, dass meine persönliche Hemmschwelle bei einer Mitarbeit am Etherpad-Text im Vergleich zum Wiki erheblich niedriger ist, insbesondere in einer Zeitnot-Situation. Ich empfinde die Arbeit mit Texten im Etherpad viel einfacher und zeitsparender. Das eine Mitarbeit vom Text-Urheber gewünscht ist, ist selbstredend DIE Voraussetzung ;).

Gruss, flegno

Statistik: Verfasst von flegno — Mo Okt 27, 2014 8:48 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-27 21:24:44

Hallo,

Erik\_S hat geschrieben:\ Wie ich schon geschrieben habe kann es Sinn machen eine \"Site-spezifische\" Suche an einen bestimmten Peer zu geben aber für eine \"Thema-spezifische\" Suche macht das keinen Sinn denn schließlich wird kein Thema nur von einer einzelnen Web-Site behandelt. Ich denke die meisten Suchenden wollen bei einer \"Thema-spezifischen\" Suche zu diesem Thema einen möglichst umfassenden Überblick bekommen und nicht nur die Sicht einer einzelnen Web-Site.\

Das sehe ich ganz anders. Ich wünsche mir die Möglichkeit einer \“Thema-spezifische\” Suche, die auf einem klar definiertem Quellen-Pool basiert. bspw. weil diese Quellen von mir als zuverlässig und vertrauenswürdig eingestuft werden. Ich bekomme mit einem YaCy-Agenten zuverlässige vertrauenswürdige Treffer schneller und belaste das YaCy-Netzwerk weniger im Vergleich zu einer Standard-Abfrage.

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:Meine Sichtweise ist, dass die Intelligenz, > know-how des Agenten-Urhebers in der Agenten-Instanz verpackt und > weitergereicht wird.\ > >

Okay das ist möglich, läuft meiner Einschätzung nach auf eine Art Link-Liste hinaus mit Links die meinen Forwarder benutzen um z.B. einen bestimmten Peer vorzugeben oder das dem Zufall überlassen (beides hat seine spezifischen Vorteile) und darüber hinaus weitere Parameter enthalten die dann dem YaCy-Peer mitgegeben werden damit dieser die Suche in der Art gestaltet wie der Link-Autor das vorgesehen hat. Wo diese Link-Listen gehostet werden ist von meinem Tool doch erstmal unabhängig, oder?

Wo diese Link-Listen gehostet werden ist von deinem Tool unabhängig. Genaugenommen verzichte ich in dieser Phase der yacyagent-Diskussion auf eine Präzisierung \”[Wie wird die Funktionalität XY realisiert]{style=“font-style: italic”}?\” Für mich ist wichtig zu klären:

  1. Bringt diese Funktionalität einen Mehrwert?
  2. Ist diese Funktionalität machbar?


Gruss, flegno

Statistik: Verfasst von flegno — Mo Okt 27, 2014 9:24 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-10-27 22:55:45

HAllo!

Ich finde das eine gute Idee!

Kannst Du mal ein komplettes iframe-HTML Beispiel zum einbinden hier posten?

Daaaaanke!


Dirk

Statistik: Verfasst von Adama — Mo Okt 27, 2014 10:55 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-10-28 00:36:44

Noch eine Frage!

Besteht die Möglichkeit bei der URL http://130.255.73.69:5353/forward?random direkt auch ein Suchwort einzubinden?

Dann könnte man z.B. bei Instafox (ein Addon zum Suchen) bzw in FF direkt die Suche besser einbinden. Danke!

Dirk

Statistik: Verfasst von Adama — Di Okt 28, 2014 12:36 am


Fragen und Antworten • Bookmarklet zum Indexieren?

Date: 2014-10-28 00:49:18

Man kann doch die Indizierung über eine API starten.

Dann müsste man doch ein Bookmarklet machen können, welches auf Knopfdruck mit Standartindexierung (z.b. Suchgtiefe 3 / Remote wenn möglich) die Aktuelle Seite als Startpunkt verwendet.

Kann das jemand hier kreieren?

Diba

Statistik: Verfasst von Adama — Di Okt 28, 2014 12:49 am


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-10-28 08:34:40

Hallo,

Adama hat geschrieben:\ Kann das jemand hier kreieren?\

Kannst du etwas detaillierter oder mit anderen Worten beschreiben, was du hier mit der API meinst? Weil ich kapiere g\‘rade nicht, ob du evtl. ein Bookmarklet selber schreiben würdest. Ich habe vor Jahren im gleichen Zeitraum, als ich begeisterter Firefox-AddOn- Anwender gewesen bin, auch einige Bookmarklets genutzt bzw. selbst gebastelt. Mit der Zeit ist meine Bookmarklet-Begeisterung abgekühlt aus dem gleichen Grund wie die Firefox-AddOn-Begeisterung - zu viel Aufwand, um die Bookmarklets/AddOns ggf. bei einem Browserversion-Wechsel anzupassen.

Gruss, flegno

Statistik: Verfasst von flegno — Di Okt 28, 2014 8:34 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 08:50:42

Hallo,

Adama hat geschrieben:\ Kannst Du mal ein komplettes iframe-HTML Beispiel zum einbinden hier posten?\

So viel ist da nicht, der relevante Punkt ist das im scr-Attribut des einleitenden iframe-Tags \“http://130.255.73.69:5353/forward?random" drin steht, was bereits funktioniert. Das bedeutet das der Browser für den Inhalt des iframes sich von meinem yacyDNS-Tool die IP-Adresse + Port-Nummer eines zufälligen YaCy-Peers holt und diesen dann ins iframe packt. Mehr steckt da eigentlich nicht dahinter.
Der einzigste Nachteil wenn mein Forwarder als iframe-Ziel benutzt wird ist das der Browser sich diese Weiterleitung merkt (aber maximal bis das Browser-Fenster geschlossen wird) und deswegen ein Reload Deiner HTML-Seite (wo das iframe enthalten ist) diese Abfrage an meinen Forwarder nicht wiederholt und deswegen immer den selben YaCy-Peer benutzt. Ob es da eventuell (browserspezifische) Tricks gibt das zu umgehen weiß ich nicht aber es wäre interessant das in Erfahrung zu bringen.

Adama hat geschrieben:\ Besteht die Möglichkeit bei der URL direkt auch ein Suchwort einzubinden?\

Noch nicht aber demnächst. Es wird dann ein weiteres URI-Query-Parameter namens url geben dem sich eben eine URL, die bei der Weiterleitung an http://peer-ip:peer-port/{.postlink} hinten angehängt wird, mitgeben lässt. Diesem Parameter könnte z.B. der String \“search.html?query=YaCy+Suchmaschine\” zugewiesen werden (natürlich %-codiert{.postlink}) was darauf hinausläuft das der Peer dann per \“http://peer-ip:peer-port/search.html?query=YaCy+Suchmaschine" aufgerufen wird und somit direkt die Ergebnisseite mit der Suche nach \“YaCy Suchmaschine\” angezeigt wird. Genauer soll das dann aber in dem Wiki-Artikel beschrieben werden (nachdem ich das auch alles fertig programmiert habe und online verfügbar ist).

flegno hat geschrieben:\ Ich bitte um Rückmeldung für die Zukunft, ob von deiner Seite solche Stellvertreter-Fragen gewünscht sind.\

Du kannst mich fragen was immer Du möchtest.
Ich habe Deine Fragen auch so interpretiert das Du sie als von der \“Allgemeinheit\” gestellt meinst und meine Antworten auch als an die \“Allgemeinheit\” gerichtet gemeint.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Okt 28, 2014 8:50 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 09:06:20

Hallo,

Adama hat geschrieben:\ Ich finde das eine gute Idee!\ \ Kannst Du mal ein komplettes iframe-HTML Beispiel zum einbinden hier posten?\


Danke für deine Rückmeldung! [eine Schritt-für-Schritt-Anleitung]{style=“font-weight: bold”}:

  1. die Website \“YaCyProxyPlus\” http://130.255.73.69:5353 öffnen
  2. Rechtsklick
  3. Quelltext anzeigen
  4. im frame name=\“random_name_not_taken2\”:
    1. \”[http://130.255.73.69:5353/forward?name=...]{style="font-style: italic”}\“, um einen bestimmten Peer mit dem Peer-Namen einzubinden
    2. \”[http://130.255.73.69:5353/forward?hash=]{style="font-style: italic”}.…\“, um einen bestimmten Peer mit dem Peer-Hash einzubinden
    3. [http://130.255.73.69:5353/forward?random]{style="font-style: italic”}, um einen zufälligen Peer einzubinden

Gruss, fleqno

Statistik: Verfasst von flegno — Di Okt 28, 2014 9:06 am


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-28 09:11:48

Hallo,

flegno hat geschrieben:\ Ich wünsche mir die Möglichkeit einer \"Thema-spezifische\" Suche, die auf einem klar definiertem Quellen-Pool basiert\

Also doch eine \“Site-spezifische\” Suche, da sehe ich kein Problem. Wobei es interessant wäre zu wissen ob YaCy mehrere \“site:domain\” Suchworte in einer Suche verträgt.

flegno hat geschrieben:\ weil diese Quellen von mir als zuverlässig und vertrauenswürdig eingestuft werden\

Okay und woher willst Du wissen das es nicht eventuell \“bessere\” Quellen gibt? Woher willst Du wissen wie andere die Qualität einer bestimmten Quelle beurteilen? Das kannst Du alles nicht wissen und deswegen macht eine \“Thema-spezifische\” Suche auf einer begrenzten Anzahl an Web-Sites keinen Sinn. Nebst dessen das sich das mit YaCy wohl auch kaum umsetzen ließe. Wenn nach einem bestimmten Thema gesucht wird sind alle YaCy-Peers prinzipbedingt gleichwertig, es macht für solche Suchen keinen Unterschied auf welchen YaCy-Peer mit einem \“Agenten\” verwiesen wird, so das es aus Gründen des Load-Balancing besser ist das dem Zufall zu überlassen.

flegno hat geschrieben:\ belaste das YaCy-Netzwerk weniger\

So wie ich den Suchvorgang innerhalb des YaCy-Peer-to-Peer-Netzwerks verstanden habe sind alle Suchen mehr oder weniger gleich [belastend]{style=“font-style: italic”} für das YaCy-Netzwerk.
Das einzigste was Du zumindest etwas steuern kannst ist die Qualität bzw. Quantität der Treffer bei einer \“Site-spezifischen\” Suche indem Du genau den Peer befragst der diese Web-Site auch selber indexiert hat.

flegno hat geschrieben:\ verzichte ich in dieser Phase der yacyagent-Diskussion auf eine Präzisierung \"Wie wird die Funktionalität XY realisiert?\"\

Für mich als Programmierer ist diese Frage aber eine sehr wichtige Frage, vor allem wenn beurteilt werden soll ob eine Funktionalität \”[machbar]{style=“font-style: italic”}\” ist. Die Machbarkeit, und oft auch der Nutzwert, lässt sich nur dann halbwegs zuverlässig klären wenn man die Umsetzung zumindest grob skizziert hat.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Okt 28, 2014 9:11 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 09:22:17

flegno hat geschrieben:\ 1. die Website \"YaCyProxyPlus\" öffnen 2. Rechtsklick 3. Quelltext anzeigen \

Nein, Bitte nicht, das ist doch alles noch gar nicht fertig!
Was dort zu sehen ist ist eine ganz frühe Testvariante, die funktioniert zwar bereits einigermaßen aber stellt auf gar keinen Fall das dar was ich als \“fertige Lösung\” haben möchte und ist nicht zur Nachahmung geeignet.

Und mit der Bezeichnung Proxy für mein Tool bin ich ehrlich gesagt nicht so wirklich einverstanden. Der Begriff \“Proxy\” weckt meiner Meinung nach Assoziationen die auf mein Tool definitiv nicht zu treffen.

Statistik: Verfasst von Erik_S — Di Okt 28, 2014 9:22 am


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 11:43:25

Adama hat geschrieben:\ Besteht die Möglichkeit bei der URL direkt auch ein Suchwort einzubinden?\ \ Dann könnte man z.B. bei Instafox (ein Addon zum Suchen) bzw in FF direkt die Suche besser einbinden. Danke!\

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben: > > 1. die Website \"YaCyProxyPlus\" öffnen > 2. Rechtsklick > 3. Quelltext anzeigen > > \ > >

Nein, Bitte nicht, das ist doch alles noch gar nicht fertig!


Ich bin gespannt wie die fertige Lösung aussieht, ich habe hier:

  1. yacy-agent.sprechrun.de{.postlink} eine auf .htaccess-Scripting basierende funktionierende Lösung beschrieben, die für mich als Beleg dafür dient, dass die Anwender mit [.htaccess]{style=“font-style: italic”}-Kenntnissen bereits jetzt deine Lösung nutzen können - auch mit Query-Feature
  2. ipAdresToTransmit{.postlink}-basierte Lösung ist einfacher, weil für diese braucht der Anwender das yacystats Neuauflage-Tool nicht
Erik\_S hat geschrieben:\ Und mit der Bezeichnung Proxy für mein Tool bin ich ehrlich gesagt nicht so wirklich einverstanden. Der Begriff \"Proxy\" weckt meiner Meinung nach Assoziationen die auf mein Tool definitiv nicht zu treffen.\

Wie wäre es mit einer provisorischer Bezeichnung [\“yacystats Neuauflage\“]{style=“font-style: italic”}-Agent?

Gruss, flegno

Statistik: Verfasst von flegno — Di Okt 28, 2014 11:43 am


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-28 16:00:06

Die Zone ID ist wohl noch durchgerutscht bisher, aber nur in dieser Seedliste so aufgelistet. Innnerhalb der technischen Schnittstellen wurden die Zone IDs bereits entfernt. Hab eben einen Patch hochgeladen der auch die andern Zone IDs nicht mehr im Feld IP6 erzeugen sollte, brauch natürlich Zeit bis die jetzt alle verschwinden.

Statistik: Verfasst von Orbiter — Di Okt 28, 2014 4:00 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 18:06:52

Hallo,

Erik\_S hat geschrieben:\ >
> > Adama hat geschrieben:Besteht die Möglichkeit bei der URL > direkt auch ein Suchwort > einzubinden?\ > >

Noch nicht aber demnächst. Es wird dann ein weiteres URI-Query-Parameter namens url geben dem sich eben eine URL, die bei der Weiterleitung an http://peer-ip:peer-port/{.postlink} hinten angehängt wird, mitgeben lässt.


Ich rege an, dass deine \“yacystats Neuauflage\“-Lösung nach dem [.htaccess]{style=“font-style: italic”}-Vorbild die Parameter hinter [forward?name=]{style=“font-style: italic”} oder [forward?hash=]{style=“font-style: italic”} oder [forward?random]{style=“font-style: italic”} einfach stupide an den Peer weiterreicht. Hier

Code:
RewriteCond  %{HTTP_HOST} ^netstats.sprechrun.de$           [NC]RewriteRule (.*) http://130.255.73.69:5353/forward$1 [R=303,L]

ein funktionierendes (abgesehen davon, dass 130.255.73.69 momentan nicht erreichbar ist) Beispiel, mit dem durch die [.htaccess]{style=“font-style: italic”}-Anweisungen die Abfrage [ http://netstats.sprechrun.de?name=peerName ]{style=“font-style: italic”} in eine Abfrage [ http://130.255.73.69:5353/forward?name=peerName ]{style=“font-style: italic”} transformiert wird. Diese stupide Werterreichung hat aus meiner Sicht mindestens drei Vorteile:

  1. die YaCy-Anwender brauchen keine neue Syntax lernen
  2. du brauchst keine neue Syntax erfinden
  3. \“yacystats Neuauflage\“-Lösung ist zukunftssicher, also bei zukünftigen Veränderungen, darunter Ergänzungen der YaCy-Abfragesyntax bleibt die \“yacystats Neuauflage\“-Lösung ohne Anpassungen funktionsfähig.

Gruss, fleqno

Statistik: Verfasst von flegno — Di Okt 28, 2014 6:06 pm


English • YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-28 19:31:58

This afternoon we upgraded the latest patch YaCy version 1.819116 to both systems we have.

The result is that both of our Robinson mode servers are now reporting

\ \

The peer must go online to get a peer address.

\ \



They are Robinson servers that read each other\’s DBs but do not write to each other.

Everything concerning external crawling and indexing and processing of our RSS links that are programmed into our systems has now stopped.
The DBs can be read, but no growth is possible.
How do we fix this please?
Thank you

Statistik: Verfasst von xioc752 — Di Okt 28, 2014 7:31 pm


English • AdditionalRe:YaCy version 1.819116 knocks servers off Adres

Date: 2014-10-28 19:42:19

ADDITIONALLY

The update caused both servers to generate a major fault at /ConfigPortal.html
This is a disaster.
Our entire environment and data on both systems is now at risk.
[[How can we roll back safely, please? Thank you. ]{style=“font-style: italic”}]{style=“font-weight: bold”}

\ \

HTTP ERROR 500

Problem accessing /ConfigPortal.html. Reason:

Server Error
Caused by:

javax.servlet.ServletException: /usr/share/yacy/htroot/ConfigPortal.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:497)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:539)
at java.lang.Thread.run(Thread.java:745)

YaCy 1.81 - powered by Jetty -

\ \

Statistik: Verfasst von xioc752 — Di Okt 28, 2014 7:42 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-28 19:56:04

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:weil diese Quellen von mir als zuverlässig > und vertrauenswürdig eingestuft werden\ > >

Okay und woher willst Du wissen das es nicht eventuell \“bessere\” Quellen gibt? Woher willst Du wissen wie andere die Qualität einer bestimmten Quelle beurteilen? Das kannst Du alles nicht wissen und deswegen macht eine \“Thema-spezifische\” Suche auf einer begrenzten Anzahl an Web-Sites keinen Sinn.

Also ich schlage vor, dass wir es dabei belassen, dass ich mir zutraue, zu beurteilen, welche Quellen aus MEINER Sicht zuverlässig und vertrauenswürdig sind. Und ich traue mir zu, eine Entscheidung zu treffen, was für MICH einen Sinn macht.

Erik\_S hat geschrieben:\ Nebst dessen das sich das mit YaCy wohl auch kaum umsetzen ließe. Wenn nach einem bestimmten Thema gesucht wird sind alle YaCy-Peers prinzipbedingt gleichwertig, es macht für solche Suchen keinen Unterschied auf welchen YaCy-Peer mit einem \"Agenten\" verwiesen wird, so das es aus Gründen des Load-Balancing besser ist das dem Zufall zu überlassen.\

Ich meine, dass es für die YaCy-Entwicklung und YaCy-Zukunftsfähigkeit vorteilhafter wäre, wenn man bei der Diskussion \“Wohin wird sich YaCy entwickeln?\” gebührend beachtet wird \“Welche YaCy-Eigenschaften sind zukunftsfähig?\” und danach wird die YaCy-Entwicklung dementsprechend ausgerichtet. Wenn man auf einem Standpunkt beharrt \” Das haben wir (im YaCy-Projekt) immer so gemacht!\“, dann schätze ich die YaCy-Überlebencchancen als gering ein 8-).

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:verzichte ich in dieser Phase der > yacyagent-Diskussion auf eine Präzisierung \"Wie wird die > Funktionalität XY realisiert?\"\ > >

Für mich als Programmierer ist diese Frage aber eine sehr wichtige Frage, vor allem wenn beurteilt werden soll ob eine Funktionalität \”[machbar]{style=“font-style: italic”}\” ist. Die Machbarkeit, und oft auch der Nutzwert, lässt sich nur dann halbwegs zuverlässig klären wenn man die Umsetzung zumindest grob skizziert hat.

Also wenn ich diesen einen Wunsch offen habe, ich habe hier ein Dummy-Beispiel{.postlink} für die Visualisierung der Linkliste. Die vom Liquid Browsing inspirierte Idee ist, dass man kompakt umfangreiche Datensammlung darstellt. Ein [grüner Kreis]{style=“color: #008000”} stellt einen Peer dar. Die Kreisgroße kann bspw. die kumulierte Gewichtung der Treffer dieses Peers darstellen.

Gruss, flegno

Statistik: Verfasst von flegno — Di Okt 28, 2014 7:56 pm


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-28 20:03:53

ALSO...
DATA doesn\’t show in the search results window
just the generic framework at the top of the page.
[[How Do We ROLL THIS BACK?
This is a critical state.]{style=“text-decoration: underline”}]{style=“font-weight: bold”}
...and on Both Servers.…which operate independently of each other!

Statistik: Verfasst von xioc752 — Di Okt 28, 2014 8:03 pm


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-28 20:09:55

System Administration is Offline/trashed, too

/Tables_p.html?table=robots&count=100

HTTP ERROR 500

Problem accessing /Tables_p.html. Reason:

\ \


Server Error
Caused by:

javax.servlet.ServletException: /usr/share/yacy/htroot/Tables_p.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:497)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:539)
at java.lang.Thread.run(Thread.java:745)

YaCy 1.81 - powered by Jetty -

\ \

Statistik: Verfasst von xioc752 — Di Okt 28, 2014 8:09 pm


English • Yacy on an Olinuxino board

Date: 2014-10-28 22:34:07

Hi everybody,

I come to you today about running Yacy on Olimex boards. I have been running Yacy on my laptop for a little time now, but I want to switch to a permanent and low energy consuming solution in order to index more pages and have my contribution available at any time. I have experienced the Olimex Olinuxino board for another project so I figured out that it could be a good choice to run Yacy 247.

However Yacy keeps on crashing on my Olinuxino board. I thought that the hardware could be the cause, but the board I am using is the A20-LIME2 (dual core A7 at 1GHz with 1GB DDR3) and Yacy is the only app I intend to run on it, so I guess that the technical specs are sufficient for my need, since Yacy could be run on less powerful Raspberry Pi systems.

I also noticed (from the log) that Yacy always dies when performing the action matching the following log line:
org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabled

I have seen from my laptop that the next step would be to intialize the data directories, but these directories do exist on the Olinuxino board (they are the same as on my laptop, including their permissions).

Right now I am stuck, but I still want to contribute actively to this very nice project. Hence it would be great if you had any suggestions.

Cheers,

Statistik: Verfasst von layst — Di Okt 28, 2014 10:34 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-28 23:25:23

Hallo,

flegno hat geschrieben:\ Ich bin gespannt wie die fertige Lösung aussieht\

Die ist seit ein paar Stunden online und kann getestet werden. Bei eventuellen Bugs bitte ich wundern (ich stand vorhin unter echtem Zeitdruck) sondern lieber hier kurz berichten.

Das Servlet \“/forward\” hat jetzt einige neue Features bekommen:
Es gibt die 3 verschiedenen Basis-Parameter mit denen der gewünschte YaCy-Peer vorgegeben werden kann, also \“name=...\” oder \“hash=...\” oder \“random\” (hier ohne \“=Wert\“). Genau eines von diesen 3 Parametern ist Pflicht, bei Fehlern gibt es eine Fehlermeldung als Antwort und keine Weiterleitung. Zusätzlich wird entweder ein Parameter \“url=\” verarbeitet und dessen gesamter Inhalt als URL an den gewünschten Peer weitergegeben (siehe meine kurze Erklärung von heute Früh) oder es werden alle unbekannten Parameter (also alles was nicht \“name=\” / \“hash=\” / \“random\” / \“url=\” ist) unverändert an die URL \“/yacysearch.html\” des gewünschten YaCy-Peer angehängt. Also \“/forward?random&url=yacysearch.html%3Fsearch%3DYaCy\” und \“/forward?random&search=YaCy\” führen zum selben Ergebnis. Der Unterschied ist das bei der Variante mit dem Parameter \“url=\” nicht zwangsläufig die URL \“/yacysearch.html\” auf dem YaCy-Peer aufgerufen wird sondern man kann angeben was immer man will (und es können so auch Anker an den YaCy-Peer bzw. Browser übergeben werden) aber dafür müssen die Query-Parameter die an den YaCy-Peer gehen sollen selber wieder %-Codiert als Wert des Parameters \“url=\” an den Forwarder übergeben werden und das dürfte HTML-form-Elemente schwierig machen.
Ich fürchte das ist alles etwas komplex (weil ja ohne Bild usw.) aber ich hoffe man versteht trotzdem so einigermaßen was ich ausdrücken möchte und ansonsten könnt Ihr ja einfach ausprobieren was passiert (an meinem Tool kann eigentlich nichts kaputt gehen). Ich hoffe das ich noch dieses Wochenende dazu komme zumindest eine erste Rohfassung des geplanten Wiki-Artikels zu erstellen.

Und fürs Einbinden per Frame: probiert doch mal aus was http://130.255.73.69:5353/random?url=yacysearch.html%3Fquery%3DYaCy+Suchmaschine macht und wie das von meinem Tool realisiert ist.

flegno hat geschrieben:\ Wie wäre es mit einer provisorischer Bezeichnung [\"yacystats Neuauflage\"]{style="font-style: italic"}-Agent?\

Also mir gefällt \“yacyDNS\“, so wie hier im Betreff. Ich denke ich werde das demnächst ins Programm einbauen, so richtig mit Versionsnummer und allem was da so dazu gehört.

flegno hat geschrieben:\ einfach stupide an den Peer weiterreicht\

Ist erledigt.

flegno hat geschrieben:\ abgesehen davon, dass 130.255.73.69 momentan nicht erreichbar ist\

Ja, laut den Kernel-Logs war für mehr als eine Stunde der ganze Server down. Aber eine Ursache konnte ich in den Logs nicht finden, ich werde morgen beim Hoster nachfragen ob die was wissen. Dieses Ereignis zeigt auf jeden Fall das Redundanz sehr wichtig ist wenn ein Service eine hohe Zuverlässigkeit erreichen soll, ich werde da entsprechend vorsorgen.
Zumindest läuft yacyDNS wieder und ich habe die Gelegenheit genutzt gleich die aktuellste Version aufzuspielen, ich hab es sogar geschafft das die Statistik nicht verloren gegangen ist aber die interne Peer-Datenbank wird leider trotzdem noch von neuem aufgebaut.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Okt 28, 2014 11:25 pm


Mitmachen • yacyDNS: Load Balancing, Benutzerfreundlichkeit,YaCy-Zukunft

Date: 2014-10-29 08:25:13

Hallo,

Erik\_S imThread [yacystats Neuauflage?](http://forum.yacy-websuche.de/viewtopic.php?p=31069#p31069){.postlink} hat geschrieben:\ >
> > flegno hat geschrieben:Warum verwendest du hier ein Frame?\ > >

Primär geht es mir tatsächlich darum das der Neuladen-Button (bzw. F5) des Browsers einen anderen Peer selektiert.


Ich habe diesen Thread vom Mutterthread abgezweigt, um das Thema [yacyDNS: Load Balancing vs. Benutzerfreundlichkeit]{style=“font-style: italic”} unabhängig von Programmierungsdetails und Test-/und/oder Fehlerberichten Grundsätzliches zu klären bzw. abzustimmen.

[Grundsätzliche Thesen]{style=“font-weight: bold”}

  1. Load Balancing wird praktiziert bzw. wird angestrebt, um eine gleichmäßige Lastverteilung auf einzelne Peers im YaCy-Netzwerk zu erreichen
  2. Ständig wechselnde Peers/Suchformulare schrecken potenzielle YaCy-Anwender ab und sind benutzerunfreundlich
  3. es gibt YaCy-Peer-Betreiber, die sich freuen, wenn möglichst viele Anwender ihren Peer für die Recherchen im YaCy-Netzwerk nutzen und haben ausreichend Prozessor-Leistung, um viele Suchanfragen zu verarbeiten
  4. falls die Peer-Belastung wegen/durch Suchanfragen zu vernachlässigen ist bzw. die Interessen von bestimmten Peers berücksichtigt werden, sind einfachere, robustere zukunftsweisendere Konzepte und Software-Lösungen bei der Entwicklung des YaCy-Projekts möglich.

[Fragen]{style=“font-weight: bold”}

  1. ich bitte hier ein Link zu posten, wo ich das Konzept für die Lastverteilung für die Suchanfragen nachschlagen kann? Es ist was zu finden zum Load Balancing beim Crawlen{.postlink}, nicht aber zur Lastverteilung für die Suchanfragen.
  2. Gibt es Statistiken bzw. Berichte, die belegen, dass ein Problem der Peer-Belastung wegen/durch Suchanfragen existiert?
  3. Gibt es eine Möglichkeit, Statistiken bzw. Berichte zu erstellen, die belegen, dass ein Problem der Peer-Belastung wegen/durch Suchanfragen existiert?

[ Anregungen]{style=“font-weight: bold”}

  1. die Lösungsänsätze bei der Programmierung der dynDNS-Lösung s. bspw. iframe-Zwang{.postlink} davon (un)abhängig machen, je nach dem, ob ein Problem der Peer-Belastung wegen/durch Suchanfragen existiert
  2. YaCy-Peer-Betreiber befragen, ob sie daran interessiert sind, wenn möglichst viele Anwender ihren Peer für die Recherchen im YaCy-Netzwerk nutzen und haben ausreichend Prozessor-Leistung, um viele Suchanfragen zu verarbeiten

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 29, 2014 8:25 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-29 08:35:48

Hallo,

ich habe hier yacyDNS: Load Balancing, Benutzerfreundlichkeit, Zukunft des YaCy-Projekts{.postlink} ein Thema abgezweigt, in der Hoffnung, ein Paar grundsätzliche Fragen klären zu können, die m.E. für die Auswahl von yacyDNS-Lösungsansätzen und Lösungen relevant sind bzw. sein können.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 29, 2014 8:35 am


Panorama • Die Bundesregierung hat eingeknickt - Google-CAPTCHA ist weg

Date: 2014-10-29 09:31:30

Hallo,

Beim ersten Anlauf im Jahr 2012 war es noch etwas langwierig - s. der Einsatz der CAPTCHA-Lösung auf der Zukunftsdialog-Plattform{.postlink}, im Jahr 2014 zeigte sich die Bundesregierung lernfähig - \“Datenschutzbeschwerde: der Einsatz der CAPTCHA-Lösung auf der Website [digitale-agenda.de]{style=“font-style: italic”}\“, 25.08.2014 - und der Google-CAPTCHA ist von der Website entfernt{.postlink} :P.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 29, 2014 9:31 am


Fragen und Antworten • Re: Postprocessing

Date: 2014-10-29 10:07:11

Ich habe das gleiche Problem. Das Postprocessing startet bei mir und irgendwann ist yacy dann garnicht mehr erreichbar.
Dennoch habe ich es drei Tage durchlaufen lassen. Mit dem Ergebnis, dass der Postprocessing Prozess (nachdem ich yacy gezwungenermaßen killen musste) wieder von vorne beginnt.
In einem früheren Post schrieb Orbiter, dass Postprocessing nicht unbedingt notwendig ist. Kann man es irgendwo deaktivieren?

Statistik: Verfasst von Gucky — Mi Okt 29, 2014 10:07 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-29 10:17:59

You would need to unpack a previous release to get back a version but I do not have the experience to tell you how.

Could you download the log files and report it here http://mantis.tokeek.de/my_view_page.php.

Thanks for the tip I wont update mine yet unless I have a full recent Backup.

If /CrawlProfileEditor_p.html still works then save page as TXT file to backup all your crawling stuff incase there is no return.

Statistik: Verfasst von smokingwheels — Mi Okt 29, 2014 10:17 am


English • Re: Yacy on an Olinuxino board

Date: 2014-10-29 11:09:50

layst hat geschrieben:\ I have been running Yacy on my laptop for a little time now, but I want to switch to a permanent and low energy consuming solution in order to index more pages and have my contribution available at any time.\


I switched to a VPS on https://my.vultr.com for \$8.00 USD/month with a power saving of approx \$40/month powering my pc at home.
My Yacy now has an age of 25 days and is 5 GB.
I read some where if you backup the DATA folder and transfer it to another machine of a fresh install you have every thing in your index again, I will have to look into that though.
I use Debian 7 64bit and have a robot keyboard that types all the commands in A typical Yacy install takes 4 min.
https://www.youtube.com/watch?v=UQzC9DvBDf0
I can help you set it up for free just PM me. Try my VPS Yacy at http://smokingwheels.evils.in:8090

Statistik: Verfasst von smokingwheels — Mi Okt 29, 2014 11:09 am


Mitmachen • Re: YaCy POI Suche mit OpenStreetMap Karte

Date: 2014-10-29 12:03:57

Nachdem ich im git gesehen habe, dass es da letztens einen kleinen Commit gab, habe ich mich auch wieder an die App erinnert. Eigentlich würde ich die gerne nochmal komplett neu beginnen, aber Zeit und so...

Statistik: Verfasst von Low012 — Mi Okt 29, 2014 12:03 pm


Mitmachen • Re: YaCy POI Suche mit OpenStreetMap Karte

Date: 2014-10-29 13:47:21

ja ich hatte eine Kleinigkeit fixen müssen, aber das ganze sollte noch genau so gehen.

Ich würde ja schon gerne eine YaCy app für die Suche machen, da wäre es dann toll wenn die Karte als Suchdarstellungsoption mit drin wäre. Ich habe sogar schon angefangen, es geht aber nicht richtig weiter weil mir zu viel Vorkenntnisse fehlen um an kleinen \‘es geht nicht weiter und ich verstehe den Fehler nicht\‘-Stellen weiterkommen zu können.

Statistik: Verfasst von Orbiter — Mi Okt 29, 2014 1:47 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-29 13:55:19

seit meinem Posting in viewtopic.php?p=30740#p30740{.postlink-local} sammeln die Peers ja nun auch lokal Statistiken und diese sind in der aktuellen Dev-Versionen nun in Grafiken zu sehen, und zwar auf einer neuen Netzwerkseite in /Network.html?page=5 für Peer-Historie und auf der alten Status.html Seite für Dokumentenanzahlhistorie.

Das soll laber nicht heissen dass \‘externe\’ Statistiken unerwünscht oder überflüssig sind. Jedenfalls haben wir nun Statistiken in jedem Peer und die kann je nach dessen Online-Zeit auch unterschiedlich sein. Ich sehe diese Statistiken auch als Mittel um \‘Sammelleidenschaften\’ entgegen zu kommen und damit Online-Zeiten der Peers zu erhöhen.

Network History 20141029.png

Das ist mein Peer der durch das Fehlen von IPv4 einen massiven Einbruch an Peer-Kontakten hatte und nun nach den IPv6-Änderungen nun langsam wieder anfängt zu wachsen.
Vorschläge willkommen.

Statistik: Verfasst von Orbiter — Mi Okt 29, 2014 1:55 pm


Fragen und Antworten • Re: Postprocessing

Date: 2014-10-29 14:14:56

das postprocessing kann man durch entfernen des Feldes process_sxt im Index Schema auschalten. Ich hatte die Hoffnung dass dieses Feature nur eine Kinderkrankheit hat und ich diese schnell fixen kann, deswegen war und ist das Feld per default an. Wenn ich das Problem nicht beheben kann wird es irgendwann per default aus sein, was aber schade wäre weil die Funktion vielversprechende Rankingmöglichkeiten eröffnet.

Statistik: Verfasst von Orbiter — Mi Okt 29, 2014 2:14 pm


Fragen und Antworten • Re: Jetty Apache

Date: 2014-10-29 14:19:05

I don\’t undestand the question, what do you want to do?

Statistik: Verfasst von Orbiter — Mi Okt 29, 2014 2:19 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-10-29 14:52:26

Hallo,

Orbiter hat geschrieben:\ nicht mehr im Feld IP6 erzeugen sollte, brauch natürlich Zeit bis die jetzt alle verschwinden\

Ja, es werden sichtbar weniger IPv6-Adressen mit angehängter Zone-ID. Mein Tool hat sich aber in den letzten Tagen primär daran gestört das die Zone-ID auch ins Feld \“IP\” kam, das hat Verwirrung beim Unterscheiden zwischen Domain-Namen und IP-Adresse gestiftet. Aber nun scheint es sich wieder zu normalisieren.

Erfreulich ist auf jeden Fall das eindeutig nicht global routbare IP-Adressen weniger werden, die IP \”::2\” ist komplett verschwunden und es kommen nur noch vereinzelt 10.../8 und 192.168../16 und 127.0.0.1 vor.
Was im Feld \“IP\” aber immer noch fehlerhaft ist sind Domain-Namen mit angehängtem Port und einem \’:\’ dazwischen. Ich vermute mal das die jeweiligen Anwender das so ins Konfigurations-Feld \“statische IP\” händisch eingetragen haben.

Interessant ist das nun auch IPv6-Adressen aus dem Bereich 2002::/16 (also per 6to4-Tunnel{.postlink}) auftauchen und generell IPv6-Adressen von normalen Endkunden-Providern zunehmen.
Ich denke YaCy ist auf einem guten Weg, wenn auch noch ein erheblicher Teil dieses Weges übrig ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 29, 2014 2:52 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-10-29 15:10:21

Hallo,

an der obersten Graphik ist gar kein so deutlicher 24-Stunden-Verlauf zu sehen wie in meiner Statistik. Bei meinem Tool schwankt die Anzahl der tatsächlich erreichbaren Peers innerhalb von 24 Stunden oft zwischen 180 und 220, teilweise sogar noch darüber hinaus, auf Deiner Graphik sieht die Linie hingegen deutlich flacher aus. Kannst Du Dir das erklären? Mir fällt da spontan keine Erklärung ein obwohl doch \“Connected Senior Peers\” so ziemlich das selbe meinen sollte.

Das die anderen Graphiken deutlich höhere Anzahlen an Peers ausgeben liegt wohl daran das dort auch Juniors mitgezählt werden. Die Junior-Peers sind für mein Tool aber leider komplett unsichtbar da mein Tool nur die Peers zählt die es selber erreichen kann.

Orbiter hat geschrieben:\ Vorschläge willkommen\

Was ich denke was noch getan werden müsste damit YaCy von IPv6 wirklich in vollem Umfang profitieren kann habe ich schon im Thread im Coding-Sub-Forum geschrieben.
Ich bin aber auf jeden Fall der Meinung das es vorwärts geht.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 29, 2014 3:10 pm


Mitmachen • Re: yacyDNS: Load Balancing, Benutzerfreundlichkeit,YaCy-Zuk

Date: 2014-10-29 15:59:26

Hallo,

flegno hat geschrieben:\ Load Balancing wird praktiziert bzw. wird angestrebt, um eine gleichmäßige Lastverteilung auf einzelne Peers im YaCy-Netzwerk zu erreichen\

Ja, das ist das Ziel. Wenn Orbiter in YaCy z.B. eine Konfiguration einbauen sollte mit der ein Peer bitten kann nicht an die vorderste Front geschoben zu werden dann werde ich das in meinem Tool auch berücksichtigen.

flegno hat geschrieben:\ Ständig wechselnde Peers/Suchformulare schrecken potenzielle YaCy-Anwender ab und sind benutzerunfreundlich\

Wieso, das wechselt doch gar nicht ständig. Der Peer wird nur dann gewechselt wenn der Anwender das explizit auslöst.

flegno hat geschrieben:\ es gibt YaCy-Peer-Betreiber, die sich freuen, wenn möglichst viele Anwender ihren Peer für die Recherchen im YaCy-Netzwerk nutzen und haben ausreichend Prozessor-Leistung, um viele Suchanfragen zu verarbeiten\

Ja, ganz recht, aber es gibt sicher auch Peers die auf eher schwacher Hardware laufen und deswegen es nicht unbedingt begrüßen überrannt zu werden. Ich kann nur wiederholen: wenn es da mal eine Stellschraube gibt dann werde ich die auch berücksichtigen.

flegno hat geschrieben:\ falls die Peer-Belastung wegen/durch Suchanfragen zu vernachlässigen ist bzw. die Interessen von bestimmten Peers berücksichtigt werden, sind einfachere, robustere zukunftsweisendere Konzepte und Software-Lösungen bei der Entwicklung des YaCy-Projekts möglich.\

Hm, der Satz klingt schön und auch irgendwie richtig, aber ich kann dem leider keine Information entnehmen. Was genau meinst Du damit?

flegno hat geschrieben:\ wo ich das Konzept für die Lastverteilung für die Suchanfragen nachschlagen kann?\

Naja, das ergibt sich eigentlich eher implizit aus dem Konzept der Distributed-Hash-Table die als Verteilungsmechanismus für den Index benutzt wird, siehe http://de.wikipedia.org/wiki/Verteilte_Hashtabelle.

flegno hat geschrieben:\ Gibt es Statistiken bzw. Berichte, die belegen, dass ein Problem der Peer-Belastung wegen/durch die Suchanfragen existiert?\

Es gibt einen Thread zu diesem Thema: http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5302.

flegno hat geschrieben:\ Gibt es eine Möglichkeit, Statistiken bzw. Berichte zu erstellen, die belegen, dass ein Problem der Peer-Belastung wegen/durch die Suchanfragen existiert?\

Naja, Du könntest Deinen Peer einfach mal gezielt überlasten und zusehen was passiert.

flegno hat geschrieben:\ [iframe-Zwang](http://forum.yacy-websuche.de/viewtopic.php?p=31069#p31069){.postlink}\

Wie kommst Du auf Zwang?
Mein Tool bietet [mehrere]{style=“text-decoration: underline”} Möglichkeiten sich mit einem bestimmten oder einem zufälligem YaCy-Peer verbinden zu lassen, die Variante mit dem iframe ist [nur eine]{style=“text-decoration: underline”} davon! Welche Variante Du oder ein beliebiger Anwender benutzen möchte wird von mir nicht vorgegeben, ich bemühe mich [alle]{style=“text-decoration: underline”} Varianten gleich gut zu unterstützen. Auch um z.B. eine YaCy-Suche direkt in eine eigene Web-Seite zu integrieren stehen alle diese Varianten zur Verfügung, die Entscheidung welche Variante letztlich benutzt wird liegt beim Betreiber der betreffenden Web-Seite (bzw. beim HTML-Autor) und nicht bei mir.

Bei der iframe-Lösung bemühe ich mich den Umstand des Frame-Sets deutlich zu machen damit der Anwender weiß das von meinem yacyDNS-Tool nur die Vermittlungsleistung aber nicht die Suchleistung kommt, das bin ich schon den Betreibern der Peers (die die eigentliche Suchleistung erbringen) schuldig. Auch das der Anwender möglichst einfach das Frame-Set verlassen können soll (um mit dem vorgeschlagenen YaCy-Peer direkt zu kommunizieren) geht in diese Richtung. Das es wichtig ist das der Reload-Button bzw. F5 einen anderen Peer selektiert kommt einfach aus der Tatsache das viele YaCy-Peers auf privaten Heim-Computern laufen und so ein Heim-Computer eben auch mal offline gehen kann und wenn dann der Anwender keine einfache Möglichkeit hat mein Tool anzuweisen einen anderen Peer zu probieren wäre das für den Anwender wohl eher abschreckend. Ich möchte hierzu noch mal auf den Thread http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5302 verweisen.

Ich bin wirklich der Meinung das ich gute Gründe habe die iframe-Lösung so zu implementieren wie ich sie implementiert habe. Wenn Du andere Gründe kennst, auch ich bin nicht vollkommen, dann können wir darüber gerne diskutieren. Aber mir \“Zwang\” vorzuwerfen empfinde ich nicht als zielführend!

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 29, 2014 3:59 pm


English • Re: Yacy on an Olinuxino board

Date: 2014-10-29 16:08:40

\ I read some where if you backup the DATA folder and transfer it to another machine of a fresh install you have every thing in your index again, I will have to look into that though.\



I did save my DATA folder from the laptop :) I guessed that it should be the case.

\ I switched to a VPS on for \$8.00 USD/month with a power saving of approx \$40/month powering my pc at home.\



Renting a VPS could be a solution. I might switch to that if I cannot achieve setting up Yacy on my Olinuxino board. I shall come to you then, if I meet any problems :P thank you!

Right now I still would like to have my installation at home, to save a little money (especially in a long-term perspective) and to be able to upgrade easily my installation, for instance by replacing the HDD from 320 Gb to 1 Tb or whatever when it is close to be full. Maybe I am mistaken, but I feel like the needed storage can increase quite quickly (my DATA folder is about 8 Gb after less than 10 searches), and I would not like to depend on an external service to upgrade it.

Statistik: Verfasst von layst — Mi Okt 29, 2014 4:08 pm


Mitmachen • Re: YaCyProxyPlus mit einer Agenten-Intelligenz bestücken

Date: 2014-10-29 16:19:38

Hallo,

flegno hat geschrieben:\ dass wir es dabei belassen, dass ich mir zutraue, zu beurteilen, welche Quellen aus MEINER Sicht zuverlässig und vertrauenswürdig sind. Und ich traue mir zu, eine Entscheidung zu treffen, was für MICH einen Sinn macht.\

Selbstverständlich kannst Du am besten beurteilen was für DICH am [besten]{style=“font-style: italic”} ist aber kannst Du das auch für andere? Also ich kann das nicht, schon aus der Tatsache heraus das Menschen verschieden sind, und deswegen macht eine \“Thema-spezifische Suche\” die auf eine einzelne oder begrenzte Anzahl an Web-Sites eingeschränkt ist, keinen Sinn für die Allgemeinheit. Und aufgrund der real existierenden Implementierung innerhalb von YaCy macht es auch keinen Sinn eine \“Thema-spezifische Suche\” auf bestimmte YaCy-Peers zu fokussieren, das ergibt nur Sinn bei einer \“Site-spezifischen Suche\” (eben wegen der Lokalität des Index auf dem crawlenden Peer).

flegno hat geschrieben:\ \.... gebührend beachtet wird \"Welche YaCy-Eigenschaften sind zukunftsfähig?\"\

Gerne, aber nicht alles was wünschenswert ist lässt sich auch leicht umsetzen. Zu dem DHT-Konzept gibt es eigentlich keine echte Alternative also wird man sich mit den Mängeln des DHT-Konzepts irgendwie arrangieren müssen. Mal davon abgesehen das ich persönlich nicht der Meinung bin dass das DHT-Konzept irgendeine der hier diskutierten Ideen wirklich behindert.

flegno hat geschrieben:\ Wenn man auf einem Standpunkt beharrt \"Das haben wir (im YaCy-Projekt) immer so gemacht!\"\

Das ist doch hoffentlich kein Vorwurf in meine Richtung? Wer fordert den hier am lautesten eine gründliche Überarbeitung der Peer-to-Peer-Logik damit YaCy mit den neuen Möglichkeiten und Herausforderungen die IPv6 bietet auch profitieren bzw. mithalten kann?

flegno hat geschrieben:\ Also wenn ich diesen einen Wunsch offen habe\

gerne

flegno hat geschrieben:\ ich habe hier ein [Dummy-Beispiel](http://yacyagent.sprechrun.de/?id=1778#c1817){.postlink} für die Visualisierung der Linkliste. Die vom Liquid Browsing inspirierte Idee ist, dass man kompakt umfangreiche Datensammlung darstellt. Ein [grüner Kreis]{style="color: #008000"} stellt einen Peer dar. Die Kreisgroße kann bspw. die kumulierte Gewichtung der Treffer dieses Peers darstellen.\

Und was genau ist Dein Wunsch?
Falls Du eine \“andere\” Darstellung der Suchergebnisse in der YaCy-Suchseite möchtest dann bin ich auf jeden Fall der falsche Ansprechpartner für diesen Wunsch.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Okt 29, 2014 4:19 pm


Fragen und Antworten • Re: Postprocessing

Date: 2014-10-29 18:29:03

Danke für die schnelle Rückmeldung. Ich habe es er einmal ausgeschaltet.
Mach bitte weiter mit deiner tollen Arbeit. Irgendwann wird es bestimmt reibungslos funktionieren ;)

Statistik: Verfasst von Gucky — Mi Okt 29, 2014 6:29 pm


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-29 19:04:02

This is very bad.
I have posted a bug report at http://mantis.tokeek.de/view.php?id=492

\ You would need to unpack a previous release to get back a version but I do not have the experience to tell you how.\


Who knows how to do this, please? This is critical failure, & it is not a hobby project.

\ If /CrawlProfileEditor\_p.html still works then save page as TXT file to backup all your crawling stuff incase there is no return.\


Yes, it works, but there are 700+ entries on one server alone.
What we need is to recover an instruction set, not oceans of lines to copy & paste.
There are weeks of continuous crawls, 247 on each server.
How to do this, please?
Many thanks

Statistik: Verfasst von xioc752 — Mi Okt 29, 2014 7:04 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-29 19:07:16

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:dass mit 130.255.73.69 eine > quasi-dynDNS-Funktionalität realisiert ist.\ > >

Das ist aber nur ein Aspekt, von mehreren, meines Tools. Okay, eigentlich ist das der Kern meines Tools, alles andere wie die Statistiken und die Weiterleitungsmechanismen sind aus meiner persönlichen Sicht eher Beiwerk, aber deswegen nicht weniger wichtig.

Sobald das yacyDNS-Tool stabil läuft, lohnt es sich m.E. ernsthaft nachzudenken, die 503-Fehlermeldung hier

Code:
YaCy\htroot\proxymsg\error.html

im Demo-Portal und auf den Peers so abzufangen und zu gestalten, dass dem YaCy-Betreiber eine Konfigurationsmöglichkeit geboten wird:

  1. automatisch den Besucher zu einem zufälligen oder bestimmten Peer weiterzuleiten
  2. oder ein Frame mit der 503-Meldung \“YaCy-Peer \“XYZ\” has too many connections, use yacyDNS{.postlink} for trying an other YaCy-Peer. See yacy.net{.postlink} to get yours.\” einzublenden

s. dazu auch Internet: HTTP-Fehler 503 – Ursache und Problemlösung{.postlink}.

Die Position von Orbiter{.postlink} in dieser Sache, das ist m.E. eine Art Erziehungsversuch mit der Peitsche. Mein Vorschlag oben ist ein Versuch die potenzielle YaCy-Nutzer mit dem Zucker, also mit einer Wohlfühl-Atmosphäre in der YaCy-Community für YaCy zu gewinnen :P. Es wäre doch unvernünftig auf diesen verfügbaren Verfügbarkeits-/Zuverlässigkeits-Vorteil, der auf dem peer-to-peer-Charakter des YaCy-Netzes basiert, zu verzichten.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Okt 29, 2014 7:07 pm


Mitmachen • Re: YaCy POI Suche mit OpenStreetMap Karte

Date: 2014-10-29 19:35:26

Ich mache ja seit 3 Jahren kaum was anderes und kenne mittlerweile recht viele Stolperfallen, Bugs und Limits von Android.Ich kann mich abends leider nur selten aufraffen, das gleiche, was ich schon den ganzen Tag mache, auch zu hause noch fortzusetzen... ;-)

Mir ist übrigens aufgefallen, dass die POI-Suche über das HTML-Interface von YaCy nicht funktioniert, wenn man YaCy über HTTPS lädt:


Begründung siehe Screenshot.

Statistik: Verfasst von Low012 — Mi Okt 29, 2014 7:35 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-10-29 19:45:14

Hello,
well, we have planned to continue using YaCy. There are no plans or interest in going somewhere else as there are security functions in it we feel are important.
as you know, however, the update from yesterday has trashed both of our servers.
YaCy version 1.819116 causes a critical and complex failure documented by the error notices / logs at the other forum address.
viewtopic.php?f=23&t=5429{.postlink-local}

So now we need serious help to fix this.
Who knows how to fix, bypass, work around or whatever to repair this mess, please?
Both servers were effected immediately.
Both show the illogical peer notice.
interestingly, the key message never seen before in our use of this is

\ The peer must go online to get a peer address.\


As they were never set up as peers, this is very strange.
These are Robinson servers that read each other but do not write to each other
...precisely to avoid the chance that one sick server will infect the other.
However, as we can see a bug in the update applied to both has caused the massive dual failure.

Statistik: Verfasst von xioc752 — Mi Okt 29, 2014 7:45 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-10-29 21:50:05

http://www.thisiscolossal.com/2013/08/giuseppe-colarusso-unlikely/

Statistik: Verfasst von Low012 — Mi Okt 29, 2014 9:50 pm


Fragen und Antworten • Re: Postprocessing

Date: 2014-10-29 22:08:18

Sorry aber wo genau kann man das ausschalten?????

ch finde das nicht.

Diba

Statistik: Verfasst von Adama — Mi Okt 29, 2014 10:08 pm


Fragen und Antworten • Yacy Konfig Sichern?

Date: 2014-10-29 23:17:54

Hallo!

Ich habe versucht, Yacy zu updaten.

Seit dem Startet es nicht mehr.
Die Prozessorleistung geht erst hoch und fällt dann auf Null ab.
Sonst passiert nichts.

Welche Dateien muß ich sichern, um Yacy wiederherstellen zu können?

Also wo sind meine Blacklists, meine Crawleinstellungen und ganz wichtig: meine Identiät gespeichert?

Vielen Dank!

Statistik: Verfasst von Adama — Mi Okt 29, 2014 11:17 pm


Fragen und Antworten • Re: Yacy Konfig Sichern?

Date: 2014-10-29 23:47:32

Hallo Adama,

ich weiss ja nicht wie du etwas sichern willst, wenn dein YaCy schon nicht richtig läuft.
Aber Deine Blacklists sind in DATA/LISTS/, Deine Crawls in DATA/INDEX/freeworld/QUEUES/, die Identität desPeers ist in DATA/INDEX/freeworld/NETWORK/mySeed.txt, alle Settings sind in DATA/SETTINGS/.

Schau doch mal lieber ob in DATA/LOG/yacy00.log noch etwas geschrieben wird bei einem solchen Startversuch.
Wie hast Du das Update gemacht?

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Okt 29, 2014 11:47 pm


Fragen und Antworten • Re: Postprocessing

Date: 2014-10-30 00:13:13

es ist nicht ein \‘normaler\’ Schalter sondern ein Feld im Index:

- öffne /IndexSchema_p.html
- mach den Haken bei process_sxt weg
- \‘Set\’ (ganz unten) drücken.

Wenn das Feld nicht mehr benutzt wird, läuft auch kein Postprocessing mehr, auch nicht bei Dokumenten die das Feld noch haben.

Ihr seht ggf. dass da noch viele andere Felder ausgeschaltet sind, die sind aber für Peer-to-Peer Websuche nicht unbedingt notwendig oder sinnvoll. Man kann sie an machen um z.B. dann die Felder im Ranking zu benutzen, siehe /RankingSolr_p.html. Manche Felder sind dort, weil ich Kunden haben die das für einen bestimmten Zweck benutzen wollen. Ich entscheide dann immer, ob die Felder dann für die Allgemeinheit sinnvoll und wichig sind, oder ob es strategisch gut ist weil sich aus der Anwesenheit bestimmter Informationen dann irgenwann für alle einen Vorteil ergibt. Beim Postprocessing ist das eben so eine Sache, das steht auf der Kippe: es ist sehr sinnvoll, aber auch sehr (CPU-) kostspielig. Es macht aber nichts das auszumachen, das hat auf keinen Fall einen Nachteil für die P2P-Suche.

Statistik: Verfasst von Orbiter — Do Okt 30, 2014 12:13 am


English • Re: Yacy on an Olinuxino board

Date: 2014-10-30 03:55:11

\ DATA folder is about 8 Gb after less than 10 searches\


You transfered the DATA folder how many Documents show up on the Olinuxino board install?
Maybe a reindex is needed /IndexReIndexMonitor_p.html.

\ Yacy keeps on crashing on my Olinuxino board\


See link for automatic restart instructions schedule, just point the steering url to IP and port add /Steering.html?restart= to it.
http://mantis.tokeek.de/view.php?id=414

Statistik: Verfasst von smokingwheels — Do Okt 30, 2014 3:55 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-30 05:16:54

\ I have posted a bug report at \


I seen your report but there is no system logs on debian there here /var/lib/yacy/LOG you should use 7zip or similar to compress them and upload it to the bug report.

\ This is critical failure, & it is not a hobby project.\


So a production servers. No backup. SSD is going to fill up. If the Cloud drive fails? Spells disaster to me.

\ Yes, it works, but there are 700+ entries on one server alone.\ What we need is to recover an instruction set, not oceans of lines to copy & paste.\ There are weeks of continuous crawls, 24/7 on each server.\



Try saving this page as a TXT file to backup your API Table.
/Tables_p.html?table=api&count=all&search=
Copy & paste oceans of lines, well my typist she can run at 500 WPM.
There is a new update today hope that fixes you problems.

Statistik: Verfasst von smokingwheels — Do Okt 30, 2014 5:16 am


Hilfe für Einsteiger und Anwender • Re: Syntax des yacyDNS-Tools

Date: 2014-10-30 06:04:39

Hallo,

Erik\_S hat geschrieben:\ Seit ein paar Stunden ist eine Version online, und kann getestet werden, die den Zustand \"fertig\" zumindest einen deutlichen Schritt näher ist. Bei eventuellen Bugs bitte nicht wundern (ich stand vorhin unter echtem Zeitdruck) sondern lieber hier kurz berichten.\ \ Das Servlet \"/forward\" hat jetzt einige neue Features bekommen:\ Es gibt die 3 verschiedenen Basis-Parameter mit denen der gewünschte YaCy-Peer vorgegeben werden kann, also \"name=\...\" oder \"hash=\...\" oder \"random\" (hier ohne \"=Wert\"). Genau eines von diesen 3 Parametern ist Pflicht, bei Fehlern gibt es eine Fehlermeldung als Antwort und keine Weiterleitung.\


Ich rege an, die Syntax des yacyDNS-Tools zu verändern und zwar sich auf nur zwei Basis-Parameter \“name=...\” und \“hash=...\” zu beschränken. Dann wäre das yacyDNS-Tool so anzupassen, dass bei bestimmten reservierten Werten für \“name=...\” oder \“hash=...\” bspw. \’[zufallsPeer]{style=“font-style: italic”}\’ der yacyDNS-Anwender einen zufälligen Peer abfragen kann. Diese Zwei-Parameter-Lösung ermöglicht eine einfache Einbindung des yacyDNS-Tools z.B. mit so einem HTML-Formular:

Code:
<form name="yacyDNS" action="http://130.255.73.69:5353/forward">  <p>    Suchbegriff: <input name="query" ></input><br />        YaCy-Peer: <input name="name" value="zufallsPeer">    <input type="submit" value="senden"><br>  </p></form>


Gruss, flegno

Statistik: Verfasst von flegno — Do Okt 30, 2014 6:04 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-30 08:54:03

Thanks for your comments & suggestions.
I will find those logs... Thanks
Well, the background is \‘welcome to the world of big cloud providers always blaming the other guy\’ ...especially when there is a hint of developer work going on! = The \“perfect excuse.\”
We will try your tricks. Thanks.
By the way... Lack of space has been the recent problem for creating backups...+ not everyone has gargantuan institutional backbones for flinging around multi-GB folders in less than lightyears... and with now substantial sized data folders, this is not a funny problem. :(

So, back to the Basic Question please:
FINDING The [[Best Practices]{style=“font-weight: bold”}]{style=“text-decoration: underline”} based work around, patch or rollback...

How is it that this lack of displaying the search results in a standard off the shelf window - using one of the display pages provided, and several html pages of errors inside admin (which does display) results in no search results being shown to searchers (only the top of page framework) and how is that our fault on -2- simultaneous separate, not-interconnected, cloud servers - each in in Robinson mode that got the same ~very slightly~ flaky update within minutes of each other (that clearly doesn\’t \‘work\’ everywhere)?
So at least [[in clouds]{style=“font-style: italic”}]{style=“font-weight: bold”} with this version of Ubuntu, this was a [\“repeatable failure.\“]{style=“font-weight: bold”}
Call this a dumb sincere question, please?
We\’re not angry, just needing seasoned creative help to get past what clearly is \“un petit bete noire,\” as the French say.
This is all work in development, on all sides, and it takes inter-team creativity, across & between different teams.
Time to think :arrow: past the error state, please...
Many thanks!
:D

Statistik: Verfasst von xioc752 — Do Okt 30, 2014 8:54 am


English • The peer must go online to get a peer address.

Date: 2014-10-30 10:40:32

problem:
on two Robinson servers, cloud based
we applied update
1.819116

then, [[after making no other changes]{style=“text-decoration: underline”}]{style=“font-weight: bold”} we got displayed

\ [[The peer must go online to get a peer address.]{style="font-style: italic"}]{style="font-weight: bold"}\


This was caused exclusively by the update.
Repeated on the 2nd server.
Same effects, same update applied - within minutes of each other.

How do we get past this, please?
Conditions:
A) Admin window displays normally...most things are OK
B) Data and available space sizes appear normal.

HOWEVER,
1) No Search Results data is displayed when searches are made
Only the Top of Page Framework displays with the search button clickable, but with NO RESULTS
2) Admin Http 500 Error screens in html display for
ConfigPortal.html
Tables_p.html?table=robots&count=100

Search results Page Header display but no crawl results display.
How do we get around this blockage...Work Around, Patch or Rollback.
Ideally we wish to move forward repair and continue daily updates, of course.
The functions & security features in this engine are very important to us
[[Many Thanks!]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

Statistik: Verfasst von xioc752 — Do Okt 30, 2014 10:40 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-30 10:52:44

a migration back to a previous version of YaCy is exactly the same as upgrading: just open /ConfigUpdate_p.html, select an older version and install that.

Statistik: Verfasst von Orbiter — Do Okt 30, 2014 10:52 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-30 21:03:48

HI and thank you, but unfortunately we installed these by hand in the 2 clouds, so we have this displaying.

System Update

\ You installed YaCy with a package manager. To update YaCy, use the package manager:\ manual update:\ apt-get update && apt-get install yacy\ automatic update: add the following line to /etc/crontab\ 0 6 \* \* \* root apt-get update && apt-get -y \--force-yes install yacy\



We have since upgraded the two servers to version 1.819123 - on both machines.
Crawling resumes on the slow server (the other is out of space, so it is paused)

However, although search requests look like they process, NO Data Results show...
We are using one of the provided templates, at the moment.
Only the header lines of the results page show with the search term in the window

Can we have an upgrade/update to fix that, please?
Many Thanks!

Statistik: Verfasst von xioc752 — Do Okt 30, 2014 9:03 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-30 21:48:03

Hallo,

flegno hat geschrieben:\ im Demo-Portal und auf den Peers\

Das \“Demo-Portal\“, also \“search.yacy.net\“, ist ebenfalls nur ein ganz normaler YaCy-Peer, da ist kein Unterschied.

flegno hat geschrieben:\ so abzufangen und zu gestalten, dass dem YaCy-Betreiber eine Konfigurationsmöglichkeit geboten wird\

Grundsätzlich eine gute Idee aber eigentlich sollte diese Meldung doch nur kommen wenn der Peer wirklich überlastet ist und dann ist es doch eigentlich auch schwer überhaupt eine HTTP-Response zu schicken also könnte eine bessere 503-Antwort auch schwierig werden.

flegno hat geschrieben:\ [Die Position von Orbiter](http://forum.yacy-websuche.de/viewtopic.php?p=30432#p30432){.postlink} in dieser Sache, das ist m.E. eine Art Erziehungsversuch mit der Peitsche.\

Eindeutig Jain. Für eine verteilte Suchmaschine ist eine zentrale Demo-Instanz definitiv der falsche Weg und läuft dem Konzept \“verteilt\” zuwider. Aus dieser Sicht kann ich Orbiters Haltung gut nachvollziehen. Hinter \“search.yacy.net\” sollte sich ein möglichst ausfallsicherer Zufalls-Weiterleitungsmechanismus verbergen. Ich habe heute eine passende Domain eingerichtet und werde nun mit Vorrang mein Tool befähigen damit passend umzugehen (u.a. wird es auf Port 80 für Standard-HTTP-Zugriff umgestellt und ein DNS-Server, der Load-Balancing über mehrere IP-Adressen ermöglicht, implementiert). Wenn das sauber läuft wäre ich sehr erfreut wenn Orbiter einen passenden Link auf yacy.net unterbringt. Da mein Tool ja nur ein Frame-Set (das kaum 2 kBytes benötigt) ausliefert läuft es auch nicht so schnell Gefahr selbst unter großem Ansturm überlastet zu werden.

flegno hat geschrieben:\ Es wäre doch unvernünftig auf diesen verfügbaren Verfügbarkeits-/Zuverlässigkeits/Ausfallsicherheit-Vorteil, der auf dem peer-to-peer-Charakter des YaCy-Netzes basiert, zu verzichten.\

Mehr als nur unvernünftig!

flegno hat geschrieben:\ dass bei bestimmten reservierten Werten für \"name=\...\" oder \"hash=\...\" bspw. \'zufallsPeer\' der yacyDNS-Anwender einen zufälligen Peer abfragen kann\

Das mit dem reserviertem Wert ist beim Name nur sehr schwer zu realisieren da dort nahezu alles erlaubt ist. Wer verhindert den das irgendjemand seinen Peer \“zufallsPeer\” tauft? Ein reservierter Wert geht beim Hash sehr viel leichter. Für die Proxy-Funktionalität habe ich dort \“random.yacyh\” als Indikator für eine Zufallsauswahl implementiert, das kann ich beim Forwarder ähnlich implementieren wenn Du möchtest.

Es sollte doch bei einem HTML-Formular möglich sein mit einer Art Drop-Down-Auswahl-Liste den Modus (Name/Hash/Random) für die Peer-Auswahl vorzugeben so das dann ein jeweils passendes Query-Parameter benutzt wird.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Okt 30, 2014 9:48 pm


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-31 04:58:39

\ If /CrawlProfileEditor\_p.html still works then save page as TXT\


I tell a lie.
In order to save all URL\’s you need a backup from the API table you need this to work.
/Tables_p.html?table=api&count=all&search=
Not sure what else is needed for a complete fresh rebuild though.
I may be able to help you rebuild a new yacy server if you can get the API info. PM me.

On the http error 500 try clicking back then the link again.

How many crawls per hour are you loading the yacy peer up with?

How often do you crawl each one?

From what you said before, over 700 items you crawl in the list, pushed to the max that\’s like 4000+ crawls/hour on a single CPU. Correct me if I am wrong.

The VPS provider I use has a Backup service they will keep 2 backups on there system and it runs once a day.

Statistik: Verfasst von smokingwheels — Fr Okt 31, 2014 4:58 am


English • Load Balance of API Crawls Timer problem.

Date: 2014-10-31 07:31:34

My idea is to download the API table, perform a load balance, Delete All and reenter the new info in a short space of time.

I have being trying to calculate how to shift the Date next EXEC time in the API calls so that I can offset and load balance my peer if I have a lot of eg RSS Feeds or Web crawls from the same site.

Just a rough example assuming I have the rig to handle it.
Crawl 1000 RSS Feeds/Hour once per hour 24 hours a day.
I ideally need to schedule each new crawl 3.6 seconds apart as not to overload any of the systems.

I have tried to calculate the API timers resolution/counts in order to recalculate Date next Exec but I get 2 different results.
Does anybody have a figure on the time base of what it should be?

Yacy Timer API.JPG

Statistik: Verfasst von smokingwheels — Fr Okt 31, 2014 7:31 am


Hilfe für Einsteiger und Anwender • Re: Syntax des yacyDNS-Tools

Date: 2014-10-31 08:36:26

Hallo,

flegno hat geschrieben:\ Ich rege an, die Syntax des yacyDNS-Tools zu verändern\

Okay, was hältst Du davon:

Code:
<form action="http://130.255.73.69:5353/forward">  <p>    Suchbegriff: <input name="query" size="60" maxlength="100" /><br />        YaCy-Peer:    <select name="peer-selection-mode" size="1">      <option value="random" selected="selected">per Zufall</option>      <option value="name">per Name</option>      <option value="hash">per Hash</option>    </select>:    <input name="peer-selection-value" size="30" maxlength="63" /><br />    <input type="submit" value="Suchen" />  </p></form>

Damit würden immer zwei Parameter (zusätzlich zum Parameter \“query\” mit den eigentlichen Suchworten) gesendet. Eines hat den Namen \“peer-selection-mode\” dem per Drop-Down-Menü einer der Werte \“random\” / \“name\” / \“hash\” zugewiesen wird (\“random\” ist dabei vor-selektiert) und das andere Parameter hat den Namen \“peer-selection-value\” dem dann der gewünschte Peer-Name oder Peer-Hash zugewiesen wird. Falls \“peer-selection-mode=random\” übermittelt wurde wird das Parameter \“peer-selection-value\” ignoriert und sogar das Fehlen toleriert so das ein simples \“/forward?peer-selection-mode=random\” ausreicht um an einen zufälligen Peer weitergereicht zu werden. Wenn an einen bestimmten Peer mit Namen \“test\” geleitet werden soll sieht das dann folgendermaßen aus \“/forward?peer-selection-mode=name&peer-selection-value=test\“.

Wenn Du das zeitnah für Okay befindest ist das noch heute Abend online.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 31, 2014 8:36 am


English • Re: Load Balance of API Crawls Timer problem.

Date: 2014-10-31 10:36:44

This is in general a very good idea, but

smokingwheels hat geschrieben:\ I ideally need to schedule each new crawl 3.6 seconds apart as not to overload any of the systems.\


(which is also not a bad idea) does not work. The reason is, that the scheduler for the API actions does not work this way. Here is how it works:
- there is a \“cleanup\“-process which runs every 10 minutes (you can change this in /PerformanceQueues_p.html, see \“Delay between busy loops\” column for the \“Cleanup\” row)
- as part of the cleanup-process (which does a lot, i.e. cleaning caches, running postprocessing etc.) the API table (see also: /Tables_p.html?table=api ) is checked for processes that are due which are then startet all at once

That means, even if you configure 3.6 seconds distance between such starts in the schedule, a set of then would be startet at once.
Outside of the automatism that you want to establish I suggest the following two options to solve the scheduling-problem that comes from the current architecture.

- either move the API-scheduler process out from the cleanup-process into it\’s own busy thread so you can change the frequency you want to
- or add a delay option in the scheduled process start so you can cause that the api calls are not made too fast after each other

While the first option is much more work I would suggest that this is the better option. Additionally, the second option could be established independently from the first one.

Statistik: Verfasst von Orbiter — Fr Okt 31, 2014 10:36 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-10-31 12:07:01

Thank you for your thoughtful and helpful comments and suggestions.
We have updated the ticket at http://mantis.tokeek.de/view.php?id=492#bugnotes

Summary;
We have upgraded both servers to today\’s available ver 1.819130
While both are apparently stable,
>>> No change in observed systems behavior.
>>>NO SEARCH RESULTS DISPLAY when searches are made. Only the page header details including the search button, when using a template provided with the kit.
>>> errors of 500 type lists are still showing, as detailed previously, in administration pages
This condition persists despite that we have applied -2- updates since the incident began on both servers, as a result of applying ( 1.819116 ), sequentially to each cloud in the scope of ~10 min.

Good idea...we know the clicking back trick and have tried it, but it doesn\’t give us any joy, unfortunately. But thanks!

The some 700+ mostly custom RSS crawls are divided between the presently two servers.
This would tend to indicate a somewhat lower loading than you suggest, however, due to some things, among which the loading in \“rush hours,\” it can become heavy and at those times, the engines are visibly running very quickly - depending upon the remote sources being addressed.
While the crawls are typically once ( 1X ) a day, there are some important characteristics which define system loading.
Each RSS can include a long secondary list of hundreds of external addresses of URLs that have been pre-retrieved by another toolset, and then those results must be crawled and locally indexed. The list of each one can be over 1000 entries long, upon occasion ( i.e., frequently ).
There are also time of day issues. Typically evening and late night until very early morning (in the night) are especially busy times due to the availability of \“fresh data\” to harvest. Then a few hours later in the mornings, for another large but shorter block of high traffic times.

Thanks for your thoughts. I will pm.
Our #1 issue now is to remove the persistent condition where the The Key Error Message still displayed is:

on page: / Status.html?noforward=
\”

\ The peer must go online to get a peer address.\

\”

Note: These was never in peer mode. These are stand alone Robinson Servers that read each other to fulfill search requests, but do not write to each other.

Both servers were knocked offline, disconnected by the version update applied, at the start of this ticket ( 1.819116 ). They were NOT Reconnected by the -2- two subsequent updates we have applied since our first report.
Therefore it appears a manual re-connection is needed. What & Where and what is the correct Syntax are the questions to answer, please. We suspect that restoring this manually may have a beneficent effect on the whole environment in each cloud, but it is only a theory.
Thank You Very, Very Kindly, Everybody...

Statistik: Verfasst von xioc752 — Fr Okt 31, 2014 12:07 pm


Mitmachen • YaCy und Add-ons

Date: 2014-10-31 12:21:23

Hallöchen zusammen!

Es ist hier im Forum immer wieder von Browser-Add-ons die Rede, um eventuell Funktionen in ein solches auszulagern. Das ist meiner Meinung nach keine gute Idee, das Ergebnis sieht man ja bei der völlig veralteten [[YaCyBar{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}. Solche Add-ons müßen immer wieder aktualisiert werden und außerdem für so viele [[Browser{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} wie möglich vorhanden sein, wobei auch nicht jeder Browser die Möglichkeit für Erweiterungen anbietet!

Schon die YaCyBar war nur für den Firefox vorhanden, obwohl Mozilla eigentlich relativ klare Regeln für [[Web- und Add-on-Entwickler{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} vorgegeben hat! Siehe hierzu auch [[Gecko is Gecko{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, auch wenn diese Seite nicht aktuell ist.

Die Idee mit den Add-ons ist also eigentlich schon von Haus aus zum Scheitern verurteilt, da wohl kaum jemand wegen YaCy den Browser wechseln wird! Ich sehe die Schwierigkeiten mit den Add-ons ja selbst immer wieder, da ich zum Einen ausschließlich mit [[SeaMonkey{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} arbeite und zum Anderen wie man sehen kann auch in den deutschsprachigen Foren von Firefox und [[Thunderbird{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} tätig bin. Auch habe ich selbst ein [[Add-on für SeaMonkey und Thunderbird übernommen{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} und sehe daran sehr gut, daß diese zum Teil auch vom Betriebssystem abhängig sind.

Bei SeaMonkey kommt auch noch hinzu, daß manche Add-ons übergreifend auf mehrere Teile der Suite zugreifen. Das bekannteste Beispiel ist Adblock Plus, welches auch beim Mail- und Newsclient und Thunderbird funktioniert! Außerdem gelten die Proxy-Einstellungen ebenfalls für den kompletten SeaMonkey, also auch für ChatZilla. Das sind alles Dinge, die bei der Entwicklung eines Add-ons beachtet werden müßen. Dazu werden auch noch immer wieder Änderungen an den Browsern vorgenommen, bei denen dann entsprechende Add-ons ebenfalls wieder angepaßt werden müßen.

Wieder kann man hierfür die YaCyBar als negatives Beispiel verwenden, da sie gar nicht mehr mit den aktuellen [[Firefox und SeaMonkey{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} funktioniert! Die letzte Version war für den Firefox [[4.*]{style=“font-style: italic”}]{style=“font-weight: bold”} gedacht, seither hat sich dort aber sehr vieles geändert und wir sind nun bei den Versionen Firefox [[33]{style=“font-style: italic”}]{style=“font-weight: bold”} bzw. SeaMonkey [[2.30]{style=“font-style: italic”}]{style=“font-weight: bold”} angekommen.

Es ist absurd zu glauben, daß man einfach ein Add-on schreibt und sich alle interessierten Anwender nun auf Firefox oder Chrome stürzen um dieses zu verwenden! Das kann gar nicht funktionieren, sondern wird eher die Anwender vergraulen. Man sollte also genau überlegen, ob man diese Idee überhaupt weiter verfolgen will.

Grüße nun mit [[SeaMonkey{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Fr Okt 31, 2014 12:21 pm


English • Re: Load Balance of API Crawls Timer problem.

Date: 2014-10-31 12:31:24

Orbiter hat geschrieben:\ This is in general a very good idea, but\


Ok Many thanks it gives me lots of options for home work for the next few months.
I really like the Yacy concept my tech English \“If the signal is there why not tune in\“.

Statistik: Verfasst von smokingwheels — Fr Okt 31, 2014 12:31 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-10-31 12:40:51

Hallo,

TmoWizard hat geschrieben:\ Man sollte also genau überlegen, ob man diese Idee überhaupt weiter verfolgen will.\

Und man sollte auch überlegen ob es Alternativen gibt und wie die gegebenenfalls aussehen könnten.

Deine Kritik ist sehr wohl berechtigt und Du bringst auch wirklich gute Argumente aber leider lässt sich nicht jedes Problem [innerhalb]{style=“text-decoration: underline”} von YaCy lösen.
Wenn Du nicht möchtest das die Features, die die (zugegebenermaßen völlig veraltete) YaCyBar erbringt, als Browser-Add-On realisiert werden, wie dann?

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 31, 2014 12:40 pm


Hilfe für Einsteiger und Anwender • Very High sudden CPU consumption

Date: 2014-10-31 14:28:21

Hi,

Today, starting at around 10:00 AM, Yacy suddenly started to voratiously eat CPU.

Currently, I\’m at 100%, Load Average of around 3% (and my server only has two cpu\’s)

By looking at the logs, the only noticeable thing is that from 10:00 AM onwards it only shows the following:

Code:
W 2014/10/31 11:19:25 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:19:25 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:19:25 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:24:48 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:26:41 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:26:41 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:26:41 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:26:42 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:26:44 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000W 2014/10/31 11:28:21 NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000



I still didn\’t resarted Yacy, in case someone wants more up-to-date data

Statistik: Verfasst von oneaty — Fr Okt 31, 2014 2:28 pm


Hilfe für Einsteiger und Anwender • Re: yacyDNS in Aktion

Date: 2014-10-31 14:39:33

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:so abzufangen und zu gestalten, dass dem > YaCy-Betreiber eine Konfigurationsmöglichkeit geboten wird\ > >

Grundsätzlich eine gute Idee aber eigentlich sollte diese Meldung doch nur kommen wenn der Peer wirklich überlastet ist und dann ist es doch eigentlich auch schwer überhaupt eine HTTP-Response zu schicken also könnte eine bessere 503-Antwort auch schwierig werden.

\“sollte\” - naja, wie die YaCy-Software sich Idealerweise verhält, darüber gibt\’s eine Menge Wünsche, Vorstellungen, Visionen. Mein Lösungsansatz richtet sich darauf einen praxistauglichen und benutzerfreulichen Lösungsansatz in der aktuellen Situation umzusetzen.

Erik\_S hat geschrieben:\ Wenn Du das zeitnah für Okay befindest ist das noch heute Abend online.\

Spricht was dagegen, bzw. ist es ein großer Aufwand für dich, wenn du im Servlet einen Parameter http://130.255.73.69:5353/forward?htmlform=Wert definierst, wobei per default die \“Form mit Dropdown\” eingestellt und die \“Form ohne Dropdown\” mit einem htmlform=[FormOhneDropdownWert]{style=“font-style: italic”} wählbar ist? Aus meiner Sicht, lohnt es sich, selbst die beide Varianten in der Entwicklungsphase auf eine Praxistauglichkeit zu testen, bevor man yacyDNS online stellt. Also ich mache immer wieder die Erfahrung, dass es sich lohnt, \“erst einmal eine Nacht darüber schlafen\“, bevor man eine wichtige Entscheidung trifft. Ist zwar _nur_ ein zusätzlicher Schalter, aber das ist die Startseite und ich bin ziemlich sicher, dass es schneller, als es dem Anwender lieb ist, weitere Schalter, Verweise, Hinweise usw. hinzukommen - weil es die begehrte Startseite ist 8-). Und ich bin dafür, dass wir vor einer breiter Promotion-Kampagne auch das Layout der Startseite abstimmen.

Gruss, flegno

Statistik: Verfasst von flegno — Fr Okt 31, 2014 2:39 pm


Hilfe für Einsteiger und Anwender • Re: Very High sudden CPU consumption

Date: 2014-10-31 14:54:06

At this exact moment, Yacy started logging some of its usual messages, but then other messages that seem to indicate a serious internal issue, like some java timeouts, then changed my type from senior to junior and a bunch of other messages

Statistik: Verfasst von oneaty — Fr Okt 31, 2014 2:54 pm


English • Re: Yacy on an Olinuxino board

Date: 2014-10-31 15:37:00

smokingwheels hat geschrieben:\ >
> > DATA folder is about 8 Gb after less than 10 searches\ > >


You transfered the DATA folder how many Documents show up on the Olinuxino board install?
Maybe a reindex is needed /IndexReIndexMonitor_p.html.

\ Yacy keeps on crashing on my Olinuxino board\


See link for automatic restart instructions schedule, just point the steering url to IP and port add /Steering.html?restart= to it.
http://mantis.tokeek.de/view.php?id=414



Both of these implie to get to the point where yacy actually run, at least for a few minutes, right? My problem is that I don\’t even get there; the process crashes before it can set the server up (from what I gathered).

Sorry if it was not clear enough.

Statistik: Verfasst von layst — Fr Okt 31, 2014 3:37 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-10-31 16:23:50

Hallöchen Erik!

Erik\_S hat geschrieben:\ Und man sollte auch überlegen ob es Alternativen gibt und wie die gegebenenfalls aussehen könnten.\



Das sollte sowieso oberstes Gebot sein!

Erik\_S hat geschrieben:\ \... leider lässt sich nicht jedes Problem [innerhalb]{style="text-decoration: underline"} von YaCy lösen.\



Das ist aber leider ein Problem, welches es so ziemlich bei jedem Programm gibt.

Erik\_S hat geschrieben:\ Wenn Du nicht möchtest das die Features, die die (zugegebenermaßen völlig veraltete) YaCyBar erbringt, als Browser-Add-On realisiert werden, wie dann?\



Ich habe nichts gegen Add-ons, wie geschrieben habe ich die Weiterentwicklung von [[\“clamdrib\“]{style=“font-style: italic”}]{style=“font-weight: bold”} ja selbst übernommen und in meinem verlinkten Profil sieht man ja, daß ich sogar sehr viele davon bei meinem SeaMonkey installiert habe. Gerade die YaCyBar ist so ein Ding, welches ich sogar als sehr praktisch betrachte und gerne in einer aktuellen und vor allem funktionierenden Version begrüßen würde... allerdings für alle Mozilla-Produkte und eben auch für [[alle]{style=“font-style: italic”}]{style=“font-weight: bold”} anderen Browser! Aber wie erwähnt muß man da auch dran bleiben, daß solch ein Add-on weiter funktioniert!

Gerade bei Firefox, Thunderbird und SeaMonkey wurde inzwischen sehr viel auch an der entsprechenden API geändert, wodurch viele ältere Add-ons den Dienst verweigern. Das von mir \“gekaperte\” clamdrib klappt ja zumindest unter Linux weiterhin, nur unter Windows wurde da wohl an ClamAV selbst zu viel geändert. Ich arbeite daran, aber es ist eben nur ein Hobby von mir und ich kann mich aus verschiedenen Gründen nicht so wie gewünscht darum kümmern!

Genau hier ist der springende Punkt, denn die meisten Add-ons werden eben von privat entwickelt und oft dementsprechend auch schlecht gewartet. Mein clamdrib ist kein Problem, das funktioniert auch mit den neuesten Nightly von Thunderbird und SeaMonkey. Aber genau hier ist der springende Punkt, denn viele achten gar nicht darauf und sind dann überrascht davon, daß schon wieder [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} Wochen vergangen sind und eine neue Version von Firefox/Thunderbird/SeaMonkey erscheint. Gleichzeitig wird Chrome/Chromium hochgelobt, obwohl auch der Google-Browser ebenfalls alle [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} Wochen sein Update bekommt!

Ich sehe hier irgendwie viele Add-ons für viele verschiedene Browser, die alle wie die YaCyBar nicht auf dem neuesten Stand gehalten werden und dementsprechend nur die Anwender vertreiben!

[[[Wie soll das jemals vernünftig funktionieren?]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Solche Projekte klappen nur, wenn man sich entsprechend mit der Materie befaßt und auch dran bleibt. Ich sehe allerdings niemanden, der das bewerkstelligen könnte! Wie schon erwähnt gibt es nicht nur Firefox, Chrome und IE. Es gibt eine ganz Menge mehr an Browsern und ich kenne absolut niemanden, der wegen solch einem Add-on einfach den Browser wechseln würde!

Nachdenkliche Grüße nun aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — Fr Okt 31, 2014 4:23 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-10-31 16:59:43

Vielleicht denkt ihr einfach zu umständlich...

Es geht doch darum, das die NutzerInnenbasis von Yacy verbreitert wird. Das geht aber nur, wenn das Programm EINFACH zu bedienen ist!

Also macht es doch Sinn, zumindest mal die komfortabel auszustatten, die am meisten genutzt werden!

Firefox!

Ich betreibe jetzt 5 Yacy Pears und muß sagen: Wat kompliziert!

Meiner Mutter dürfte ich damit nicht kommen!

Daher alte ich es für sinnvoll UND wichtig eine Toolbar oder eben wenigstens ein Monkeyscript zu haben, welches mit einem einfachen Knopfdruck eine Seite für mich crawlt...

Greets

Dirk

Statistik: Verfasst von Adama — Fr Okt 31, 2014 4:59 pm


Hilfe für Einsteiger und Anwender • Re: das Thema DNS ist für den Durchschnittsanwender wichtig

Date: 2014-10-31 17:12:30

Hallo,

flegno hat geschrieben:\ \"sollte\" - naja, wie die YaCy-Software sich Idealerweise verhält \....\

Ich habe den Eindruck wir reden an einander vorbei. Der Fehler 503 soll dem Anwender/Browser signalisieren das der Web-Server überlastet ist, da der Web-Server aber eben schon überlastet ist muss diese 503-Fehler-HTML-Seite möglichst einfach aufgebaut sein damit der Server dadurch nicht noch mehr überlastet wird. Daraus folgt das es vermutlich schwierig wird an diese Fehlerseite komplexe Anforderungen zu stellen (egal wie wünschenswert diese Anforderungen auch sein mögen).
Ich verstehe auch nicht wie ein HTTP-Server trotz Überlastung immer noch so eine Seite ausliefern kann, ich war/bin eigentlich der Meinung: entweder ist der Server wirklich überlastet und dann kommt gar nichts oder der Server hat noch Luft und es kommt der gewünschte Content. Ich vermute daher das dieser Fehler primär für Situationen vorgesehen ist in denen eine benötigte [externe]{style=“font-style: italic”} Ressource, z.B. eine Datenbank o.ä., überlastet ist aber der eigentliche HTTP-Server noch halbwegs funktioniert. In was für Situationen genau der Fehler 503 vom HTTP-Server in YaCy gemeldet wird entzieht sich meiner Kenntnis aber ich denke/hoffe doch mal die Programmierer haben sich dabei was gedacht. In meinem yacyDNS gibt es diesen Fehler gar nicht, weil es in yacyDNS keine [externen]{style=“font-style: italic”} Ressourcen gibt, entweder der interne HTTP-Server ist fähig einen Request zu beantworten (mit einer richtigen Antwort) oder eben nicht.

flegno hat geschrieben:\ Spricht was dagegen \[\.....\] wenn du im Servlet einen Parameter definierst\

Hm, zu welchem Zweck? Ich verstehe nicht was Du damit meinst.
Ich habe auch hier den Eindruck wir reden aneinander vorbei. Der HTML-Code von heute Früh kommt nicht in mein Tool sondern soll eine simple Variante darstellen wie irgendjemand, z.B. Du, ein Suchformular in [seine]{style=“font-weight: bold”} Web-Seite einbauen kann. Mein yacyDNS-Tool wird selber keine Suche anbieten, yacyDNS soll folgende Aufgaben erfüllen:

  1. tracken [aller]{style=“text-decoration: underline”} YaCy-Peers um damit eine interne Datenbank mit allen IP-Adressen usw. aufzubauen in der möglichst [alle]{style=“text-decoration: underline”} YaCy-Peers enthalten sind
  2. verschiedene Abfrage-Möglichkeiten für diese Datenbank anbieten: a. per DNS für die beiden YaCy-TLDs .yacy und .yacyh (also UDP-Port 53), hier könnten eventuell auch TLSA-Records dabei sein um verschlüsselte Kommunikation unter den YaCy-Peers und vor allem zwischen Browser und YaCy-Peer möglichst einfach zu machen b. per HTTP-Web-Seite (siehe \“/tool_query\“) c. als HTTP-Weiterleitungsdienst damit beliebige oder bestimmte YaCy-Peers auf [anderen]{style=“font-weight: bold”} Web-Seiten möglichst einfach eingebunden werden können (siehe \“/forward\“) d. als HTTP-Proxy für die beiden YaCy-TLDs .yacy und .yacyh (ist zwar bereits rudimentär implementiert aber noch nicht ganz zuende gedacht) e. ein kleines Demo-Portal als Frame-Set (siehe \“/\“), der Zweck ist durchaus das beliebige Anwender (ohne eigenen YaCy-Peer) eine Anlaufstelle haben ohne einzelne Peers zu überlasten f. .…. vielleicht hat ja jemand ein gute Idee was ich sonst noch in yacyDNS einbauen sollte
  3. als Nebeneffekt noch ein paar nützliche Statistiken ausgeben (siehe \“/stats_main\“),
    der Gedanke an eine Welt-Karte mit allen online YaCy-Peers (per IP-GeoLocation befüllt) ist auch noch vorhanden wird aber nicht gleich als nächstes verwirklicht

Mein Tool soll definitiv nicht selber eine Suchseite anbieten o.ä., der eingebaute HTTP-Server ist einfach nur ein Interface zur Realisierung der genannten Datenbank-Abfrage-Möglichkeiten und soll keinen echten Web-Content hosten.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Okt 31, 2014 5:12 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-10-31 18:58:51

Hallöchen!

Adama hat geschrieben:\ Ich betreibe jetzt [[5 Yacy Pears]{style="font-style: italic"}]{style="font-weight: bold"} und muß sagen: Wat kompliziert!\



Und hiermit disqualifizierst Du dich gleich mal als einfacher Anwender, welche ich aber anspreche! Bitte wer kann [[5]{style=“font-style: italic”}]{style=“font-weight: bold”} Peers laufen lassen, mein Rechner geht ja als dieser eine schon in die Knie!

Hier sehe ich das größte Problem überhaupt, warum YaCy sehr wenig Verbreitung findet: Es denken zu viele Leute dabei ebenso in die falsche Richtung wie bei Linux! Ich versuche immer, solche Programme ebenso wie Linux und SeaMonkey einer größeren Basis zuzuführen und solche Leute wie Du machen meine ganze Arbeit zunichte!

Es kommt immer viel Blahblah dabei heraus, aber dem einfachen Anwender [(auch bekannt als DAU)]{style=“font-style: italic”} ist damit absolut nicht geholfen. Ich frage mich immer wieder, warum ich mir überhaupt die Arbeit mit meinen Tutorials oder so mache, wenn dann solch ein hirnfreies Geschwafel dabei heraus kommt!

Auch Linux könnte auf dem Desktop viel weiter sein, wenn solche Leute wie Du nicht immer so negativ auftreten würden. Wir haben alle einmal klein angefangen, dort sollten wir in Gedanken auch bleiben. Nur so ist es möglich Linux oder eben solche Sachen wie YaCy weiter unter die Massen zu bringen. Alles andere ist sinnfreies Gerede und bringt niemandem etwas, am aller wenigsten den betroffenen Programmen und Systemen.

Adama hat geschrieben:\ Meiner Mutter dürfte ich damit nicht kommen!\



Warum willst Du es dann noch komplizierter machen, das ist nicht Sinn und Zweck der Sache!

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Fr Okt 31, 2014 6:58 pm


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-10-31 19:23:02

hello
http://free-linux.ru:8091/?C=N;O=A

Code:
HTTP ERROR: 403Problem accessing /. Reason:    proxy use not allowed (see Advanced Settings -> HTTP Networking -> Transparent Proxy; switched off).Powered by Jetty://



/Settings_p.html?page=ProxyAccess
turn Transparent Proxy:
get

Code:
Incorrect redirection pageFirefox has determined that the server redirects the request for this address in a way that he never completed .    This problem may occur when disconnecting or refusing to accept cookies.


prescribe a rule

Code:
iptables -t nat -A PREROUTING -p tcp -s 192.168.0.0/16 --dport 80 -j DNAT --to 192.168.0.1:8091


get

Code:
Incorrect redirection pageFirefox has determined that the server redirects the request for this address in a way that he never completed .    This problem may occur when disconnecting or refusing to accept cookies.


or by pressing F5

Code:
It works!


How can you do without a proxy?
on the ip address opens http://31.130.253.52:8091/

Statistik: Verfasst von mass — Fr Okt 31, 2014 7:23 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2014-10-31 22:09:53

tja, sorry, leider kein Designer bei YaCy dabei...
Bild

Statistik: Verfasst von Orbiter — Fr Okt 31, 2014 10:09 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 00:47:09

Hallo!

Ich habe 5 Pcs. (2 im Büro, einen Laptop, 2 Homeserver). Auf jedem läuft Yacy.

Wieso kommst Du auf die absurde Idee, die würden alle auf EINEM Rechner laufen????

Die Installation und Einstellung von Yacy ist unglaublich kompliziert. Als Beispiel-Dau nehme ich immer meine Mutter:
Diese bekäme Yacy niemals alleine auf ihrem PC ans laufen...

Und daran müssen wir arbeiten!

Am besten: Eine Installationsroutine die a) Yacy installiert. b) den User befragt und dann direkt KONFIGURIERT (name des Peers, Remote Indexing, etc) Am besten nach dem Prinzip \“Install and forgett\“.

Und am Ende optional die Tollbar installiert bzw wenigstens die Startseite so ändert, das man auch Yacy zum suchen nutzt.

Kompliziert denkst in diesem Fall nur du!

Die meisten NutzerInnen haben nun einmal Windows. Und darauf läuft meistens zum browsen Mozilla...

Wer also Krampfhaft daran festhält, das alles für alle Plattformen existieren muß, der blockiert nur die weitere Verbreitung von Yacy.

Denn wenn alles so toll und einfach wäre: Waum nutzen es dann so wenige?????

Greets

Adama

Statistik: Verfasst von Adama — Sa Nov 01, 2014 12:47 am


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-11-01 00:54:26

Ich wünsche mir einen Knopf, it dem ich die aktuelle Seite einfach indexieren lassen kann ohne den Proxy zu nutzen und ohne ins Menü gehehn zu müssen.

Wie man das realisiert?

Ehrlich?

Keien Ahnung!

Adama

Statistik: Verfasst von Adama — Sa Nov 01, 2014 12:54 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 03:05:17

Hallo!

Sich zu streiten, bringt gar nichts außer Frust. Einfach anfassen und los machen. Ich kann\’s leider derzeit nicht, hab mich noch nie mit der API für Addons in Mozilla beschäftigt. Und mir fehlt leider die Zeit, mich da rein zu arbeiten.

Dass es aber viel Mühe macht, das Produkt dann ständig zu begleiten und mit Firefox up to date zu halten, ist eine Tatsache. Vielleicht ist hier mehr zu gewinnen, das Addon auf das wirkliche Mindestmaß zu schrumpfen. U.a. auch, weil eine voll beladene Bar vor allem die Sicht auf die Webseiten nur zusätzlich einschränkt. Das kann der Nutzer zwar anpassen, aber auch das ist schon eine Hürde für ihn. Mein Vorschlag wäre, die bisherige Bar auf folgende Punkte zu schrumpfen:

- Es gibt einen Konfigurationseintrag im Extras-Menü zur Konfiguration des Zugriffes auf Yacy. Die Konfiguration wird auch einmalig nach der Installation automatisch aufgerufen. Standardeinstellung ist die Annahme, dass Yacy auf dem gleichen Rechner an Port 8090 läuft. Weiterhin kann die Crawl-Tiefe eingestellt werden. Standard sollte sein, nur die Seiten zu crawlen, deren Adressen in der URL-Leiste landen. Also nicht tiefer. (Man bedenke, dass Nutzer einen Laptop haben können: Ein Zuviel an Crawles frisst an der Akku-Laufzeit. Und unterwegs frisst es auch an der UMTS-Download-Datenmenge, wenn man vergisst das Indizieren abzuschalten.)

- Mit der Installation (und bei jeder Konfigurationsänderung aktualisiert) wird der Firefox-eigene Suchbar die YaCy-Suche automatisch zugefügt.

- Es gibt nur 2 Buttons an der Oberfläche: \“Indizierung an\“. Und wenn dieser Button deaktiviert ist, wird der zweite Button \“Indiziere diese Seite\” aktiv. (Und bitte nicht den einen Button indizieren nennen und den Anderen crawlen. Mit \“Indizieren\” verstehen sicher mehr Nutzer etwas.) Ein Rechtsklick auf diese Buttons öffnet über einen Kontextmenüeintrag ebenfalls die Konfiguration.

Den Mehrwert aller bisher noch in der Bar befindlichen Funktionen halte ich für die Masse der Normalnutzer für überflüssig. Nice to have, aber es vergrößert den zukünftigen Wartungsaufwand. Ich finde ein minimalistisches Addon besser, als eines, was wegen des Umfangs nur unregelmäßig gewartet werden kann.

Der wichtigste Punkt ist, dass der bisherige Weg über den Yacy-eigenen Proxy abgelöst wird: Verringert den Wartungs- und Entwicklungsaufwand von YaCy. Und da zunehmend per https gesurft wird, ist er für den Normalnutzer zunehmend unbrauchbar. Ganz davon abgesehen: Welche \“Mutti\” weiß eigentlich schon, was ein Proxy ist und ob sie sowas benötigt? Je einfacher es geht, desto mehr wird eine Software akzeptiert. Desto weniger Fehlerquellen und Nutzungsmissverständnisse gibt es.

Beste Grüße!
Ich würde mich freuen, wenn jemand die Bar in die Hand nehmen würde. :)

Statistik: Verfasst von fherb — Sa Nov 01, 2014 3:05 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-11-01 10:04:09

Application Level

We have consulted extensively with the cloud provider which has done extensive testing.
We suspected this was firewall related.
out Theory was that the YaCy servers could not communicate with each other to get data on every search - and that this could block the results from being displayed.
However, the cloud provider did independent internal testing.

Results of their internal testing.
1) Port 8090 is OPEN and listening on both clouds.
2) Internet access is unrestricted at the virtual rack level.
3) Communications between the clouds is not blocked
4) Nothing in the firewalls in either cloud should block the YaCy servers from speaking with each other to share / cross- read data before displaying combined results.

Therefore we return to an Application Layer Failure in YaCY connectivity, dating from a mis-configuration caused when patch YaCy version 1.819116 was applied to both servers, consecutively.

[Can someone please tell us how to restore connectivity manually and fix the display of data for searchers and reconnect the admin screens?
]{style=“font-weight: bold”}Thank you

Statistik: Verfasst von xioc752 — Sa Nov 01, 2014 10:04 am


Hilfe für Einsteiger und Anwender • yacyDNS: 1) 503-Fehler 2)die htmlform=Wert-Weiche

Date: 2014-11-01 10:13:15

Hallo,

[1) 503-Fehler]{style=“font-weight: bold”}

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:\"sollte\" - naja, wie die YaCy-Software sich > Idealerweise verhält \....\ > >

Ich habe den Eindruck wir reden an einander vorbei. Der Fehler 503 soll dem Anwender/Browser signalisieren das der Web-Server überlastet ist, da der Web-Server aber eben schon überlastet ist muss diese 503-Fehler-HTML-Seite möglichst einfach aufgebaut sein damit der Server dadurch nicht noch mehr überlastet wird. Daraus folgt das es vermutlich schwierig wird an diese Fehlerseite komplexe Anforderungen zu stellen (egal wie wünschenswert diese Anforderungen auch sein mögen).
Ich verstehe auch nicht wie ein HTTP-Server trotz Überlastung immer noch so eine Seite ausliefern kann, ich war/bin eigentlich der Meinung: entweder ist der Server wirklich überlastet und dann kommt gar nichts oder der Server hat noch Luft und es kommt der gewünschte Content. Ich vermute daher das dieser Fehler primär für Situationen vorgesehen ist in denen eine benötigte [externe]{style=“font-style: italic”} Ressource, z.B. eine Datenbank o.ä., überlastet ist aber der eigentliche HTTP-Server noch halbwegs funktioniert. In was für Situationen genau der Fehler 503 vom HTTP-Server in YaCy gemeldet wird entzieht sich meiner Kenntnis aber ich denke/hoffe doch mal die Programmierer haben sich dabei was gedacht. In meinem yacyDNS gibt es diesen Fehler gar nicht, weil es in yacyDNS keine [externen]{style=“font-style: italic”} Ressourcen gibt, entweder der interne HTTP-Server ist fähig einen Request zu beantworten (mit einer richtigen Antwort) oder eben nicht.


Mein Lösungsansatz basiert auf der Möglichkeit

[Internet: HTTP-Fehler 503 -- Ursache und Problemlösung](http://www.giga.de/extra/internet/tipps/internet-http-fehler-503-ursache-und-problemloesung/%22:2n9d16fl){.postlink} hat geschrieben:\ man kann diese Meldung anpassen.\


Die Idee ist, dass - wenn der YaCy-Server noch soweit funktionsfähig ist, diese Webseite YaCy\htroot\proxymsg\error.html mit 503-Fehlermeldung auszuliefern, dass man:

  1. im einfachsten Fall im statischen Text dieser 503-Fehlermeldung, die ja sowieso ausgeliefert wird, bspw. unabhängig von der Ursache der Fehlermeldung einen 503-Hinweis und einen Verweis auf die [yacyDNS]{style=“font-style: italic”}-Seite platziert
  2. benutzerfreundlicher ist, wenn man im Verweis gleich den aktuellen Suchbegriff mitgibt, so sieht es dann aus:

    \ \
  3. Premium-Leistung ist, wenn der YaCy-Server diese Leistung noch erbringen kann und wenn der YaCy-Peer dies wünscht - automatisch Redirect/Weiterleitung auf die yacyDNS-Seite - mit dem query-Wert -s.oben

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:Spricht was dagegen \[\.....\] wenn du im > Servlet einen Parameter > definierst\ > >

Hm, zu welchem Zweck? Ich verstehe nicht was Du damit meinst.
Ich habe auch hier den Eindruck wir reden aneinander vorbei. Der HTML-Code von heute Früh kommt nicht in mein Tool sondern soll eine simple Variante darstellen wie irgendjemand, z.B. Du, ein Suchformular in [seine]{style=“font-weight: bold”} Web-Seite einbauen kann.


[2)Die [htmlform]{style=“font-style: italic”}=Wert-Weiche]{style=“font-weight: bold”}

Die htmlform=Wert-Weiche:

  1. bedeutet nicht, dass die yacyDNS-Seite ein Formular wie http://sprechrun.de/tools/yacyDNS/ ausliefert/anbietet/hostet.
  2. die Idee ist, dass du den yacyDNS-Servet befähigst, mit den beiden Formularen umgehen:
  3. aus technischer Sicht ist es genauso genauso wie bereits jetzt mit

    dein Servlet stupide im Anwender-Browser für unterschiedliche Leistungen/Formulare sorgt ohne dass die [yacyDNS]{style=“font-style: italic”}-Seite selbst weiss, was in einem konkreten Abfrage-Vorgang transportiert wird. Es ist _nur_ ein [htmlform]{style=“font-style: italic”}-Schalter für den Servlet, \“Hallo, yacyDNS-Servlet :P, bitte verhalte dich so: a. beim Wert htmlform=[FormMitDropdownWert]{style=“font-style: italic”}, als ob du noch das alte Servlet, der mit http://130.255.73.69:5353/forward?random angesprochen wird, bist b. beim Wert htmlform=[FormOhneDropdownWert]{style=“font-style: italic”}, als ob du ein Servlet bist, der mit http://130.255.73.69:5353/forward?htmlform=Wert&name=zufallsPeer{.postlink} angesprochen wird - wie im Posting Syntax des yacyDNS-Tools{.postlink} beschrieben\”

Die htmlform=Wert-Weiche bietet m.E. eine Möglichkeit, beide Szenarien [FormMitDropdownWert/ FormOhneDropdownWert]{style=“font-style: italic”} in der Praxis durchtesten, also eine robuste Qualitätssilcherung. Man könnte evtl. diese zwei Servlet-Instanzen [FormMitDropdownWert/ FormOhneDropdownWert]{style=“font-style: italic”} von einer Servlet-Klasse ableiten. Die Funktionalität beider Servlets unterscheidet sich doch nur unwesentlich?

Gruss, flegno

[Edit 01.11.2014: Punkt 3b geändert.]{style=“font-size: 85%; line-height: 116%;“}

Statistik: Verfasst von flegno — Sa Nov 01, 2014 10:13 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-11-01 10:51:19

Application Level Failure
Independent Fault Testing Results

We have consulted extensively with the cloud provider which has done extensive testing.
We suspected this was shared firewall related.

Remembering our servers are Robinson servers that read each other for search results but do not write to each other,...
And that the clouds are logically and geographically physically separated from each other though accessible to each other in read only mode, through multiple level 3 carrier pipes belonging to the same leading European facilities based carrier and provider.
Our theory was that the YaCy servers could not communicate with each other to get data on every search - and that this could block the results from being displayed.

We thought that the message

\ The peer must go online to get a peer address.\


on Status.html?noforward= was indicating a cascade of errors caused by the servers being unable to find their previous IP addresses when patch version 1.819116 was applied to both servers, consecutively.
We still believe this is the case.

We further believe that the 500 Type Error pages for certain Administration functions is probably caused by the servers not being able to find their own previously known IP addresses, and this in turn, generates the errors manifested by 500 Type Error pages shown in the administration of each server. We note the faulty pages with 500 Type Errors are identical on both servers - that both received the 1.819116 update within minutes of each other, though consecutively.

[However, we suspected this was shared firewall related - where a firewall key setting was potentially damaged.
We have discovered that the fault is not in the firewalls.]{style=“font-weight: bold”}

At our request, the cloud provider (yesterday) did independent internal examination & testing on both clouds - specifically examining the shared firewall environment related to the hypervisor configurations.

Results of their internal testing.
1) Port 8090 is indeed OPEN and listening on both clouds.
2) Internet access is unrestricted at their virtual rack level. ( We noted that our tests showed 8090 OPEN form the outside and we can see both Admin areas (even if some pages are still showing 500 Errors (unchanged), as noted previously).
3) Communications between the clouds is not blocked the cloud provider has determined
4) Nothing in the firewalls in either cloud should block the YaCy servers from speaking with each other to share / cross- read data before displaying combined results.

We have today applied the currently available patch version version 1.819132 to both servers.
We applied all recommended Ubuntu security and related updates for our version Ubuntu and have rebooted both from PuTTY and from the cloud provider interface.
The previous error state and error pages remain on both servers, as before.

Therefore we return to an [[Application Layer Failure]{style=“text-decoration: underline”}]{style=“font-weight: bold”} in YaCy connectivity, dating from an internal mis-configuration caused when patch YaCy version 1.819116 was applied to both servers, consecutively.

[Can someone please tell us how to
1) restore connectivity manually and
2) fix the display of data for searchers so that search results are shown again - and not just the framework at the top of the display page, and
3) reconnect the admin screens such as they remove the 500 Errors, please?

As noted previously, it is our hunch that restoring the IP address connectivity will remove the other errors - though we did not participate in the engine\’s development, so we really do not know if this is \‘the simple fix\’ that we are seeking to all three problems. This seems to be the unanticipated error state and hence indication that we need to resolve. ]{style=“font-weight: bold”}

\ The peer must go online to get a peer address.\



Thank you very kindly and have a nice day. :)

Statistik: Verfasst von xioc752 — Sa Nov 01, 2014 10:51 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 11:01:09

Hallöchen \@fherb!

Den Proxy lassen wir mal aus dem Spiel, wenn der weg ist dann bin ich auch weg von YaCy! Dazu habe ich im Forum schon einiges geschrieben und dabei bleibe ich auch.

Streit kann aber manchmal nützlich sein, da kommen öfter mal die besten Ideen heraus! :mrgreen:

Du hast aber hier den selben Fehler wie viele andere auch, denn der Firefox ist nicht einmal Marktführer am Browsermarkt! Diese Ehre gebührt dem IE, auch wenn viele Leute das nich einsehen wollen. Firefox kommt erst auf Platz [[3]{style=“font-style: italic”}]{style=“font-weight: bold”}, denn von Platz [[2]{style=“font-style: italic”}]{style=“font-weight: bold”} wurde er inzwischen durch Chrome/Chromium verdrängt. Dann sind da auf den weiteren Plätzen Safari und Opera und schon sind wir bei mindestens [[5]{style=“font-style: italic”}]{style=“font-weight: bold”} Browsern, die alle mit einer solchen Erweiterung bestückt werden wollen! Der von mir bevorzugte Netscape-Nachfolger SeaMonkey läuft ja unter der Rubrik \“ferner liefen\” mit irgend etwas um die [[0,2%]{style=“font-style: italic”}]{style=“font-weight: bold”}, bei vernünftiger Programmierung laufen dort aber auch alle Add-ons von Firefox und Thunderbird.

Du siehst hier also schon den Fehler:

Chrome kommt bei mir nicht in die Tüte, der Chromium [(ich arbeite ausschließlich mit Kubuntu)]{style=“font-style: italic”} ist nur zum Testen für Veränderungen auf meiner Website und dem Blog installiert. Firefox habe ich noch nie gehabt, ich bin vom Netscape Communicator über die Mozilla Application Suite direkt zu SeaMonkey gewechselt, bin also über die Jahre hinweg dieser Suite treu geblieben. Sollten also solche Add-ons für YaCy nicht mit SeaMonkey funktionieren, dann hat sich auch YaCy selbst für mich erledigt und ich sehe das Projekt als gescheitert! Wie soll YaCy als Alternative betrachtet werden, wenn es nur ein kleiner Bruchteil der Anwender benutzen kann?

Ich halte YaCy wirklich für eine sehr gute Idee, nur von der Struktur her ziemlich konfus zu bedienen. Das sehen auch viele andere Leute so, deswegen deinstallieren sie es ja auch nach kurzer Zeit wieder! Außerdem ist die komplette Menüführung ein kunterbuntes Gemisch aus englischen und deutschen Fachbegriffen, wobei das ja inzwischen wesentlich besser wurde.

Ich sehe aber auch immer wieder, daß die meisten Leute YaCy hauptsächlich als \“Passiv Senior\” laufen lassen. Das \“Ringprinzip\” von YaCy ist dadurch meiner Ansicht nach beeinträchtigt, da davon ja auch die Suchergebnisse betroffen sind, wobei das natürlich erst recht für den Junior-Status gilt.

Allerdings halten sich die aktiven und passiven Senior so ziemlich die Waage, nur die \“Aktive Principal\” sind etwas wenig. Das verstehe ich allerdings gut, da es hier wohl noch einiges an Erklärungsbedarf gibt! Gerade Leute mit einem eigenen Server sollten mal darüber nachdenken, ob das so überhaupt Sinn macht. Da läuft meiner Meinung nach einiges schief, das sollte so nicht sein! Ich habe hier nur diesen einen Rechner und bei meinem Hoster ist Java verboten, trotzdem läuft auf meinem privaten Rechner YaCy als Aktive Principal und ist inzwischen auf über [[11]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente gekommen.

Übrigens halte ich YaCy auf dem Laptop oder ähnlichem für ziemlichen Unfug, denn wie Du schon schreibst braucht das schon eine gehörige Portion Power, was natürlich am Akku hängen bleibt!

fherb hat geschrieben:\ - Es gibt einen Konfigurationseintrag im Extras-Menü zur Konfiguration des Zugriffes auf Yacy. Die Konfiguration wird auch einmalig nach der Installation automatisch aufgerufen. Standardeinstellung ist die Annahme, dass Yacy auf dem gleichen Rechner an Port 8090 läuft. Weiterhin kann die Crawl-Tiefe eingestellt werden. [Standard sollte sein, nur die Seiten zu crawlen, deren Adressen in der URL-Leiste landen. Also nicht tiefer.]{style="font-weight: bold"}\



Genau der von mir hervorgehobene Punkt funktioniert ja über den Proxy, also warum sollte diese Funktion ausgebaut und in ein zusätzliches Add-on eingebunden werden, welches ja nie für alle möglichen Browser zur Verfügung stehen kann?

fherb hat geschrieben:\ - Mit der Installation (und bei jeder Konfigurationsänderung aktualisiert) wird der Firefox-eigene Suchbar die YaCy-Suche automatisch zugefügt.\



Das halte ich für keine gute Idee und wird wohl bald nicht mehr funktionieren, wenn ich das von Mozilla richtig mitbekommen habe. Add-ons dürfen glaube ich bald nur noch direkt über den Browser selbst installiert werden, da damit einfach zu viel Unfug betrieben wurde. Man denke da zum Bleistift an so nette Dinge wie \“Conduit\” oder die Ask-Toolbar, dann versteht man das auch sehr gut!

fherb hat geschrieben:\ Der wichtigste Punkt ist, dass der bisherige Weg über den Yacy-eigenen Proxy abgelöst wird: Verringert den Wartungs- und Entwicklungsaufwand von YaCy. Und da zunehmend per https gesurft wird, ist er für den Normalnutzer zunehmend unbrauchbar. Ganz davon abgesehen: Welche \"Mutti\" weiß eigentlich schon, was ein Proxy ist und ob sie sowas benötigt? Je einfacher es geht, desto mehr wird eine Software akzeptiert. Desto weniger Fehlerquellen und Nutzungsmissverständnisse gibt es.\



Hier stehen wir wieder an dem Punkt, daß dann ständig der Crawler laufen muß, was wie schon geschrieben bei einem Laptop keine gute Idee ist! Da wäre der Proxy meiner Ansicht nach die bessere Wahl, wobei es praktisch wäre, wenn dieser automatisch im Standardbrowser eingestellt wird. Wie man das allerdings bewerkstelligen könnte entzieht sich meiner Kenntnis, soweit habe ich mich mit der Materie noch nicht befaßt.

Wie schon erwähnt halte ich die Idee eines Add-ons für nicht besonders geeignet, da es einfach zu viele verschiedene Browser gibt. Das geht niemals gut und macht die Wartung von YaCy sogar noch viel komplizierter, da ja alle Add-ons immer wieder an neuere Versionen der Browser angepaßt werden müßen! Genau daß soll ja eigentlich vermieden werden, aber irgendwie scheinen da einige Leute nich richtig nachzudenken. Wenn schon die YaCyBar für den Firefox brachliegt, wie soll das dann erst mit anderen Browsern funktionieren?

Edit: Da hab ich gerade noch [[was Nettes von{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} \@flegno gefunden:

flegno hat geschrieben:\ Mit der Zeit ist meine Bookmarklet-Begeisterung abgekühlt aus dem gleichen Grund wie die Firefox-AddOn-Begeisterung - zu viel Aufwand, um die Bookmarklets/AddOns ggf. bei einem Browserversion-Wechsel anzupassen.\



Genau das meine ich, so wird es auch mit den entsprechenden YaCy-Add-ons für andere Browser passieren!

Grüße nun aus Augsburg,

Mike

Statistik: Verfasst von TmoWizard — Sa Nov 01, 2014 11:01 am


English • Re: Yacy on an Olinuxino board

Date: 2014-11-01 12:46:37

Ask questions in forums that deal with the Olinuxino board. eg https://www.olimex.com/forum/
Contact Olinuxino Developers also.

Can you unplug your USB Drive and receive the Yacy log files on another PC?
If so I suggest you can report a bug report at http://mantis.tokeek.de/main_page.php for future reference.
Note: After you report a bug you have to view it and then click Monitor button to get email updates.

I\’m really interested in it to have approx 1.2 Watt/hour Yacy Search Engine at home.

Statistik: Verfasst von smokingwheels — Sa Nov 01, 2014 12:46 pm


English • Re: Yacy on an Olinuxino board

Date: 2014-11-01 14:13:03

I was looking into getting one but I was reading the specs and they only 512 mb of RAM for \$85 board.
If you have not made a system Swap file yet for it yet then I suggest you find out how to.

My first attempt on a 512 mb system kept crashing until I made a system swap file, It crashed again not so often though, so I sprung the extra \$2.00 /month for a 1 GB of ram its 27 days old now.

Statistik: Verfasst von smokingwheels — Sa Nov 01, 2014 2:13 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 14:26:41

Hallo wieder,

dem Argument mit dem IE stimme ich voll zu. Und Chrome gibts ja auch noch. Hab mich dazu aber nicht geäußert, weil mit dem Firefox zumindest der Spatz schon in der Hand ist. Natürlich wäre es besser, hier eine umfassendere Lösung zu haben. Auch die Diskussion um den Proxy ist mir bekannt. Aber ich habe nirgendwo gelesen, dass jemand gesagt hätte \“Ok Orbitter, um die Entwicklungsarbeit der Beteiligten zu verringern, übernehme ich gern und sofort die Pflege und Weiterentwicklung des Proxy.\” Es steht immer die Frage in der Entwicklung, worauf ich mich als Entwickler mit den begrenzten Ressourcen konzentriere.

Es ist natürlicg ganz klar sinnvoll, Möglichkeiten und Wünsche zu diskutieren. Aber zu jedem Punkt steht auch immer die Frage des Entwicklungsaufwandes und des Pflegeaufwandes im Raum. Das ist eine Ressource. Und um etwas umzusetzen, benötigt man Ressourcen. Insofern sind kleine Lösungen besser als zu große Wünsche, die diese Ressourcen nicht her geben. Wenn es in der Runde hier einen Entwickler geben würde, der das Thema gern in die Hand nehmen würde und langfristig auch die Zeit hätte, dann hätte er sich bestimmt gemeldet. In den Beiträgen hier dominieren für mein Empfinden vor allem die Wünsche. - Was ja auch klar und verständlich ist. Ich hab ja auch Wünsche. ;)
[Mal in die Runde gefragt:]{style=“font-weight: bold”} [Normalonutzer besitzt einen Laptop (wozu braucht er auch einen unflexiblen Desktop zu Hause?), möchte in der YaCy-Community als \“Endverbraucher\” mitmachen und installiert deshalb YaCy auf seinem Laptop. Crawls über ganze Domains laufen zu lassen, verbietet sich wegen häufiger Nutzung ohne Netzteil. Ohne etwas zu tun stellt er also Speicherplatz für die Community zur Verfügung. Beschäftigt er sich nicht weiter, ist seine Festplatte irgendwann voll; zumindest bei der Standardeinstellung :(
Ist es im Interesse der Community, dass die Webseiten, die in der Community frequentiert werden, auch indiziert werden, bleibt nun die Frage: Wie kann das bei diesem Nutzer erfolgen? Prämisse: Er soll dabei nicht das ganze Forum und das Wiki durcharbeiten müssen und auch nicht erst mit längeren Experimenten und Konfigurationen zum Ziel kommen, denn wir nehmen an, dass er nicht wirklich Ahnung von IT hat.]{style=“font-style: italic”} -- [Was fehlt YaCy, dass dieser Nutzer langfristig Teil der Community wird, ein Erfolgserlebnis dabei haben kann und auch mehr als Festplattenplatz zur Verfügung stellt?]{style=“font-weight: bold”}

Ich glaube aus eigener Erfahrung nicht, dass dieser Nutzer-Typ derzeit längerfristig YaCy auf seinem Laptop lässt. Deswegen die Annahme, dass ihm etwas \“fehlt\“. Oder sehe ich hier persönlich ein Problem, dass nicht wirklich eins ist? Könnte ja sein. Ich bin persönlich der Meinung, für Normalonutzer muss eine Software so simpel sein, wie eine Handy-App.

Die massive Nutzung von Smartphones und Tablets ist dabei noch nicht berücksichtigt. Wenn wir schon über Nutzungsverhalten von beliebten Browser sprechen, sollte man dies nicht aus den Augen verlieren. Wie könnte man diese Nutzung integrieren, ohne den Entwicklungsaufwand hoch zu treiben?

:?:

Statistik: Verfasst von fherb — Sa Nov 01, 2014 2:26 pm


Fragen und Antworten • Re: Bookmarklet zum Indexieren

Date: 2014-11-01 14:57:03

Hallo,

Adama hat geschrieben:\ Ich wünsche mir einen Knopf, it dem ich die aktuelle Seite einfach indexieren lassen kann ohne den Proxy zu nutzen und ohne ins Menü gehehn zu müssen.\


ist zwar nicht 100% das, was bestellt ist, sondern ein ad-hoc gebasteltes Bookmarklet

Code:
javascript:window.open("http://localhost:8090/CrawlStartSite.html?crawlingDomMaxPages=1&crawlingURL=" + encodeURIComponent(window.location.href));

das die [CrawlStartSite.html]{style=“font-style: italic”} öffnet, wobei die geöffnete Seite diese Werte bereits enthält:

  1. die Adresse der Webseite, die geöffnet ist, 1
  2. die Einschränkung, nicht mehr als 1 Dokument zu indexieren

Die Voraussetzung, damit der Anwender mit einem Klick auf das Bookmarklet einen Zugriff auf das Admin-Menü [\“Seiten Crawlen]{style=“font-style: italic”}\” bekommt, ist, dass der Anwender in der aktuellen Browser-Instanz als YaCy-Admin angemeldet ist. Falls dieses Bookmarklet ein zielführender Ansatz ist und die gewünschte Funktionalität bringt, findet sich bestimmt jemand, der den [javascript]{style=“font-style: italic”}-Wert für den Parameter Einschränkungen ([crawlingDomMaxCheck]{style=“font-style: italic”}) für dieses Bookmarklet ermittelt, damit die Einschränkung per default aktiviert ist ;) .

Gruss, flegno

Statistik: Verfasst von flegno — Sa Nov 01, 2014 2:57 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 15:03:00

Hallöchen \@fherb,

also das mit dem Normalnutzer und Laptop kann ich aber nicht bestätigen! In meinem Umfeld gibt es nur [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} Leute, die solch ein Teil verwenden, zwei davon aber auch nur sporadisch wenn sie unterwegs sind. Alle anderen haben normale PCs wie ich zuhause, mit welchen sie arbeiten.

Mit dem Platz auf der Platte dürfte es allerdings in der heutigen Zeit kaum mehr Ärger geben, da wohl die meisten Geräte ab 500 GB aufwärts an Kapazität zur Verfügung haben. Das sollte ja eigentlich genügen, außer man macht viel Videobearbeitung oder so. Ich habe hier 2 solcher Platten verbaut und weiß gar nicht, was ich darauf speichern soll. Die wollen nicht voll werden, obwohl ich dort alle meine Musik-CDs als MP3 oben habe [(über 20.000 Songs)]{style=“font-style: italic”} und noch etliche Filme dazu! Hinzu kommen noch 5 VMs, was ja auch nicht gerade wenig Platz benötigt.

Was die Entwicklung bzw. die Hilfe hierbei von YaCy betrifft: Ich kann da leider nicht mitmachen, da mir die notwendigen Kenntnisse dazu fehlen! Ich bin ein reiner Anwender, kein Programmierer. Ich habe ja schon genug damit zu tun, daß ich mit dem Add-on clamdrib immer auf dem laufenden bin.

YaCy auf Smartphones und Tablets? Na ich weiß ja nicht, aber das klingt schon ein wenig abwegig. Wobei das bei der heutigen Verbreitung solcher Geräte eigentlich schon eine Überlegung wert ist, aber auch da stehen wieder die verschiedenen Systeme und Browser zur Diskussion. Auf meinem Smartphone ist z. B. Firefox OS installiert, wie soll das da funktionieren ohne JAVA? Das dürfte irgendwie schwierig werden, soviel dürfte klar sein!

Mike

Statistik: Verfasst von TmoWizard — Sa Nov 01, 2014 3:03 pm


English • Need help Linux bug reporting keyboard handling

Date: 2014-11-01 15:13:37

I have struck a problem with the keyboard buffer in Debian 7 VPS its only about 20 keystrokes long.
I have tried to report a bug but haven\’t a clue which module its for just got a default MSG back.

I have run tests on Windows XP with a reg hack that can have a 500 000 keystroke buffer and I can overflow that but it takes a while and 50% CPU load, this is fine for set and forget come back later for my keyboard emulator PC.
If you could send them a video link https://www.youtube.com/watch?v=vXG-GM-IiF0
Windows at about 3000 WPM on a Ghosting demo site that would be good.
My emulator can be pushed to approx 6000 WPM, have pic @ 58xx WPM some where.

The reason I ask is I can download the API Schedule table, do some load balancing, delete all and add new values back. Work in progress. see viewtopic.php?f=23&t=5436{.postlink-local}

I did a rough calculation/test run for 1000 API entries you are in the order of 170 000 keystrokes. From what I know there is about 1 hour where I am waiting for the port to be serviced in Debian 7 and 7 hours to get the data back in.
The Pause I have to add for no errors is equal to about every 20 keys = 250 mS from testing on low end hardware.

1. I would like massive keyboard buffer 500 000 or larger in Linux.
Thanks

Statistik: Verfasst von smokingwheels — Sa Nov 01, 2014 3:13 pm


English • Re: Yacy on an Olinuxino board

Date: 2014-11-01 15:36:59

I might ask Olimex about this issue, juts like I can fill a bug report.

About the hardware, the board I am using (A20-Lime2, as said in the first post) cost me something like 65€ including VAT, shipping and SATA cables. In addition to the 1Gb of RAM, I set up 2Gb of SWAP, just in case.

But before doing anything, I will try another thing. I have noticed this morning that my laptop kernel is 3.14, while the one shipped on Raspbian nowadays is 3.12. Yacy seems to run on both. My Olinuxino board has only a 3.4 kernel; so I will try to upgrade it or compile a kernel (3.12 minimum) to see if it can solve the issue.

In any case, I will let you know about this try, and will fill a bug report and/or contact Olimex, depending on my findings.

Thanks for your links, especially the one to fill a report.

EDIT: it seems there are no images available for my boards with kernel 3.12 or higher. Since I will not have much time to work on it in the next days, I have sent an email to Olimex. I shall keep you informed.

Statistik: Verfasst von layst — Sa Nov 01, 2014 3:36 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-01 16:07:46

Hallo,

fherb hat geschrieben:\ Aber ich habe nirgendwo gelesen, dass jemand gesagt hätte \"Ok Orbitter, um die Entwicklungsarbeit der Beteiligten zu verringern, übernehme ich gern und sofort die Pflege und Weiterentwicklung des Proxy.\"\

Was denkt ihr warum das so ist? Ich persönlich bin ein geübter C-Programmierer mit viel Erfahrung in TCP und HTTP und anderen Protokollen auf dieser Ebene, einen externen Proxy der wie von Orbiter gewünscht einfach alles was durchläuft per Push-API an einen (fest konfigurierten) YaCy-Peer weiterreicht würde ich in recht kurzer Zeit auf die Beine bekommen. Warum ich das aber nicht vorhabe ist relativ einfach erklärt: ich sehe darin keinen Nutzwert. Grund: Verschlüsselung.
Ich als normaler Internet-Nutzer bin der Meinung das es überhaupt gar keinen Grund gibt auch nur ein einziges Bit unverschlüsselt durchs Internet zu schicken! Da diese Meinung in Kreisen der Leute die sich bemühen die Zukunft des Internets zu gestalten, z.B. die Leute die für die Entwicklung von HTTP 2 verantwortlich sind und wollen das dort Verschlüsselung zum [nicht]{style=“font-style: italic”} abschaltbaren \“Must-Have\” wird, sehr verbreitet ist habe ich als normaler Internet-Nutzer in diesem Punkt ein positives Gefühl für die Zukunft.
Als Programmierer kenne ich natürlich auch den Aufwand der sich hinter der Verschlüsselung verbirgt aber das sehen die normalen Anwender nicht die einfach nur \“sicher\” Kommunizieren wollen, und die müssen das auch nicht sehen, es ist die Aufgabe der Programmierer (da zähle ich mich gerne mit dazu) dafür zu sorgen dass das einfach funktioniert.

Was ich sagen will: es wird sich wohl kaum jemand finden der einen Proxy programmiert und wartet/weiterentwickelt der die übertragenen Daten in irgendeiner Form verarbeitet, einfach aus dem simplen Grund heraus dass das auf absehbare Zeit immer weniger Nutzen bringt.

Wenn man an die unverschlüsselten Daten ran will dann geht das nur entweder direkt am Web-Server oder direkt im Browser, es gibt keine andere Möglichkeit, außer auf Verschlüsselung zu verzichten und das ist wohl bei den meisten Nutzern und \“Muttis\” und \“Omas\” nicht mehr konsensfähig!
(Meine Mutter, und die ist kurz vor der Rente, kennt sich mit Computern nicht viel aus obwohl sie den ganzen Tag an einem arbeitet und wie Verschlüsselung funktioniert weiß sie ebenfalls nicht, aber warum Verschlüsselung so wichtig ist das weiß meine Mutter ganz genau)

Langfristig sehe ich für das Konzept \“Browser-AddOn\” keine Alternative, aber da ich mir der Probleme dieses Konzepts also die Vielzahl der Browser bewusst bin ist mir klar das auch diese Lösung sehr suboptimal ist.
Wie kann das nun gelöst werden? Hat hier jemand echte Vorschläge?

fherb hat geschrieben:\ Der wichtigste Punkt ist, dass der bisherige Weg über den Yacy-eigenen Proxy abgelöst wird: Verringert den Wartungs- und Entwicklungsaufwand von YaCy.\

YaCy dürfte durch den Wegfall des Proxy so einiges an Ballast verlieren, es gibt z.B. einen Cache für den durchgeleiteten Web-Inhalt der ebenfalls entfallen kann und noch einiges andere mehr (den Hinweis auf den HTTP-Fehler 403 kann ich mir hier sicher sparen).

Mit der Beschränkung des AddOns aufs wirklich Notwendige, so wie von fherb vorgeschlagen, bin ich einverstanden.

Ich bin auch der Meinung das sich dem Nutzer von YaCy irgendeine Art von [spürbaren]{style=“font-style: italic”} Mehrwert ergeben muss. Was könnte das sein und wie sollte das realisiert werden?

An der Idee YaCy selber auf Smartphones und Tablets zu portieren sehe ich zwar keine technischen Probleme, Java als Laufzeitumgebung ist für alle relevanten Plattformen verfügbar, aber bis diese Geräte wirklich genügend CPU-Power und RAM und [Festplatten]{style=“font-style: italic”}kapazität haben dürften noch ein paar Jahre vergehen (ich bin mir aber sicher das der technische Fortschritt das in nicht allzu ferner Zukunft möglich machen wird).

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Nov 01, 2014 4:07 pm


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-11-01 16:29:43

Hallo,

ramfresser hat geschrieben:\ Gestern den ganzen Tag Error 403 und heute läuft alles wieder wie es soll.\

Beim testen meines yacyDNS ist mir aufgefallen das sich dieses Verhalten bei manchen Peers sogar innerhalb von Minuten mehrmals ändern kann. Manche Peers haben offensichtlich Schwierigkeiten damit festzustellen unter was für IP-Adressen oder Host-Namen sie erreichbar sind, wenn man diese Peers regelmäßig befragt was sie selber denken wie sie von außen erreichbar sind dann ändert sich das innerhalb von Minuten mehrmals. Wenn der Peer aktuell was falsches glaubt dann überprüft er mit diesen falschen Annahmen die ankommenden HTTP-Zugriffe und denkt das gültige Zugriffe nicht für den Peer selber bestimmt sind und will diese HTTP-Zugriffe als Proxy weiterleiten aber da der Proxy ausgeschalten ist kommt dieser Fehler.

Das Problem besteht in der Vielzahl der Möglichkeiten die es gibt um auf einen bestimmten Peer zuzugreifen und der Unmöglichkeit für den Peer selber alle diese Möglichkeiten zu erfassen damit alle Zugriffe die den Peer selber meinen auch als solche erkannt und intern korrekt verarbeitet werden.

mass hat geschrieben:\ prescribe a rule Code: : ` iptables -t nat -A PREROUTING -p tcp -s 192.168.0.0/16 --dport 80 -j DNAT --to 192.168.0.1:8091` \

In my opinion the IP-Addresses are wrong or runs your Peer on an internal PC behind a NAT-Router?

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Nov 01, 2014 4:29 pm


Suchmaschinen • Neue p2p Suchmaschine: Spot-on / Kooperationsprojekt

Date: 2014-11-01 16:57:29

Hallo

bald ist es soweit und es gibt das Release einer neuen p2p Suchmaschine neben YaCy, Faroo, Arado und anderen.
Es soll hier schon mal gepostet werden, damit ggf. Kooperationen überlegt und Ideen ausgetauscht werden können und auch Entwickler oder Tester bei Interesse und Lernbereitschaft mitmachen. Die Suchmaschine heisst http://spot-on.sf.net

Das Release der V 0.16 erfolgt bald.
Wer es kompilieren mag, braucht das SVN und Qt.
http://sourceforge.net/p/spot-on/code/HEAD/tree/
http://www.qt.io/

Differenzqualität zu YaCy ist, dass derzeit nicht in anderen Peers gesucht wird, sondern nur in der eingenen lokalen Datenbank. Es ist also eine Suchmaschine, die Queryhits in anderen Peers zunächst vermeidet.

Die URLs werden in einer SQLite oder wahlweise PostgreSQL Datenbank gespeichert.
Die Datenbanken sind komplett verschlüsselt wie auch ein zukünftiger Transfer der URLs: Der Austausch der URLs von Node zu Node erfolgt über ein verschlüsseltes Protokoll mit einem URL-Key, basierend auf RSA, NTRU oder ElGamal, das ist implementiert, der URL Transfer soll folgen.
Der Import von URLs erfolgt derzeit z.B. über den Web Browser http://dooble.sf.net der auch YaCy schon als Suchmaschine seit einigen Versionen integriert hat.
Unten wird beschrieben, wie man eine URL vom Browser in Spot-on integriert und dann dort auch sucht und findet.
.
Eine mögliche Kooperation mit YaCy könnte sein, dass man einen SOLR Import Parser in cpp in Spot-on integriert, oder dass Spot-on auch bei einer Suche die YaCy Api eines zu definierenden YaCy Nodes abfragt und die ersten 10 URLs zum jeweiligen Suchwort auch in seine Datenbank speichert.
Ob YaCy auch das verschlüsselte Protokoll abbilden will, ist ggf. ein zu grosser Aufwand in Java. Hinweise und Ideen sind willkommen.

Wenn jemand mit-testen will, wie folgt:
- SVN mit Qt compilieren und App lernen (Komplexität ist ggf herausfordernd) oder auf Release 0.16 warten.
- Dooble Web Browser installieren dooble.sf.net
- In Dooble unter Fenster/Einstellungen/Startseite den Pfad zur Shared.db definieren, die im ./Spot-on Unterpfad von Spot-on liegen sollte.
- In Dooble ein Passwort definieren unter Fenster/Einstellungen/Tresor
- In Dooble surfen und dann die History in der seitlichen Ansicht aufmachen (Menü: Verlauf/Anzeigen)
- Mit rechter Maustaste eine URL klicken und \“Spot-On-Bestätigung durchführen\” -> Die Url ist in shared.db
- Im Spot-On URL Tab im Settings-Knopf die Schritte 1-7 durchführen und die Datenbank aufsetzen (zunächst in SQlite und das Dooble Passwort nach Reolad-Betätigung eingeben)
- \“Import\” importiert die Dooble URLs von shared.db nach Spot-on und diese können dann in der Suche gefunden werden.

Bislang erste Beta und auch komplexer Prozess, aber ggf. interessant für Lernwillige und Datenbank-interessierte.
Anmerkungen sind willkommen. URLs nur lokal in der eigenen Datenbank zu suchen und die URLs komplett von peer zu peer zu synchronisieren über ein verschlüsseltes Protokoll ist ggf. das neue YaCy in der Nach-Snowden Ära? Die Frage ist, wie man beide Tools miteinander verbinden kann auf dem Weg in die weitere Entwicklung und wer mitmachen will, sich da einzufinden oder sogar beizutragen für eine nicht-zentrale URL Suche.

Grüsse, Syndicator


Bild
Bild

Statistik: Verfasst von syndicator — Sa Nov 01, 2014 4:57 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-02 02:12:02

Jetzt noch ein [fachliches \“Hallöchen\“.]{style=“font-weight: bold”}

[Die von mir angesprochene Nutzung mit Laptop (Akku-Betrieb), Tablet und [EXTREMFALL:]{style=“font-style: italic”} Smartphon]{style=“font-weight: bold”}, ist sicher aus dem derzeitigen Blickwinkel des Entwicklungsstandes von YaCy etwas naiv. Das derzeitige Produkt \“YaCy\” als Softwarepaket ist für diese Systeme zwar fast nicht mehr zu leistungsstark. 4-Kern-Prozessoren auf ARM-Basis schaffen das durchaus. Auch mein 2-kerniges CubieTruck schafft das. Aber es würde an der Akkukapazität scheitern. Kein Nutzer würde akzeptieren, wenn eine Suchmaschine die Akkulaufzeit seines mobilen Gerätes verkürzt. -- Und das wird auf absehbare Zeit so bleiben: Die Gerätehersteller werden immer versuchen, den Akku nur so groß (schwer/Volumen!) zu machen, wie es unbedingt notwendig ist.

Da die Geräte nun aber intensiv verwendet werden, auch von Nutzern, die einen Desktop zu Hause stehen haben: Wenn sie hier Google, Yahoo und Bing nutzen, warum sollten sie dann auf dem Desktop etwas Anderes nehmen? --- Ich habe noch keine Lösung im Kopf. Nur die Idee, darüber nachzudenken, was man tun könnte, um YaCy trotzdem präsent zu machen. --- Irgend eine sinnvolle Kombination aus heimischem YaCy, dass sich mit Bandbreite und Festplatte am Netzwerk beteiligt und dem \“transportablen YaCy\“, dass vielleicht allein auf die Suche beschränkt ist. Auf eine Suche, die nicht auf dem mobilen Gerät statt findet. Denn dort würde dies vor allem Energie kosten. (Egal ob Speicherplatz und Rechenleistung verfügbar wäre.)

[Erst mal nur als Gedankenspiel]{style=“font-weight: bold”}. Denn in dem Fall müsste man von der Grundsatzentscheidung abrücken, dass jede Installation zu aller erst auch Bandbreite und Festplattenplatz für das Netzwerk zur Verfügung stellt. Und es stellen sich weitere Fragen, ... die aber auch diese Gedanken in Grund und Boden stampfen könnten.

Und wieder meine Hinweis: Die Entwicklerressourcen sind begrenzt. -- Strategiewechsel müssen aber nicht unbedingt nur Geld oder Ressourcen kosten. Vielleicht gibt es eine Möglichkeit, den Nutzen für den Nutzer so groß zu machen, dass sich es lohnt, hier strategische Entscheidungen zu treffen.

Beste Grüße, obwohl mit Sicherheit in diesem Punkt nicht zu ende gedacht zu haben,
Frank

Statistik: Verfasst von fherb — So Nov 02, 2014 2:12 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-02 02:15:10

-- zum Thema Wünsche und Leistungen; kein fachlicher Beitrag --

Hallöchen,

Ich möchte die Diskussion bezüglich der Gefühle der Beteiligten nicht weiter anheizen. Das passiert uns im Netz, mich eingeschlossen, leider immer wieder viel zu schnell. Erik leistet hier im Forum als erfahrener Softwareentwickler, der weiß, wovon er redet, eine erhebliche Kommunikationsarbeit. [Dafür möchte ich mich hier erst mal bedanken!]{style=“font-weight: bold”} :) :!: Ich denke, Dank kann an dieser Stelle, kann nie zu wenig kommuniziert werden. Für diese Arbeit.

[Ich leiste hier eigentlich nichts weiter]{style=“font-weight: bold”}, bin aber seit einem Jahr Interessent für YaCy und würde es schon allein aus meiner politischen Überzeugung stark begrüßen, wenn YaCy nicht nur als Suchmaschine für lokale Netzwerke dienen kann, sondern auch im Internet zunehmend einen zusätzlichen Beitrag liefert, der zumindest ein wenig über der Signifikanz-Schwelle liegt. Wenn ich mir für \“freeworld\” die Question Per Hour ansehe, ist diese Vision im Wesentlichen immer noch eine Vision. Und das trotz der ernsthaften Fragen, die durch Snowden endlich auch in der Öffentlichkeit angelangt und seit über einem Jahr diskutiert werden! Dass das YaCy-Netzwerk durch MetaGer.de mit verwendet wird, halte ich für außerordentlich positiv. Aber trotzdem dümpelt, um es mal depressiv zu sagen, Yacy mit Suchanfragen herum, die man pro Minute an einer Hand abzählen kann. --- Weil ich eine Vorstellung davon habe, welcher Entwicklungsaufwand, Pflegeaufwand und nicht zu vergessen: Kommunikationsaufwand in solch einem seit vielen Jahren betriebenen Projekt steckt, macht mich das traurig! Dem Projekt mit Kraft und Engagement über längere Zeit die Treue zu halten, ist etwas, was ich den beteiligten Entwicklern außerordentlich hoch anrechne! Und ich glaube, dass wir Nutzer sicher Vorschläge machen sollten, es dabei aber IMMER den Entwicklern überlassen sollten, die Entscheidungen zu treffen. Und dies dann auch AKZEPTIEREN. Nich\’ rummmuffeln, sondern es einfach akzeptieren und trotzdem zur Stange halten!

Es ist keine leichte Sache, YaCy zu nutzen, eigene Interessen und Wünsche zu haben und hier mit Vorschlägen zu kommunizieren. Trotzdem: Jedem geäußerten Wunsch sollte eine eigene Reflexion vorausgegangen sein, ob der Wunsch nicht vielleicht zu persönlich ist und ober er mehr oder weniger in die Community passt. Und ob man dann gleich äußert, YaCy Auf Wiedersehen zu sagen, wenn der Wunsch nicht akzeptiert wird.

[Was ich persönlich im Moment leisten möchte ist,]{style=“font-weight: bold”} dem freeworld-Netzwerk von YaCy mit ein wenig Netzwerkbandbreite, Speicherplatz und Konfigurationstests zur Verfügung zu stehen. Und wenn man dann im Forum liest, dass jemand seine Wünsche sofort mit der Bedingung verknüpft, seine Nutzung vollständig aufzugeben, tut das irgendwie weh. Mir zumindest. Weil ich eine Vorstellung davon habe, was hier an Leistungen und Ressourcenverbrauch dahinter steht! Das ist einfach meine Hochachtung vor den Machen, hinter der ich meine Eigeninteressen jederzeit zurückstecken würde.

Code-Zeilen zu schreiben, geht schnell. Aber ein derart großes Software-System einigermaßen stabil zu bekommen und mit mehreren Entwicklern über Jahre voran zu treiben, ist eine großartige Leistung! Vor allem nicht nur eine fachliche Leistung. Auch eine Menschliche und Organisatorische! Allein schon als Nutzer wünsche ich mir hier von Allen eine gewisse Ehrfurcht vor dieser Leistung. Damit meine ich nicht fachliche und kreative Zurückhaltung zur Sache, sondern Zurückhaltung in der Person und auf der gefühlsmäßigen Ebene.

Ich bin eigentlich nur Nutzer. Aber YaCy hat eben auch eine soziale Komponente. Und wenn die nicht für mich stimmig ist, ziehe ich mich selbst zurück. Oder versuche, wie hier, ein wenig mit der Sicht eines (unbeteiligten) Entwicklers gegenzusteuern.

Statistik: Verfasst von fherb — So Nov 02, 2014 1:40 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-02 02:42:43

Vielleicht ein wenig provokant. Falls es aber tatsächlich umgesetzt wird, ist es trotzdem ernst gemeint. Und unbeachtet, ob ich YaCy über den offiziellen Weg zusätzlich eine Unterstützung zukommen lasse:

[**** Preisgeld ****]{style=“text-decoration: underline”}

Der Entwickler, der bis Jahresende das Firefox-Plugin soweit entwickelt, dass es


bekommt meinen Spendenbeitrag von 50 Euro als Preisgeld auf sein eigenes Konto.

Hier meine Adresse zur \“Anmeldung\” bis zum 1.12.2014: herbrand@gmx.de

Im Prinzip sind die beiden Forderungen nichts als eine Funktions-Reduzierung der bisher vorhandenen Bar auf das Mindestmaß. Wenn mehr geht, ist auch ok. Entscheidend ist, dass es geht. Mit dem von Heise runtergeladenen Plugin geht es nämlich derzeit nicht.

Falls es mehrere Interessenten gibt: Rafft Euch zusammen, in der Summe mehr zu schaffen, als wenn Zwei das Gleiche tun. Ich teile das Preisgeld in diesem Fall gern auch auf ein Team auf!

Falls sich niemand findet, geht das Geld als Spende auf das Projekt. In der Hoffnung, dass die Entwickler dies hier nicht als Erpressung oder Manipulation verstehen. Sondern eher, dass sich ein neuer Entwickler findet, der das Plugin/Addon pflegt.

Statistik: Verfasst von fherb — So Nov 02, 2014 2:42 am


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-11-02 07:16:08

How powerful are your processor/s?
See http://www.linuxandlife.com/2011/11/how ... on-in.html{.postlink}
I\’m interested in output from sudo lshw -class processor.

Just confirm you managed to save the API Table and the Content Importer pages as TXT?


I use Bitvise to upload and download files and as a terminal to my Cloud server see http://www.bitvise.com/ssh-client.
But I run Windows at home though there should be something similar for Linux.

Statistik: Verfasst von smokingwheels — So Nov 02, 2014 7:16 am


Mitmachen • Re: YaCy solidarisch entwickeln

Date: 2014-11-02 08:28:06

Hallo,

fherb hat geschrieben:\ [[Preisgeld]{style="font-weight: bold"}]{style="font-size: 150%; line-height: 116%;"}\ Der Entwickler, der bis Jahresende das Firefox-Plugin soweit entwickelt, dass es\ - von der Mozilla-Seite für die aktuelle Browser-Version downloadbar ist, - automatisch alle von mir angezeigten Webseiten (inkl. https) zur Indizierung an ein lokal installiertes YaCy sendet (Button auf der Firefox-Oberfläche, der wie bisher, abschaltbar ist), bekommt meinen Spendenbeitrag von 50 Euro als Preisgeld auf sein eigenes Konto.\ \ Hier meine Adresse zur \"Anmeldung\" bis zum 1.12.2014: \ \ Im Prinzip sind die beiden Forderungen nichts als eine Funktions-Reduzierung der bisher vorhandenen Bar auf das Mindestmaß. Wenn mehr geht, ist auch ok. Entscheidend ist, dass es geht. Mit dem von Heise runtergeladenen Plugin geht es nämlich derzeit nicht.\


Ich freue mich über das Engagement von fherb mehrfach:

  1. mich freut, dass es Anwender, wie fherb gibt, die hinter der feien Software wie YaCy auch die Menschen mit ihrem bewunderswerten Engagement sehen und dieses Engagement auch loben
  2. mich freut, und dafür danke dir, fherb, dass du es nicht bei Lippenbekenntnissen belassen hast und sich bereit erklärt hast, mit einem messbaren monetären Beitrag die YaCy-Eintwicklung zu unterstützen
  3. meine besondere persönliche Freude ist :P, dass deine Überlegungen und auch dein monetäres Engagement die gelebte solidarische Praxis von der http://projektmotor.sprechrun.de -Idee ist. Ich habe vor exakt zwei Wochen einen Mitforisten per Private Nachricht um ein Feedback zu der [Projektmotor]{style=“font-style: italic”}-Idee gebeten und als Rückmeldung bekommen [\“das erste Adjektiv was mir einfällt \“esoterisch\“]{style=“font-style: italic”}\“, was ich nicht unbedingt als negativ empfinde, weil die Ideen von Steve Jobs waren für die Zeitgenossen auch immer wieder gewöhnungsbedürftig und esoterisch. Habe nie ein Apple-Gerät besessen, aber vor der visionären Leistung von Steve Jobs habe ich Respekt.
fherb hat geschrieben:\ Dem Projekt mit Kraft und Engagement über längere Zeit die Treue zu halten, ist etwas, was ich den beteiligten Entwicklern außerordentlich hoch anrechne!\

Kann ich mir dem nur anschließen.

fherb hat geschrieben:\ Und ich glaube, dass wir Nutzer sicher Vorschläge machen sollten, es dabei aber IMMER den Entwicklern überlassen sollten, die Entscheidungen zu treffen. Und dies dann auch AKZEPTIEREN. Nich\' rummmuffeln, sondern es einfach akzeptieren und trotzdem zur Stange halten!\

Hier schwebt mir eine mit YaCy-Bordmitteln umgesetzte Infrastruktur, die bei der Arbeit am Projekt - YaCy oder ein beliebiges anderes Proiekt - den Entwicklern und Anwendern erlaubt ständig im Kontakt zu bleiben:

  1. zeitsparend neue Versionen ausliefern und risikofrei Tests durchführen,
  2. Testberichte erstellen und absenden. Qualitätssicherung - beste Werbung für das YaCy-Projekt ist eine gute anwenderfreundliche Software
  3. Verbesserungsvorschläge einreichen und wirksam unterstützen usw. - s. http://projektmotor.sprechrun.de-Schleife, die ständig für eine Bewegung und Fortschritte sorgt - wenn einzelne Teilnehmer der Community auf der Augenhöhe kommunizieren und sich solidarisch verhalten - s. \”[Monetär, elitär, solidarisch]{style=“font-style: italic”}\” im Artikel Zukunftsfähige digitale Ökosysteme im Post-Google-Zeitalter{.postlink}

Bin der Meinung, dass die meisten Komponenten für die anvisierte YaCy- Kommunikationsinfrastruktur verfügbar sind und müssen unwesentlich ergänzt und auch genutzt werden.

Was die Anwendung von YaCy auf mobilen Geräten und auf dem Desktop betrifft. Ich finde bei der YaCy-Entwicklung einen Lösungsansatz zielführend, bei dem davon ausgegangen wird, dass YaCy auf dem heimischen Mediencenter- Desktop läuft - s. dazu Daten auf eigener Hardware speichern{.postlink} - und ich als Anwender nutze das YaCy-Komfort - auch auf mobilen Geräten - per Browser.

Und nochmal zum Thema Firefox-Plugin/Preisgeld. Wenn man die Ausschreibung für das Firefox-Indexierungs-Plugin auf mehreren Freelancer-Websites wie http://twago.de/ platziert, kann man die Erfolgsaussichten für die Verwirklichung eines Projektes spürbar verbessern und gleichzeitig ein Gefühl dafür bekommen, welcher Entwicklungsaufwand hinter einer robusten zukunftsfähigen

  1. gut programmiert
  2. gut dokumentiert
  3. wartungsarm
  4. plattformunabhängig...

Software steckt und welchen Wert - auch in Euros - diese Software hat. Oder auch auf einer Crowdfunding{.postlink}-Plattform eine Initiative starten.

Gute Software und insbesondere gute zukunftsfähige Software fängt mit einer guten Auftragsbeschreibung an. Ich habe her http://etherpad.yacy.net/p/crawladdon einen Platzhalter für die crawladdon-Auftragsbeschreibung angelegt. Mitschreiben ohne Anmeldung möglich.

Und ich habe hier https://dudle.inf.tu-dresden.de/yacy201411/ eine Dudle-Umfrage angelegt, um einen Termin für ein Mumble-Treffen zu ermitteln (http://de.wikipedia.org/wiki/Mumble). Um sowas wie YaCy-Soziales Leben zu etablieren und aufrecht zu erhalten können m.E. solche Plauderrunden oder auch Mumble-Arbeitstreffen hilfreich sein. Wer die Einschränkung auf [19:00 Uhrzeit]{style=“font-style: italic”} im Dudle als nicht zielführend empfindet, kann auf den Menüpunkt \”[Spalten bearbeiten]{style=“font-style: italic”}\” klicken und dann mit einem Klick auf die \”[Nicht gewählt]{style=“font-style: italic”}\“-Schaltfläche weitere Uhrzeiten an den entsprechenden Tagen hinzufügen.

Gruss,
auf ein Mumble-Treffen freue ich mich :P.

Gruss, flegno

Statistik: Verfasst von flegno — So Nov 02, 2014 8:28 am


Fragen und Antworten • Re: rasut3 - Error 403 was tun

Date: 2014-11-02 11:25:24

Erik\_S hat geschrieben:\ In my opinion the IP-Addresses are wrong or runs your Peer on an internal PC behind a NAT-Router?\ \ Grüße\ Erik\


what ip-addresses have to be?
The router isn\’t present.
p.s.
I apologize, I use the translator

Statistik: Verfasst von mass — So Nov 02, 2014 11:25 am


Hilfe für Einsteiger und Anwender • Re: Very High sudden CPU consumption

Date: 2014-11-02 13:21:03

while the \“NormalizeDistributor adding of decoded rows to workers ended with timeout = 10000\” message looks actually scary, I could not find a bug there. But I found another one which currently reproducible creates 100% CPU load: the new network history graph. Hold on, I first fix this;

Statistik: Verfasst von Orbiter — So Nov 02, 2014 1:21 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-02 13:25:12

fherb hat geschrieben:\ [\*\*\*\* Preisgeld \*\*\*\*]{style="text-decoration: underline"}\


gute Sache irgendwie, ich finde es sollte sich auch keiner scheuen das anzunehmen. Im Prinzip brauchen wir genau diese Art Kopfgeld für Features auch aus der Industrie, dann aber in entsprechend größerem Maßstab ;)

Statistik: Verfasst von Orbiter — So Nov 02, 2014 1:25 pm


Hilfe für Einsteiger und Anwender • Re: Very High sudden CPU consumption

Date: 2014-11-02 13:45:36

emergency fix in 1.81.9135; may not apply to your problem, but this problem is there anyway since the new network/index statistic graphics had been made (ca. 1 week ago).

Statistik: Verfasst von Orbiter — So Nov 02, 2014 1:45 pm


Hilfe für Einsteiger und Anwender • Re: Very High sudden CPU consumption

Date: 2014-11-02 21:22:07

ok, sorry about the late answer.

Here\’s what\’s happening from the server cpu consumption standpoint:

Bild

The issue I initially reported is clearly visible in the green (Nice CPU usage) spike.

Late in the evening, I decide to reboot the server with shutdown -r. I expected that this command would shutdown Yacy with service yacy stop, since my Yacy client startup/shutdown is automated by a LSB Init script.

But it wouldn\’t stop after half an hour. So I decided to force the server shutdown with my finger.

When I restarted the server, it tried to start Yacy automatically, but it didn\’t succeed.

Today, I manually simulated an attempt to start Yacy by issueing ./ startYACY -d > logyacy, and the log and screen output are:

1 - Log - https://drive.google.com/file/d/0B8FDexrYy_FKQTcybTRDWGk2Rnc/view?usp=sharing

2 - screen output - https://drive.google.com/file/d/0B8FDexrYy_FKNkRSalVPbnU2S2s/view?usp=sharing

What should I do?

Statistik: Verfasst von oneaty — So Nov 02, 2014 9:22 pm


YaCy Coding & Architektur • Paradigmenwechsel für YaCy Android App

Date: 2014-11-03 00:38:10

Das Thema \‘YaCy App\’ für Android ist ja immer noch gegenwärtig:

https://twitter.com/jzacman/status/519861819994025984
siehe auch:
viewtopic.php?f=15&t=3226{.postlink-local}

Und Apps gab es ja auch schon von Marc:
viewtopic.php?p=29294#p29294{.postlink-local} (30C3 Suche)
viewtopic.php?p=26528#p26528{.postlink-local} (OSM POI Suche)

und Fabian:
viewtopic.php?p=29298#p29298{.postlink-local} bzw. https://github.com/fkaup/search30c3 (30C3) Suche

Ich habe mal überlegt was so eine App machen könnte und denke an dieser Stelle wäre ein [Paradigmenwechsel]{style=“font-weight: bold”} möglich: bei YaCy habe ich immer gesagt, wir machen keine Metasuche weil wir zeigen müssen dass wir Websuche ganz alleine auf die Beine stellen können. Eine YaCy App könnte hier \‘neu starten\’ und[ unter einem anderen Namen als \‘YaCy App\‘]{style=“font-style: italic”} dann eher so etwas wie ein Nachrichtendienst sein, der nicht nur aus dem YaCy Netz sich mit Suchergebnissen versorgt, sondern abhängig von den angefragten Medien (Bilder, Audio, Video) eine Metasuche zu den \’Netocrats{.postlink}\’ hin (z.B. auch Soundcloud, twitter, Vimeo und auch :mrgreen: Youtube) machen.
Ich gehe von einem Nutzungszenario aus, den ich auch so benutzen wollen würde, und das wäre ein Nachrichtendienst, also die App sucht beim Aufruf nach Ergebnissen zu vorherigen Suchanfragen (muss aber nicht, wäre aber als default ok?) und zeigt dann in einer Übersicht: X neue Ergebnisse zu Suchanfrage Y.

Damit das ganze eine tiefe Integrierung in das YaCy Netz bekommt, pushen die Apps ihre neuen Ergebnisse die von ausserhalb des YaCy Netzes kommen wie Junior Peers in das freeworld P2P Netz, d.h. sie sind auch Peers im freeworld-Netz, aber eher so etwas wie Harvesting-Clients die das Netz immer frisch mit dem versorgt, was die Leute interessiert. Ein neuer App-Nutzer müsste keinen Peer installieren und gar nichts zum Thema Suchmaschinentechnik lernen, das geht dann automatisch.

Ich habe ja auch mal eine experimentelle App gemacht für einen Nachrichtenstrom für Fernsehprogramm-Tweets: http://tvtroll.anomic.de -- das könnte man ebenfalls als \‘Laborexperiment\’ für so eine App betrachten. Wir hätten dann ja schon so was wie drei Basis-Apps, auf die man aufbauen kann.

Ich suche aber immer noch nach Helfern für so eine Android App, ich bin da nicht so gut drin, würde aber halt das Backend zum YaCy Netz darin einbauen. Jemand müsste sich um die GUI kümmern...

Wie seht ihr die Idee zu dem Paradigmenwechsel?

Statistik: Verfasst von Orbiter — Mo Nov 03, 2014 12:38 am


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App

Date: 2014-11-03 07:51:38

Hallo,

Orbiter hat geschrieben:\ Ich habe mal überlegt was so eine App machen könnte und denke an dieser Stelle wäre ein [Paradigmenwechsel]{style="font-weight: bold"} möglich: bei YaCy habe ich immer gesagt, wir machen keine Metasuche weil wir zeigen müssen dass wir Websuche ganz alleine auf die Beine stellen können. Eine YaCy App könnte hier \'neu starten\' und[ unter einem anderen Namen als \'YaCy App\']{style="font-style: italic"} dann eher so etwas wie ein Nachrichtendienst sein, der nicht nur aus dem YaCy Netz sich mit Suchergebnissen versorgt, sondern abhängig von den angefragten Medien (Bilder, Audio, Video) eine Metasuche zu den \'[Netocrats](http://en.wikipedia.org/wiki/Netocracy){.postlink}\' hin (z.B. auch Soundcloud, twitter, Vimeo und auch ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green") Youtube) machen.\ Ich gehe von einem Nutzungszenario aus, den ich auch so benutzen wollen würde, und das wäre ein Nachrichtendienst, also die App sucht beim Aufruf nach Ergebnissen zu vorherigen Suchanfragen (muss aber nicht, wäre aber als default ok?) und zeigt dann in einer Übersicht: X neue Ergebnisse zu Suchanfrage Y.\

Bin der Meinung, dass es sinnvoll ist - insbesondere angesichts der knappen Entwickler-, Geld- aber auch sonstigen Ressourcen - sich in der \‘YaCy App\‘-Startphase auf bestimmte Nutzergruppen zu konzentrieren und für diese Nutzergruppen ein zum Erfolg verdammtes \‘YaCy App\‘-Konzept auf die Beine zu stellen. Eine Aussage, welche Nutzergruppen du gerade im Blick hast, wäre hilfreich.

Orbiter hat geschrieben:\ Damit das ganze eine tiefe Integrierung in das YaCy Netz bekommt, pushen die Apps ihre neuen Ergebnisse die von ausserhalb des YaCy Netzes kommen wie Junior Peers in das freeworld P2P Netz, d.h. sie sind auch Peers im freeworld-Netz, aber eher so etwas wie Harvesting-Clients die das Netz immer frisch mit dem versorgt, was die Leute interessiert.\ \[\...\]\ Ich suche aber immer noch nach Helfern für so eine Android App, ich bin da nicht so gut drin, würde aber halt das Backend zum YaCy Netz darin einbauen. Jemand müsste sich um die GUI kümmern\...\

Grundsätzliche Bemerkung - ich bin der Meinung, dass die Attraktivität des YaCy-Ökosystems{.postlink} und damit der Erfolg von YaCy in der jetzigen Situation entscheidend davon abhängt, ob die Nutzer, auch YaCy-Anfänger - die Erfahrung machen, dass sie zeitsparend ohne zu großen Lernaufwand gute Suchergebnisse, gute Treffer erzielen. Wobei mir bewusst ist, dass \“gute Treffer\” kein geschützter Begriff ist. Ist diese Aussage richtig: [die Suchengine hinter [YaCy App]{style=“font-style: italic”} die gleiche ist, wie hinter YaCy selbst?]{style=“color: #FF0000”} Unabhängig davon, ob die Antwort [Ja]{style=“font-style: italic”} oder [Nein]{style=“font-style: italic”} lautet, es besteht m.E. ein dringender Handlungsbedarf, um die Handhabung von erweiterten YaCy-Filtereinstellungen zu erleichtern, um die Qualität der Suchergebnisse zu verbessern. Mein Wunschszenario:

Ich rege an, die Aktivitäten in Richtung [YaCy App]{style=“font-style: italic”} so zu gestalten, dass die YaCy-Desktop-User, die YaCy bis jetzt treu geblieben sind, auch was von den [YaCy App]{style=“font-style: italic”}-Aktivitäten haben. Ich behaupte mal, dass die Entwicklung einer ausgereiften erfolgreichen [YaCy App]{style=“font-style: italic”} mit einem erheblichen Testaufwand verbunden ist. Und ich vermute, dass die [YaCy App]{style=“font-style: italic”}-Entwickler mit wesentlich weniger Aufwand die bestehende YaCy-User für [YaCy Ap]{style=“font-style: italic”}p-Tests und die Erstellung von hilfreichen Fehlerberichten begeistern können, als aus dem Stand neue treue [YaCy App]{style=“font-style: italic”}-Tester zu gewinnen 8-).

Gruss, flegno

Statistik: Verfasst von flegno — Mo Nov 03, 2014 7:51 am


Fragen und Antworten • eine neue Version des crawlBookmarklet #c1846 ist erschienen

Date: 2014-11-03 09:20:45

Hallo,

eine neue Version des [crawlBookmarklet #c1846]{style=“font-style: italic”} ist erschienen. Das Parameter [CrawlStartSiteWindow ]{style=“font-style: italic”}sorgt unter Firefox dafür, dass bei der Einhaltung von bestimmten Regeln - s. crawlBookmarklet-Verhalten im Firefox-Browser{.postlink} keine neue Tabs bei der Nutzung des Bookmarklets mit Firefox geöffnet werden. Über die Test- und Fehlerberichte mit dem Browser deines Vertrauens in diesem Forum oder hier http://etherpad.yacy.net/p/crawlBookmarklet würde ich mich freuen.

Gruss, flegno

Statistik: Verfasst von flegno — Mo Nov 03, 2014 9:20 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-03 10:38:24

Hallo,

als Techniker betrachte ich die Diskussion hier primär aus der technischen Sicht also verzeiht mir Bitte wenn ich manches etwas komisch formuliere oder zu pragmatisch sehe.

Es geht doch um das Feature \“nebenbei-crawlen\“, also das alles was man so beim täglichen ansurfen ins Browserfenster bekommt auch parallel indexiert wird und das möglichst einfach und bequem. Der Vorteil dieser Methode gegenüber einen eigenständigen Crawl-Auftrag der z.B. eine komplette Domain indexiert, ist das keine zusätzliche Bandbreite verbraucht wird (gut für Nutzer mit Volumentarifen, wie sie im mobilen Bereich leider noch immer die Norm sind) da die Daten nur einmal geholt werden dann dann [doppelt]{style=“font-style: italic”} genutzt werden und das der Nutzer sich nicht wirklich drum kümmern muss also auch DAUs damit zurecht kommen (ja ich denke wenn YaCy eine breitere Nutzerbasis haben will dann muss es \“DAU-proofed\” sein).

Dieses Feature will niemand aus YaCy entfernen, es gilt also einen Weg zu finden der den besten Kompromiss aus Aufwand und Nutzen verspricht.
Zur Verfügung stehen 3 Wege:

  1. Proxy: geringer Aufwand aber auch geringer (und weiter abnehmender) Nutzen wegen zunehmender Verschlüsselung
  2. auf Verschlüsselung verzichten: dürfte wohl kaum Konsensfähig sein, und das nicht erst seit den Snowden-Enthüllungen
  3. Browser-AddOn: hoher Aufwand aber wahrscheinlich auch höchster Nutzen

Ich persönlich bin der Meinung das der Weg 3 trotz aller Nachteile die besten Aussichten auf Erfolg hat. Ich würde an der Entwicklung ja gerne irgendwie helfen aber ich denke das ich als eingefleischter C und Assembler-Programmierer (der vor allem in Embedded-System in der Industrie zu Hause ist) kaum etwas zu einem Browser-AddOn, das in Java-[Script]{style=“font-weight: bold”} programmiert werden muss, beisteuern kann. Ich denke aber das ich vielleicht in Punkten wie der Vorverarbeitung der URLs nützlich sein kann, wie man z.B. aus einer URL die Session-ID entfernt wenn diese sich auf /viewtopic.php bezieht ist mir geläufig. Ich bin also bereit an der Entwicklung so eines AddOns [mit]{style=“text-decoration: underline”}zuhelfen aber selber sowas auf die Füße zu stellen verlässt den Wirkbereich meiner Programmierkompetenz deutlich.

flegno hat geschrieben:\ Also müsste in der Auftragsbeschreibung weitere Funktion gestrichen werden - \"automatisch alle von mir angezeigten Webseiten (inkl. https) zur Indizierung an ein lokal installiertes YaCy senden\" ginge wohl nur wenn das crawlAddon komplett quasi die YaCy-Proxy-Funktionalität realisieren würde.\

Nein, ein Proxy ist ein Stellvertreter der Dinge (hier Web-Seiten) besorgt damit man das nicht selber tun muss. Das AddOn macht etwas anderes: es holt sich entweder nur die URL die aktuell in der Adressleiste des Browsers steht und übergibt diese als Crawl-Auftrag (mit Suchtiefe 0) an eine YaCy-Instanz (ähnlich dem erwähnten Bookmarklet) und die YaCy-Instanz holt sich die Web-Seite von der angegebenen URL selber und indexiert das was da kommt oder das AddOn entnimmt dem Browser nicht nur die URL sondern auch gleich den gesamten Dateninhalt (also den HTML-Code) und übergibt beides zusammen per Push-API an eine YaCy-Instanz die die Daten indexiert und sie zusammen mit der URL dem lokalen Index zufügt. Die zweite Variante ist meiner Meinung nach die bessere weil die Daten eben nicht doppelt geholt werden müssen aber wahrscheinlich auch komplexer da es vermutlich nicht so einfach ist als AddOn an den kompletten Seiten-HTML-Code ran zu kommen.

Zu dem Punkt mit dem Preisgeld:

Erik am 06.10. hat geschrieben:\ Ich bin dafür dass das Proxy-Feature aus YaCy verschwindet, damit wären auch die HTTP-403-Fehler vorbei, und dafür die Möglichkeiten zum \"nebenbei-crawlen\" per Browser-AddOn zu verbessern. [Für letzteres würde ich eventuell Geld ausgeben]{style="font-weight: bold"}.\

Dazu{.postlink} stehe ich auch Heute noch, ich würde mich an einem Geld-Topf beteiligen wenn dieser auch wirklich dem Entwickler eines AddOns zugute kommt.

Adama hat geschrieben:\ Wenn jemand droht \"wenn der Proxy weg ist, bin ich auch weg\": Reisende soll man nicht aufhalten!\

[Wenn der Wind der Veränderung bläst bauen manche Mauern und andere Windräder.]{style=“font-style: italic”}
Was wollen wir tun?
Selbst Don Quijote würde sich wohl nicht gegen die Verschlüsselung im Internet auflehnen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Nov 03, 2014 10:38 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-03 10:53:44

Hallo,

fherb hat geschrieben:\ Ich habe noch keine Lösung im Kopf. Nur die Idee, darüber nachzudenken, was man tun könnte, um YaCy trotzdem präsent zu machen. \-\-- Irgend eine sinnvolle Kombination aus heimischem YaCy, dass sich mit Bandbreite und Festplatte am Netzwerk beteiligt und dem \"transportablen YaCy\", dass vielleicht allein auf die Suche beschränkt ist. Auf eine Suche, die nicht auf dem mobilen Gerät statt findet.\

Schau mal auf http://130.255.73.69:5353/, dort bekommst Du einen zufälligen YaCy-Peer als Suchmaschine angezeigt, das sollte auch mit den Browsern der Smartphones und Tablets funktionieren.

Das ganze ist noch nicht komplett fertig entwickelt, es gibt davon aber bereits eine zweite Instanz und demnächst sollen beide (redundant) mit einem richtigen Domain-Namen erreichbar sein.
Damit stellen die Peers auf den PCs nicht nur Speicherplatz zur Verfügung sondern bieten auch einen Einstieg für [jeden]{style=“text-decoration: underline”} Anwender ins YaCy-Suchmaschinen-Netzwerk.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Nov 03, 2014 10:53 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-03 11:30:37

Hallöchen zusammen!

Nur mal so ein Hinweis für den- oder diejenigen, welche sich um solch ein Add-on für Firefox/SeaMonkey kümmern wollen:

Bei Mozilla selbst gibt es die Möglichkeit, ein Add-on direkt zu testen:

[[Add-on überprüfen{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Mit einer auf die neuen Versionen von Firefox und SeaMonkey angepaßten [[\“install.rdf\“]{style=“font-style: italic”}]{style=“font-weight: bold”} bringt die YaCyBar dort zwar [[19]{style=“font-style: italic”}]{style=“font-weight: bold”} Warnungen, aber keine Fehler! Funktionieren tut die Toolbar aber trotzdem nicht, warum auch immer. Es wurde wohl doch schon eine ganze Menge am Unterbau der Browser geändert, immerhin war die YaCyBar zuletzt für Firefox [[4.*]{style=“font-style: italic”}]{style=“font-weight: bold”} kompatibel, also [[2011]{style=“font-style: italic”}]{style=“font-weight: bold”}. Daß es dann bei solche einem Add-on zu Problemen kommt dürfte klar sein, da in Firefox/SeaMonkey einiges an der entsprechenden API verändert wurde.

Vielleicht ist ja jemand hier im Forum, der sich damit auskennt und sich der Toolbar annehmen könnte. Dabei bitte aber den SeaMonkey nicht vergessen, dann kann ich zumindest beim testen und verbessern mithelfen! Wenn man sich an die entsprechenden Regeln von Mozilla hält sollte das eigentlich kein Problem sein, daß die Bar in beiden Browsern funktioniert.


Sonnige Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Nov 03, 2014 11:30 am


Hilfe für Einsteiger und Anwender • Re: Sudden very high CPU consumption

Date: 2014-11-03 17:35:30

I made some progress but I still need advice.

The progress: now I can access Yacy web front-end.

What I did?

By looking at the logs I sent, I suspect that this could be a memory issue, so I changed these two yacy.conf parameters:

Code:
javastart_Xmx=Xmx1000mjavastart_Xms=Xms300m



The initial values for those were 600m and 90m, respectively.

Also, I\’m almost certain that all these issues began after I started a crawl on a very big and popular site. Now that my Yacy server is back, that crawl restarted again. If my suspicion is correct, what should I do to prevent that it harms the server once more? What signs should I look for?

Also, by looking at the log of this run, I noticed this:

Code:
I 2014/11/03 13:56:31 SWITCHBOARD postprocessing deactivated: no enough ram (148797808), needed 536870912, to force change field postprocessing.minimum_ramI 2014/11/03 13:56:31 SWITCHBOARD postprocessing deactivated: too high load (5.3) > 2.5, to force change field postprocessing.maximum_loadI 2014/11/03 13:56:31 SWITCHBOARD postprocessing deactivated: constraints violated



Is this something that needs action? What is the SWITCHBOARD?

Statistik: Verfasst von oneaty — Mo Nov 03, 2014 5:35 pm


Mitmachen • Re: ist die Addon-Lösung zweckmäßig und bezahlbar?

Date: 2014-11-03 18:00:49

Hallo,

flegno hat geschrieben:\ ob die Investition in die Entwicklung und die Weiterentwicklung des CrawlAddons zweckmäßig und mit verfügbaren Ressourcen zu stemmen ist.\

Zweckmäßig ganz bestimmt, aber \“zu stemmen\” ist eine berechtigte Frage.
Trotzdem Bitte ich um mehr Optimismus.

flegno hat geschrieben:\ so meine konzeptuelle Überlegungen, die daraufhin zielen, dass eine Bookmarklet-Lösung mit ein Paar mehr Mausklicks eine willkommene Hürde ist, die ganz nebenbei dafür sorgt, dass die Qualität des YaCy-Indexes sich verbessert\

Ernsthaft? Denkst du wirklich das es dem Index gut tut wenn es noch schwieriger wird etwas beizusteuern?
Wenn ich alles was mir mein Browser anzeigt erst noch mit weiteren Mausklicks bedienen muss damit es auch im Index landet dann dürfte zumindest bei mir nur sehr wenig im Index landen. Also mir persönlich als Anwender wäre dieser Aufwand definitiv zu hoch. Der Mensch ist von Natur aus faul, deswegen ist der Proxy ja eine so angenehme Idee, wenn er nur nicht mit dem technischen Fortschritt kollidieren würde.
[Technik ist die Anstrengung, Anstrengungen zu ersparen!]{style=“font-style: italic”}

Das Du die Bookmarklets weiterentwickeln möchtest halte ich aber für eine gute Idee. Es schadet weder YaCy noch einem YaCy-Browser-AddOn wenn es (spezielle) Alternativen gibt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Nov 03, 2014 6:00 pm


Hilfe für Einsteiger und Anwender • Re: Sudden very high CPU consumption

Date: 2014-11-03 18:11:45

oneaty hat geschrieben:\ Also, I\'m almost certain that all these issues began after I started a crawl on a very big and popular site. Now that my Yacy server is back, that crawl restarted again. If my suspicion is correct, what should I do to prevent that it harms the server once more? What signs should I look for?\



Trying to answer my own question \“What signs should I look for?\“, I think these graphs give a hint:

Bild

The monthly graph shows a clear decrease of free memory starting at the end of week 43, exactly when I started the crawl on that huge web site.

The yearly graph is definitive in showing that only in October the free memory presented a significant decrease.

So, are these graphs the ones that I should monitor to know when to either stop crawling, stop Yacy and increase memory allocation (but this is a limited option), or take whatever action needed that will allow to adjust Yacy to a unusual burden on the fly?

Statistik: Verfasst von oneaty — Mo Nov 03, 2014 6:11 pm


Hilfe für Einsteiger und Anwender • Re: Sudden very high CPU consumption

Date: 2014-11-03 18:47:35

According to Sixcooler, in another forum thread(http://forum.yacy-websuche.de/viewtopic.php?p=27723#p27723),

\ Yes, YaCy needs a lot of RAM (heap) if the index grows.\ And since we use solr for index-storage, there is also a heavy usage of virtual RAM.\ Virtual RAM does not need to be available physically, but needs to be addressable - that\'s why 64Bit is the way to go.\



Considering that the server where Yacy is running is an Ubuntu 14.04 Server (64 bit), has 2 GB RAM and 2GB of Swap, can I increase javastart_Xmx and javastart_Xms above the 2GB limit of RAM and use up to 4 GB (2 GB RAM + 2 GB Swap)?

Based on Sixcooler words, I would expect to see a heavy usage of my server\’s swap partition, but that\’s not what these graphs show:

Bild

Should some setting be turned on so that solr makes use of virtual RAM?

Statistik: Verfasst von oneaty — Mo Nov 03, 2014 6:47 pm


Mitmachen • Re: ist die Addon-Lösung zweckmäßig und bezahlbar?

Date: 2014-11-03 19:15:45

Hallo,

Erik\_S hat geschrieben:\ Zur Verfügung stehen 3 Wege: 1. \... 2. \... 3. Browser-AddOn: hoher Aufwand aber wahrscheinlich auch höchster Nutzen Ich persönlich bin der Meinung das der Weg 3 trotz aller Nachteile die besten Aussichten auf Erfolg hat.\


Ich persönlich werde zunehmend skeptischer, ob die Investition in die Entwicklung und die Weiterentwicklung des CrawlAddons zweckmäßig und mit den verfügbaren Ressourcen zu stemmen ist. Ich werde dazu einen längeren Text schreiben. Vorweggenommen die Hürden, Nachteile, die mMn eine Addon-Lösung, darunter CrawlAddon, im Vergleich zu einem JavaScript-basierten Bookmarklet kurz- und längerfristig hat:

  1. man braucht einen Addon-Entwickler, um ein Addon:
    • zu entwickeln
    • zu supporten
  2. das JavaScript-Bookmarklet ist ein offenes Buch und kann nicht nur von jedem Webentwickler, sondern von jedem halbwegs motivierten Programmierer angepasst, verbessert oder supported werden
  3. ich wollte mal schnell reinschnuppern, wie aufwendig die Addon-Entwicklung ist und festgestellt, dass eine SDK-Entwicklungsumgebung für die Addons und für das SDK die Python-lnstallation notwendig sind und das waren für mich summa-summarum Gründe genug, um meinen Schnupperausflug zu beenden.
  4. ich habe auch so meine konzeptuelle Überlegungen, die daraufhin zielen, dass eine Bookmarklet-Lösung mit ein Paar mehr Mausklicks eine willkommene Hürde ist, die ganz nebenbei dafür sorgt, dass die Qualität des YaCy-Indexes sich verbessert ;). Ich bilde mir ein, dass mindestens die Entwickler unter euch die Überlegungen zu den Vorteilen dieser Art von Qualitätssicherung nachvollziehen können. Gebe es derartige Hürden nicht, wären die Entwickler u.U. massenhaft mit Fehlerberichten zugeschüttet und hätten die Mühe die Spreu vom Weizen zu trennen :roll:.

Einen Text mit detaillierteren konzeptuellen Überlegungen werde ich demnächst nachliefern.

Gruss, flegno

Statistik: Verfasst von flegno — Mo Nov 03, 2014 1:56 pm


English • Re: YaCy version 1.819116 knocks servers off Adressing

Date: 2014-11-03 19:59:06

Thanks for the thoughts...We will do all that.…

[We got to focus please
Please 1st things 1st.…
MANUALLY...
PLEASE Where do we ADD the IP address they need???
]{style=“font-weight: bold”}

\ The peer must go online to get a peer address.\



However the 500 Error Screens are still there and WE Cannot add URLs or RSS links to work on.
It only processes links it already has.


We applied the current updates ( 1.819140 ) and things are better, but the Error pages are still there.
We must RECONNECT MANUALLY...but HOW+WHERE, please????
Thanks

Statistik: Verfasst von xioc752 — Mo Nov 03, 2014 7:59 pm


Mitmachen • Re: ist die Addon-Lösung zweckmäßig und bezahlbar?

Date: 2014-11-04 00:06:23

Ne, oder?

Erik\_S hat geschrieben:\ Also mir persönlich als Anwender wäre dieser Aufwand definitiv zu hoch. Der Mensch ist von Natur aus faul, [[deswegen ist der Proxy ja eine so angenehme Idee]{style="font-style: italic"}]{style="font-weight: bold"}, wenn er nur nicht mit dem technischen Fortschritt kollidieren würde.\



Und das ausgerechnet von dir, wo Du doch die ganze Zeit gegen den Proxy wetterst! :mrgreen:

Dazu jetzt aber eine andere Frage:

Wenn das mit dem transparenten Proxy von YaCy nicht mehr klappt wegen \“https:\“, wie wird das dann weiter gehen mit den ganzen \“anonymen\” Proxys sein? Können dann Add-ons wie FoxyProxy in die Tonne geklopft werden? Ich denke mal nicht, denn die Einstellungen von SeaMonkey, Firefox und Thunderbird erlauben Proxys auch per https, FTPS, SFTP, ircs und so weiter! Was läuft da also bei YaCy schief, daß das nicht funktionieren soll? Wenn das über ein kleines Add-on funktioniert, dann sollte ein Projekt wie YaCy erst recht keine Schwierigkeiten damit haben!

Ich verwende hier mit SeaMonkey auch das Add-on HTTPS-Everywhere und habe bisher nicht bemerkt, daß das auf YaCy irgend einen negativen Einfluß hätte!

Statistik: Verfasst von TmoWizard — Di Nov 04, 2014 12:06 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 00:27:10

Kann man das Script auch für den Expertencrawlstart machen?

Statistik: Verfasst von Adama — Di Nov 04, 2014 12:27 am


Fragen und Antworten • Re: Yacy Konfig Sichern?

Date: 2014-11-04 00:32:43

Ich habe über das Menü das normale Update gemacht.
Hier das log:

I 2014/11/03 23:37:54 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\admin_bookmarks.bheap, 0 MB. Please wait.
I 2014/11/03 23:37:54 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\admin_bookmarks.bheap, 13 entries, 0 gaps.
I 2014/11/03 23:37:54 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\admin_bookmarks.bheap
I 2014/11/03 23:37:54 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\api.bheap, 0 MB. Please wait.
I 2014/11/03 23:37:54 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\api.bheap, 22 entries, 0 gaps.
I 2014/11/03 23:37:54 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\api.bheap
I 2014/11/03 23:37:54 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\pkcounter.bheap, 0 MB. Please wait.
I 2014/11/03 23:37:54 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\pkcounter.bheap, 1 entries, 0 gaps.
I 2014/11/03 23:37:54 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\pkcounter.bheap
I 2014/11/03 23:37:54 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\robots.bheap, 5 MB. Please wait.
I 2014/11/03 23:37:54 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\robots.bheap, 4270 entries, 0 gaps.
I 2014/11/03 23:37:54 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\robots.bheap
I 2014/11/03 23:37:54 Domain Init local host address: 0::1 (local)
I 2014/11/03 23:37:54 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)
I 2014/11/03 23:37:54 Domain Init local host address: 127.0.0.1 (local)
I 2014/11/03 23:37:54 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\rss.bheap, 7 MB. Please wait.
I 2014/11/03 23:37:55 Domain Init local host address: fe80:0:0:0:0:5efe:ac10:4bc (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80::5efe:ac10:4bc (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80:0:0:0:6413:328c:163d:1ffa (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80::6413:328c:163d:1ffa (local)
I 2014/11/03 23:37:55 Domain Init local host address: 172.16.4.188 (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80:0:0:0:7de1:55da:1b90:9f2c (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80::7de1:55da:1b90:9f2c (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80:0:0:0:4dd4:2f9:97d:9aa5 (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80::4dd4:2f9:97d:9aa5 (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80:0:0:0:b945:5dab:3af5:1986 (local)
I 2014/11/03 23:37:55 Domain Init local host address: fe80::b945:5dab:3af5:1986 (local)
I 2014/11/03 23:37:55 Domain Init local host address: 169.254.123.40 (local)
I 2014/11/03 23:37:55 Domain Init local host address: 2001:470:1f0b:934:b945:5dab:3af5:1986 (public)
I 2014/11/03 23:37:56 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\rss.bheap, 36776 entries, 2876 gaps.
I 2014/11/03 23:37:56 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\WORK\rss.bheap: merged 0 free records
I 2014/11/03 23:37:56 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\rss.bheap
I 2014/11/03 23:37:56 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\WORK\stats.bheap, 0 MB. Please wait.
I 2014/11/03 23:37:56 Domain Init local host address: fe80:0:0:0:0:5efe:a9fe:7b28 (local)
I 2014/11/03 23:37:56 Domain Init local host address: fe80::5efe:a9fe:7b28 (local)
I 2014/11/03 23:37:56 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\WORK\stats.bheap, 568 entries, 0 gaps.
I 2014/11/03 23:37:56 Heap initializing heap C:\Users\Zwiespalt\YaCy\DATA\WORK\stats.bheap
I 2014/11/03 23:37:56 Word hashCache.size = 20000
I 2014/11/03 23:37:56 SWITCHBOARD Initializing Segment \‘C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS.
I 2014/11/03 23:37:57 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021100936922.blob, 1546 MB. Please wait.
I 2014/11/03 23:37:58 UPNP found device: OpenWRT router
I 2014/11/03 23:37:58 UPNP mapped mapped port 8091 to port 49152 on device OpenWRT router, external IP is 78.34.194.160
I 2014/11/03 23:38:31 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021100936922.blob, 1298821 entries, 624 gaps.
I 2014/11/03 23:38:31 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021100936922.blob: merged 0 free records
I 2014/11/03 23:38:31 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101037080.blob, 1565 MB. Please wait.
I 2014/11/03 23:39:06 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101037080.blob, 1438875 entries, 623 gaps.
I 2014/11/03 23:39:06 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101037080.blob: merged 0 free records
I 2014/11/03 23:39:06 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101139512.blob, 1560 MB. Please wait.
I 2014/11/03 23:39:46 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101139512.blob, 1575139 entries, 630 gaps.
I 2014/11/03 23:39:46 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101139512.blob: merged 0 free records
I 2014/11/03 23:39:46 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101244976.blob, 1635 MB. Please wait.
I 2014/11/03 23:40:26 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101244976.blob, 1552826 entries, 624 gaps.
I 2014/11/03 23:40:26 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021101244976.blob: merged 0 free records
I 2014/11/03 23:40:26 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021171534622.blob, 1620 MB. Please wait.
I 2014/11/03 23:41:41 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021171534622.blob, 3213815 entries, 587 gaps.
I 2014/11/03 23:41:41 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141021171534622.blob: merged 0 free records
I 2014/11/03 23:41:42 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141022072824121.blob, 1479 MB. Please wait.
I 2014/11/03 23:42:59 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141022072824121.blob, 3272740 entries, 531 gaps.
I 2014/11/03 23:42:59 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141022072824121.blob: merged 0 free records
I 2014/11/03 23:43:00 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141028115332014.blob, 1501 MB. Please wait.
I 2014/11/03 23:44:09 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141028115332014.blob, 2910736 entries, 376 gaps.
I 2014/11/03 23:44:09 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141028115332014.blob: merged 0 free records
I 2014/11/03 23:44:09 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030173528252.blob, 832 MB. Please wait.
I 2014/11/03 23:44:38 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030173528252.blob, 1222939 entries, 94 gaps.
I 2014/11/03 23:44:38 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030173528252.blob: merged 0 free records
I 2014/11/03 23:44:38 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030194625179.blob, 135 MB. Please wait.
I 2014/11/03 23:44:46 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030194625179.blob, 345556 entries, 4 gaps.
I 2014/11/03 23:44:46 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030194625179.blob: merged 0 free records
I 2014/11/03 23:44:47 HeapReader saturation of text.index.20141030214141924.blob.nhtpWxM5NNH-.idx: keylength = 6, vallength = 4, size = 400572, maximum saving for index-compression = 2 MB, exact saving for value-compression = 1 MB
I 2014/11/03 23:44:47 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141030214141924.blob.
I 2014/11/03 23:44:47 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031021822062.blob, 132 MB. Please wait.
I 2014/11/03 23:44:55 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031021822062.blob, 338880 entries, 50 gaps.
I 2014/11/03 23:44:55 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031021822062.blob: merged 0 free records
I 2014/11/03 23:44:55 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031070740360.blob, 58 MB. Please wait.
I 2014/11/03 23:44:59 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031070740360.blob, 156470 entries, 2 gaps.
I 2014/11/03 23:44:59 HeapReader BLOB C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031070740360.blob: merged 0 free records
I 2014/11/03 23:44:59 HeapReader saturation of text.index.20141031074934239.blob._u--xVQAhqIz.idx: keylength = 4, vallength = 4, size = 93833, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:44:59 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031074934239.blob.
I 2014/11/03 23:44:59 HeapReader saturation of text.index.20141031075704908.blob.I4xln4mQmUjk.idx: keylength = 4, vallength = 3, size = 16788, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:44:59 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031075704908.blob.
I 2014/11/03 23:44:59 HeapReader saturation of text.index.20141031081846186.blob.A7ncNtDSug5L.idx: keylength = 4, vallength = 3, size = 14436, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:44:59 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031081846186.blob.
I 2014/11/03 23:44:59 HeapReader saturation of text.index.20141031123257649.blob.T-cX_BaLtzRn.idx: keylength = 4, vallength = 3, size = 30916, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:44:59 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031123257649.blob.
I 2014/11/03 23:44:59 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031124432683.blob, 0 MB. Please wait.
I 2014/11/03 23:44:59 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031124432683.blob, 2368 entries, 0 gaps.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031161753742.blob.HGH4QrFE6YSF.idx: keylength = 4, vallength = 3, size = 68397, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031161753742.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031162639973.blob.pX21vnk03818.idx: keylength = 3, vallength = 3, size = 9736, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031162639973.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031215755714.blob.D6JM5Dri1vmn.idx: keylength = 5, vallength = 4, size = 183067, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031215755714.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031223340265.blob.rHVHtfSqZqpH.idx: keylength = 4, vallength = 3, size = 12354, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031223340265.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031234355773.blob.yHGV-3EuAJEg.idx: keylength = 4, vallength = 3, size = 43717, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031234355773.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031234720951.blob.tvcYRx7M3hYU.idx: keylength = 4, vallength = 3, size = 17374, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031234720951.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031235408284.blob.RrIaVoFubrN8.idx: keylength = 4, vallength = 3, size = 1447, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031235408284.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031235630481.blob.JCRoxcyfJ7jz.idx: keylength = 3, vallength = 3, size = 4986, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031235630481.blob.
I 2014/11/03 23:45:00 HeapReader saturation of text.index.20141031235704317.blob.kOlWrCMWKkVb.idx: keylength = 3, vallength = 3, size = 4075, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:00 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\text.index.20141031235704317.blob.
I 2014/11/03 23:45:18 HeapReader saturation of citation.index.20141023235147651.blob.WSk1LxMlw6mN.idx: keylength = 11, vallength = 4, size = 7588039, maximum saving for index-compression = 79 MB, exact saving for value-compression = 28 MB
I 2014/11/03 23:45:18 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141023235147651.blob.
I 2014/11/03 23:45:25 HeapReader saturation of citation.index.20141030014903916.blob.xayvX9SrK9Yf.idx: keylength = 6, vallength = 4, size = 2045678, maximum saving for index-compression = 11 MB, exact saving for value-compression = 7 MB
I 2014/11/03 23:45:25 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141030014903916.blob.
I 2014/11/03 23:45:26 MEMORY performed necessary GC, freed 224578 KB (requested/available/average: 1710 / 224631 / 0 KB)
I 2014/11/03 23:45:30 HeapReader saturation of citation.index.20141030201158942.blob.Jt70860nhtk_.idx: keylength = 6, vallength = 4, size = 1132613, maximum saving for index-compression = 6 MB, exact saving for value-compression = 4 MB
I 2014/11/03 23:45:30 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141030201158942.blob.
I 2014/11/03 23:45:31 HeapReader saturation of citation.index.20141031002012131.blob.42rO7a2Vj5ke.idx: keylength = 5, vallength = 4, size = 424801, maximum saving for index-compression = 2 MB, exact saving for value-compression = 1 MB
I 2014/11/03 23:45:31 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031002012131.blob.
I 2014/11/03 23:45:31 HeapReader saturation of citation.index.20141031002912842.blob.lqO5gLl6kpBC.idx: keylength = 5, vallength = 3, size = 17299, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:31 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031002912842.blob.
I 2014/11/03 23:45:33 HeapReader saturation of citation.index.20141031074418853.blob.fjQrt6BSLrZg.idx: keylength = 5, vallength = 4, size = 306628, maximum saving for index-compression = 1 MB, exact saving for value-compression = 1 MB
I 2014/11/03 23:45:33 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031074418853.blob.
I 2014/11/03 23:45:33 HeapReader saturation of citation.index.20141031075704861.blob.5eLgeQCLqSj6.idx: keylength = 3, vallength = 3, size = 6359, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:33 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031075704861.blob.
I 2014/11/03 23:45:33 HeapReader saturation of citation.index.20141031115011062.blob.RNeGbt7WMFIC.idx: keylength = 5, vallength = 3, size = 98708, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:33 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031115011062.blob.
I 2014/11/03 23:45:33 HeapReader saturation of citation.index.20141031120948604.blob.8opyrccAh99J.idx: keylength = 3, vallength = 3, size = 2244, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:33 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031120948604.blob.
I 2014/11/03 23:45:33 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031125106599.blob, 0 MB. Please wait.
I 2014/11/03 23:45:33 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031125106599.blob, 10 entries, 0 gaps.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031181942496.blob.D01E7x8VCm4T.idx: keylength = 5, vallength = 3, size = 58544, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031181942496.blob.
I 2014/11/03 23:45:34 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031182934964.blob, 0 MB. Please wait.
I 2014/11/03 23:45:34 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031182934964.blob, 82 entries, 0 gaps.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031215812890.blob.yXB5qwnI1JYF.idx: keylength = 4, vallength = 3, size = 72823, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031215812890.blob.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031220713674.blob.PEBfKxSR37v4.idx: keylength = 3, vallength = 3, size = 3382, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031220713674.blob.
I 2014/11/03 23:45:34 HeapReader generating index for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031230448775.blob, 0 MB. Please wait.
I 2014/11/03 23:45:34 HeapReader finished index generation for C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031230448775.blob, 129 entries, 0 gaps.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031234338052.blob.yD3nNb8Y7tc2.idx: keylength = 4, vallength = 3, size = 21550, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031234338052.blob.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031235247881.blob.1_ZyMYYMn0is.idx: keylength = 2, vallength = 3, size = 1833, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031235247881.blob.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031235652695.blob.6GMB55dlTc1W.idx: keylength = 3, vallength = 3, size = 3128, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031235652695.blob.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031235902374.blob.LPWgT9qhmBJ2.idx: keylength = 3, vallength = 3, size = 3026, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031235902374.blob.
I 2014/11/03 23:45:34 HeapReader saturation of citation.index.20141031235936928.blob.v2iUBq_I5LDg.idx: keylength = 3, vallength = 3, size = 3094, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2014/11/03 23:45:34 HeapReader using a dump of the index of C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\default\citation.index.20141031235936928.blob.
I 2014/11/03 23:45:35 org.apache.solr.core.ConfigSolr Loading container configuration from C:\Users\Zwiespalt\YaCy\defaults\solr\solr.xml
I 2014/11/03 23:45:37 org.apache.solr.logging.LogWatcher SLF4J impl is org.slf4j.impl.JDK14LoggerFactory
I 2014/11/03 23:45:37 org.apache.solr.logging.LogWatcher Registering Log Listener [JUL (org.slf4j.impl.JDK14LoggerFactory)]
I 2014/11/03 23:45:38 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabled
I 2014/11/03 23:45:38 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabled
I 2014/11/03 23:45:46 org.apache.solr.rest.ManagedResourceStorage File-based storage initialized to use dir: C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_4_9\webgraph\conf
I 2014/11/03 23:45:46 org.apache.solr.rest.RestManager Initializing RestManager with initArgs: {storageDir=C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_4_9\webgraph\conf\}
I 2014/11/03 23:45:46 org.apache.solr.rest.ManagedResourceStorage Reading _rest_managed.json using file:dir=C:\Users\Zwiespalt\YaCy\DATA\INDEX\freeworld\SEGMENTS\solr_4_9\webgraph\conf
I 2014/11/03 23:45:46 org.apache.solr.rest.RestManager Initializing 0 registered ManagedResources
E 2014/11/03 23:45:58 org.apache.solr.core.CoreContainer Unable to create core: collection1
org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)
at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:261)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:253)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.Executors\$RunnableAdapter.call(Unknown Source)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)
at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)
... 10 more
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(Unknown Source)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(Unknown Source)
at java.lang.reflect.Constructor.newInstance(Unknown Source)
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)
... 12 more
Caused by: java.lang.OutOfMemoryError: Java heap space
at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)
at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)
at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)
... 17 more
E 2014/11/03 23:45:58 org.apache.solr.core.CoreContainer null:org.apache.solr.common.SolrException: Unable to create core: collection1
at org.apache.solr.core.CoreContainer.recordAndThrow(CoreContainer.java:911)
at org.apache.solr.core.CoreContainer.create(CoreContainer.java:568)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:261)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:253)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.Executors\$RunnableAdapter.call(Unknown Source)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)
at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)
... 8 more
Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)
at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)
... 10 more
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(Unknown Source)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(Unknown Source)
at java.lang.reflect.Constructor.newInstance(Unknown Source)
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)
... 12 more
Caused by: java.lang.OutOfMemoryError: Java heap space
at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)
at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)
at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)
... 17 more

I 2014/11/03 23:45:58 SolrEmbeddedInstance detected default solr core: collection1
E 2014/11/03 23:45:58 STARTUP YaCy cannot start: SolrCore \‘collection1\’ is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
org.apache.solr.common.SolrException: SolrCore \‘collection1\’ is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:753)
at net.yacy.cora.federate.solr.instance.EmbeddedInstance.<init>(EmbeddedInstance.java:89)
at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)
at net.yacy.search.Switchboard.<init>(Switchboard.java:518)
at net.yacy.yacy.startup(yacy.java:190)
at net.yacy.yacy.main(yacy.java:682)
Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:868)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:643)
at org.apache.solr.core.CoreContainer.create(CoreContainer.java:556)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:261)
at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:253)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.Executors\$RunnableAdapter.call(Unknown Source)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:561)
at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:617)
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:830)
... 10 more
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(Unknown Source)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(Unknown Source)
at java.lang.reflect.Constructor.newInstance(Unknown Source)
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:547)
... 12 more
Caused by: java.lang.OutOfMemoryError: Java heap space
at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)
at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)
at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)
at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)
... 17 more

Statistik: Verfasst von Adama — Di Nov 04, 2014 12:32 am


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-11-04 01:09:13

Hallo

Ich habs im Mantis erfasst.

Wo ist den diese neue Version genau?

Adama

Statistik: Verfasst von Adama — Di Nov 04, 2014 1:09 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 03:10:53

Hallo,

Adama hat geschrieben:\ Kann man das Script auch für den Expertencrawlstart machen?\

Wenn du jetzt unter Script das [crawlBookmarklet]{style=“font-style: italic”} meinst, dann braucht ein Bookmarklet-Entwickler die Angaben dazu, was das Bookmarklet leisten soll:

  1. eine vollständige Auflistung der Felder, in den das Bookmarklet einen Wert ändern soll
  2. dein Wunschwert pro Feld aus [1].

Es wäre optimal, wenn du Screenshots von der [CrawlStartExpert.html]{style=“font-style: italic”} machst und die entsprechende Felder aus [1] markierst.

Gruss, flegno

Statistik: Verfasst von flegno — Di Nov 04, 2014 3:10 am


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-11-04 03:22:04

Hallo,

Adama hat geschrieben:\ Wo ist den diese neue Version genau?\

Die aktuelle [crawlBookmarklet]{style=“font-style: italic”}-Version veröffentliche ich jeweils auf http://yacyagent.sprechrun.de/?id=1778#c1846 . Du hast im Mantis #497{.postlink} bereits die neue Version mit dem [CrawlStartSiteWindow]{style=“font-style: italic”}-Parameter eingestellt :P.

Gruss, flegno

Statistik: Verfasst von flegno — Di Nov 04, 2014 3:22 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 10:44:45

Hallo,

TmoWizard hat geschrieben:\ Was läuft da also bei YaCy schief, daß das nicht funktionieren soll?\

Ein Proxy ist ein Dienstleister, Du sagst was Du haben willst und der Proxy holt das für Dich. Ein Proxy ist ein Transporteur und er kann verschlüsselte Daten genauso gut transportieren wie unverschlüsselte Daten, für den eigentlichen Transport spielt das keine Rolle, die Post kann doch verschlossene Briefe auch genauso gut transportieren wie offene Karten. Normalerweise gibt es unter Transporteuren den Ehrenkodex das man in die transportierte Wahre [niemals]{style=“font-weight: bold”} reinschaut, bei der Post gibt es das sogar als Gesetz namens Briefgeheimnis, aber der Proxy in YaCy verstößt gegen diesen Ehrenkodex eben weil er den Inhalt indexieren will. Und genau dieses \“reinschauen\” funktioniert wegen der Verschlüsselung nicht mehr, im Internet wird von offenen Karten auf verschlossene Briefe umgestellt, und das verhindert (hoffentlich zuverlässig) das irgendwelche [Vermittlerstellen]{style=“font-style: italic”} (also auch Proxys jeglicher Art) zwischen dem Browser des Anwenders und dem Server der die Daten liefert in diese Daten reinschauen können. Bei funktionierender Verschlüsselung sind die Daten nur noch [innerhalb]{style=“text-decoration: underline”} des Servers und [innerhalb]{style=“text-decoration: underline”} des Browsers einsehbar und genau deswegen kann ein AddOn [im]{style=“text-decoration: underline”} Browser doch noch an die unverschlüsselten Daten ran aber ein Proxy nicht mehr.

Gegen das Konzept Proxy habe ich nichts, mein privates Netzwerk zu Hause wird auch von einem Proxy geschützt (den Proxy hab ich sogar komplett selber programmiert) und nicht von einem NAT-Router aber mein Proxy hält sich auch strickt an den Ehrenkodex für Transporteure und interessiert sich grundsätzlich nicht für den Inhalt der durchgereichten IP-Pakete. Der Proxy ansich in YaCy wird auch weiterhin funktionieren aber das \“nebenbei-crawlen\” der durchgereichten Daten funktioniert bei HTTP[S]{style=“font-weight: bold”} nicht mehr. Der Proxy wird aus Sicht des Indexierens nutzlos.

Es gab früher einige HTTP-Proxys die z.B. Werbung und Java-Scripts und allen möglichen sonstigen Unrat aus den Web-Daten rausgefiltert haben aber diese Projekte sind mehr oder weniger eingeschlafen seit die Werbe-Server auf Verschlüsselung umgestellt haben, Heute werden diese Aufgaben von AddOns (wie AddBlockPlus oder NoScript) im Browser erledigt.

TmoWizard hat geschrieben:\ das Add-on HTTPS-Everywhere und habe bisher nicht bemerkt, daß das auf YaCy irgend einen negativen Einfluß hätte\

Kannst Du denn genau sagen wie viele Seite so pro Woche indexiert werden? Gegenüber z.B. von vor 2 Jahren?
Wenn der Proxy in YaCy eine vollständige Statistik über seine Arbeit anfertigen würde hättest Du vielleicht schon längst bemerkt das die Wirksamkeit langsam nachlässt.
Die ursprüngliche Aufgabe eines Proxys, das Transportieren von Daten, wird durch die Verschlüsselung nicht beeinträchtigt, deswegen wirst Du ohne wirklich genaues hinschauen (auf die Wirksamkeit des Indexierens) auch keinen Unterschied feststellen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Nov 04, 2014 10:44 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 11:17:23

Hallo Erik,

solche eine ausführliche Antwort habe ich nun nicht erwartet, danke!

Das ist dann natürlich schon ein Problem, welches da für den YaCy-Proxy wohl schwer zu lösen sein wird.

Hier finde ich daher die Sache mit dem Indexieren per Feed äußerst praktisch, da ich doch einige abonniert habe. Allerdings habe ich da wohl den Fehler gemacht, daß die Feeds in YaCy nur einmal am Tag aktualisiert werden. Bei meinem Blog geht das ja, da ich nicht besonders viele Artikel schreibe. Aber bei erscheint ja mehr als ein Artikel am Tag, die dadurch natürlich alle erst am nächsten Tag mit aufgenommen werden. Gibt es da eine einfache Möglichkeit, daß man das entsprechend ändern kann oder muß ich alle Feeds nun noch einmal durchgehen? Das wäre nämlich nicht besonders angenehm, da ich damit locker mal ein paar Stunden beschäftigt wäre! :shock:

Statistik: Verfasst von TmoWizard — Di Nov 04, 2014 11:17 am


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 16:04:43

Hallo,

TmoWizard hat geschrieben:\ solche eine ausführliche Antwort habe ich nun nicht erwartet\

Wäre Dir eine Antwort in der Art \”[Ich klug Du doof, also akzeptiere wie es is oder lass es!]{style=“font-style: italic”}\” lieber gewesen?
Manchmal muss man sich einfach die Zeit nehmen dem Gegenüber ein Problem so zu erklären das der das auch wirklich versteht. Das ist auch keine Kritik o.ä., keiner weiß alles, aber wenn jemand etwas wissen möchte dann sollte man wenigstens versuchen zu erklären. Wissen ist die einzigste Ressource im ganzen Universum die mehr wird wenn man sie teilt. Es freut mich auf jeden Fall wenn ich unser gemeinsames Wissen [mehren]{style=“font-style: italic”} konnte.

Vielleicht findet ja noch jemand die Zeit das in diesem Thread gewonnene Wissen in den Wiki-Artikel über den Proxy in YaCy einzupflegen, damit in Zukunft ein kurzer Hinweis/Link reicht falls noch jemand nicht weiß was die Grenzen eines Proxy sind.

TmoWizard hat geschrieben:\ danke!\

Gerne, ich hoffe doch das wir ab jetzt nicht mehr über den sinkenden Nutzwert des Proxys in YaCy diskutieren müssen sondern von nun an die Suche nach funktionierenden Alternativen im Vordergrund steht.

TmoWizard hat geschrieben:\ Das ist dann natürlich schon ein Problem, welches da für den YaCy-Proxy wohl schwer zu lösen sein wird.\

Das [Problem]{style=“font-style: italic”} Verschlüsselung ist für einen Proxy gar nicht zu lösen und wenn doch wäre das ein funktionierender Man-in-the-Middle-Angriff{.postlink} und die Programmierer der Browser und Web-Server täten so lange nicht mehr schlafen bis dieser Angriff nicht mehr funktioniert.

Ich könnte Dir jetzt noch erzählen das es durchaus Schwachpunkte gibt, vor allem im Internet-Explorer von Microsoft, die das Aushebeln der Verschlüsselung (theoretisch) möglich machen aber ich denke mal nicht das sich YaCy in ein spezielles Crack-Tool entwickeln möchte, falls doch wäre das für mich der Punkt an dem YaCy von meiner Festplatte verschwinden würde.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Nov 04, 2014 4:04 pm


Mitmachen • Re: YaCy und Add-ons

Date: 2014-11-04 16:55:08

Hallöchen!

Erik\_S hat geschrieben:\ >
> > TmoWizard hat geschrieben:Das ist dann natürlich schon ein Problem, > welches da für den YaCy-Proxy wohl schwer zu lösen sein wird.\ > >

Das [Problem]{style=“font-style: italic”} Verschlüsselung ist für einen Proxy gar nicht zu lösen und wenn doch wäre das ein funktionierender Man-in-the-Middle-Angriff{.postlink} und die Programmierer der Browser und Web-Server täten so lange nicht mehr schlafen bis dieser Angriff nicht mehr funktioniert.



Auch wieder wahr, die wären da wohl nicht gerade begeistert. Zum IE sage ich aber nur so viel, daß es in meinen Augen vor und nach dem IE4 Beta 1 keine vernünftige Version mehr gab, aber das ist nur meine Meinung.

Statistik: Verfasst von TmoWizard — Di Nov 04, 2014 4:55 pm


Fragen und Antworten • Re: Yacy Konfig Sichern?

Date: 2014-11-05 01:35:11

Hallo!

Ich habe jetztv einfach alle Blob Dateien gelöscht und siehe da: Es geht wieder...

*seufz*

Statistik: Verfasst von Adama — Mi Nov 05, 2014 1:35 am


Fragen und Antworten • Re: auf YaCy\’s selbstheilende Kräfte zurückgreifen

Date: 2014-11-05 07:30:45

Hallo,

Adama hat geschrieben:\ Ich habe jetztv einfach alle Blob Dateien gelöscht und siehe da: Es geht wieder\...\


In einer ähnlichen Situation, wo YaCy nicht startete, habe ich auf die YaCy\’s selbstheilende Kräfte zurückgegriffen - mit Erfolg und ohne den Index komplett zu verlieren :P.

flegno in Thread [\[gelöst\] YaCy nach dem PC-Absturz kaputt,was kann ich machen?](http://forum.yacy-websuche.de/viewtopic.php?f=5&t=5335){.postlink} hat geschrieben:\ ähnlich wie im Thread [Datenbank scheinbar kaputt, kann ich sie reparieren?](http://forum.yacy-websuche.de/viewtopic.php?f=5&t=5334){.postlink} war die YaCy-Webseite bei mir nach einem PC-Absturz nicht mehr erreichbar. Ich habe - weil ich müde war und keine Zeit gehabt habe in die Fehleranalyse einzusteigen - dann ganz stupide mehrmals - vlt. bis zu 3-4 Mal:\ 1. YaCy gestartet 2. YaCy beendet Jetzt funktioniert YaCy wieder. Manchmal helfen auch YaCy\'s selbstheilende Kräfte wie es aussieht ![:P](http://forum.yacy-websuche.de/images/smilies/icon_razz.gif "Razz") .\


Gruss, flegno

Statistik: Verfasst von flegno — Mi Nov 05, 2014 7:30 am


Fragen und Antworten • Re: Yacy Konfig Sichern?

Date: 2014-11-05 12:28:01

Ich habe div mal gestartet und gestoppt ohne das was passierte. Jetzt hab ich das Problem gelöst!
Er crawlt wieder munter vor sich hin...
Adama

Statistik: Verfasst von Adama — Mi Nov 05, 2014 12:28 pm


English • Recomend number of characters for each title in SOL index

Date: 2014-11-05 12:40:24

On Page /IndexSchema_p.html.
The value for title_chars_val does this chop the title length back in the index?

I Have been processing one of my Dumps and had string to long error. I deleted the first 1000 lines of the dump and it was no trouble.

Does anyone have a good number they use on there system.
Thanks

Statistik: Verfasst von smokingwheels — Mi Nov 05, 2014 12:40 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-06 06:45:27

Hallo,

noch einmal die Frage an die YaCy-Devs bzgl. des \‘crawler.userAgent.string\‘. Wozu soll der yacybot Auskunft über sein Betriebssystem, seine Java-Version, etc geben?
vgl. http://udger.com/resources/ua-list/bot- ... ot=yacybot{.postlink}

Zum korrekten Anzeigen einer Webseite sind solche Informationen gewiss hilfreich - aber beim Crawlen? Nach meinem Verständnis besteht für die Preisgabe dieser Daten keine Notwendigkeit, aber vielleicht übersehe ich ja etwas dabei.

Ich würde mir jedenfalls wünschen, diese Informationen auf ein Minimum zu reduzieren und nur soviele Angaben zu machen, wie die Nettiquette verlangt. Hinsichtlich meiner Privatsphäre wäre mir wohler dabei.

Ich würde deshalb gern verstehen, weshalb der \‘crawler.userAgent.string\’ so ausführlich ist. Wer erklärt\’s mir?


Viele Grüße
lux

Statistik: Verfasst von lux — Do Nov 06, 2014 6:45 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-06 09:20:52

Hallo,

lux hat geschrieben:\ Ich würde deshalb gern verstehen, weshalb der \'crawler.userAgent.string\' so ausführlich ist. Wer erklärt\'s mir?\

ich vermute mal, dass nur Orbiter und/oder noch ein Paar Entwickler vom Kernteam diese Frage beantworten können.

Erik\_S im Thread [YaCy und Add-ons](http://forum.yacy-websuche.de/viewtopic.php?p=31254#p31254){.postlink} hat geschrieben:\ Vielleicht findet ja noch jemand die Zeit das in diesem Thread gewonnene Wissen in den Wiki-Artikel über den Proxy in YaCy einzupflegen, damit in Zukunft ein kurzer Hinweis/Link reicht falls noch jemand nicht weiß was die Grenzen eines Proxy sind.\


Die ausstehenden Antworten bzw. Lösungen bei diesen zwei Themen \”[geschwätziger Crawler]{style=“font-style: italic”}\” und \”[YaCy und Add-ons]{style=“font-style: italic”}\” sind evtl. nicht zuletzt durch den chronischen Zeitmangel bei den Entwicklern verursacht. Ich verspreche mir ein wenig Licht :idea: am Ende des Zeitmangel-Tunnels durch diesen Losungsatz:

  1. wer Zeit und Lust hat, trifft sich für eine entspannte Plauderrunde im Mumble{.postlink}
  2. man beantwortet gegenseitig evtl. Fragen - das Wissenspool der Community ist immer größer als die Kenntnisse des Einzelnen. Die Wiki-Artikel können bei den routinierten Abläufen helfen, wenn dem Artikel-Verfasser gelungen ist, die Vorkenntnisse des zukünftigen Lesers zu erraten und zu berücksichtigen. Insbesondere bei den Anfängern tauchen massenweise neue Fragen beim Lesendes Artikels :roll:. In einem Mumble-Gespräch lassen sich diese und einige besonders komplizierte Fragen für alle Beteiligten zeitsparender klären - meine Erfahrung.
  3. und - ta-ta :P - durch diese gegenseitige Hilfe bleiben weniger Fragen beim YaCy-Kernteam hängen, wodurch die Entwickler ggf. eine Chance bekommen, sich Neuentwicklungen oder besonders komplizierten Fragen zu widmen - bspw. auch in der Mumble-Runde ;).

Ich habe die Dudle-Umfrage https://dudle.inf.tu-dresden.de/yacy201411/ für die Ermittlung eines Termin für ein Mumble-Treffens aufgefrischt und meine Termine eingetragen. Vlt. erübrigt der/die eine (e) oder MitforistIn noch vor der Weihnachtszeit eine Stunde für ein Mumble-Treffen. Wer eine andere als 19:00 Uhrzeit im Dudle braucht, kann auf den Menüpunkt \”[Spalten bearbeiten]{style=“font-style: italic”}\” klicken und dann mit einem Klick auf die \”[Nicht gewählt]{style=“font-style: italic”}\“-Schaltfläche weitere Uhrzeiten an den entsprechenden Tagen hinzufügen.

Gruss, flegno

Statistik: Verfasst von flegno — Do Nov 06, 2014 9:20 am


English • Re: Yacy on an Olinuxino board

Date: 2014-11-06 13:43:53

As promised, here is the relevant part of the email I had from Olimex (I got it yesterday (5th November) in the morning):

\ Unfortunately, I don't see how Olimex can be of any help with the issue you are facing. If the creators of the Yacy server are unable to give instructions for installation under Debian 3.4.90+ then I would suggest that the default images provided by Olimex are compiled as armhf and Yacy seems to only work under armel distributions (especially since you probably used armel distribution for the RPi that ran Yacy successfully). Something more, since Yacy is written in java the platform also needs to be suitable for hard-float -- there are separate java distributions for soft-float and hard-float.\ \ Make sure you are using the proper java and the settings of yacy are set properly. If there is no java installed nothing would happen.\ \ To be more specific why RPi uses armel and OLinuXino armhf distributions -- there are hardware reasons for that -- the older ARMv6 processors had no support for hard float point; while the OLinuXino is ARMv7 and there is such support. The CPU in the Raspberry Pi implements the ARMv6 ISA (with VFP2) and is thus incompatible with the Debian armhf port baseline of ARMv7+VFP3 and ARM hardware-floating-point ports for other distributions, which all have the same baseline.\ \ The only ways out would be:\ \ 1. Find a similar program that works under Debian 3.4.90+ and armhf (hardware-floating) -- quite unlikely to find stable alternative to Yacy\ \ 2. Ask around the Yacy community to provide better armhf support\ \ 3. Compile an OLinuXino image with soft-float\ \ The 3.15 kernel support you saw is incomplete and it is created by an user. It is not an official release. The information might be found at this blog post: [http://olimex.wordpress.com/2014/06/30/ \... rnel-3-15/](http://olimex.wordpress.com/2014/06/30/a10-olinuxino-lime-open-source-hardware-linux-computer-now-in-kernel-3-15/){.postlink} We are updating the kernel in the official releases when it reaches a stable state. The progress for each kernel version might be found here: \ \ Best regards,\ Lub/OLIMEX\ \ \-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\--\ From: Bertrand HER\ Sent: Saturday, November 01, 2014 4:56 PM\ To: \ Subject: Support Question\ \ Hello,\ \ I write to you today about some issues I have with your boards. I have, at the moment, three of your boards: iMX233-MINI, A13 and A20-Lime2. I use the A13 as a server perfectly, and tried to use the iMX233 as a Yacy server. I could not achieve it, since the server kept on crashing before it even started. But this software run on a raspberryPi, which has better hardware spec than iMX233. Hence I tried to run Yacy on my A13, but it also failed. I then ordered a A20-Lime2 to get rid f the hardware specs uncertainty, but Yacy just crash the same as on less powerful boards.\ \ I noticed that I could run Yacy on my laptop. Since my laptop has a kernel 3.14 and the raspbian distribution has a 3.12 kernel (whiile iMX233 is only 3.11) I wondered if it could be the cause.\ \ I opened a thread on the Yacy forums; it can be useful if you want some more details.\ \ Do you think it possible to deliver a Debian image based on kernel 3.12 or higher for the Lime2? I saw that you did a 3.15 kernel based image for A10-Lime, so I guess it would be possible (and easier, I am not used to compile kernels) for you to deliver it.\



As I said before, I will not have much time to spend on this topic for a few days at least, so for now I leave it the way it is. What I am planning to do next:
* try to install the softwares from jessie repositories if possible: I noticed that Yacy would not run on a fresh install of Debian Wheezy on anthoer laptop, but would once getting upgrades from jessie repos. It did not throw the same error, but make a try will not hurt.
* find or compile an Olinuxino image with armel instead of armhf.

Once again, if I come to any relevant results, I shall let you know.

Statistik: Verfasst von layst — Do Nov 06, 2014 1:43 pm


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-11-06 23:24:20

Hallo!

Wie sähe ein Bookmarklet für diese Variante aus?

Bild{.postlink}


Vielen Dank vorab!

Mfg

Adama

Statistik: Verfasst von Adama — Do Nov 06, 2014 11:24 pm


Fragen und Antworten • Re: Bookmarklet zum Indexieren?

Date: 2014-11-07 08:44:40

Hallo,

Adama hat geschrieben:\ Wie sähe ein Bookmarklet für diese Variante aus?\

flegno im Thread [YaCy und Add-ons](http://forum.yacy-websuche.de/viewtopic.php?p=31250#p31250){.postlink} hat geschrieben:\ >
> > Adama hat geschrieben:Kann man das Script auch für den > Expertencrawlstart machen?\ > >

Wenn du jetzt unter Script das [crawlBookmarklet]{style=“font-style: italic”} meinst, dann braucht ein Bookmarklet-Entwickler die Angaben dazu, was das Bookmarklet leisten soll:

  1. eine vollständige Auflistung der Felder, in den das Bookmarklet einen Wert ändern soll
  2. dein Wunschwert pro Feld aus [1].

Es wäre optimal, wenn du Screenshots von der [CrawlStartExpert.html]{style=“font-style: italic”} machst und die entsprechende Felder aus [1] markierst.


Bitte markiere auf dem Screenshot{.postlink} die Felder, in den ich mit dem Bookmarklet andere als Standartwerte eintragen muss.

Gruss, flegno

Statistik: Verfasst von flegno — Fr Nov 07, 2014 8:44 am


YaCy Coding & Architektur • Re: Problem mit Git push (gitorious.org)

Date: 2014-11-07 14:04:11

aufgrund eines Hinweises aus Twitter habe ich nun auch einen Clone in github gemacht:
https://github.com/Orbiter/YaCy

Ich habe ein Script, das beim Deployment dann automatisch das main repository aus gitorious nach diesem Clone in github hin pusht. Wer will kann daher auch das Repository aus github clonen.

Statistik: Verfasst von Orbiter — Fr Nov 07, 2014 2:04 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-08 10:20:38

Hallo,

lux hat geschrieben:\ Zum korrekten Anzeigen einer Webseite sind solche Informationen gewiss hilfreich\

Nein, sind sie nicht! Ein Web-Server interessiert sich eventuell dafür das z.B. der Browser in der Lage ist das gewählte Medien-Format (MP4 oder FLV) anzuzeigen oder ob der Browser Java-Script korrekt ausführen kann, aber auf was für einem Betriebssystem oder was für einer CPU-Architektur ein Browser läuft ist für keinen Web-Server eine [benötigte]{style=“text-decoration: underline”} Information. Die Serverbetreiber interessieren sich zwar dafür und loggen das auch aber eher aus Neugierde oder zum Ausschnüffeln der Besucher oder zum Erstellen von Statistiken. In meinem Browser hab ich den User-Agent auf \“Firefox/XX\” gekürzt und fertig, ich kann zumindest keinerlei Einschränkungen dadurch erkennen. Für einen Suchmaschinen-Bot gibt es ebenfalls keinen Grund so viele intime Details über den PC zu verraten. Gerade die exakte Version der Java-VM ist meiner Meinung nach eine sehr kritische Information da damit eventuell Angriffe möglich werden die sich speziell auf diese Java-VM-Version richten.

Da YaCy Open-Source ist ist aber niemand auf die Hilfe der Entwickler angewiesen um dieses Problem zu lösen. Es sollte reichen den String im Quell-Text zu suchen und dort zu ändern und einmal neu kompilieren und schon ist YaCy weniger geschwätzig. Es wäre aber definitiv schöner wenn die Entwickler diesen minimalen Eingriff selber vornehmen würden, schon damit die Anwender das nicht nach jedem Update erneut machen müssen.

lux hat geschrieben:\ Hinsichtlich meiner Privatsphäre wäre mir wohler dabei.\

Es geht dabei nicht um Privatsphäre, die wird durch die IP-Adresse sehr viel mehr beeinträchtigt, es geht um die Sicherheit Deines PCs. Oder denke mal an die Leute die YaCy auf einem Root-Server im Internet betreiben, so ein Server kann durchaus ein lohnendes Ziel sein und wenn man solch intime Details des Servers bzw. der dort laufenden Software einfach so veröffentlicht ist das meiner Meinung nach eine direkte Einladung an jeden der sich da angesprochen fühlen mag.

flegno hat geschrieben:\ Ich habe die Dudle-Umfrage für die Ermittlung eines Termins für ein Mumble-Treffens aufgefrischt und meine Termine eingetragen.\

Ich hab mich ebenfalls mal großzügig eingetragen. Es ist mir persönlich schon wichtig das YaCy sich weiterentwickelt und dabei auch die Wünsche/Probleme der Anwender berücksichtigt werden. Es wäre wirklich von Vorteil wenn sich auch einer der YaCy-Entwickler zur Teilnahme entschließen könnte.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Nov 08, 2014 10:20 am


English • Can someone check this on 1.819143 Generate Statistics

Date: 2014-11-09 04:58:21

I just upgraded from 1.819140 to 1.819143 and when I went to Generate Stats for Top 100 Domains and the list was empty.

On Page /IndexControlURLs_p.html .

Is this a new feature or a bug?
This is With Debian.
I just backed up my Windows Yacy and its ok.

Statistik: Verfasst von smokingwheels — So Nov 09, 2014 4:58 am


English • Re: Can someone check this on 1.819143 Generate Statistics

Date: 2014-11-09 10:55:53

No problem here with Kubuntu 14.04 LTS! I think, it\’s an bug \“Made by Debian\“.

Statistik: Verfasst von TmoWizard — So Nov 09, 2014 10:55 am


English • Re: Yacy on an Olinuxino board

Date: 2014-11-09 18:59:35

Hi,

I finally had my board working for Yacy. As in many problems the issue was not far from under my nose.

The issue had nothing to do with the kernel version, the type of used compilation (hard float or soft float, from what I have understood) or Debian version (wheezy or jessie). In fact the problem was the Java virtual machines that were available. Indeed a

\ java -version\

in console on my board would give

\ OpenJDK Runtime Environment (IcedTea 2.5.3) (7u71-2.5.3-1+b1)\ OpenJDK Zero VM (build 24.65-b04, mixed mode)\


while my laptop gives

\ OpenJDK Runtime Environment (IcedTea 2.5.3) (7u71-2.5.3-1+b1)\ OpenJDK 64-Bit Server VM (build 24.65-b04, mixed mode)\



Given the second line and the fact that Yay use a server, it could very be the problem, and it proved to be it.

So finally, the steps I followed to get it working (from a fresh Debian install on an Olinuxino board):
#1 add Yacy to the sources.list file (cf Debian install from the wiki: http://www.yacy-websuche.de/wiki/index.php/En:DebianInstall)
#2 apt-get update && apt-get install yacy (installing yacy will pull openjdk-7-jre-headless, we shall replace the link in /usr/bin/, so we have to do it before installing the Sun\’s package of Java)
#3 install the Sun\’s package of Java from their website, like described on the wiki page for an install on a Raspberry Pi (http://www.yacy-websearch.net/wiki/index.php/En:Raspberry_Pi). I picked the 7.71 version of Java (filename as of today : ejre-7u71-fcs-b14-linux-arm-vfp-hflt-client_headless-26_sep_2014.tar.gz). When making the symbolic link in \‘/usr/bin/\‘, first move the binary from openjdk. I do not know enough but I moved it so that I can put it back easily if OpenJDK was needed again.

A last note about starting from a previous index. I had an 8 Gb folder from previous experiments of Yacy, and I could use it easily again, but I was tricked in the first place by permissions. So do check that this folder is owned by Yacy. This also implies a slightly slower start the first time.

I now run Yacy on a Olinuxino A13 board, which has only 256Mb of RAM. I have put something like 2Gb of SWAP but it might completely irrelevent, since it will write a lot on the SD card. I might tel you in a few months if my set up has become slower, or if it is not sufficient to run Yacy, or on the contrary if it is okay.

Thanks you who answered me, and to Olimex who put me on the rigth track by speaking of Java versions.

I will ask to edit the wiki so that it is easier for other who would try the same as I did.

Cheers!

Statistik: Verfasst von layst — So Nov 09, 2014 6:59 pm


Fragen und Antworten • Re: Stop-Words

Date: 2014-11-11 10:42:46

a stopword-list is always used but the default list is empty. Please see the YaCy home directory: yacy.stopwords
This file can be filled with words, one per line.

We experimented with default stopword lists a long time ago and found out that this does not make sense in many cases. There is no use at all of them. If you don\’t want results for stopwords, just do not search for them. If you do not want results with special words in the text, just don\’t index them, use the content filter in the crawl start.

Because we did not find that stopwords are not usefull, we also have no hint where to find one. However, you may do experiments with that feature and tell us your use case.

Statistik: Verfasst von Orbiter — Di Nov 11, 2014 10:42 am


Wunschliste • Re: Integration of MediaWiki API (wikipedia)

Date: 2014-11-11 10:48:42

it\’s not pointless because it\’s the purpose of YaCy to be a search engine technology in itself. What you consider is called metasearch. YaCy is no meta-searchengine.

However, this does not mean that your suggestion is a bad idea. It\’s just not a working point for YaCy. If you want to have a search to the Wikipedia API and YaCy at the same time, you must put a search page in front of YaCy and wikipedia. There are software modules for that, i.e. searx{.postlink} and Seeks{.postlink}

Statistik: Verfasst von Orbiter — Di Nov 11, 2014 10:48 am


English • Re: Recomend number of characters for each title in SOL inde

Date: 2014-11-11 10:54:07

I don\’t understand the problem, can you try to reformulate or point out what exactly you want to do or a reproducible step-by-step guide on how to create a bug situation?

Statistik: Verfasst von Orbiter — Di Nov 11, 2014 10:54 am


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2014-11-11 21:52:08

Thanks I only just saw this by chance. I would just like to see a simple linear graph to show interest over time with the ability to change the time period to display daily / monthly / yearly myself.

Statistik: Verfasst von Fenweruha — Di Nov 11, 2014 9:52 pm


English • Re: Recomend number of characters for each title in SOL inde

Date: 2014-11-12 00:37:03

Ok Sorry I did not explain very well.
I have Exported my index.
I tried to process it with QuickBASIC 4.5 and when I input the data from the exported file, I get Out Of String Space error on a line input.
For this error to happen the data in the line in the export file is longer than 23800 characters. eg a Title or Description.

Currently I have to open the exported file with a text editor an remove the first 100 lines of the file.
I will have to export it again and then copy what I find in a few days.
It mainly looks like a lot of extended ASCII characters eg above code 127.

Is there any way to limit the length of the data in an export?

Looking at some of the exported data the average would be approx 150 characters or less, depends on the web site though.

Links like this one I have to remove.
<a href=\“http://www.xyz.com/2012/02/%23D7%91%23D7%93%23D7%99%23D7%23A7%23D7%95%23D7%23AA-%23D7%239E%23D7%23A2%23D7%91%23D7%93%23D7%94-%23D7%239E%23D7%92%23D7%239C%23D7%95%23D7%23AA-%23D7%239E%23D7%94-%23D7%239E%23D7%23A1%23D7%23AA%23D7%23AA%23D7%23A8-%23D7%91%23D7%23AA%23D7%95%23D7%239A-%23D7%94%23D7%97%23D7%23A9%23D7%99%23D7%23A9/">×'×"יקות מעגהה מגלות: מה מסתתר גתוך החשיש, החגיגת, הקוק×ין וה×קסטזי | ×§× ×גיס - מגזין ×¢× ×›×™×•×•×Ÿ</a>

Statistik: Verfasst von smokingwheels — Mi Nov 12, 2014 12:37 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-12 09:52:24

Hi Erik,

vielen Dank für diese ausführliche Erklärung. Ich werde Deinen Tipp - den \‘user-agent-string\’ im Quelltext zu ändern - aufgreifen und Yacy neu kompilieren.

Viele Grüße
lux

Statistik: Verfasst von lux — Mi Nov 12, 2014 9:52 am


English • Re: Recomend number of characters for each title in SOL inde

Date: 2014-11-12 10:36:37

The Solr export is simply a zip file of the Solr data directory which contains lucene index files in binary form. I wonder how you process them but as far as I know there is no limit to any field at all. If any of the fields are at the size you write then the size was like that in the original html that was indexed. Do you actually parse the lucene index files?

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 10:36 am


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-11-12 10:45:23

as you say that the second server already is slow at boot time

xioc752 hat geschrieben:\ Horribly Slow to boot up from a cold start (including cold boot of Ubuntu) or restart with Ubuntu running (take extra minutes, sometimes many)\


this shows that there is no YaCy-specific problem on that second server. If this runs \‘in a cloud\’ then possibly the second server is probably just hosted on a machine which has busy VM vom other users.

The \“The peer must go online to get a peer address.\” is maybe caused my recent IPv6 changes, I believe its just a wrong message, not a real communication error. I am not monitoring any \‘massive failure\’ due to recent release changes. Please report detailed observations which can be used to track down what you name \‘massive failure\‘. From the information you gave so far there is no problem solving possible.

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 10:45 am


English • Re: The peer must go online to get a peer address.

Date: 2014-11-12 10:47:17

there was a small IPv6 problem which may have caused robinson peers to be unable to show local search results. This has been fixed about 9 days ago.

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 10:47 am


English • Re: Load Balance of API Crawls Timer problem.

Date: 2014-11-12 10:50:26

I will probably implement the \‘high-precision timer\’ as described above but currently I am very busy with customer requests. Please hold on or remind me later..

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 10:50 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-12 10:52:50

Hallo,

lux hat geschrieben:\ Ich werde Deinen Tipp - den \'user-agent-string\' im Quelltext zu ändern - aufgreifen und Yacy neu kompilieren.\


Für mich als Anwender wäre die ideale Lösung, wenn YaCy-Entwickler derartige Config-Werte in einer Konfigurationsdatei im Textformat (.xml, .cfg, .ini oder Ähnliches) speichern. Dann brauche ich als Anwender keine Kompilierungsvorkenntnisse und eine freie Hand, um zu steuern, was der YaCy-Crawler von sich preisgibt.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Nov 12, 2014 10:52 am


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App

Date: 2014-11-12 11:07:59

flegno hat geschrieben:\ Eine Aussage, welche Nutzergruppen du gerade im Blick hast, wäre hilfreich.\


Der Begriff \‘Nutzergruppe\’ kommt bei meiner Ideensammlung oben nicht vor, das hört sich einschränkend an aber so ist es nicht gemeint. Ich schreibe \‘Nutzungsszenario\’ und meine dabei halt \‘Use Cases\‘. Szenarien sollen Detailfunktionen nennen, nicht Nutzer eingrenzen. Das o.g. Szenario war \‘Nachrichtendienst\‘, das ist aber nur eine Idee was ich gerne selber nutzen will, d.h. aber nicht dass sich die Gesamtfunktion so einer App darauf beschränken muss.

flegno hat geschrieben:\ Ist diese Aussage richtig: die Suchengine hinter [YaCy App]{style="font-style: italic"} die gleiche ist, wie hinter YaCy selbst?\


man kann diese Frage auf zwei Arten auslegen:
- ist dann da ein YaCy in der App: vielleicht, eher einen Suchindex den man in Android gut integrieren kann. Ich grübele gerade über ein Solr-in-Android mit YaCy Indexschema und per library hinzugelegte YaCy p2p API nach. Das würde bedeuten, YaCy kommt als library in die App rein, wird aber nur partiell genutzt um u.a. die p2p-Kommunikation zu erledigen
- ist dann YaCy im Backend der App: definitiv, entweder das freeworld Netz oder ein konfigurierbarer (eigener) peer.

flegno hat geschrieben:\ Und ich vermute, dass die [YaCy App]{style="font-style: italic"}-Entwickler mit wesentlich weniger Aufwand die bestehende YaCy-User für [YaCy Ap]{style="font-style: italic"}p-Tests und die Erstellung von hilfreichen Fehlerberichten begeistern können, als aus dem Stand neue treue [YaCy App]{style="font-style: italic"}-Tester zu gewinnen ![8-)](http://forum.yacy-websuche.de/images/smilies/icon_cool.gif "Cool").\


hmm, die Idee ist eher sich eben nicht auf die bestehenden YaCy Betreiber einzuschränken sonder darüber hinaus neue Leute zu finden die einfach nur so eine App installieren um sie mal auszuprobieren, ohne irgendwas einzustellen oder konfigurieren zu müssen.

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 11:07 am


English • PPM limitations in YaCy?

Date: 2014-11-12 12:29:33

Hello, YaCy folks!

Recently I decided to finally give YaCy a go.
After a few weeks of usage and learning in the process, I got to the point where I need help from somebody that knows more about it.

I\’m interested in how PPM limitations work in YaCy.
Since some sites have limitations for crawlers to prevent DoS and others don\’t, I figure that YaCy must have such limitations in itself to prevent this from happening.

My question is:
Are this limitations hardcoded into YaCy and/or are there settings that we can tweak to adjust this limitations to our own usage needs.
If they are hardcoded and there is no settings for this, can somebody point me to the right files that include this limitations?

Statistik: Verfasst von sbolokanov — Mi Nov 12, 2014 12:29 pm


English • Re: PPM limitations in YaCy?

Date: 2014-11-12 15:01:48

There is actually a hardcoded limitation to 2 documents per second for the same domain. This is done in connection with a proper identification of the crawler as \‘yacybot\‘. The combination of the limitation and the identification of the crawler is promise to web hosters that YaCy is a good behaving robot and does not overload web services.

Furthermore we fully support the robots.txt standard which may demand an even slower crawling.

If you start several crawls for different domains, this factor adds up, i.e. if you start 5 crawls then YaCy loads 10 web pages per second, but the limitation for a single domain is always the same. For most cases this is sufficient because you can load 172800 documents for a single domain each day. Most domains do not have so much documents, so this should work for most of us.

If you want to index really large domains like the wikipedia you can import the wikipedia XML dump. This does up to 60000 ppm.

If you run YaCy in the intranet then the limitation is removed for intranet addresses. I tested this with more than 10000 ppm. Speed is not a problem for YaCy, but for most hosters.

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 3:01 pm


Hilfe für Einsteiger und Anwender • Re: What is the growth rate of Yacy?

Date: 2014-11-12 18:38:04

Hello,

Fenweruha hat geschrieben:\ a simple linear graph to show interest over time\

Sorry, i do not understand. What kind of information do you want to see?

Fenweruha hat geschrieben:\ with the ability to change the time period\

This Feature is currently not implemented in my tool, but if the database is big enough (i mean if the database go for more than 4 weeks into the past) this is one of the next TODOs on my list.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Nov 12, 2014 6:38 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-12 19:00:27

Hallo,

flegno hat geschrieben:\ Für mich als Anwender wäre die ideale Lösung, wenn YaCy-Entwickler derartige Config-Werte in einer Konfigurationsdatei im Textformat (.xml, .cfg, .ini oder Ähnliches) speichern.\

Das ist bereits vorhanden, es werden nur sämtliche Strings abgelehnt die das Wort \“yacy\” irgendwie enthalten. Das soll wohl [Missbrauch]{style=“font-style: italic”} o.ä. verhindern aber letztendlich verhindert das effektiv das man einen gültigen User-Agent konfigurieren kann ohne am Quell-Code rumfummeln zu müssen. Gearscht sind also nicht die Leute die wirklich [Böses]{style=“font-style: italic”} vor haben sondern die normalen User die für [Böses]{style=“font-style: italic”} gar nicht ausreichend [qualifiziert]{style=“font-style: italic”} sind, eine Art Problem das Heutzutage relativ häufig vorkommt.

flegno hat geschrieben:\ Dann brauche ich als Anwender keine Kompilierungsvorkenntnisse und eine freie Hand, um zu steuern, was der YaCy-Crawler von sich preisgibt.\

Stell Dir mal die Leute vor die YaCy auf einem Root-Server betreiben. Auf meinem Server ist gar keine Java-Entwicklungsumgebung drauf sondern nur \“jre-headless\” und mehr nicht. Wenn ich also dort YaCy verändern wollte müsste ich das auf meinen PC zu Hause erledigen dann YaCy neu verpacken, per FTP-Server o.ä. auf meinem heimischen PC freigeben um das per \‘wget\’ am Server zu laden und dort wieder auspacken und dann geht es hoffentlich. Wobei ich auch kein Wireshark o.ä. auf dem Server hab (schwierig auf einem [headless]{style=“font-style: italic”}-Server) um zu kontrollieren das die Modifikation wirklich den gewünschten Erfolg hatte. Nein das ist deutlich zu aufwendig, selbst für engagierte Anwender.

Ich persönlich bin der Meinung das hier die offiziellen YaCy-Programmierer in der Pflicht sind die passende Modifikation vorzunehmen. Ohne dem werde ich jedenfalls keinem meiner YaCy-Peers erlauben im öffentlichen Internet auf irgendwelchen Web-Servern zu crawlen. Irgendwie schade!

Da mein Heimnetz durch einen SOCKS5-Proxy geschützt ist und YaCy diesen nicht direkt unterstützt hatte ich schon die Idee für mich ein kleines Tool zu programmieren das einen lokalen YaCy-Peer mit dem Proxy verbindet und dabei könnte dieses Tool auch gleich den User-Agent komplett entfernen oder beliebig verändern aber das funktioniert natürlich nur wenn nicht verschlüsselt wird also auch keine wirklich tolle Lösung (wobei YaCy als HTTP-Client die Verschlüsselung wahrscheinlich nicht so genau prüft wie moderne Browser das tun so das man die Verschlüsselung eventuell generell knacken kann ohne das YaCy sich daran stört).

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Nov 12, 2014 7:00 pm


English • Re: PPM limitations in YaCy?

Date: 2014-11-12 19:51:18

Orbiter hat geschrieben:\ There is actually a hardcoded limitation to 2 documents per second for the same domain. This is done in connection with a proper identification of the crawler as \'yacybot\'. The combination of the limitation and the identification of the crawler is promise to web hosters that YaCy is a good behaving robot and does not overload web services.\



So I\’ve thought.

Tried to crawl a local site that\’s quiet big with the current speed - around 120 PPM. After a few days of crawling my system crashed, which screwed the crawl. For some reason it was gone on next run of YaCy, so it never finished.
I want to increase the speed a little - say 4. The server certainly can handle more than 5-6 pages, so it will be no problem.

Also I wonder what will happen if there is a robots.txt and it allows more than the hardcoded value?
Will YaCy adjust to the limit that robots.txt is allowing to or will it stick to the hardcoded value?

Thanks for the quick response!

Statistik: Verfasst von sbolokanov — Mi Nov 12, 2014 7:51 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2014-11-12 20:19:32

https://deusu.de/

War früher glaube ich Acoon. Der Betreiber von Acoon war hier im Forum auch mal aktiv.

Statistik: Verfasst von Low012 — Mi Nov 12, 2014 8:19 pm


English • Re: PPM limitations in YaCy?

Date: 2014-11-12 21:33:51

the robots.txt \“Crawl-delay\” feature uses integer values which means seconds. I was not able to find a proper documentation for that which says that this value is actually interger-only. During all the years I have seen only integer values for Crawl-delay. That means a Crawl-delay would make crawling even slower.

If you would use non-integer values for Crawl-delay, then the current parser would not recognize that and there is also no below-hardcoded-adaption because there would be no need for that.

Statistik: Verfasst von Orbiter — Mi Nov 12, 2014 9:33 pm


English • Re: PPM limitations in YaCy?

Date: 2014-11-12 23:19:55

Didn\’t know that it have to be a integer. Thanks for clearing out this one for me.

The only thing left for me is to hunt down, where that constant (default maximum pages per domain in sec) is stored in the source code.

Once again, thanks for the quick responses.
Good night.

edit:
Aaaand done. LOL
I must say, I really like this project. I can see it taking off in the feature, especially for the advanced users.

Thanks for the help, Orbiter. I appreciate it.

Statistik: Verfasst von sbolokanov — Mi Nov 12, 2014 11:19 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-13 07:38:39

Hallo,

Erik\_S hat geschrieben:\ >
> > flegno hat geschrieben:Ich habe die Dudle-Umfrage > für die Ermittlung > eines Termins für ein Mumble-Treffens aufgefrischt und meine Termine > eingetragen.\ > >

Ich hab mich ebenfalls mal großzügig eingetragen. Es ist mir persönlich schon wichtig das YaCy sich weiterentwickelt und dabei auch die Wünsche/Probleme der Anwender berücksichtigt werden. Es wäre wirklich von Vorteil wenn sich auch einer der YaCy-Entwickler zur Teilnahme entschließen könnte.


Ich habe für den Montag, 17.11.2014, 19:00 bis 21:00 Uhr den Raum 3{.postlink} auf dem Server mumble://mumble.piratenpartei-nrw.de/ reserviert. Falls der Mumble-Client installiert und mumble: //- Verweise einmalig im Browser dem Mumble-Client zugeordnet sind, gelangt man in den Raum3 mit einem Klick auf diesen Verweis{.postlink} . Optimale Bedingungen für ein Mumble-Treffen sind mMn gegeben, wenn:

  1. der Mumble-Client installiert
  2. die Hardware mit dem Audio-Assistenten konfiguriert und im Idealfall in einem Mumble-Gespräch (in einem beliebigen Mumble-Raum) getestet ist
  3. die Benutzung der Kopfhörer hilft, um die Tonstörungen bei den Gesprächspartnern zu vermeiden
  4. man sich im Vorfeld Gedanken macht und ggf. Themenvorschläge hier [1] http://etherpad.yacy.net/p/Mumble skizziert
  5. das etherpad [1] und das Chat-Fenster im Mumble dafür verwendet werden, um im Gespräch zeitsparend Textnachrichten auszutauschen

Ich freue mich auf das Treffen am Montag :P, flegno

Statistik: Verfasst von flegno — Do Nov 13, 2014 7:38 am


Pro-Users • Anfrage Aufwandsschätzung

Date: 2014-11-13 15:51:06

Hallo,

die Idee ist ein Expertennetzwerk auf YaCy-Basis zu etablieren. Für dieses semiprofessionelles Projekt - ich verwende als Arbeitsnahme \“Expertennetzwerk\” werden ggf. auch öffentliche Gelder fließen - nicht viel :roll:. Im Moment wird das Konzept erstellt. Und damit im Konzept auch mehr oder weniger belastbare Angaben zu den eventuellen Kosten eines Expertennetzwerkes auf YaCy-Basis einfließen können, bitte ich die YaCy-Profis, die 2015 noch freie Kapazitäten haben, sich die [1] Anfrage Aufwandsschätzung für die Teilleistungen beim Aufbau{.postlink} anschauen und bis Ende November mich ggf. kontaktieren - per PM oder an die EMail-Adresse, die in [1] angegeben ist.

Gruss, flegno
Anmerkung: die Anfrage{.postlink} kann als Präsentation im ODP-Format mit LibreOffice bzw. OpenOffice angeschaut werden.

Statistik: Verfasst von flegno — Do Nov 13, 2014 3:51 pm


YaCy Coding & Architektur • Re: YaCy Nachrichtendienst auf dem Desktop und mobil

Date: 2014-11-13 16:02:34

Unabhängig ob als App oder auf dem Desktop - ich selbst wäre auch ein fleißiger Nutzer des von Orbiter angepeilten Nachrichtendienstes. Das YaCy-Abo-Bild{.postlink} ist mein Versuch aus der Anwendersicht das Nachrichtendienst-Nutzungszenario darzustellen. Damit die Kräfte gebündelt werden und das YaCy-Projekt hier von Synergien profitieren kann, rege ich an, dass bei der Konzeption und Umsetzung des Nachrichtendienstes für die entsprechende Schnittstellen in wiederverwandbaren Modulen gesorgt wird, um den YaCy-Nachrichtendienst plattformübergreifend - Desktop, Tablet oder andere mobile Geräte - und dauerhaft zu etablieren. Ich bilde mir ein, dass das YaCy-Projekt bessere Chancen hat, beim Nachrichtendienst-Vorhaben Mitwirkende zu gewinnen und voran zu kommen, wenn die Aufgaben in diesem Vorhaben ähnlich der Anfrage Aufwandsschätzung für die Teilleistungen beim Aufbau des Expertennetzwerks im YaCy-Ökosystem{.postlink} in Teilprojekten, Teilleistungen konkretisiert werden.

Gruss, flegno

Statistik: Verfasst von flegno — Do Nov 13, 2014 4:02 pm


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App?

Date: 2014-11-13 16:58:39

\‘Nachrichtendienst\’ ist ja für YaCy gar kein Neuland, siehe https://www.youtube.com/watch?v=hGwjllU ... 2VXskej79Q{.postlink} .. und eine API gibts auch, das ist die Opensearch-Schnittstelle. Insofern sind diese Ideen von dir bzgl. Wunsch nach API schon verwirklicht.

Statistik: Verfasst von Orbiter — Do Nov 13, 2014 4:58 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-13 18:25:54

Hallo,

eventuell hat es schon jemand bemerkt: ich habe heute Früh auf dem Server eine neue Version meines Tools yacyDNS eingespielt.
Es hat sich vor allem einiges unter der Haube geändert und auch drum herum ist etliches anders.

yacyDNS ist jetzt mit einem richtigen Domain-Namen erreichbar: yacy.info{.postlink} bzw. yacy.info/stats_main{.postlink} mit den Statistiken. Auch der Port 5353 ist jetzt nicht mehr notwendig, es funktioniert der HTTP-Standard-Port 80 so das keine derartige Angabe in Links u.ä. mehr erforderlich ist. Für die IP-Adresse 130.255.73.69 gibt es aber eine interne Weiterleitung von Port 5353 auf Port 80 so das externe Scripte/Links/usw. erst einmal weiter funktionieren, trotzdem sollte überall \“130.255.73.69:5353/\” gegen \“yacy.info/\” ausgetauscht werden.

Die Statistikseite ist zwar noch immer recht spartanisch aber ich hoffe das ich da demnächst einiges ändern kann. Aus der internen Datenbank von yacyDNS lassen sich jedenfalls einige recht interessante Informationen extrahieren.
So ist eine neue Punkt-Linie dazugekommen die anzeigt wie viele der bekannten Peers von yacyDNS niemals erreicht wurden. In den ersten 24 Stunden nach einem Neustart von yacyDNS (womit bisher leider immer die interne Datenbank komplett verloren war) wird die Anzahl der unerreichbaren Peers kleiner (in dieser Zeit kommen all die Peers die nur für begrenzte Zeit pro Tag online sind als erreichbar hinzu) und ab dann wird diese Zahl langsam immer größer. Hinter letzterem vermute ich das es Peers gibt die nur so kurz online sind das mein Tool diese gar nicht erwischt aber da diese Peers trotzdem in den Seedlisten weniger anderer Peers eine Spur hinterlassen kommen sie trotzdem in die interne Datenbank von yacyDNS.
Da yacyDNS jetzt auch regelmäßig die komplette interne Datenbank als Datei abspeichert konnte ich mir mal die Liste der Peers genauer ansehen. Auffallend ist das bei vielen Peers nur kurze Zeiten zwischen \“Birth-Date\” und \“Last-Seen\” vergangen sind und die meisten dieser Peers auch aktuell nicht mehr erreichbar sind. Das deutet darauf hin das sehr viele YaCy-Installationen nur kurz benutzt/getestet werden und dann nie wieder kommen.

Zusammenfassend komme ich zu dem Schluss das es höchstens etwa 250 regelmäßig aktive Peers mit Senior-Status gibt und der Rest entweder nur sehr selten benutzt wird oder nur kurzlebige Eintagsfliegen waren. Letzteres lässt vermuten das viele Anwender keinen ausreichenden \“Nutzwert\” in YaCy sehen um sich für einen längerfristigen Betrieb eines eigenen Peers zu entscheiden.

Ich würde mich sehr freuen wenn wir diese Beobachtungen hier mal angemessen diskutieren würden. Schon weil meine Schlussfolgerungen auch falsch sein können würde ich gerne andere Meinungen dazu lesen.

Hinter der Domain yacy.info stecken zwei unabhängige Server (einzeln per a.yacy.info und b.yacy.info erreichbar) damit ein Ausfall wie Ende Oktober nicht noch einmal vorkommt. Natürlich sind beide Server per IPv4 und IPv6 erreichbar.

Momentan arbeite ich daran das die Instanzen von yacyDNS auf den unterschiedlichen Servern ihre interne Datenbank untereinander synchronisieren können. Das soll dann den Total-Verlust bei einem Neustart endlich abschaffen.

Hat schon mal jemand probiert yacyDNS als Proxy für die beiden YaCy-Top-Level-Domains (.yacy und .yacyh) zu benutzen? Enthalten ist diese Funktion schon eine kleine Weile aber ich bin bis jetzt noch nicht dazu gekommen das mal gründlich auszutesten. Theoretisch sollte es in Firefox reichen das AddOn FoxyProxy zu installieren und für die beiden YaCy-Top-Level-Domains als HTTP-Proxy \“yacy.info\” einzutragen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Nov 13, 2014 6:25 pm


Mitmachen • Geld für Yacy?

Date: 2014-11-13 21:32:53

Hallo!

Ist das nicht was für unser Projekt hier?

Aus Heise.de:


Der Online-Buchhändler buch7.de hat einen Preis in Höhe von 3000 Euro für Open-Source-Projekte ausgesetzt. Damit möchte das Unternehmen einen Teil des Geldes an die Open-Source-Community zurückgeben, das es durch den breiten Einsatz von freier Software wie Linux, MySQL, Ruby on Rails oder der Suchmaschine Solr spart.

Gesucht werden Open-Source-Projekte aus Deutschland, Österreich und der Schweiz, die einen möglichst breiten Nutzen für die Allgemeinheit bieten und für die das Preisgeld einen spürbaren Fortschritt ermöglicht – der Preis soll einen \“möglichst nachhaltigen positiven Einfluss\” auf das Projekt haben. Bewerbungen erfolgen per Mail an software-preis@buch7.de; Details zu den Teilnahmebedingungen finden sich bei buch7.de. Eine Jury wird drei Preisträger auswählen, die 2500 und zwei Mal 250 Euro erhalten.

buch7.de betreibt einen Online-Shop für Bücher und spendet 75 Prozent des daraus entstehenden Gewinns für sozial, kulturell und ökologisch wertvolle Projekte – nach eigenen Aussagen allein im vergangenen Jahr über 10.000 Euro. Der buch7.de-Open-Source-Preis 2014 wird von einer Jury vergeben, der Vertreter von buch7.de, heise open, der Free Software Foundation Europe, der Open Source Business Foundation, t3n und der Universität Augsburg angehören. (odi)

Statistik: Verfasst von Adama — Do Nov 13, 2014 9:32 pm


English • Re: Recomend number of characters for each title in SOL inde

Date: 2014-11-14 01:09:07

\ Do you actually parse the lucene index files?\


No not at the present point in time.
I just use the Export Function built into Yacy and pick off what I need with QuickBasic 4.5.

Statistik: Verfasst von smokingwheels — Fr Nov 14, 2014 1:09 am


English • Re: Load Balance of API Crawls Timer problem.

Date: 2014-11-14 10:06:46

I found time to do this .. its now implemented. The check for processes due in the API action table runs now once every minute. However, this does not include a higher precision in process periods, which is currently still with a minimum of 10 minutes to prevent that this tool is misused for DoS purpose. As far as I see in your idea this is not important because you want to use the event trigger? If yes, then there is missing a feature to set exact minutes in the event trigger, the trigger currently can only execute at full hours.

Statistik: Verfasst von Orbiter — Fr Nov 14, 2014 10:06 am


English • Re: Load Balance of API Crawls Timer problem.

Date: 2014-11-14 12:33:31

Ok cool the 1 minute is fine, I changed the clean up busy time to 30000 30000.
If I have too many scheduled crawls running at a particular time, I just edit the API table and offset the next start time and it works a treat.
Cheers

Statistik: Verfasst von smokingwheels — Fr Nov 14, 2014 12:33 pm


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App?

Date: 2014-11-14 12:47:49

Hallo,

Orbiter hat geschrieben:\ \'Nachrichtendienst\' ist ja für YaCy gar kein Neuland, siehe [www.youtube.com/](https://www.youtube.com/watch?v=hGwjllUdjU0&list=UUvy0FJxqOAlSZ2VXskej79Q){.postlink} und eine API gibts auch, das ist die Opensearch-Schnittstelle. Insofern sind diese Ideen von dir bzgl. Wunsch nach API schon verwirklicht.\


Ich habe mir das Lernvideo #6 angeschaut. Ich habe es so verstanden, dass dort eine Funktionalität beschrieben ist, wie ich:

  1. bestimmte mit einer URL definierbare Quellen, bspw. RSS-Feeds für meinen persönlichen Index anzapfen
  2. mich manuell über eine YaCy-Suchmaske über evtl. vorhandene neue Suchtreffer informieren kann.

Den Mehrwert des YaCy-Abo-Nutzungszenarios (das meines Wissens noch nicht realisiert ist) machen für mich persönlich zwei Eigenschaften aus:

  1. ich zapfe nicht einzelne per URL definierbare Quellen, sondern ein ganzes Netzwerk, bspw. FreeWorld an.
  2. ich werde über die neue Treffer für meine Suchanfrage in Echtzeit (betont mit dem Wecker-Symbol in der YaCy-Abo, #c1882-Beschreibung) über ein von mir einstellbares Kanal - per EMail, SMS oder PopUp-Fenster - informiert. Google bietet seit Jahren derartige Benachrichtigung per EMail.

Ich habe die YaCy-Abo, #c1882-Definiton{.postlink} ergänzt. Unter Schnittstelle im [YaCy-Abo]{style=“font-style: italic”}-Kontext meinte ich eine Schnittstelle, die für eine live-Interaktion zwischen einer Suchanfrage bspw. [\“Weihnachtsmann Musterstadt\“]{style=“font-style: italic”} und einem Crawl-Lauf auf irgendeinem Peer im YaCy-Netzwerk sorgt.

Gruss, flegno

Statistik: Verfasst von flegno — Fr Nov 14, 2014 12:47 pm


Mitmachen • Re: Geld für Yacy?

Date: 2014-11-14 14:39:42

Hallo,

Adama hat geschrieben:\ Ist das nicht was für unser Projekt hier?\


Definitiv „ja\“. Bin dafür, dass eine Bewerbung bis zum Einsendeschluss 31.12.2014 eingereicht wird. Unabhängig davon, ob man einen Preis bekommt oder nicht, haben die Anwender und Entwickler mit dem 31.12.2014 einen definierten Zeit- und mit 2500,- Euro einen finanziellen Rahmen, in dem man sich darüber austauschen kann, welche YaCy-Funkhunalität es verdient hat, demnächst verwirklicht zu werden. Nebenbei wird das YaCy-Projekt ein wenig bekannter. Habe einen Pad http://etherpad.yacy.net/p/buch7preis angelegt, wo alle, die sich angesprochen fühlen, Vorschläge einreichen können ;).

Gruss, flegno

Statistik: Verfasst von flegno — Fr Nov 14, 2014 2:39 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-14 15:39:18

Erik\_S hat geschrieben:\ yacyDNS ist jetzt mit einem richtigen Domain-Namen erreichbar: [yacy.info](http://yacy.info/){.postlink} bzw. [yacy.info/stats\_main](http://yacy.info/stats_main){.postlink} mit den Statistiken.\


coole Sache, habs getwittert: https://twitter.com/yacy_search/status/ ... 4475141120{.postlink}

da ist aber noch ein Bug: wenn ich eine Suche abgeschickt habe und dann in der Kopfzeile den Link \‘reload\’ klicke kommt zwar der Hinweis auf einen neuen Peer, die Suchseitenanzeige ist aber noch vom alten.

Statistik: Verfasst von Orbiter — Fr Nov 14, 2014 3:39 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-14 17:43:52

Hallo,

Orbiter hat geschrieben:\ coole Sache, habs getwittert\

Danke!

Orbiter hat geschrieben:\ da ist aber noch ein Bug\

Ich vermute mal Du hast mit Firefox getestet, da ist bei mir das selbe Problem. Nach dem Klick auf Relaod wird zwar das Frameset von yacy.info/ neu geladen und der iFrame im HTML-Code zeigt auch auf die neue IP-Adresse aber angezeigt wird trotzdem noch der vorherige Peer. In Chromium hingegen wird das gesamte Frameset neu geladen inklusive dem neuen Peer. Merkwürdiges Phänomen, mir fällt da auf die Schnelle nichts ein wie sich das beheben lässt. Wenn mir jemand einen funktionierenden Work-Around bieten kann baue ich das gerne ein. Auf der anderen Seite ist es eventuell gar nicht so schlimm wenn eine funktionierende Suche nicht so schnell abgewürgt wird, bin mir nicht sicher ob das wirklich ein \“Bug\” ist oder einfach nur eine interessante Eigenart des Firefox.
Wäre auch mal interessant zu erfahren wie sich andere Browser verhalten, auch abseits von Linux.

Eventuell wäre es sinnvoll auch auf http://www.yacy.net/de/Suchportal.html einen passenden Link zu platzieren, immerhin steht mit yacy.info/ jetzt ein echter Load-Balancer zur Verfügung.

Fehlt eigentlich nur noch dass das Frameset bei funktionierender Suche verlassen wird, also der befragte Peer das aktuelle Browser-Fenster komplett übernimmt. Ich hatte mal wegen einer Lösung per Java-Script ein wenig recherchiert aber das könnte eventuell daran scheitern das ein Java-Script in meiner Seite den HTML-Code bzw. DOM-Baum der Seite innerhalb des Framset gar nicht modifizieren darf, wegen Sicherheitsmechanismen (\“Same Origin Policy\“) im Browser. Eine Alternative wäre das im Servlet in YaCy das für die URL \“/\” zuständig ist ein neues Query-Parameter hinzukommt das wenn es vorhanden ist alle Links und das Form-Element mit dem Attribut target=\”_top\” versieht, ich würde dann die URL in meinem iFrame-Element entsprechend ändern.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Nov 14, 2014 5:43 pm


Fragen und Antworten • Re: Postprocessing

Date: 2014-11-15 00:43:00

Nachtrag:

Mein yacy hat in Sachen Indexierung immer zu bestimmten Zeiten (wenn ich online bin) sehr viel zu tun und ist zu anderen Zeiten mehr oder minder idle (zumindest der Crawler). Er hat das Postprocessing dann in deutlich weniger als sieben Tagen geschafft und hat auch nie mehr so hohe Werte erreicht, vmtl. weil Remote Crawling mittlerweile wieder aus ist (hat zu schnell dazu geführt, dass meiner Node der Speicher ausging).

Statistik: Verfasst von zottel — Sa Nov 15, 2014 12:43 am


Fragen und Antworten • Indexing Cache

Date: 2014-11-15 01:04:58

Kann es sein, dass die Leerung des Indexing Cache nicht immer wie geplant funktioniert und das der Grund ist, weshalb bei viel Crawling der Speicher immer knapper wird?

Hintergrund für die Frage:

Ich habe vorhin Performance_p auf meinem yacy beobachtet, als der Speicher immer mehr zur Neige ging. Dabei fiel mir folgendes auf:

Solange der freie Speicher noch ausreichend war, also von den Maxima immer relativ viel Speicher wieder freigegeben werden konnte, zeigten auch die Words in Indexing Cache ein ähnliches Verhalten, also hoch und wieder runter etc.

Irgendwann gingen die dann aber nicht mehr runter. Obwohl der Indexing Cache auf ein Maximum von 50.000 words gesetzt war, lief er auf Werte von über 160.000 hoch – und nicht, wie sonst üblich, zwischendurch wieder runter. Also kein Zickzack, sondern eine kontinuierlich leicht ansteigende Kurve. Zwischendurch ging der Wert dann immer einmal ganz auf null zurück, um beim nächsten Wert direkt wieder auf > 160.000 zu sein.

Ich habe das Maximum für den Indexing Cache jetzt mal auf 30.000 words gesetzt, damit die Leerung früher einsetzt. (Ich weiß, das macht das Crawling langsamer, aber lieber das als ein yacy, der wegen Speicherüberfüllung nicht mehr reagiert.) Die Zickzack-Kurve für die Words in Indexing Cache stoppt jetzt zum Teil bei ca. 30.000 und wird dann wieder kleiner, zum Teil geht sie aber hoch auf ca. 60.000, bevor sie sich wieder „beruhigt”, und zwar in etwa der Hälfte der Fälle.

Ist das so zu erwarten, verstehe ich die Einstellung falsch? Oder stimmt da etwas mit dem Indexing Cache nicht?

Statistik: Verfasst von zottel — Sa Nov 15, 2014 1:04 am


Fragen und Antworten • Re: Postprocessing

Date: 2014-11-15 01:32:27

ich habe in den letzten 16 Tagen noch erhebliche Fortschritte beim Postprocessing machen können, zuletzt heute noch ein Bugfix.

Statistik: Verfasst von Orbiter — Sa Nov 15, 2014 1:32 am


Fragen und Antworten • Re: Indexing Cache

Date: 2014-11-15 01:37:09

Hallo zottel,

wenn ich das richtig im Hirn habe, ist das mit dem Flushen / Leeren des RWI-/Wort-Caches Teil des Cleanup-Prozesses ist.
D.h. es kann sein das der Cache nicht geleert wird wenn der zur Verfügung stehende Speicher zu knapp ist oder aber der Systemload zu hoch ist.
Die Grenzwerte dazu kannst Du unter /PerformanceQueues_p.html einstellen.
Es macht Sinn den Load- und den Speicher- Wert des Cleanup-Prozesses höher zu setzen als den des \‘Local Crawl\‘.
(damit eher mit dem Crawlen aufgehört wird, als mit dem Cleanup.
Man könnte sich fragen ob es überhaupt Sinnvoll ist diesen Cleanup-Prozess bei magerenn Ressourcen nicht auszuführen: ja ist es, weil z.B. das Schreiben des Cacheinhalts auf die Platte eben auch Resourcen braucht.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Nov 15, 2014 1:37 am


Fragen und Antworten • Re: Indexing Cache

Date: 2014-11-15 01:46:01

Ok, danke.

Die Werte waren bereits besser als für den Crawler (Maxload Crawler 4, Cleanup 16, Minmem Crawler 12M, Cleanup 0). Allerdings waren die idle times auf 300.000 ms gesetzt, also fünf Minuten. Wenn ich das richtig verstehe, wurde der Cleanup-Prozess also nur alle fünf Minuten gestartet? Diese Werte habe ich jetzt mal auf 30.000 ms runtergesetzt, vielleicht hilft das ja.

Statistik: Verfasst von zottel — Sa Nov 15, 2014 1:46 am


Fragen und Antworten • Re: Indexing Cache

Date: 2014-11-15 02:21:18

Hm, mir ist gerade noch aufgefallen, dass es zu den Words in Cache zwei sich widersprechende Informationen auf Performance_p gibt:

Die grüne Linie – von der habe ich bis jetzt gesprochen. Die geht auch jetzt noch oft über 50K hinaus.

Und der Wert in der grauen Infozeile über der Grafik, der mir bisher nicht aufgefallen war. Die Werte dort bewegen sich manchmal in der Nähe von denen der grünen Linie, manchmal sind sie deutlich niedriger. Diese Werte gehen immer nur kurz knapp über den eingestellten Grenzwert 30.000 hinaus, dann gehen sie wieder auf nahe Null zurück, bevor sie wieder ansteigen. Genau das erwartete Verhalten also.

Sollten die beiden eigentlich das gleiche repräsentieren oder stellt die grüne Linie etwas ganz anderes dar als ich denke?

Statistik: Verfasst von zottel — Sa Nov 15, 2014 2:21 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-15 11:30:14

Hallo,

Erik\_S hat geschrieben:\ yacyDNS ist jetzt mit einem richtigen Domain-Namen erreichbar: [yacy.info](http://yacy.info/){.postlink} bzw. [yacy.info/stats\_main](http://yacy.info/stats_main){.postlink} mit den Statistiken.\

Beim Versuch die Website yacy.info im Browser zu laden bekomme ich gerade die Meldung:

Code:
Fehler: Server nicht gefundenDer Server unter www.yacy.info konnte nicht gefunden werden.


Die Adresse 130.255.73.69:5353 ist erreichbar.

Gruss, flegno

Statistik: Verfasst von flegno — Sa Nov 15, 2014 11:30 am


Fragen und Antworten • Re: Indexing Cache

Date: 2014-11-15 13:17:40

Hallo zottel,

ja der Wert oben in der Grafik \‘Words ind Cache\’ und die grüne Linie sollten eigentlich den gleichen Wert darstellen.
Ich habe die Umsetzung nicht genauer im Gedächtniss, aber evtl. kommt ein Unterschied aus einer 2fachen abfrage des Cachewertes für die beiden Darstellungen.

Dieser RWI-Cache wird geleert wenn entweder die Menge der RWIs größer dem Eingestellten ist oder vom Cleanupthread, der im eingestellten Zeitinterval läuft.
Wenn sehr stark gecrawlt wird, und / oder durch dht-in die Menge der RWIs im Cache sehr schnell wächst, kann der Wert aber auch mal überschwingen.
Es gibt Seiten die eine 5-Stellige Menge an Worten haben - und diese kommen in einem \‘Rutsch\’ ind den Cache - ohne das zwischendurch geleert würde.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Nov 15, 2014 1:17 pm


Hilfe für Einsteiger und Anwender • Status API question

Date: 2014-11-15 15:14:28

Does the information showing in http://xxx.xxx.xxx.xxx:8090/api/status_p.xml apply only to the crawler or does it also contain global status information?

According to the API button description (in /Crawler_p.html, from where we load the status_p.xml page), they refer only to the crawler status, but some of the fields (if not most of them) seem to refer to global values (like Disk Space, RAM, etc)

I want to code a driver to parse that page and output some of the values to Cacti, in order to graph them.

Is there some kind of field description available for the fields that go in that page?

Statistik: Verfasst von oneaty — Sa Nov 15, 2014 3:14 pm


Hilfe für Einsteiger und Anwender • Wiki co ntribution

Date: 2014-11-15 15:44:36

I would like to include a C script I coded in the API/Examples section of the wiki.

The main idea behind that script is to parse information from Network_p.xml and output it in a way that Cacti (the graph monitoring tool) can use to graph those values.

An example of those graphs can be viewed here: viewtopic.php?f=23&t=5246{.postlink-local}

Are you interested?

Statistik: Verfasst von oneaty — Sa Nov 15, 2014 3:44 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-15 18:47:20

Hallo,

ich hab Heute um 14:54 dazu eine eMail von der Domain-Registry erhalten das ich wohl irgendeine Bestätigungs-Mail übersehen hätte. Die kam zwar vor 2 Wochen aber der Link darin funktioniert nicht (der Host-Nnme existiert wohl nicht und mein Browser bringt die selbe Meldung wie jetzt bei yacy.info) und ich hab da auch geantwortet das ich nicht bestätigen kann aber es erfolgte keinerlei Reaktion. Ich hab das leider ein wenig aus den Augen verloren, ich hab schließlich noch ein echtes Real-Live und anderen Mist zu tun. Jedenfalls hieß es vor 2 Wochen das es bis zu 24 Stunden dauern kann bis die Informationen im DNS-System eingepflegt werden und es hat auch einige Zeit gedauert. Beim Entfernen von Domains aus dem DNS-System scheinen diese 24 Stunden nicht zu gelten, heute gegen Mittag funktionierte noch alles korrekt. Ich muss ehrlich sagen das ich massiv enttäuscht bin, nicht nur von der Domain-Registry sondern auch von mir selber, eigentlich habe ich mir vorgenommen durch hohe Zuverlässigkeit zu glänzen aber bis jetzt will mir das nicht sonderlich gut gelingen. Wobei erst abschalten und dann den zahlenden Kunden zu informieren auch keine freundliche Methode ist. Bleibt abzuwarten ob sich das Problem noch jetzt am Wochenende lösen lässt oder ob es mindestens bis Montag dauert bis sich da etwas oder jemand bewegt.
Ich bleib da jetzt auf jeden Fall aktiv dran, versprochen!

Grüße
Erik

PS.: die Port-Nummer 5353 kann endgültig entfallen, die Port-Weiterleitung auf dem Server ist nicht dauerhaft konfiguriert. Alternativ zur IP 130.255.73.69{.postlink} funktioniert auch die IP 134.255.238.129{.postlink}.

Statistik: Verfasst von Erik_S — Sa Nov 15, 2014 6:47 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-15 21:22:32

Hallo,

Erik\_S hat geschrieben:\ Ich hab das leider ein wenig aus den Augen verloren, ich hab schließlich noch ein echtes Real-Live und anderen Mist zu tun. Jedenfalls hieß es vor 2 Wochen das es bis zu 24 Stunden dauern kann bis die Informationen im DNS-System eingepflegt werden und es hat auch einige Zeit gedauert. Beim Entfernen von Domains aus dem DNS-System scheinen diese 24 Stunden nicht zu gelten, heute gegen Mittag funktionierte noch alles korrekt. Ich muss ehrlich sagen das ich massiv enttäuscht bin \...\


Du, Erik, wir sind alle nur Menschen und lernen immer was dazu. Ich habe vor Jahren einfach Glück gehabt, dass ich auf einen Webhoster geraten bin, der meine erste Domainregistrierung für mich erledigt hat. Bin übrigens immer noch bei diesem Hoster und zufrieden.

Gruss, Gustav

Statistik: Verfasst von flegno — Sa Nov 15, 2014 9:22 pm


Hilfe für Einsteiger und Anwender • Re: Wiki co ntribution

Date: 2014-11-15 23:46:50

sure, you did a great work, go ahead!

Statistik: Verfasst von Orbiter — Sa Nov 15, 2014 11:46 pm


Fragen und Antworten • Updateproblem

Date: 2014-11-16 09:17:20

Hatte schon bei mehreren Updates folgendes Problem.
Und zwar fäng YaCy mit dem Update schon an, auch wenn YaCy sich noch gar nicht beendet hat. - Das dauert bei mir immer einige Zeit. Schätzungsweise eine halbe Minute bis Minute.
Das führt dann dazu, dass im Updatefenster nicht nur die Punkte, sondern auch folgende Meldung (mehrmals) kommen:
\“Der Prozess kann nicht auf die Datei zugreifen, da sie von einem anderen Prozess verwendet wird.\”

Ich habe zwar noch keine negativen Auswirkungen festgestellt - Die Versionsnummer wird richtig angezeigt - aber ich denke nicht, dass das so sein soll.
Wäre es möglich mit dem Updateprozess zu warten, bis YaCy sich beendet hat?

Grüße Fiz

Statistik: Verfasst von Fiz-kun — So Nov 16, 2014 9:17 am


Hilfe für Einsteiger und Anwender • Re: Wiki co ntribution

Date: 2014-11-16 12:46:35

It doesn\’t seem difficult to edit this page ((http://www.yacy-websuche.de/wiki/index. ... PIExamples{.postlink}) and include a new line on it linking to a new wiki page where I will show the code and give instructions.

But how can I create this new wiki page?

Statistik: Verfasst von oneaty — So Nov 16, 2014 12:46 pm


Hilfe für Einsteiger und Anwender • Re: Wiki contribution

Date: 2014-11-16 15:11:30

Hi

oneaty hat geschrieben:\ But how can I create this new wiki page?\

You make and store one wiki-Link, for example:

Code:
* [[En:Cacti]]

after that you click at this link, by what new wiki page{.postlink} was maked.

Gruss, flegno

Statistik: Verfasst von flegno — So Nov 16, 2014 3:11 pm


Hilfe für Einsteiger und Anwender • Re: Wiki contribution

Date: 2014-11-16 16:37:59

flegno hat geschrieben:\ Hi\ You make and store one wiki-Link, for example:\ Code: : `* [[En:Cacti]]` after that you click at this link, by what [new wiki page](http://www.yacy-websuche.de/wiki/index.php?title=En:Cacti){.postlink} was maked.\



Thanks!

Statistik: Verfasst von oneaty — So Nov 16, 2014 4:37 pm


Hilfe für Einsteiger und Anwender • Re: Wiki co ntribution

Date: 2014-11-16 17:53:10

ok, the new wiki page is created:

http://www.yacy-websuche.de/wiki/index. ... PIExamples{.postlink}

Please take note that this is my first C program so it can certainly be improved, either in terms of style and performance. But as it is now, it does the job and I didn\’t noticed any noticeable impact on the server\’s performance.

Statistik: Verfasst von oneaty — So Nov 16, 2014 5:53 pm


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-17 16:46:39

Hallo,

flegno hat geschrieben:\ Ich habe für den Montag, 17.11.2014, 19:00 bis 21:00 Uhr \...\


Bei mir hat sich heute ein Termin ergeben, der höhere Priorität hat. Bin 19:00 Uhr nicht dabei. Ich melde mich evtl. erst am Mittmoch.

Gruss, flegno

Statistik: Verfasst von flegno — Mo Nov 17, 2014 4:46 pm


Hilfe für Einsteiger und Anwender • Yacy für Mac

Date: 2014-11-17 19:59:28

Als Macnutzer hab ich nur eine kurze Frage: wird die Software für den Mac nicht mehr weiterentwickelt? Für alle anderen Plattformen gibt es Version 1.8, nur für den Mac ist es die 1.72.

Statistik: Verfasst von Ottosen — Mo Nov 17, 2014 7:59 pm


Hilfe für Einsteiger und Anwender • Re: Yacy für Mac

Date: 2014-11-17 20:41:33

Hi,
aus mir unerklärlichen Gründen hat das Packaging seit 1.8 für Mac zu einer App geführt, die nicht startete. Aus Zeitdruck habe ich dann das 1.8er Release für Mac liegen gelassen, das heisst aber nicht das es nicht mehr kommt. YaCy läuft aber so oder so auf einem Mac, man kann immer ganz einfach das generische tarball-release per Doppelklick auspacken und dann per Terminal das startYACY.sh starten. Das ist aber natürlich keine richtige Lösung.

Ich entwickele YaCy ja seit Anfang an auf einem Mac, daher kann ich dir mit Sicherheit sagen: das läuft da :lol:
Irgendwie versuche ich mal wieder demnächst Zeit für das richtige Packaging zu finden. Bitte probiere es derweil mit dem tar.gz tarball-Release.

Statistik: Verfasst von Orbiter — Mo Nov 17, 2014 8:41 pm


Hilfe für Einsteiger und Anwender • Blacklist import funktioniert nicht!

Date: 2014-11-18 01:07:31

Hallo!

Ich würde gerne Blacklists von anderen rechnern importieren.

Rufe ich diese über den Clientnamen aus (also onlineimport) dann kommt immer: beim Client Adama_Ammery:
\“YaCy Peer YaCy-Peer \“-a_wKZadNNks\” nicht gefunden. \”

Impoertiere ich über die XML-Datei dann kommt nur:

Blacklist Quelle: PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iVVRGLTgiPz4NCjxibGFja2xpc3RzPg0KCTxsaXN0IG5hbWU9InVybC5kZWZhdWx0LmJsYWNrIiBzaGFyZWQ9IjEiIGRodD0iMSIgY3Jhd2xlcj0iMSIgcHJveHk9IjEiIHNlYXJjaD0iMSIgc3VyZnRpcHM9IjEiIG5ld3M9IjEiPg0KCQkJPGl0ZW0+d2VsdC5pdndib3guZGUvLio8L2l0ZW0+DQoJCQk8aXRlbT5mb3J1bS51YnVudHV1c2Vycy5kZS8uKjwvaXRlbT4NCgkJCTxpdGVtPmFiY25ld3MuZ28uY29tLy4qPC9pdGVtPg0KCQkJPGl0ZW0+YS5hYmNuZXdzLmNvbS8uKjwvaXRlbT4NCgkJCTxpdGVtPmRldXRzY2hlLXdpcnRzY2hhZnRzLW5hY2hyaWNodGVuLmRlLy4qPC9pdGVtPg0KCQkJPGl0ZW0+eXVpLmdpdGh1Yi5pby8uKjwvaXRlbT4NCgkJCTxpdGVtPnd3dy5qaWhhZHdhdGNoLm9yZy8uKjwvaXRlbT4NCgkJCTxpdGVtPnBicy50d2ltZy5jb20vLio8L2l0ZW0+DQoJCQk8aXRlbT53d3cud2VidGlwLmRlLy4qPC9pdGVtPg0KCQkJPGl0ZW0+d3d3Lm1ldGFzcGlubmVyLW1lZGlhLmRlLy4qPM+
Blacklist


Was kann ich tun?

Statistik: Verfasst von Adama — Di Nov 18, 2014 1:07 am


Fragen und Antworten • Re: rasut2 - Meine ersten Fragen zu Config der Suma

Date: 2014-11-19 14:55:35

Hallo,

flegno hat geschrieben:\ Bei mir hat sich heute ein Termin ergeben, der höhere Priorität hat. Bin 19:00 Uhr nicht dabei. Ich melde mich evtl. erst am Mittmoch.\


Der Termin für ein Vorstellungsgespäch, das nicht zuletzt dank meinen Aktivitäten im YaCy-Umfeld zustande gekommen ist und in dem diese Aktivitäten mir einige Pluspunkte beim Arbeitgeber gebracht haben, sich unglücklicherweise mit dem Mumble-Termin überschnitten. Dafür habe ich in diesem ziemlich ausgedehnten Vorstellungsgespächstermin einiges in Erfahrung gebracht, was m.E. auch für viele Entwickler wie Anwender im YaCy-Umfeld interessant ist. Ich werde beim nächsten Mumble-Treffen - ein Termin dafür wäre noch zu ermitteln - darüber berichten.

Gruss, flegno

Statistik: Verfasst von flegno — Mi Nov 19, 2014 2:55 pm


Wunschliste • Re: Thesaurus / Stemming / Synonyme

Date: 2014-11-19 18:18:20

dieses super Stemming-Ding von Lotus kann nun über eine Funktion im Knowledge Loader aktiviert werden:
/DictionaryLoader_p.html -> Synonyms -> Activate

findet jemand dazu eine englische Stemming-Datei?

Statistik: Verfasst von Orbiter — Mi Nov 19, 2014 6:18 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-11-19 19:47:41

https://www.facebook.com/OccupyTogether ... 1751380300{.postlink}

Statistik: Verfasst von Orbiter — Mi Nov 19, 2014 7:47 pm


Fragen und Antworten • Re: Yacy Toolbar

Date: 2014-11-19 19:51:15

hab noch einen Aufruf getwittert: https://twitter.com/yacy_search/status/ ... 4202300416{.postlink}
hoffe das hilft. Eine coole YaCy-Toolbar wäre schon super!

Statistik: Verfasst von Orbiter — Mi Nov 19, 2014 7:51 pm


Hilfe für Einsteiger und Anwender • Re: Connections

Date: 2014-11-19 19:56:45

the number of incoming connections is terribly hidden because it was one of the first settings at a time where we did neither had a concept nor many configuration pages, so the setting is somewhere where you don\’t expect that: /PerformanceQueues_p.html at the very bottom of the page. Please change the number \“maximum active\” of \“httpd Session Pool\”

Statistik: Verfasst von Orbiter — Mi Nov 19, 2014 7:56 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-11-19 20:00:05

ich vermute es wird noch lage dauern bis alle warnings beim Compilieren wegen IPv6 gefixt sind weil es immer Konzepte braucht um mehrere IPs zu verarbeiten. Aber momentan schein ein Punkt erreicht zu sein wo es zwar \‘noch nicht fertig\’ aber \‘viel besser als gar nichts zu IPv6\’ ist und ein Kriterium für ein Release in diesem Zustand Sinn machen würde, wenn dadurch nichts kaputt gehen kann. Ich glaube man könnte das machen.. Einwände/Anmerkungen?

Statistik: Verfasst von Orbiter — Mi Nov 19, 2014 8:00 pm


Fragen und Antworten • TLS Port wird nicht geoeffnet (pkcs12)

Date: 2014-11-20 14:05:03

Ich versuchte mittels http://www.yacy-websuche.de/wiki/index. ... onnections{.postlink} TLS zu aktivieren.

Den pkcs12 keystore habe ich erstellt, CACert cert war vorhanden. Nun steht folgendes in yacy.conf

Code:
port.ssl=8091pkcs12ImportFile=DATA/SETTINGS/maju_keystore.pkcs12pkcs12ImportPwd=foobar



k.a. ob relevant aber

Code:
keyStore=defaults/freeworldKeystorekeyStorePassword=freeworld


ist auch noch vorhanden.

Danach habe ich den Haken bei \“with SSL\” im web interface gesetzt und yacy neu gestartet. Trotzdem oeffnet yacy nur einen Port:

Code:
netstat -lntup |grep javatcp        0      0 0.0.0.0:8090            0.0.0.0:*               LISTEN      17571/java   



in den logs kann ich auch nichts finden. Wie kann ich herausfinden warum TLS nicht will und das Problem beheben?

Statistik: Verfasst von Flow — Do Nov 20, 2014 2:05 pm


English • Re: The peer must go online to get a peer address.

Date: 2014-11-20 22:45:52

Thank you very kindly for the replies!
I have updated both servers to version 1.819168
Ubuntu is updated to the latest available versions, as of this date.
Both are cloud servers with identical installations of YaCy (Robinson, reading each other but not writing to each other) and different data sets, of course.

However,
1) on the fast server, the results now show and it is online. Great! Thanks.

But this still shows [[\“The peer must go online to get a peer address.\“]{style=“font-style: italic”}]{style=“font-weight: bold”}
Despite many RSS feeds scheduled, the server does not crawl at all and results remain the same.
Interestingly in System Status on page Status.html?noforward=

\ Address\ Host: \[\]:8090\ peer address not assigned\ Proxy\ Transparent off URL off\ Remote: not used\



Is this significant? How to manually correct this in a file, somewhere, please? Thanks.

2)The fast server displays web results but in admin if one selects ConfigPortal.html
the following displays in the www page:

\ HTTP ERROR 500\ \ Problem accessing /ConfigPortal.html. Reason:\ \ Server Error\ Caused by:\ \ javax.servlet.ServletException: /usr/share/yacy/htroot/ConfigPortal.html\ at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)\ at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)\ at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)\ at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)\ at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)\ at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)\ at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)\ at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)\ at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)\ at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)\ at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at org.eclipse.jetty.server.Server.handle(Server.java:497)\ at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)\ at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)\ at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)\ at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)\ at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:539)\ at java.lang.Thread.run(Thread.java:745)\ \ YaCy 1.81 - powered by Jetty -\



How to fix this manually, please? Many thanks!


3) The slow server has a more complicated problem, apparently, and is not displaying the admin or results pages.
Calling up the server page,at Status.html, generates this www page response:

\ HTTP ERROR: 403\ \ Problem accessing /Status.html. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\ Powered by Jetty://\



How to correct this manually, please? Many thanks!
We are very grateful for the regular updates and advice :)

Statistik: Verfasst von xioc752 — Do Nov 20, 2014 10:45 pm


Off-Topic • юрист онлайн что это

Date: 2014-11-21 13:06:31

Bild{.postlink}
онлайн юристы бесплатно украина
онлайн юрист в беларуси бесплатно вопрос ответ
онлайн юрист казахстан
юрист онлайн в саратове

юрист по жилищным вопросам нижний новгород{.postlink}
юридические услуги нижний новгород прайс{.postlink}
юрист онлайн бесплатно по кредитам{.postlink}

юрист нижний новгород канавинский район
онлайн юрист рб
онлайн юрист ставрополь
юридические услуги в нижнем новгороде канавинский район

Statistik: Verfasst von Dektispl — Fr Nov 21, 2014 1:06 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-21 15:56:43

Hallo,

flegno hat geschrieben:\ Ich habe vor Jahren einfach Glück gehabt, dass ich auf einen Webhoster geraten bin, der meine erste Domainregistrierung für mich erledigt hat.\

Dein Webhoster kümmert sich wahrscheinlich um alle technischen Details Deiner Domain. Aber wenn man von der Domain-Registratur unabhängige Server betreibt bekommt man nur ein Web-Formular in dem man die nötigen DNS-Records (IP-Adressen usw.) eingeben kann und sonst nichts. Das von zentraler Stelle (meine Domain-Registratur behauptet zwar die Sperre wäre direkt von der ICANN gekommen aber so zentral wird man sich mit Second-Level-Domains wohl nicht beschäftigen), also von der Registratur die für die drüber liegende Domain verantwortlich ist (.info in meinem Fall also die Firma Afilias), ist grundsätzlich in Ordnung nur sollten diese Vorgänge transparent für den Kunden sein und vor allem sollte man den Kunden [vorher]{style=“text-decoration: underline”} informieren wenn die Domain abgeschalten werden soll und nicht hinterher.
Zumindest hatte ich nach reichlich eMail-Verkehr im Laufe des Sonntags noch die Info bekommen das die Domain wieder freigeschalten wird aber die obligatorischen \“bis zu 24 Stunden\” wurden mehr als großzügig ausgeschöpft so das es bis Montag Abend dauerte bis wieder alles ging. Man hat mir zumindest versichert das sowas nicht so bald wieder passieren wird, erst in einem Jahr wird man die Registrierung der Domain wieder [prüfen]{style=“font-style: italic”}, also mir wieder eine eMail mit nem Bestätigungslink schicken der dann hoffentlich funktioniert.

Davon unabhängig habe ich in den letzten Tagen mehrere neue Versionen auf die beiden Server aufgespielt (die Server sind glücklicherweise von dem Domain-Gezänk komplett unabhängig) und ich bin sehr zufrieden das die interne Datenbank nicht mehr leer ist wenn mein yacyDNS neu gestartet wird. Diese interne Datenbank wird aber nicht von Festplatte geladen sondern von den anderen Instanzen, yacyDNS ist jetzt also selber eine Art Peer-to-Peer-Netzwerk, aber ein statisch konfiguriertes. Auch während des Betriebs tauschen die einzelnen Instanzen von yacyDNS regelmäßig ihre interne Datenbank aus und mergen die Informationen zusammen, auf diese Art wird weniger übersehen und ein Reset einer Instanz (so wie am 28.10.) hat keine drastischen Auswirkungen mehr auf den Dienst der per yacy.info angeboten wird. Also egal auf welchem der beiden Server man landet wenn man yacy.info im Browser aufruft, es kommen immer vergleichbare Informationen.

Auch das Feature \“Proxy für die beiden YaCy-Top-Level-Domains (.yacy und .yacyh)\” funktioniert nun korrekt, zumindest für .yacy, da der Browser immer die Groß-Klein-Schreibung zerstört und damit die Hashes verändert werden (die Base64-Codierung ist Case-Sensitiv und damit für Domain-Namen ungeeignet) funktioniert das für .yacyh nicht mit Firefox. Es reicht im AddOn \“FoxyProxy\” einfach yacy.info mit Port 80 als HTTP-Proxy für die beiden YaCy-Top-Level-Domains einzurichten und schon funktionieren auch in den Peer-Web-Interfaces alle Links auf andere Peers selbst wenn kein YaCy-Peer als fester Proxy konfiguriert ist.

Ansonsten hat sich in den letzten 3 Wochen vor allem einiges unter der Haube getan, primär Dinge die dem Betrieb der Domain yacy.info dienen, und als nächstes kommt der DNS-Server womit yacyDNS dann endlich seinem Namen gerecht wird. Danach möchte ich mich wieder mehr um das Web-Interface, also Optik usw., kümmern. Auch die API für den Forwarder steht dann auf der TODO-Liste.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Nov 21, 2014 3:56 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-11-21 16:39:56

Hallo,

Orbiter hat geschrieben:\ weil es immer Konzepte braucht um mehrere IPs zu verarbeiten\

Ja, genau das ist richtig, aber gerade Konzeptionell ist meiner Meinung nach noch einiges zu tun.

Ein aus meiner Sicht sehr offensichtliches Problem ist das die Peers oft denken das sie über ganz andere IP-Adressen erreichbar sind als es tatsächlich der Fall ist. Trage mal hier{.postlink} die IP-Adresse Deiner BlauSchachtel ein (also die eine IPv6-Adresse mit dem \”:??FF:FE??:\” die tatsächlich funktioniert) und betätige den Button darunter, ruhig mehrmals über einen längeren Zeitraum verteilt, und Du wirst sehen das Dein Peer eine wechselhafte Meinung über seine eigene Erreichbarkeit hat. Ich nehme an das kommt dadurch das Dein Peer zu verschiedenen anderen Peers einen Ping ausführt und das Back-Ping der anderen Peers nicht immer so funktioniert wie es sollte. Ich vermute einige IPv4-only-Peers liefern als Antwort auf das Ping Deines Peers Deine [scheinbare]{style=“font-style: italic”} IPv4-[Absender]{style=“font-style: italic”}-Adresse zurück und Dein Peer übernimmt das ungeprüft. Falls es möglich ist zu erkennen von welchem anderen Peer ein Back-Ping kommt sollte der pingende Peer das immer dem laufenden Ping-Vorgang zuordnen und dann am Ende des Ping-Vorgangs nur gemeldete IP-Adressen akzeptieren deren Version auch mit den tatsächlichen empfangenen Back-Pings korreliert (z.B. nur IPv6-Adressen wenn zugehörige Back-Pings nur per IPv6 kamen). Und wenn für einen Ping gar keine Back-Pings registriert werden dann sollte der pingende Peer gar keine der zurückgemeldeten IP-Adressen übernehmen.

Hast Du den eine Möglichkeit die Pings und Back-Pings detailliert zu debuggen? Falls nein würde ich Dir vorschlagen das ich in mein Tool yacyDNS eine passende Funktionalität einbaue, also ein Web-Interface mit dem man einen beliebigen YaCy-Peer gezielt anpingen kann und alle Infos über die registrierten Back-Pings zusammen mit der eigentlichen Ping-Antwort detailliert ausgegeben werden. Mit den so gewonnenen Informationen sollte es möglich sein den Quell-Code robuster zu gestalten.

Orbiter hat geschrieben:\ Aber momentan schein ein Punkt erreicht zu sein wo es zwar \'noch nicht fertig\' aber \'viel besser als gar nichts zu IPv6\' ist und ein Kriterium für ein Release in diesem Zustand Sinn machen würde, wenn dadurch nichts kaputt gehen kann.\

Das \“viel besser als gar nichts zu IPv6\” bekommt meine uneingeschränkte Zustimmung, in den letzten 2 Monaten ist es in diesem Punkt deutlich vorwärts gegangen. Ich hätte zwar noch einige Wünsche, vor allem wäre es schön wenn das Eingabe-Feld \“statische IP\” einen gründlichen Plausibilitätstest bekommen würde und nicht mehr \“alles\” akzeptiert, aber grundsätzlich bin ich ebenfalls der Meinung das man sich baldmöglichst bemühen sollte die IPv6-Unterstützung einer breiteren Masse an YaCy-Peer-Betreibern zugänglich zu machen.

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Nov 21, 2014 4:39 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-11-22 16:50:06

Thank you.
Conditions seem to have changed with the upgrades to YaCy; thanks.
Both machines have been upgraded to 1.819177 & latest Ubuntu

The slow machine is now showing

\ HTTP ERROR: 403\ \ Problem accessing /Status.html. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\ Powered by Jetty://\



Please advise the manual work around to fix this. i.e., what file to adjust manually.

We feel there may be more than 1 step required to restore system visibility in the web admin and online
Thanks very kindly

The faster machine which does display results but does not process RSS instructions shows a very curious address:

\ Address\ Host: \[\]:8090\ peer address not assigned\ Proxy\ Transparent off URL off\ Remote: not used\



It also shows

\ The peer must go online to get a peer address.\


We note that both the machines displayed this and neither crawled despite many RSS feeds programmed. Also manual crawl instructions were not processed.
There are no firewall changes in the clouds.

Thank you again for your help!

Statistik: Verfasst von xioc752 — Sa Nov 22, 2014 4:50 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-11-22 17:31:41

Further note:
On the faster machine that is displaying results and admin pages, but does not search, the admin page ConfigPortal.html shows the following error results:

\ HTTP ERROR 500\ \ Problem accessing /ConfigPortal.html. Reason:\ \ Server Error\ Caused by:\ \ javax.servlet.ServletException: /usr/share/yacy/htroot/ConfigPortal.html\ at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)\ at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)\ at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)\ at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)\ at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)\ at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)\ at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)\ at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)\ at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)\ at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)\ at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at org.eclipse.jetty.server.Server.handle(Server.java:497)\ at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)\ at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)\ at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)\ at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)\ at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:539)\ at java.lang.Thread.run(Thread.java:745)\ \ YaCy 1.81 - powered by Jetty -\


others seem to display normally. Browser page back is possible.
How do we repair this, please?

Thank you!

Statistik: Verfasst von xioc752 — Sa Nov 22, 2014 5:31 pm


Off-Topic • projectsearch.yacy.de ist nicht erreichbar

Date: 2014-11-22 17:36:21

Hallo,

beim Versuch die Forumsuche zu nutzen, meldet mein Internet-Provider

Code:
dnserror?url=http://projectsearch.yacy.de/


Gruss, flegno

Statistik: Verfasst von flegno — Sa Nov 22, 2014 5:36 pm


Off-Topic • Re: projectsearch.yacy.de ist nicht erreichbar

Date: 2014-11-22 18:21:36

ups, nach dem neuerlichen Blackout von yacy.de wegen einem Problem auf einer ganz anderen Domäne (strato war so nett wieder alles zu blockieren) habe ich nun yacy.de auch auf hetzner umgezogen. Da habe ich wohl vergessen die Subdomäne anzulegen und die Suche darauf umzubiegen..

Statistik: Verfasst von Orbiter — Sa Nov 22, 2014 6:21 pm


Fragen und Antworten • Re: Updateproblem

Date: 2014-11-22 22:55:05

Bild{.postlink}

Hat sonst niemand das Problem, oder ist es ganz harmlos?
Beim Beispiel war es das Update von 1.819160 auf 1.819172

Statistik: Verfasst von Fiz-kun — Sa Nov 22, 2014 10:55 pm


English • Re: 1 of 2 identical machines is incredibly slow

Date: 2014-11-23 13:50:44

The faster machine - the one with visible results & pages
now processes advanced crawler specific pages
but does not process RSS feeds, neither old nor attempted to be newly added
thanks for your expterise...

Statistik: Verfasst von xioc752 — So Nov 23, 2014 1:50 pm


Fragen und Antworten • Re: Updateproblem

Date: 2014-11-23 16:50:11

Der Updatevorgang benutzt tatsächlich einen Updateprozess, der gestartet wird bevor YaCy beendet wurde. Das muss so sein weil ja ansonsten nichts den Update-Prozess starten kann! Der Update-Prozess greift dann auf eine pid-Datei zu, welche von Java automatisch gelöscht wird, wenn der YaCy-Hauptprozess runtergefahren wurde. Ist das File weg, weiss der Updater dass er loslegen kann.

Diese Meldung aus deinem Screenshot hat allerdings noch niemand beobachtet, jedenfalls hab ich noch nichts davon gehört und selbst verwende ich ja kein Windows regelmäßig, ausser zu Tests. Und da habe ich diese Meldung bei Updates auch nicht gesehen. Machst du irgendwas besonderes?

Statistik: Verfasst von Orbiter — So Nov 23, 2014 4:50 pm


Mitmachen • yacy.net wird von Check Point als File-Sharing gebrandmarkt

Date: 2014-11-24 15:32:28

Hallo,

Nur mal so als Hinweis: Die Webseite yacy.net steht offenbar bei Check Point (s. https://de.wikipedia.org/wiki/Check_Point) auf dem Index und wird dort als P2P File-Sharing-Seite gehandelt.

Damit ist die Webseite auf allen Unternehmensseiten (auch Hochschulen/Forschungseinrichtungen?), gesperrt, die Check Point zur Überwachung der Unternehmensrichtlinie einsetzen. Meint: Alle Unternehmen, die automatisiert ihre Mitarbeiter davor schützen, versehentlich auf Seiten zuzugreifen, die nicht den Unternehmensrichtlinien entsprechen.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Mo Nov 24, 2014 3:32 pm


Mitmachen • Re: yacy.net wird von Check Point als File-Sharing gebrandma

Date: 2014-11-24 16:14:54

Hallöchen!

Hast du da vielleicht eine genauere Quelle? Ich habe da jedenfalls nichts finden können, daß deine Meldung belegen könnte!

Statistik: Verfasst von TmoWizard — Mo Nov 24, 2014 4:14 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-24 22:30:51

Hallo,

ich habe am Wochenende fleißig weiter gecoded und mein yacyDNS enthält jetzt einen vollwertigen DNS-Server der nicht nur die Domain \“yacy.info\” managt sondern auch für die beiden YaCy-Top-Level-Domains \“.yacy\” / \“.yacyh\” gute Antworten liefert.
Wer will kann das auf der Konsole schon mal per \“dig \@yacy.info Peer-Name.yacy\” oder \“dig \@yacy.info Peer-Hash.yacyh\” ausprobieren (bei yacyh ist die Groß-Klein-Schreibung wichtig und wird normalerweise vom Tool \“dig\” auch beibehalten so das mein DNS-Server die richtige Antwort geben kann). Das Parameter \”\@yacy.info\” ist leider erforderlich da diese beiden Top-Level-Domains nicht in der offiziellen Root-Zone enthalten sind und die Namensauflösung so einen Hinweis bekommen muss wo es einen geeigneten DNS-Server für diese Domains gibt. Für offizielle Top-Level-Domains kommt dieser Hinweis von den offiziellen Root-DNS-Servern aber die beantworten Anfragen nach \“.yacy\” / \“.yacyh\” leider nur mit \“Gibt es nicht\” und das ist für YaCy natürlich nicht zielführend. Da der Browser zur Namensauflösung immer das Betriebssystem bemüht und dieses per Default auf das offizielle DNS-System zugreift sind hier noch ein paar Tricks erforderlich damit eine Eingabe von \“Peer-Name.yacy:8090/\” in der Adress-Leiste eines beliebigen Browsers wirklich zum gewünschten Peer führt. Die explizite Angabe der Port-Nummer ist dabei leider erforderlich weil der Browser für HTTP immer nur auf Port 80 probiert, dazu beherrscht DNS zwar einen Trick (SRV-Records) mit dem man angeben kann auf welchem Port bestimmte Standard-Dienste (z.B. HTTP) verfügbar sind aber kein normaler Browser macht davon Gebrauch.
Bei der Variante mit yacyDNS als HTTP-Proxy sind diese Probleme zwar nicht vorhanden aber dafür ist es erforderlich \“yacy.info\” als HTTP-Proxy für die beiden YaCy-Top-Level-Domains im Browser zu konfigurieren.

Das Thema DNS funktioniert zwar fürs erste schon ganz gut aber es ist noch einiges zu tun.

Ich hab aber nebenbei auch die Statistik verfolgt, da diese ja nicht mehr nach jedem UpDate bei Null anfängt ist das nun auch recht interessant, und da ist mir aufgefallen das die Anzahl der nie erreichbaren Peers langsam ansteigt. In der Graphik auf yacy.info/stats_main{.postlink} ist das der Abstand zwischen der schwarzen Linie und der Unterkante der roten Fläche. Dafür gibt es meiner Meinung nach nur zwei mögliche Erklärungen: entweder tauchen neue Peers auf die nur so kurz online sind das sie es zwar schaffen sich zumindest in den Seed-Listen von ein paar wenigen YaCy-Peers einzutragen (durch die Pings der Peers untereinander) aber doch schnell genug wieder verschwinden bevor yacyDNS dazu kommt diesen Peer selber direkt anzusprechen (da von yacyDNS immerhin zwei Instanzen parallel laufen ist diese Zeitspanne im Schnitt nur ganz wenige Minuten lang). Die andere mögliche Erklärung ist das diese Peers den Senior-Status zu unrecht bekommen aber es trotzdem in die Seed-Listen mancher Peers schaffen, das würde eigentlich bedeuten das es einen Bug in YaCy gibt da Peers die nicht vom öffentlichen Internet aus erreichbar sind (und deswegen von yacyDNS auch nicht direkt angesprochen werden können) eben auch keinen Senior-Status bekommen dürfen.

Daneben ist mir noch aufgefallen das es nicht nur eine Schwankung der Anzahl der aktuell erreichbaren Peers über die Tageszeit gibt sondern das diese Schwankung sich primär auf Peers bezieht die nur per IPv4 erreichbar sind. Bei den Peers die per IPv6 (oder beiden IP-Varianten) erreichbar sind ist diese Schwankung fast gar nicht vorhanden. Ich vermute das bedeutet das primär die Leute die ihre Peers permanent online haben sich auch um zeitgemäße IPv6-Konktivität bemühen. Über die Art der Erreichbarkeit der tatsächlich aktiven Peers fehlt auf jeden Fall noch eine hübsche Graphik auf der Statistik-Seite, diese spezifische Korrelation ist mir erst beim Blick in die Statistik-Log-Files deutlich geworden. Wenn gewünscht baue ich dazu in mein yacyDNS eine passende API ein die diese Statistik als rohes XML ausgibt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mo Nov 24, 2014 10:30 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-24 23:48:39

Hallo Erik,

das klingt doch sehr gut! Mein Peer gehört jedenfalls zu denen, die ständig online sind... außer natürlich bei einem entsprechenden Update, bei dem YaCy oder der Rechner neu gestartet werden muß oder bei der kurzen Zwangstrennung durch den Provider.

Derzeit \“füttere\” ich YaCy auch sehr viel über Feeds [(Importfunktion)]{style=“font-style: italic”}, so daß auch mein eigener Index ständig wächst und ich so zumindest etwas zur Gemeinde beitragen kann. Allerdings paßt mir das nicht so ganz, daß die Konfiguration für eine Wiederholung auf 7 Tage steht und ich das ständig von Hand ändern muß. Die meisten Sites [(z. B. Blogs und ähnliches)]{style=“font-style: italic”} haben mehrmals täglich neue Artikel, ich stelle das also jedesmal auf [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} Stunden ein, so daß die Feeds 4 mal am Tag geprüft werden. Da darunter auch größere Verlage und so sind wächst mein Index ziemlich rasant! :mrgreen: Mal sehen, wann ich die [[12.000.000]{style=“font-style: italic”}]{style=“font-weight: bold”} knacke.

Schade finde ich, daß immer noch so wenig Leute mitmachen. Wenn die Netzwerkübersicht stimmt, dann sind das weltweit gerade mal knappe [[3.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Peers! :( Bei den Suchergebnissen macht sich das natürlich bemerkbar, die sind einfach viel zu schlecht. Gerade wenn ich mal wieder für einen neuen Artikel auf meinem Blog recherchiere, dann ist YaCy im derzeitigen Zustand nicht wirklich zu gebrauchen. Es wird zwar besser, aber sehr langsam.

In das Thema DNS muß ich mich mal wieder einarbeiten, meine entsprechende Ausbildung in diese Richtung ist leider schon [[15]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahre her und ich habe mich da auch nicht mehr damit befaßt. Ist eine \“Query time: 93 msec\” nun gut oder schlecht? Bei [[****.yacyh]{style=“font-style: italic”}]{style=“font-weight: bold”} kommt übrigens folgende Meldung:

\ ; (4 servers found)\ ;; global options: +cmd\ ;; connection timed out; no servers could be reached\



Es konnte also kein Server erreicht werden, warum auch immer!

Statistik: Verfasst von TmoWizard — Mo Nov 24, 2014 11:48 pm


Fragen und Antworten • Re: Double-Check Queue

Date: 2014-11-25 17:57:37

Hi zusammen.

Sorry für die späte Reaktion. Ein übereifriger Businesskasper mit Stern hat mich vom Fahrrad geholt, was einen längeren Aufenthalt in diversen medizinischen Einrichtungen zur Folge hatte.

Wie dem auch sei: Das Beispiel Kia war blöd. Das hatte ich nicht so bedacht. Das Problem existiert aber weiterhin.
So zum Beispiel bei der Domäne \‘http://www.hobby-caravan.de'. Da ist eine Weiterleitung auf \‘http://www.hobby-caravan.de/de' drauf. Danach ist dann Feierabend mit crawlen.
Starte ich den Crawl von \‘http://www.hobby-caravan.de/de' klappt alles wunderbar

Die Yacy-Installation ist aus dem deb-Repository gerade frisch aktualisiert.

Logile imAnhang

Grüße und schönen Tag noch : Athea

Statistik: Verfasst von athea — Di Nov 25, 2014 5:57 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-11-25 18:39:48

Hallo,

TmoWizard hat geschrieben:\ Schade finde ich, daß immer noch so wenig Leute mitmachen.\

Ja, vor allem das so viele Peers nie wieder kommen. In den Dumps der internen Datenbank von meinem Tool ist bei der überwiegenden Mehrheit aller Peers die aktuell offline sind die \“LastSeen\“-Zeit nur kurz hinter der \“BirthDate\“-Zeit was bedeutet das diese Peers frisch installiert werden dann kurz online sind und nach dem ersten Offline nicht wieder kommen. Wenn man sich in der Graphik auf meiner Statistik-Seite mal genau den Winkel der Unterkante der farbigen Flächen anschaut so sieht man das pro Tag etwa 40 bis 50 neue Peers dazu kommen aber die grüne Fläche, die angibt wie viele Peers zum jeweiligen Zeitpunkt online sind, ändert sich gar nicht, vom Rhythmus über die Tageszeit mal abgesehen. Die Anzahl der zu einem bestimmten Zeitpunkt aktiven YaCy-Peers schwankt schon solange wie ich jetzt an meinem Tool arbeite (dieser Thread beginnt Anfang September) immer um die 200, es sind in den vergangenen 2 Monaten definitiv kaum echte YaCy-Peers dazugekommen. Es gibt etwa 160 Peers die tatsächlich (weitestgehend) permanent online sind und dazu kommen etwa 70..80 weitere Peers die mehr oder weniger regelmäßig online sind (primär diese bilden die Schwankung in der grünen Fläche), viele davon täglich. Der ganze Rest sind die oben beschriebenen Eintagsfliegen. Der Grund warum die \“Netzwerkübersicht\” der YaCy-Peers etwa 3000 Peers meldet ist das Peers nach etwa 50 Tagen bis 2 Monaten ununterbrochener Abwesenheit aus der lokalen Datenbank der einzelnen YaCy-Peers gelöscht werden. Mein yacyDNS wird ebenfalls Peers die mehr als etwa 2 Monate nicht mehr gesehen wurden löschen, das ist bisher noch nicht passiert weil es einfach noch nie lang genug lief aber da nun die interne Datenbank nicht mehr verloren geht wird das demnächst eintreffen, so das sich die Anzahl der bekannten Peers ebenfalls auf einem bestimmten Level einpegeln wird.

TmoWizard hat geschrieben:\ Es konnte also kein Server erreicht werden\

Welche Server konnten nicht erreicht werden?
Eine derartige Fehlermeldung habe ich bisher noch nicht gesehen, ich hab zwar erlebt das eine DNS-Anfrage mal verloren geht aber dann probiert dig es innerhalb weniger Sekunden einfach noch einmal und dann normalerweise mit Erfolg. UDP garantiert keine gesicherte Übertragung so das hin und wieder mal mit einzelnen Verlusten zu rechnen ist aber das stellt für DNS üblicherweise kein Problem dar.
DNS per TCP hab ich noch nicht eingebaut aber das kommt auch bald, TCP wird von DNS normalerweise nur benutzt wenn mehr als die klassischen 512 Byte pro DNS-Packet übertragen werden sollen und da die DNS-Antworten von yacyDNS bis jetzt immer in 512 Byte passen besteht da kein Grund zur Eile.

TmoWizard hat geschrieben:\ Ist eine \"Query time: 93 msec\" nun gut oder schlecht?\

Eigentlich eher schlecht, ich hab hier etwa 20 bis 35 Millisekunden (wobei [b]{style=“font-weight: bold”}.yacy.info tendenziell schneller ist als [a]{style=“font-weight: bold”}.yacy.info, beides sind aber nur virtuelle Server die sich CPU und Netzwerk-Interface mit weiteren virtuellen Servern teilen müssen, echte dedicated Server wären besser sind aber nicht für 1,30 Euro/Monat verfügbar). Bis 100 Millisekunden ist aber normalerweise tolerabel.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Nov 25, 2014 6:39 pm


Fragen und Antworten • Re: Double-Check Queue

Date: 2014-11-25 19:03:36

Hallo,

\ I 2014/11/25 17:35:59 HTCACHE storing content of url , 31588 bytes\

Also das dort immerhin 30kBytes geladen wurden zeigt doch das der Weiterleitung gefolgt wurde, die Weiterleitung selber dürfte nicht mal 1 kByte benötigen. Das und die letzte Zeile im Log lässt mich vermuten das der Crawler irgendein Problem damit hat diese Daten der gecrawlten Domain zuzuordnen.

\@Orbiter:
die ersten 7 Zeilen in dem Log deuten IMHO darauf hin das gar keine echte Internetverbindung besteht oder werden die tatsächlich relevanten IP-Adressen nicht geloggt?

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Nov 25, 2014 7:03 pm


Fragen und Antworten • Re: Updateproblem

Date: 2014-11-25 20:28:26

Wüsste nicht, dass ich etwas besonders mache.

YaCy läuft auf Windows 7 64 Bit mit 16GB RAM, einer SUN Java-Umgebung (1.7), bedient mit Mozilla-Firefox.
Es läuft auch sehr stabil und rund mitlerweile. (Großes Lob, hat sich viel getan, seit ich dazugestoßen bin.)

Ich weiß nicht ob es davon kommen kann, einmal hatte ich ein Problem:
YaCy wurde ursprünglich auf D: installiert. Nach einem (früheren) Update, bei welchem er wohl die Einstellungen nicht übernommen hat, war YaCy dann auf C:
Dannach habe ich aber, meine ich, YaCy auch nochmal von Hand deinstalliert und auf C: frisch installiert. (mit gesicherten Daten, wg. Test...)

Statistik: Verfasst von Fiz-kun — Di Nov 25, 2014 8:28 pm


Mitmachen • Re: yacy.net wird von Check Point als File-Sharing gebrandma

Date: 2014-11-25 21:27:58

Ja. Bei mir auf Arbeit. Öffentliche Forschungseinrichtung. Egal ob man übers Intranet auf yacy.net gehen will oder über das Gast-WLAN.

Ich gehe nicht davon aus, dass das bei uns absichtlich mit der Hand eingetragen wurde. Allerdings bin ich mir nicht sicher, ob sich auch fremde Blocklisten, also die nicht von Check Point selbst sind, dort eingespielt werden (können). Ich frag das auch erst mal nicht weiter ab, um keine schlafenden Hunde zu wecken.

Was mich eben stark wunderte ist die Klassifizierung als P2P Sharing Plattform.

An sich erreicht man mit der Maßnahme nichts. Denn ich kann das Programm jederzeit mit m Stick mitbringen und laufen lassen oder über meinen privaten Server dort hin runter laden. Effektiv ist das also doch nur wieder mal Internet-Zensur. Auch, wenn es nicht so benannt ist und wohl eher ein Abfallprodukt der Zensur ist. Wie fast immer, wenn irgendo sowas verwendet wird. Man schießt immer übers Ziel hinaus.

Statistik: Verfasst von fherb — Di Nov 25, 2014 9:27 pm


Solr Support • Lucene geht auf Java 8

Date: 2014-11-25 21:48:31

https://issues.apache.org/jira/browse/LUCENE-5950

das ist noch nicht der stable branch aber es kann dann wohl nicht lange dauern bis das kommt...

Statistik: Verfasst von Orbiter — Di Nov 25, 2014 9:48 pm


Fragen und Antworten • Re: Yacy Toolbar

Date: 2014-11-25 22:11:15

Danke! Hoffentlich findet sich jemand.

Das Plugin läuft mit der aktuellen Firefox-Version nur bedingt. Es auf der Plug-in-Seite einfach freizuschalten lohnt also nicht.

Es lässt sich konfigurieren, stürzt nicht ab. Der Proxy scheint nicht mehr zu gehen (API-Zugriffe veraltet?). Muss ja auch nicht (wie schon an anderer Stelle diskutiert wurde). Aber auch das Crawlen mit der Hand scheint nicht mehr richtig zu funktionieren: Bei mir wird beim Aktivieren nur ein Crawl-Job einer Seite angezeigt. Dann ist wieder Ruhe. Obwohl ich in der Bar eingetragen habe, dass bis zu einer bestimmten Tiefe gecrawlt werden soll. Möglicherweis ist die API zwischen der Bar und YaCy auch nicht mehr 100% konsistent.

So komplex ist die YaCy-API ja eigentlich nicht. Das sollte jemand mit Firefox-Erfahrung hinbekommen, auch ohne YaCy im Inneren zu kennen.

[Browser-Plugin für andere Browser:]{style=“font-style: italic”}

Chrome und Internet Explorer wären auch wichtig.

Bei Chrome, habe ich gelesen, sind auch Plugins möglich. Ist das so? Oder ist das zu sehr in der Funktionalität eingeschränkt? Vielleicht kann man auch da in absehbarere Zeit jemanden finden.

Beim Internet Explorer könnte man sich vielleicht \“von hinten ranschleichen\”: Den IE kann man als Engine in der eigenen Applikation aufrufen. Bei Firefox wird das mit dem IE-Tab-Plugin (oder wie das heißt) demonstriert. Ich hatte auch schon mal vor Jahren eine Anwendung, wo man den IE damals noch als ActivX einbinden konnte. .NET geht bestimmt. Man könnte also einen YaCy-IE bauen. Also eine Applikation, die den IE einbindet und letztlich nichts als den IE selbst plus die gewünschte \“Plug-in-Funktionalität\” enthält. - Wenn ich an das ActivX denke, könnte es sich im Umfang für jemanden der weiß, wie er es umsetzen muss, um nur ein Wochenendprojekt handeln. Diese App könnte man neben YaCy bei einer Windows-Installation mitinstallieren. Im Prinzip ist das ja fast nichts, weil im Wesentlichen auf die IE-Engine des Betriebssystems zurückgegriffen wird. Der Nutzer kann sich dann aussuchen, wie er den IE startet. - Oder stelle ich mir das zu leicht vor?

Ich werde die Tage mal n Kollegen fragen, der mit Qt auf Windows entwickelt, ob man damit \“um den IE herum bauen\” kann. Würde mich doch wundern, wenn es da keine Schnittstelle zu .NET Objekten gäbe.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Di Nov 25, 2014 10:11 pm


Fragen und Antworten • Re: Memory problems

Date: 2014-11-25 23:03:26

Hello,

I would like to move this topic again back as an actual agenda item.

Last winter time I checked Yacy at different systems and now I restartet this process. The main reason is to use a vServer with a blog also as a YaCy system. The blog doesn\’t use the power of two Intel E5 cores, 2/4GByte RAM and 200GByte HDD. The second is to let run YaCy at home. In combination of an desktop (crawling and indexing during it is on) and an ARM system to host the solr and to host the YaCy user interface for search questions and Index/DHT-Transfer with other Peers.

My problem is that after some days/weeks of work the Java system with YaCy begins to produce out of memory problems. I thought to understand that YaCy stops crawl and DHT-receive in case the memory runs short. But it looks like that it isn\’t so:

I tried the last two days to adjust the [RAM disable DHT-in below]{style=“font-style: italic”} value at the admin page Performance_p.html (OS is Ubuntu)

I can set the value to a very, very small value. Also to a middle value (half of the physical RAM) or to a value higher than my physical memory space is. Never YaCy stops the DHT-in! I don\’t know if YaCy has also to stop crawling in case of to less RAM. But the trigger für DHT-in came never. (used with the actual release)

[The second question is more principle: How I have to adjust the memory parameters?

For example: ]{style=“font-weight: bold”}

* My system should have 2GByte RAM. (It\’s not much, but in this case only theoretical and a real value in comparison of the standard of 600MB for YaCy-Java-Runtime-Environment after installation.)
* I would like be sure that my operating system inclusive all small tasks and admistrations tools has ever 400MByte for this purpose. So YaCy inclusive solr should never use more RAM than 1,6GByte.

[How I have to adjust the parameter of YaCy to get such a configuration?]{style=“font-weight: bold”}

[In my current opinion (as an example),]{style=“font-weight: bold”}

* I would set the xmx-value in the yacy.conf to about 1200MByte. I saw that we have to calculate, that Java will use about 20% more than the value of xmx. Why ever.

* Now, to be save with this configuration, I would set the [RAM disable DHT-in below]{style=“font-style: italic”} value at 1000MByte. So I hope that Yacy will stop to increase the DHT-Table in RAM at this moment where it starts to need more than 1GByte RAM. My hope would be that YaCy would have a RAM-buffer of additional 200Mbyte starting with the DHT-in-stop (1GByte) until the worst value for the Java engine of 1,2GByte in order to keep stable.

But the last time shows that either I missunderstood this all or somthing doesn\’t work like as provided.

I think, somethig would help the user if the adjustment of the parameters for special RAM configurations would be explained in the Wiki.

May somebody help?

Best regards,
Frank

Statistik: Verfasst von fherb — Di Nov 25, 2014 11:03 pm


Fragen und Antworten • Re: Memory problems

Date: 2014-11-26 00:17:41

[...additional to the last post, following observation:]{style=“font-weight: bold”}

Yacy runs in this case at a RaspberryPi since some days. Without crawling and without solr. This Yacy is connected to an other solr at an other Linux system. This Yacy runs really fine and the response times at the user web front end is suprising good, [but:]{style=“font-weight: bold”}

- Without Yacy, the OS inclusive a running htop needs 82MByte of RAM.

- If I look with htop and subtract this basic load from the current used 378MByte of RAM, so Yacy uses in this moment 296MByte of physical RAM (484MByte).

- xmx was set to 220MByte

The page status.html shows:
- RAM used 92,12MB
- RAM max 212,75MB

At performance_p.html the parameter \“RAM disable DHT-in below\” was set to 150MB. The physical RAM of this system is 484MByte but the [DHT-in disable]{style=“font-style: italic”} is not yet triggered.

How I have to understand these values?

Does it be important that this system knows a swap file of 999MByte? (but it uses in this moment only 2MByte of this)

How are the really coherences between these memory values?

Best regards, Frank

Statistik: Verfasst von fherb — Mi Nov 26, 2014 12:17 am


English • Re: How to get YACY working as a proxy

Date: 2014-11-26 23:37:46

If our admin & user pages are not visible in our cloud installation because of this message

\ HTTP ERROR: 403\ \ Problem accessing /. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\ Powered by Jetty://\


What file do we change and what is required and where is it please?

We moved the DATA folder from the installation, in Ubuntu used sudo apt-get remove yacy and then reinstalled it with sudo apt-get install yacy
and yet the same message reappears in the new install.
What is wrong and how to fix it manually please?
Many thanks!

Statistik: Verfasst von xioc752 — Mi Nov 26, 2014 11:37 pm


English • Re: How to get YACY working as a proxy

Date: 2014-11-27 10:55:24

Hello,

xioc752 hat geschrieben:\ our admin & user pages are not visible in our cloud installation because of this message\

This Message is caused by a Bug in YaCy.
You have the \“transparent Proxy\” disabled, this is correct if you do [not]{style=“text-decoration: underline”} want to route all your HTTP-Traffic to the public Internet through your YaCy-Peers. The lead through of information through a YaCy-Peer is only necessary/useful if your Peer must crawl all this informations for adding it to its local Index. If your local Index is only used for Data from your local Intranet and you use the dedicated Crawler-Jobs of your YaCy-Peers for crawling it, then you should not use the transparent Proxy in YaCy.
The Problem is caused by the design decision for using the same TCP-Port for the Proxy and for the HTTP-Server (that serves the admin & user pages). That means there must be a piece of Code that decide for [all]{style=“text-decoration: underline”} incoming connections which internal service (Proxy or HTTP-Server) must handle the incoming connection. This kind of decision can not be perfect for all possible situations, and it seems that you have a situation that trigger the problem. In your situation YaCy decides that the incoming connection (your accesses to the admin & user pages) should handled by the Proxy, but the Proxy is disabled and respond with the well known 403-Error-Page.

There exist at the moment no real workaround for this problem, but sometimes it can help to restart the YaCy-Peer.

Greetings
Erik

Statistik: Verfasst von Erik_S — Do Nov 27, 2014 10:55 am


Hilfe für Einsteiger und Anwender • Re: Status API question

Date: 2014-11-27 23:00:31

yes it contains also global values but they are all the same as you see on the Crawler_p.html page. This page takes the info directly from the xml using AJAX updates.
There is no documentation available, but the Crawler_p.html page itself documents the values pretty well.

Statistik: Verfasst von Orbiter — Do Nov 27, 2014 11:00 pm


Wunschliste • Re: Thesaurus / Stemming / Synonyme

Date: 2014-11-28 11:47:23

Stemming-Dateien habe/kenne ich leider nicht.

Mir ist nur eben eingefallen, dass ich vor einiger Zeit mal http://de.wikipedia.org/wiki/Soundex implementiert habe, womit man relativ einfach mehr oder weniger ähnlich klingende Wörter identifizieren kann. Eigentlich wollte ich noch mehr Algorithmen in der Richtung implementieren, nur bin ich dann nie dazu gekommen.

Die Implementierung liegt hier: https://gitorious.org/my-personal-java-toolbox/my-personal-java-toolbox/source/MyPersonalJavaToolbox/src/de/audioattack/mpjtb/lang/soundex

Im Wikipedia-Artikel zum Soundex wird auch auf http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus verwiesen. Ein paar Klicks weiter landet man dann bei http://tartarus.org/~martin/PorterStemmer/java.txt. Das Programm enthält auch eine main-Methode zum Einlesen und Verarbeiten von (englischen) Wortlisten. Damit sollte es möglich sein, selbst eine Stemming-Datei zu erzeugen.

Statistik: Verfasst von Low012 — Fr Nov 28, 2014 11:47 am


English • Re: How to get YACY working as a proxy

Date: 2014-11-28 22:46:23

Thank you very kindly for your most interestingly detailed & educational reply.
I am concerned that the error was accidently - induced -, however, and not the result of an environmental problem.
It worked before.

The server is in Robinson mode, one of 2 separate servers that read each other but do not write to each other.
Each server has its own collection of topic focused RSS instructions that repeat daily or more frequently and individual URLs that are inserted via \“Advanced Crawler\”: items to ALSO crawl & index from the open Internet.
There is no intranet.

Searches go to one of the servers, and to generate results, that consults its own and the remote server solr files.

The error comes, I believe, from a mistake I made in configuration of the proxy choices. Lack of experience.
Can you tell me please what is the file and where & how can I edit it to the correct \‘default\’ setting?
It worked before I made the mistaken proxy instruction change.

Hence, the result of the error in configuration is as described before. There is so little documentation on this issue. =Newbie problem
You are so experienced in this. Perhaps you could pm me, please? Thank you very kindly.

Statistik: Verfasst von xioc752 — Fr Nov 28, 2014 10:46 pm


English • Re: How to get YACY working as a proxy

Date: 2014-11-29 13:10:17

Hello,

xioc752 hat geschrieben:\ Thank you very kindly for your most interestingly detailed & educational reply.\

I do my best, i hope my terrible englisch is not a big problem.

xioc752 hat geschrieben:\ I am concerned that the error was accidently - induced -, however, and not the result of an environmental problem.\ It worked before.\

Here i have an other opinion.
The Code that decides between handling of incoming connections by Proxy or by HTTP-Server is not configurable, it uses the YaCy-internal view about your environment for its decision.
This Code ask the question \”[Is this incoming connection for my YaCy-Peer?]{style=“font-style: italic”}\” and do test the Host-Field in the HTTP-Request-Header of the incoming connection against the YaCy-internal view about your environment. If the Code thinks the requested Host-Name in the incoming HTTP-Connection means the Computer on witch YaCy runs than the incoming connection is handled by the HTTP-Server and in all other cases the incoming connection is handled by the Proxy, independent from the Enable-State of the Proxy. As far as i know, independent from all configuration. This decision depends only on the YaCy-internal view about its environment and this internal View can change over time. Some YaCy-Peers have a real problem by detecting all IP-Addresses owned by the Computer and than it cannot correctly decide, for all incoming connections on all IP-Addresses, that the connections targets the YaCy-Peer itself. That means the 403-Error can depend on the IP-Address entered into the Address-Line of your Browser, in cases you use directly the IP-Address of the Computer where YaCy runs. The same problem exist for Host-Names, if you access a YaCy-Peer on a Computer by a textual Host-Name than the addressed YaCy-Peer must \“know\” that the Host-Name is owned by its Computer. This Kind of Informations can never be complete (there exist an [in]{style=“text-decoration: underline”}finite number of ways to addressing a computer) and there exist always a gap in the YaCy-internal view about its environment that trigger the 403-Error-Problem.

The only real solution for this Problem is to split the HTTP-Server and the Proxy to two independent TCP-Ports and removing the Decision-Code for selection the \”[correct]{style=“font-style: italic”}\” Service. A short workaround for the meantime can be a change of the Decision-Code for using always the HTTP-Server in cases there the Proxy is disabled but this removes the Problem only for the People that do not use the Proxy. Removing the entire Proxy completely can also be a solution, because the usefulness of the Proxy-Crawler decreases by the increasing of encryption in the Internet. In all ways, this must be done by the developers of YaCy and not by the Users of YaCy.

In this forum, we talk about this Problem for months. You are not the first YaCy-User that observe that this Error-Message comes or goes without any modification on the YaCy-Peer or the way to accessing it.

xioc752 hat geschrieben:\ The error comes, I believe, from a mistake I made in configuration of the proxy choices.\

If you do not want to use the internal Proxy of the YaCy-Peer than disable it, there is nothing else that you can do.

xioc752 hat geschrieben:\ Perhaps you could pm me, please?\

In my opinion, there is nothing that i can do for you, sorry. I am not one of the YaCy-Developers.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Nov 29, 2014 1:10 pm


English • Re: How to get YACY working as a proxy

Date: 2014-11-29 16:02:12

Ah, thank you! You are most kind to explain this.
Apparently, I am not alone - though it provides little comfort when neither the admin nor the user end displays.

Please regarding to your comment

\ xioc752 wrote:\ The error comes, I believe, from a mistake I made in configuration of the proxy choices.\ If you do not want to use the internal Proxy of the YaCy-Peer than disable it, there is nothing else that you can do.\


could you please tell me the name of the file, where it is, and the line or reference and what to change it to to reverse the problem?
You wil remember that the error message is as follows

\ Problem accessing /Status.html. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\


hence we need to opposite condition - which I hope will \‘cure\’ the problem.
Thanks for your generous and kind help & advice!

Statistik: Verfasst von xioc752 — Sa Nov 29, 2014 4:02 pm


English • Re: How to get YACY working as a proxy

Date: 2014-11-29 18:39:02

Hello,

xioc752 hat geschrieben:\ hence we need to opposite condition - which I hope will \'cure\' the problem.\

The opposite is an enabled Proxy. But neither the admin pages nor the user pages of the internal HTTP-Server are reachable through the Proxy. The Problem is not inside the Proxy or its configuration, the problem is inside the small piece of Code that decide witch internal Service (Proxy or HTTP-Server) should handle an incoming connection. If this small piece of Code decide that an incoming connection must handled by the proxy than you can not reach the admin or user pages of the internal HTTP-Server. The problem is not the street behind the junction/intersection, the problem is the decision on the junction/intersection. But this decision is not controllable / configurable by the user.

Okay, the real problem is that this kind of decision can [never]{style=“text-decoration: underline”} be perfect for [all]{style=“text-decoration: underline”} possible ways to access a Computer with TCP/IP. That means the real problem is not inside the small piece of Code, the real problem is the existence of this Code. The only effective way to solve this problem is to remove this small piece of Code completely and to use a design that do not need this kind of Code.

I am sorry for saying this but there is nothing that you or i can do, the only persons that can do something are the developers of YaCy. Perhaps you could report this problem as Bug.
You can try to change the environment or you can try to change the way you use to access the Peer (switch from plain IP-Addresses to Host-Names or something similar) but beyond that, i can do nothing for you, sorry.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Nov 29, 2014 6:39 pm


Fragen und Antworten • Portal-Konfiguration lässt sich nicht aufrufen

Date: 2014-11-30 11:28:06

Die Seite \“Portal Konfiguration\” lässt sich bei mir nicht aufrufen.

Code:
HTTP ERROR 500Problem accessing /ConfigPortal.html. Reason:    Server ErrorCaused by:javax.servlet.ServletException: /usr/share/yacy/DATA/LOCALE/htroot/de/ConfigPortal.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:497)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:540)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:610)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:539)   at java.lang.Thread.run(Thread.java:745)



Die Seite an sich ist auf dem System vorhanden

Code:
root@yacy-test:~# ls -la /usr/share/yacy/DATA/LOCALE/htroot/de/ConfigPortal.html-rw-r--r-- 1 yacy yacy 13126 Nov 30 08:18 /usr/share/yacy/DATA/LOCALE/htroot/de/ConfigPortal.html



Ist das ein Konfigurationsproblem?

Das System ist ein Ubuntu-Server 14 LTS mit dem aktuellen Yacy-Paket aus dem Repository

Grüße : Athea

Statistik: Verfasst von athea — So Nov 30, 2014 11:28 am


Off-Topic • projectsearch.yacy.de

Date: 2014-11-30 12:21:21

Hallo,

wenn ich auf http://projectsearch.yacy.de suche, wird nur

Code:
loading...

eingeblendet, auf die Trefferliste warte ich vergeblich :roll:.

Gruss, flegno

Statistik: Verfasst von flegno — So Nov 30, 2014 12:21 pm


English • YaCy is staring message but it never starts.

Date: 2014-12-01 00:36:32

Hi,

I am having this problem after my Windows PC went to hibernation while YACY was running:

Now when I start YaCy i just get the YACY icon in the taskbar\’s notification area, but when I hover there\’s a \“YaCy is starting please wait...\” messagage all the time, all options are grayed out.

Please help, thanks :)

Statistik: Verfasst von captainborzo — Mo Dez 01, 2014 12:36 am


YaCy Coding & Architektur • HostBrowser collected x urls for path y

Date: 2014-12-01 05:29:41

Hi,

ich habe mal wieder eine riesige Menge an Indexdaten umkopiert und og. Prozedur läuft jetzt schon seit über 2 Monaten. Frage: Wenn ich den Peer jetzt herunterfahre, fängt das beim erneuten Starten von vorne an oder wird es an der Stelle fortgesetzt, wo es unterbrochen wurde?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Mo Dez 01, 2014 5:29 am


Hilfe für Einsteiger und Anwender • Trefferlisten: empfehlen, löschen, Lesezeichen setzen

Date: 2014-12-01 12:04:09

Hallo,

Wo kann ich die Funktionsweise von Schaltflächen [empfehlen, löschen, Lesezeichen]{style=“font-style: italic”} setzen, die in der YaCy-Trefferliste

empfehlen-loeschen-lesezeichen.jpg für den angemeldeten Benutzer eingeblendet werden, nachschlagen?

Gruss, flegno

Statistik: Verfasst von flegno — Mo Dez 01, 2014 12:04 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2014-12-01 15:08:40

Debian Jessie (kommt nächstes Jahr, ist noch \“testing\“) bringt immer noch OpenJDK 7 mit. OpenJDK 8 ist zur Zeit bei Debian noch \“unstable\“. :(

Statistik: Verfasst von Low012 — Mo Dez 01, 2014 3:08 pm


Mitmachen • YaCy\@31c3

Date: 2014-12-02 15:37:30

Ich werde beim 31c3 sein und mache da wieder ein YaCy im Congress-Netz für die lustigen FTP/SMB Server.
Wer kommt noch?

Statistik: Verfasst von Orbiter — Di Dez 02, 2014 3:37 pm


English • Re: How to get YACY working as a proxy

Date: 2014-12-02 16:59:26

Erik\_S hat geschrieben:\ The Problem is caused by the design decision for using the same TCP-Port for the Proxy and for the HTTP-Server (that serves the admin & user pages). That means there must be a piece of Code that decide for [all]{style="text-decoration: underline"} incoming connections which internal service (Proxy or HTTP-Server) must handle the incoming connection. This kind of decision can not be perfect for all possible situations, and it seems that you have a situation that trigger the problem.\



well, the decision does very well use the definition of access rules to http services and proxy services, both use the same GET command with all the http properties attached, the ONLY difference is, that after the GET comes a single path if that is an access to a web server and a complete URL if that access is an access to a http proxy. This difference is so easy to detect that it would be absurd to open for that an extra port and a whole new server.

\@chetwisniewski
- what kind of client do you use to access YaCy (i.e. which browser?)

I believe the problem comes from the fact that you configured a proxy in your browser. If so, just switch that off.

Statistik: Verfasst von Orbiter — Di Dez 02, 2014 4:59 pm


Presse • Re: Blog-Sammel-Thread

Date: 2014-12-02 21:44:01

irgend jemand hat auf http://social.bka.li einen Account \‘yacygit\’ eingerichtet, auf dem die git commits gespiegelt werden:

http://social.bka.li/yacygit

Statistik: Verfasst von Orbiter — Di Dez 02, 2014 9:44 pm


Off-Topic • SQL-Fehler auf forum.yacy-websuche.de

Date: 2014-12-02 22:54:15

Hallo,

sehr häufig bekomme ich diese Meldung beim Zugriff auf http://forum.yacy-websuche.de/

\ [[General Error]{style="color: #FF0000"}]{style="font-size: 150%; line-height: 116%;"}\ [SQL ERROR \[ mysql4 \]]{style="font-weight: bold"}\ User \'web103\' has exceeded the \'max\_user\_connections\' resource (current value: 10) \[1226\]\ An sql error occurred while fetching this page. Please contact an administrator if this problem persists.\

Da dieses Problem seit ein paar Tagen besteht melde ich das hiermit einem Administrator.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Dez 02, 2014 10:54 pm


English • Re: How to get YACY working as a proxy

Date: 2014-12-03 00:01:02

Hello,

Orbiter hat geschrieben:\ the ONLY difference is, that after the GET comes a single path if that is an access to a web server and a complete URL if that access is an access to a http proxy. This difference is so easy to detect\

I have seen a lot HTTP-Connections of this Type:

Code:
GET / HTTP/1.1Host: [IPv6-Address]:8090Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Language: de,en;q=0.5Accept-Encoding: gzip, deflateReferer: http://yacy.info/Connection: keep-aliveHTTP/1.1 403 proxy use not allowed (see Advanced Settings -> HTTP Networking -> Transparent Proxy; switched off).Date: Tue, 02 Dec 2014 22:22:16 GMTCache-Control: must-revalidate,no-cache,no-storeContent-Type: text/html; charset=ISO-8859-1Content-Length: 375Server: Jetty(9.2.3.v20140905)<html><head><meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1"/><title>Error 403 </title></head><body><h2>HTTP ERROR: 403</h2><p>Problem accessing /. Reason:<pre>    proxy use not allowed (see Advanced Settings -&gt; HTTP Networking -&gt; Transparent Proxy; switched off).</pre></p><hr /><i><small>Powered by Jetty://</small></i></body></html>

to some different YaCy-Peers. The 403-Error does not depend on Browser, it does depend on the Host-Parameter in the HTTP-Request (Line 2 in the Quote).

I have Wireshark-Traces about HTTP-Connections to your Peer, some with 403-Error and some with 200-Success, [all]{style=“text-decoration: underline”} of this with a \“GET / HTTP/1.1\” HTTP-Command. The only Difference is the Host-Parameter in the HTTP-Requests, some Host-Names/IP-Addresses are always accepted, some Host-Names/IP-Addresses are sometimes accepted and sometimes rejected (depend on the actual YaCy-Internal View of its environment) and some Host-Names are always rejected. On IP-Level: all Connections go to the same IPv6-Addresse (the one with \”:??FF:FE??:\“)!

Even my yacyDNS-Tool get sometimes an 403-Error and it use always the simple GET-Variant and always the correct Host-Name for the accessed YaCy-Peer.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Dez 03, 2014 12:01 am


Off-Topic • Re: SQL-Fehler auf forum.yacy-websuche.de

Date: 2014-12-03 10:53:31

ich weiss, habs auch ein paar mal gesehen. Keine Ahnung was man da machen kann, vielleicht hat der Hoster da ein Problem. Ich wollte mich da nicht beschweren bevor es nicht viel schlimmer wird.

Statistik: Verfasst von Orbiter — Mi Dez 03, 2014 10:53 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-03 14:24:28

Ich leider nicht. :cry:

Ich könnte nur einen Tag kommen und dann müsste ich auch schon abends wieder weg, was mehr Stress als Spaß wäre.

Statistik: Verfasst von Low012 — Mi Dez 03, 2014 2:24 pm


Mitmachen • Re: yacy.net wird von Check Point als File-Sharing gebrandma

Date: 2014-12-03 14:28:53

Trend Micro sperrt nicht gleich die ganze Seite, aber man kann die .exe von YaCy nicht herunterladen (\“Kategorie: Peer-to-Peer (P2P)\“). Als .tar.gz und .dmg kann man es aber runterladen. :lol:

Statistik: Verfasst von Low012 — Mi Dez 03, 2014 2:28 pm


Hilfe für Einsteiger und Anwender • Tutorial - Monitoring Yacy with Cacti

Date: 2014-12-03 21:43:52

Hello,

If you want to monitor Yacy in Cacti, you can find a tutorial here: https://drive.google.com/file/d/0B8FDexrYy_FKaE9HYVluX3BNdVk/view?usp=sharing

You will also need to have two programs that provide the interface between Yacy and Cacti.

They can be downloaded here: http://www.yacy-websuche.de/wiki/index.php/En:Yacy-Cacti_interface_driver

The tutorial refers to the second program, but the workflow is the same for the first program, except that it reads Network.xml instead of status_p.xml

Statistik: Verfasst von oneaty — Mi Dez 03, 2014 9:43 pm


Hilfe für Einsteiger und Anwender • Re: Tutorial - Monitoring Yacy with Cacti

Date: 2014-12-04 10:44:11

This tutorial assumes you already have Cacti installed.

As far as I know, Cacti is available in Ubuntu repositories.

After installing it, you should also install cacti-spine, which is an upgrade to Cacti\’s default poller (poller.php). Spine is in C and it\’s much faster. Depending on the number of cpe\’s you\’re monitoring, as well as the poller cycle, spine turns out to be a must have.

If you\’re new to Cacti, it\’s highly recommended that you try to produce a basic graph (for example, cpu usage), one of the few bundled ones, before trying to produce the ones shown in the tutorial.

In that case, you probably need to install snmp, since those bundled grpahs use snmp as their data input method.

By producing a standard graph, you will validate your installation and make sure everything is ok.

Statistik: Verfasst von oneaty — Do Dez 04, 2014 10:44 am


English • Re: How to get YACY working as a proxy

Date: 2014-12-06 12:12:20

Hello,

3 days without any reaction, that makes me sad. Is for this problem really nothing to write? Can anybody confirm or refute my observations about the HTTP/Proxy-Problems in YaCy?
In this forum we talk since more than 2 months about the 403-HTTP-Error and it seems that the responsible developer do not have any analysis (made by himself) about it.
I offered my help for resolving problems on the IP-communication-level multiple times, always without any reaction. There are many problems.

Orbiter, the truth is, your [non]{style=“text-decoration: underline”}reaction is exactly the (by me) expected reaction.
The real reason for my sadness is the fact that YaCy is a very cool project and the idea behind YaCy has a big potential. But without the needed work on the basics (IP-communication is a basic engine for a Peer-to-Peer-Search-Application) this project would die.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Dez 06, 2014 12:12 pm


Fragen und Antworten • Re: Release Notes - Neuerungen der einzelnen Versionen

Date: 2014-12-08 11:30:05

schöne Release Notes gibt es jetzt hier: http://yacy.net/release_notes/ .. die werden nun automatisch generiert.

Statistik: Verfasst von Orbiter — Mo Dez 08, 2014 11:30 am


English • Re: How to get YACY working as a proxy

Date: 2014-12-09 02:06:27

actually, I have never seen this bug myself and I pointed out that too heavy problems with the proxy will cause that I will remove the proxy instead of fixing this. Currently there are very much other things much more pressing than a function that I do not want to support and where I not even can recognize a problem.

But here is the solution:
- get your hands on the code
- submit a fix

Statistik: Verfasst von Orbiter — Di Dez 09, 2014 2:06 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-10 08:40:05

Ich habe die beiden Tage vor Weihnachten Urlaub und vielleicht bleibt ja nch Weihnachtsbaumaufstellen, Geschenkeverpacken, Aufäumen noch ein bisschen Zeit. Eventuell könnte ich die App vom letzten Jahr recyceln und eine Android-App zusammenzimern. Interesse?

Statistik: Verfasst von Low012 — Mi Dez 10, 2014 8:40 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-10 11:43:36

oh super, hab auch schon überlegt ob ich die reaktivieren soll. Da gab es ja auch noch eine 30c3 App von fkp{.postlink} und ich erinnere mich dass es da die Möglichkeit einer \‘best of both worlds\’ gibt..:

Low012 hat geschrieben:\ >
> > fkp hat geschrieben:ich habe auch mal eine App geschrieben.\ > >



...und die ist richtig schnell! Ich habe die Daten als XML abgerufen und die maximale Anzahl der Ergebnisse auf 3000 gesetzt. Bei dir mit JSON und 20 Ergebnissen (?) merkt man kaum eine Verzögerung zwischen Bestätigung der Eingabe und Anzeige der Ergebnisse. Bei einer guten Anbindung und einem nicht übertrieben großen Index könnte man mit YaCy wahrscheinlich eine nette \“endlos\” scrollende Liste basteln.

Naja, wenn ich mal Zeit habe (Hö! Hö!) mache ich meine App nochmal in Schön und mit einstellbarer YaCy-URL.



Jedenfalls ist der Suchserver für den 31c3 schon up, unter http://31c3.yacy.net, den könntest du bereits abfragen. Hatte das getwittert und seit dem ist da auch traffic drauf, denn der ccc hat retweetet{.postlink}, zu 74.000 follower... :)
Bitte deine neue App gleich in ein git repository, will das pushen damit sich mehr drauf stürzen, dafür gibts ja offenbar Bedarf!

Statistik: Verfasst von Orbiter — Mi Dez 10, 2014 11:43 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-10 12:24:41

Orbiter hat geschrieben:\ [Hab im 31c3 Conference-Wiki bereits hierauf verlinkt ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green") ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green") ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green")](https://events.ccc.de/congress/2014/wiki/Projects:YaCy#Android_App){.postlink}\


Na dann muss ich wohl...

Statistik: Verfasst von Low012 — Mi Dez 10, 2014 12:24 pm


YaCy Coding & Architektur • Re: IPv6

Date: 2014-12-10 18:26:01

Hallo,

nur mal als Info zur aktuellen Lage:
Nicht-routbare IP-Adressen scheinen ein Comeback feiern zu wollen, es sind u.a. 0.0.0.42 (von einem YaCy-Peer mit Version 1.81009160) und 0:0:0:0:0:0:0A2A:???? + 0:0:0:0:0:0:7F00:0001 (von einem YaCy-Peer mit Version 1.81009256) aufgetaucht. Mich würde wirklich mal interessieren was für ein Betriebssystem solche IP-Adressen meldet. Die 0.0.0.42 ist bei dem betreffenden Peer die einzigste IP-Adresse in der Seed-Liste (gesehen bei etlichen anderen Peers da der betreffende Peer selber so natürlich nicht ansprechbar ist, trotz Senior-Status) im Feld \“IP\” und im Feld \“Address\“, das Feld \“IP6\” ist leer. Die anderen beiden IP-Adressen sind offensichtlich in IPv6 verkappte IPv4-Addressen (10.42.??.?? und 127.0.0.1) welche ebenfalls offensichtlich nicht routbar sind aber normalerweise werden IPv4-Adressen per ::FFFF:0:0/96 Prefix in IPv6 verpackt aber das scheint beim betreffenden Betriebssystem wohl nicht zu funktionieren (zumindest der Java-VM kann man für diesen Murks keine Schuld zuweisen). Dieser Peer meldet noch weitere IPv6-Adressen (alle im Feld \“IP6\“) und ist über diese auch tatsächlich erreichbar (der Senior-Status ist also berechtigt). Manchmal meldet dieser Peer auch nur eine einzelne IPv4-Adresse welche aber offensichtlich zu Carrier-Grade-NAT gehört (der IPv4-Adress-Range gehört einem Provider aus New York und ist wirklich recht klein) und somit nicht funktioniert aber über wechselhafte Ansichten der YaCy-Peers über ihre eigene Erreichbarkeit hatten wir ja schon mal ergebnislos nicht diskutiert.

Ich bin was die YaCy-Versionen angeht nicht ganz auf dem laufenden aber beide Peers scheinen mir doch sehr aktuell zu sein. Alle IP-Adressen die in den ersten 8 Bit mit 00 anfangen sind niemals global routbar, das gilt sowohl für IPv4 (0.?.?.?/8) als auch für IPv6 (00??::/8).

Der zweite Peer macht auf jeden Fall Hoffnung das zukünftig auch Peers die nur noch eine kastrierte IPv4-Konektivität haben trotzdem Senior-Status erlangen können und somit einen wertvollen Beitrag zum YaCy-Netzwerk als ganzes leisten können.
Ich würde es sehr begrüßen wenn die verbliebenen Probleme mit IPv6 und generell wechselnder Erreichbarkeit demnächst gelöst würden und das ganze als Stable-Release verfügbar wäre.

Es gibt derzeit doch schon einige YaCy-Peers die per IPv6 und IPv4 erreichbar sind und auch stabil im 247-Betrieb laufen, ich bin recht zuversichtlich das diese Anzahl mit der nächsten Stable-Release weiter steigen kann.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Dez 10, 2014 6:26 pm


English • Re: How to get YACY working as a proxy

Date: 2014-12-10 19:08:50

Hello,

Orbiter hat geschrieben:\ actually, I have never seen this bug myself\

Sure? I can not believe!
I have send you a Link to your Peer that always result in an 403-Error, has you tested it?
If i use yacy.info/{.postlink} from an IPv6-enabled Internet-Connection comes approximate 20 percent of all randomly showed Peers with an 403-Error. Try it.
If you want i can send you a list of YaCy-Peers that mostly respond with an 403-Error (but only as PN, i will respect the privacy of the peer owners).

Orbiter hat geschrieben:\ and I pointed out that too heavy problems with the proxy will cause that I will remove the proxy instead of fixing this.\

This Problem is not inside the Proxy, this problem is in front of the Proxy. And this Problem does not affect the Proxy, this problem does affect the internal HTTP-Server and this is (in my opinion) a very important part of the YaCy-Software.

Orbiter hat geschrieben:\ other things much more pressing\

This is a hit in xioc752\’s face. He runs two YaCy-Peers and 50 percent of this are not accessible, in my opinion this is a very high pressure.

Orbiter hat geschrieben:\ a function that I do not want to support\

Okay, you will not support the proxy (i do understand this) but do you want to support the HTTP-Server?

Orbiter hat geschrieben:\ and where I not even can recognize a problem\

It may be that you are not able to see this problem but you can ask us.

Orbiter hat geschrieben:\ But here is the solution:\ - get your hands on the code\ - submit a fix\

Sure? I have offered my help multiple times, always without any reaction. And now this, why?

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Dez 10, 2014 7:08 pm


English • Re: How to get YACY working as a proxy

Date: 2014-12-10 21:35:52

I tried yacy.info which worked fine without exceptions. I reloaded about 20 times without one error.
I looked into the YaCy http server code (again) there is not even a code line which contains the number \“403\” or HttpServletResponse.SC_FORBIDDEN.
From my view this error does not exist and there is no code that it can produce.

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:other things much more pressing\ > >

This is a hit in xioc752\’s face.


From a moderators point of view, this is a far too inappropriate proposition to be acceptable.
As a forum moderator I suggest you take a time-out from this place.

Statistik: Verfasst von Orbiter — Mi Dez 10, 2014 9:35 pm


English • Re: Recomend number of characters for each title in SOL inde

Date: 2014-12-11 09:45:57

smokingwheels hat geschrieben:\ It mainly looks like a lot of extended ASCII characters eg above code 127.\


I believe that should be UTF-8

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 9:45 am


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App?

Date: 2014-12-11 09:54:34

eine email-Benachrichtigung wäre ein lustige Sache, würde aber bedingen dass der informierende Peer sowohl deine email-Adresse als auch einen Mail Server inklusive Login-Daten kennt. Wenn beides deine eigenen Account sind, ist das wahrscheinlich kein Problem, denke ich. Emails per Java zu versenden sollte auch nicht so schwierig sein. Ich habe aber ein bisschen Bauchschmerzen bei dem Gedanken dass YaCy da zu einem SpamBot-Tool missbraucht wird...

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 9:54 am


Hilfe für Einsteiger und Anwender • Re: Wiki co ntribution

Date: 2014-12-11 10:07:41

sorry for the late answer.. I like this a lot and try to push it to the public a bit, maybe we get more users for this:
https://twitter.com/yacy_search/status/ ... 9103342592{.postlink}

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:07 am


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2014-12-11 10:18:23

meinst du den HostBrowser, der nun im Menü IndexBrowser heisst? Du wartest seit 2 Monaten auf das Öffnen des Servlets? Eieiei, also irgendwie läuft da was falsch, da ist auch ein interner Time-Out auf 10 Sekunden. Dieses Servlet versucht ja eine Rekonstruktion der ursprünglichen Verzeichnisstruktur und dafür war die Indexdatenstruktur nie ausgelegt. Daher gibt es dort einen Time-Out auf die Rekonstruktion dieser Struktur. Was du mit \“collected x urls for path y\” meinst weiss ich nicht.

Deine Frage scheint ja auch unabhängig von dem Forumsthread-Titel zu sein. Du fragst \‘fängt das von vorne an\’ - was fängt von vorne an? Wenn du das Umkopieren meinst - das ist doch eine Sache die du ausserhalb von YaCy machst.

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:18 am


Hilfe für Einsteiger und Anwender • Re: Trefferlisten: empfehlen, löschen, Lesezeichen setzen

Date: 2014-12-11 10:29:33

nirgendswo :)
Das waren Experimente im Kontext zu Empfehlungs-Votes und Bookmarks:

\‘+\’ erzeugt ein +Vote für die URL. Dieses Vote wird als News-Info in deiner Seed-Information propagiert. Das Propagieren siehst du in /News.html?page=3. Das Ergebnis dieser Propagierung aller User ist in den \‘Surftips\’ zu sehen: /Surftips.html - leider steht da nicht viel drin und die Spam-Gefahr ist hoch. Das ganze war eine Idee die in der Vergangenheit als der heilige Gral des \‘Community-Suchen\’ angesehen wurde, ganze Projekte haben darauf aufgesetzt, unter anderem das französische Seeks-Projekt. Diese Surftipps haben ganz lustige Funktionen, z.B. werden URLs mit mehreren + Votes weiter nach oben gelistet (die + Votes ranken also) aber es gibt bei diesem Ranking auch ein Alters-Penalty, so dass sich bestimmte URLs nur lange ganz oben behaupten können wenn sie immer wieder mit + Votes versehen werden.

\‘-\’ erzeugt ein Penalty auf dem + Votes Ranking in /Surftips.html, ebenso über die News propagiert. Damit man - Votes ehrlich meint, führen diese zur Löschung der URL aus dem eigenen Index. Man kann damit halt ganz einfach Ergebnisse aus der Liste löschen

\‘B\’ erzeugt ein Bookmark im eigenen Peer vom Link. Wir hatten bis zur Umstellung auf bootstrap css ein schönes Bookmarksystem, das ich aus Zeitgründen bei der Umstell ausgelassen habe. Ansonsten will ich die auch wieder rein haben, komme aber nicht dazu das html Markup anzupassen. Vielleicht macht das ha mal jemand anderes: /Bookmarks.html (sieht so auch schon nicht schlecht aus..)

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:29 am


Solr Support • Re: Lucene geht auf Java 8

Date: 2014-12-11 10:30:50

bei mir ist da Knock-Out Kriterium ja immer auch die Verfügbarkeit auf meinen nun 9 Jahre alten schwarzen Macbook.. oder ich muss mal ein neues kaufen.

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:30 am


Mitmachen • Re: yacy.net wird von Check Point als File-Sharing gebrandma

Date: 2014-12-11 10:31:38

wo kann man das denn mal reproduzieren?

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:31 am


Hilfe für Einsteiger und Anwender • Re: Tutorial - Monitoring Yacy with Cacti

Date: 2014-12-11 10:34:59

nice work! can I download your tutorial and offer it from yacy.net as download (there is no license note in the document)?

Statistik: Verfasst von Orbiter — Do Dez 11, 2014 10:34 am


English • Re: How to get YACY working as a proxy

Date: 2014-12-13 13:11:34

Hello,

Orbiter hat geschrieben:\ From a moderators point of view, this is a far too inappropriate proposition to be acceptable.\

Sorry, for my hard words.

In my Opinion, from a users point of view, it is far too inappropriate than a developer of a software write a [not working]{style=“text-decoration: underline”} software is not enough pressure for doing anything. What kind of problem can be more pressure (from the point of view of an affected user) than a completely [not working]{style=“text-decoration: underline”} software? I can not believe that xioc752 is glad to read this kind of statement from the developer of a software he use. Near a statement that means it is a [fact]{style=“font-style: italic”} that his Browser is misconfigured, in a scenario that clearly proves that the Browser is not the problem (one of two Peers is successful accessible, probably with the same Browser, and the Proxy in YaCy is disabled that means with a Browser that use this Proxy is [nothing]{style=“font-style: italic”} reachable).

Orbiter hat geschrieben:\ From my view this error does not exist\

In this forum is the 403-Error reported multiple times by multiple users:
/viewtopic.php?t=5177{.postlink}
/viewtopic.php?t=5219#p30095{.postlink}
/viewtopic.php?t=5254{.postlink}
/viewtopic.php?t=5393{.postlink}
/viewtopic.php?t=5422#p31338{.postlink} (okay, this is the current problem and it may not count here)
If you really mean this Error does not exist, why is it reported so many times by so many different people?
Most of the reported scenarios describe that only some ways for accessing a YaCy-Peer does not work and other ways does work, this fact implies that the used Browsers are not misconfigured (in the way you write here (last line){.postlink}).

If you really mean this Error does not exist, what do my Browser wrong in my test here{.postlink}? (the Code-Snippet is one complete TCP-Connection)

Orbiter hat geschrieben:\ there is no code that it can produce\

How can it be? A real existing Error without erroneous Code?
It may be a problem that is created by the interaction between multiple pieces of Code, or by a presumption of one piece of Code about an other piece of Code.

Orbiter hat geschrieben:\ I looked into the YaCy http server code (again) there is not even a code line which contains the number \"403\" or HttpServletResponse.SC\_FORBIDDEN.\

Yes, this is exactly that i did expect. I think the 403-HTTP-Response comes from inside of the Proxy. In the HTTP-Server-Front-End exist a piece of Code that distinguish between HTTP-Server and Proxy, and a wrong decision (using the Proxy instead of using the HTTP-Server) results in the well known 403-HTTP-Response. From the point of view of the Proxy, the 403-Error is correct, in cases the Proxy is disabled or not usable by the Client-IP-Address. The problem is not the 403-Error from the Proxy, the problem is produced by using the Proxy for accesses that must handled by the HTTP-Server. You should look for Code that do the decision between Proxy and HTTP-Server.

Please tell me what is the function/intention of \“net.yacy.cora.protocol.Domains.isLocal()\“. It seems that it is used in \“net.yacy.http.YacyDomainHandler.handle()\” for the decision between local and nonlocal HTTP-Destinations.

If this is the wrong spoor, i have written that i can reliable produce the 403-Error on [your]{style=“text-decoration: underline”} YaCy-Peer (last tested a few minutes ago). Why not inserting a Stack-Trace-Dump into the Handler for \“HttpServletResponse.SC_FORBIDDEN\” and tell me the time when i should access your Peer and you can see the reason of the 403-Error in [your]{style=“text-decoration: underline”} Log-File? If you want i can tell you my IP-Address before this test, this makes it possible to log with Wireshark only the interesting HTTP-Access and you must not trust on me if i say my Browser use only the simple GET-Command-Variant.

I think there are a lot of possible ways to produce and observe this Error, we must just do it.


\@xioc752:
i was wrong, the decision code seems to be configurable:
Insert a line with \“network.unit.domain = any\” into your %yacy-home%/DATA/SETTINGS/yacy.conf or set the value to \“any\” if a line with \“network.unit.domain =\” is already present.
This configuration-line sets the property \“isAllIPMode\” to \‘true\’ and this sets the property \“noLocalCheck\” to \‘true\‘. In the class \“net.yacy.cora.protocol.Domains\” exists some methods \“isLocal()\“, as far as i can see this methods decides for every incoming HTTP-Request it is for the local YaCy-Peer (and handled by the internal HTTP-Server) or it is for an external resource (and handled by the Proxy), and this decision depends on the property \“noLocalCheck\” (among other properties). But please be warned, the property \“AllIPMode\” seems to be responsible for a lot of other internal features in YaCy and may have [interesting]{style=“font-style: italic”} side effects.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Dez 13, 2014 1:11 pm


Off-Topic • Re: SQL-Fehler auf forum.yacy-websuche.de

Date: 2014-12-13 13:17:22

Danke!
scheint weg zu sein, hab das seit Tagen gar nicht mehr gesehen

Statistik: Verfasst von Erik_S — Sa Dez 13, 2014 1:17 pm


YaCy Coding & Architektur • Re: Paradigmenwechsel für YaCy Android App?

Date: 2014-12-13 13:44:28

Hallo,

Orbiter hat geschrieben:\ würde aber bedingen dass der informierende Peer sowohl deine email-Adresse als auch einen Mail Server inklusive Login-Daten kennt\

Ja, aber das ist nur eine Hälfte des Problems, ebenso wichtig ist das der sendende YaCy-Peer eine gültige Absender-eMail-Adresse benutzt und das sich die aktuelle IP-Adresse dieses Peers als gültigen eMail-Ausgangs-Server für die Absender-Domain (was rechts vom @ ist) validieren lässt. Die eMail-Eingangs-Server der meisten großen Provider akzeptieren eMails nur von IP-Adressen die sich eindeutig der sendenden Domain zuordnen lassen (primär als Maßnahme zur Spam-Bekämpfung, wenn eMails von [irgendwelchen]{style=“font-style: italic”} IP-Adressen kommen sind das meistens SpamBots/Trojaner/... auf privaten PCs).

Aus meiner Sicht ist das ordentlich lösbar, ich habe da verschiedene Ideen/Szenarien im Kopf. Wenn das Feature \“eMail-Benachrichtigung\” wirklich gewünscht ist möchte ich dafür meine Mithilfe anbieten.

Orbiter hat geschrieben:\ Ich habe aber ein bisschen Bauchschmerzen bei dem Gedanken dass YaCy da zu einem SpamBot-Tool missbraucht wird\...\

Ich denke das sich dieses Risiko ziemlich klein halten lässt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Dez 13, 2014 1:44 pm


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2014-12-13 17:14:36

Sorry für meine unpräzise Formulierung. Ich habe eine neue YaCy-Instanz aufgesetzt und Blobs von Solr von meiner alten YaCy-Instanz in das Datenverzeichnis kopiert. Beim starten des Peters baut er schon seit über 2 Monaten die \“Listen mit den URLs\” für den HostBrowser auf:

Code:
I 2014/12/13 17:12:17 HostBrowser collected 0 urls for path http://iknowcafe.com/__media__/js/I 2014/12/13 17:12:17 HostBrowser collected 1 urls for path http://to.ly/I 2014/12/13 17:12:16 HostBrowser collected 0 urls for path http://www.point33media.com/snf/large-companies-that-originate-from-ireland/I 2014/12/13 17:12:13 HostBrowser collected 0 urls for path https://www.dzagi.com/go.php?go=http://www.tvrage.com/I 2014/12/13 17:12:12 HostBrowser collected 0 urls for path https://markerstudio.zendesk.com/entries/I 2014/12/13 17:12:10 HostBrowser collected 0 urls for path http://punyasiapa.com/I 2014/12/13 17:12:09 HostBrowser collected 0 urls for path http://www.kryon.org.za/groups/neuromonics-tinnitus-treatment-will-help-you-get-associated-with-ringing-ears/I 2014/12/13 17:12:09 HostBrowser collected 0 urls for path http://alldayigame.com/profile/I 2014/12/13 17:12:09 HostBrowser collected 0 urls for path http://www.nisargseafood.com/I 2014/12/13 17:12:09 HostBrowser collected 6 urls for path http://www.blogdigger.com/I 2014/12/13 17:12:08 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:12:07 HostBrowser collected 0 urls for path http://www.uniseek.net/I 2014/12/13 17:12:06 HostBrowser collected 0 urls for path http://gf2.gameflier.com/func/actionRewriter.aspx?fid=G0004&url=http%3A//tarotgratuitos.com/en/I 2014/12/13 17:12:06 HostBrowser collected 0 urls for path http://kanpusdakabsmi.info/I 2014/12/13 17:12:06 HostBrowser collected 0 urls for path http://www.riemurasia.net/go.php?url=http://I 2014/12/13 17:12:05 HostBrowser collected 0 urls for path http://links.redurban.ca/I 2014/12/13 17:12:04 HostBrowser collected 0 urls for path https://wallylabs.zendesk.com/entries/I 2014/12/13 17:12:04 HostBrowser collected 0 urls for path https://mapthepast.zendesk.com/entries/I 2014/12/13 17:12:03 HostBrowser collected 0 urls for path http://yuptv.com/Upload/I 2014/12/13 17:12:03 HostBrowser collected 0 urls for path http://www.dokimes.co/groups/iconnect-lends-aid-to-irelands-technology-sector/members/I 2014/12/13 17:12:00 HostBrowser collected 0 urls for path http://test.hlgamers.de/I 2014/12/13 17:12:00 HostBrowser collected 0 urls for path http://ssmbyssm.livedoor.biz/archives/I 2014/12/13 17:11:58 HostBrowser collected 0 urls for path http://www.acra.com.tw/frejoths/I 2014/12/13 17:11:58 HostBrowser collected 0 urls for path https://thomasbrownfurnishings.zendesk.com/entries/I 2014/12/13 17:11:57 HostBrowser collected 0 urls for path http://www.videomela.com/users/I 2014/12/13 17:11:57 HostBrowser collected 0 urls for path http://matthew874pqkjblog.wordpress.com/2014/11/28/homemade-beauty-tips-for-healthy-and-shiny-hair/I 2014/12/13 17:11:57 HostBrowser collected 0 urls for path https://www.kth.se/social/user/_report_/abuse/?url=http://www.prevention.com/fitness/fitness-tips/I 2014/12/13 17:11:54 HostBrowser collected 0 urls for path http://www.lareinaroja.com/I 2014/12/13 17:11:53 HostBrowser collected 0 urls for path http://igames.co/profile/I 2014/12/13 17:11:53 HostBrowser collected 0 urls for path http://netmax.isa.ru/netmax/I 2014/12/13 17:11:53 HostBrowser collected 0 urls for path http://disabled-friendly.com/groups/imvu-virtual-vs-real-world/I 2014/12/13 17:11:52 HostBrowser collected 0 urls for path http://212.223.42.63/scripts/I 2014/12/13 17:11:51 HostBrowser collected 0 urls for path http://www.prometheusnews.net/movie/ancient-cultures-prometheus/canopicjars/I 2014/12/13 17:11:51 HostBrowser collected 0 urls for path https://mapthepast.zendesk.com/entries/I 2014/12/13 17:11:50 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:11:49 HostBrowser collected 0 urls for path http://admin.hosting.surewest.net/phpinfo/I 2014/12/13 17:11:48 HostBrowser collected 0 urls for path http://bbs.17ok.com/ucenter_home/link.php?url=http://canadianpharmacyrxbest.com/I 2014/12/13 17:11:48 HostBrowser collected 0 urls for path http://mgw.hatena.ne.jp/?url=http://mobiletycoon.org/I 2014/12/13 17:11:47 HostBrowser collected 0 urls for path http://www.okul.gen.tr/zd/I 2014/12/13 17:11:47 HostBrowser collected 0 urls for path http://bbs.dedecms.com/goto.php?url=http://I 2014/12/13 17:11:47 HostBrowser collected 0 urls for path http://belle.regainintimacy.com/I 2014/12/13 17:11:45 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:11:45 HostBrowser collected 0 urls for path http://iso.lated.a.a.gu@chrisbrownxdownload.wordpress.comI 2014/12/13 17:11:43 HostBrowser collected 0 urls for path http://motorwallpapers.com/profile/I 2014/12/13 17:11:42 HostBrowser collected 0 urls for path http://liaizon-limited.job-reviews.co.ukI 2014/12/13 17:11:42 HostBrowser collected 0 urls for path http://www.mintrans.ru/bitrix/rk.php?goto=http://lineletsgetrichhack2015.blogspot.com/I 2014/12/13 17:11:41 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:11:41 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:11:40 HostBrowser collected 0 urls for path http://prudeinfotech.com/wikipedia/I 2014/12/13 17:11:39 HostBrowser collected 11 urls for path http://wwwomen.ru/I 2014/12/13 17:11:39 HostBrowser collected 0 urls for path http://modeltrainsbydesign.com/php_counter/phpinfo.php/%22/%3E%3Ca%20href=%22/superkasyna.net%22%3Ekasyno%3C/I 2014/12/13 17:11:38 HostBrowser collected 0 urls for path http://www.shibengpump.com/plus/I 2014/12/13 17:11:37 HostBrowser collected 0 urls for path http://www.verdenskorridor.com/I 2014/12/13 17:11:37 HostBrowser collected 0 urls for path http://averyweb.net/I 2014/12/13 17:11:36 HostBrowser collected 0 urls for path http://www.primone.com/index.php/I 2014/12/13 17:11:36 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:11:35 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:11:35 HostBrowser collected 0 urls for path http://at-eat.com/I 2014/12/13 17:11:34 HostBrowser collected 0 urls for path http://academyforyoungwriters.org/__media__/js/I 2014/12/13 17:11:34 HostBrowser collected 0 urls for path http://www.goodfuture.com/__media__/js/I 2014/12/13 17:11:34 HostBrowser collected 0 urls for path http://old.powerman.ch/en/gaestebuch/I 2014/12/13 17:11:32 HostBrowser collected 0 urls for path http://www.staytuned.us/I 2014/12/13 17:11:30 HostBrowser collected 0 urls for path http://phado.org/goto.php?url=http://www.amazon.com/dp/I 2014/12/13 17:11:28 HostBrowser collected 0 urls for path http://subzerosports.com/__media__/js/I 2014/12/13 17:11:27 HostBrowser collected 0 urls for path http://mail.mastercad.ro/I 2014/12/13 17:11:27 HostBrowser collected 0 urls for path http://www.krinter.com/users/I 2014/12/13 17:11:27 HostBrowser collected 0 urls for path http://mu1.nayana.kr/mysql/I 2014/12/13 17:11:27 HostBrowser collected 0 urls for path http://lastpain.cwsurf.de/toplist/I 2014/12/13 17:11:27 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:11:27 HostBrowser collected 0 urls for path http://www.haakseth.com/ats/I 2014/12/13 17:11:25 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:11:24 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:11:18 HostBrowser collected 0 urls for path http://bestvietnamesetours.com/truong-son-trail-a-symbol-of-vietnam-laos-special-solidarity/I 2014/12/13 17:11:18 HostBrowser collected 0 urls for path http://www.sba504loan.org/__media__/js/I 2014/12/13 17:11:18 HostBrowser collected 0 urls for path http://david219tohbblog.edublogs.org/2014/11/28/the-popular-lace-front-human-hair-wigs/I 2014/12/13 17:11:17 HostBrowser collected 0 urls for path http://www.enid.org/redirect.aspx?url=http://domanivkabibl.tk/index.php/I 2014/12/13 17:11:17 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:11:16 HostBrowser collected 0 urls for path http://www.wishcharter.org/2011/11/14/wish-student-artists-receive-a-generous-donation.aspx?Returnurl=http://www.africanewswire.net/I 2014/12/13 17:11:11 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:11:05 HostBrowser collected 0 urls for path http://www.free-pornstar-movies.ro/members/profile/355798/I 2014/12/13 17:11:03 HostBrowser collected 0 urls for path http://ciap.org/Old/I 2014/12/13 17:11:03 HostBrowser collected 0 urls for path http://h2oathlete.com/privacy-policy/I 2014/12/13 17:11:02 HostBrowser collected 0 urls for path http://impra.com/__media__/js/I 2014/12/13 17:11:02 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:11:01 HostBrowser collected 0 urls for path http://amz.kiev.ua/link/go.php?url=http://www.prevention.com/fitness/fitness-tips/I 2014/12/13 17:11:01 HostBrowser collected 0 urls for path http://www.sindominio.net/metabolik/wiki/index.php/I 2014/12/13 17:11:01 HostBrowser collected 0 urls for path http://www.fotos-aus-der-luft.de/kontakt/?url=http://Nike-Paobu.com/I 2014/12/13 17:11:00 HostBrowser collected 0 urls for path http://www.thfoxs.com/wiki/I 2014/12/13 17:11:00 HostBrowser collected 0 urls for path http://univerfan.ru/engine/redirect.php?url=http://I 2014/12/13 17:11:00 HostBrowser collected 0 urls for path https://marketplaces.zendesk.com/entries/I 2014/12/13 17:11:00 HostBrowser collected 0 urls for path http://k99-news.com/I 2014/12/13 17:10:59 HostBrowser collected 0 urls for path http://augustakmc.org/xe/I 2014/12/13 17:10:59 HostBrowser collected 0 urls for path http://www.style2bones.com/2012/04/I 2014/12/13 17:10:58 HostBrowser collected 0 urls for path http://www.in8doc.com/__media__/js/I 2014/12/13 17:10:57 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:10:57 HostBrowser collected 0 urls for path http://sefmanufacturing.com/I 2014/12/13 17:10:56 HostBrowser collected 0 urls for path http://encyklopedia.wybudzeni.pl/I 2014/12/13 17:10:55 HostBrowser collected 0 urls for path http://www.furnitura4bizhu.ru/links/I 2014/12/13 17:10:54 HostBrowser collected 0 urls for path http://www.cityofbartow.net/redirect.aspx?url=http://Www.nadzorowac.bizxn.wo.lt/redirect.php?url=https://www.youtube.com/I 2014/12/13 17:10:54 HostBrowser collected 0 urls for path http://www.aceba.cat/es/sendpage/?url=http://I 2014/12/13 17:10:53 HostBrowser collected 0 urls for path http://www.web-radio.fm/webtop.cfm?site=https://plus.google.com/107191442469523983956/posts/I 2014/12/13 17:10:53 HostBrowser collected 0 urls for path https://marketplaces.zendesk.com/entries/I 2014/12/13 17:10:52 HostBrowser collected 0 urls for path http://abuse.lc-pasaulis.com/?url=http://Youtube.com/I 2014/12/13 17:10:52 HostBrowser collected 0 urls for path http://quosted.com/I 2014/12/13 17:10:50 HostBrowser collected 0 urls for path http://liferay.datalite.cz/de/blog/-/blogs/I 2014/12/13 17:10:48 HostBrowser collected 0 urls for path http://mov2.net/I 2014/12/13 17:10:47 HostBrowser collected 0 urls for path http://www.bluecollarcontacts.com/ActivityFeed/MyProfile/tabid/60/userId/468000/language/en-US/I 2014/12/13 17:10:45 HostBrowser collected 0 urls for path http://andel.borec.cz/I 2014/12/13 17:10:45 HostBrowser collected 0 urls for path http://www.gamesselection.com/profile/I 2014/12/13 17:10:43 HostBrowser collected 0 urls for path http://www.rajakamangalamthurai.com/photoalbum/index.php?album=Village-Feast-2011/I 2014/12/13 17:10:43 HostBrowser collected 0 urls for path http://gtiny.me/I 2014/12/13 17:10:41 HostBrowser collected 0 urls for path http://www.luckyjerseysale.com/I 2014/12/13 17:10:40 HostBrowser collected 4 urls for path http://personal.crocodoc.com/I 2014/12/13 17:10:40 HostBrowser collected 0 urls for path http://www.rezo.ge/guestbook/I 2014/12/13 17:10:40 HostBrowser collected 0 urls for path http://languageclick.co.kr/zbxe/I 2014/12/13 17:10:39 HostBrowser collected 0 urls for path http://ibo.phpnuketurkiye.com/mybb/I 2014/12/13 17:10:39 HostBrowser collected 0 urls for path http://wentong.tk/I 2014/12/13 17:10:39 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:10:39 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:10:37 HostBrowser collected 0 urls for path http://funkybbq.org/wordpress/88-2/groups/buy-coach-outlet-store-online/admin/delete-group/I 2014/12/13 17:10:37 HostBrowser collected 0 urls for path http://sreda-info.ru/rub-8/I 2014/12/13 17:10:36 HostBrowser collected 0 urls for path http://www.burpeesandbedtimestories.com/2014/04/03/happy-belated-birthdays/I 2014/12/13 17:10:35 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:10:35 HostBrowser collected 0 urls for path http://dmfr.fr/I 2014/12/13 17:10:34 HostBrowser collected 0 urls for path http://www.mediaobsesi.com/I 2014/12/13 17:10:34 HostBrowser collected 0 urls for path http://do-it-outside.net/__media__/js/I 2014/12/13 17:10:34 HostBrowser collected 0 urls for path http://www.praktijkfysiotherapiegroenink.nl/I 2014/12/13 17:10:34 HostBrowser collected 0 urls for path http://59.78.96.61:8082/dhome/I 2014/12/13 17:10:33 HostBrowser collected 0 urls for path http://www.thanksal.biz/__media__/js/I 2014/12/13 17:10:32 HostBrowser collected 0 urls for path http://topplacement.in/101/blog/view/34775/I 2014/12/13 17:10:32 HostBrowser collected 0 urls for path http://www.attorneys24.us/delete-company-details?nid=19337&element=http://bisnissampingan2013.blogspot.com/I 2014/12/13 17:10:31 HostBrowser collected 0 urls for path http://sreda-info.ru/rub-8/I 2014/12/13 17:10:31 HostBrowser collected 0 urls for path http://www.budz.pl/I 2014/12/13 17:10:31 HostBrowser collected 0 urls for path http://ww.salon.by/I 2014/12/13 17:10:31 HostBrowser collected 0 urls for path http://jerktown.com/__media__/js/I 2014/12/13 17:10:31 HostBrowser collected 0 urls for path http://www.bausch.co.uk/en-gb/redirect/?url=http://www.Stmoritzskiclub.com/I 2014/12/13 17:10:30 HostBrowser collected 0 urls for path http://emds.mountain-viewgroup.com/Activity-Feed/My-Profile/UserId/I 2014/12/13 17:10:30 HostBrowser collected 0 urls for path http://northpole.floridafandom.com/santa/I 2014/12/13 17:10:30 HostBrowser collected 0 urls for path http://home.eyh.cn/home/link.php?url=http://9n3.info/I 2014/12/13 17:10:29 HostBrowser collected 0 urls for path http://natakam.com/__media__/js/I 2014/12/13 17:10:29 HostBrowser collected 0 urls for path http://webmailalt.selfnet.at/I 2014/12/13 17:10:26 HostBrowser collected 0 urls for path https://marketplaces.zendesk.com/entries/I 2014/12/13 17:10:26 HostBrowser collected 0 urls for path http://www.visual-pagerank.info/I 2014/12/13 17:10:25 HostBrowser collected 0 urls for path http://www.dcl.lviv.ua/index.php/component/k2/item/118-????????-???????????/I 2014/12/13 17:10:25 HostBrowser collected 0 urls for path http://www.unacine.org/__media__/js/I 2014/12/13 17:10:25 HostBrowser collected 0 urls for path http://www.visual-pagerank.info/I 2014/12/13 17:10:23 HostBrowser collected 0 urls for path http://fb420.com/forum/I 2014/12/13 17:10:21 HostBrowser collected 0 urls for path http://www.bawden.info/guestbook/index.php/I 2014/12/13 17:10:21 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:10:19 HostBrowser collected 0 urls for path http://rilis.web.id/I 2014/12/13 17:10:19 HostBrowser collected 0 urls for path http://clsurgicale.com/I 2014/12/13 17:10:18 HostBrowser collected 0 urls for path http://bhwiki.com/I 2014/12/13 17:10:17 HostBrowser collected 0 urls for path http://www.mayanrocks.com/hoobaholics/feedback/I 2014/12/13 17:10:17 HostBrowser collected 0 urls for path http://andrew221tmtxblog.soup.io/post/496229275/I 2014/12/13 17:10:15 HostBrowser collected 0 urls for path http://bindti.es/I 2014/12/13 17:10:15 HostBrowser collected 0 urls for path http://www.gamesflash.eu/I 2014/12/13 17:10:14 HostBrowser collected 0 urls for path http://srbik.wz.cz/guestbook/I 2014/12/13 17:10:11 HostBrowser collected 0 urls for path http://group.so-ten.jp/redirect.php?rurl=http://www.prevention.com/fitness/fitness-tips/I 2014/12/13 17:10:10 HostBrowser collected 0 urls for path http://asandl.com/go.php?u=http://xn--r3cwx.xn--o3cw4h/node/I 2014/12/13 17:10:06 HostBrowser collected 0 urls for path http://squashchamp.com/xe/I 2014/12/13 17:10:06 HostBrowser collected 0 urls for path http://csinerd.com/bookmarks/bookmarks.php/I 2014/12/13 17:10:06 HostBrowser collected 0 urls for path http://www.elephantblanc-cambodge.com/I 2014/12/13 17:10:06 HostBrowser collected 0 urls for path http://warhammeraqui.mforos.com/visit/?http://I 2014/12/13 17:10:06 HostBrowser collected 0 urls for path http://nephew100.com/members/lizziekfbdqzxq/activity/72351/I 2014/12/13 17:10:05 HostBrowser collected 0 urls for path http://www.autism-community.com/members/mgtmaris/activity/I 2014/12/13 17:10:04 HostBrowser collected 0 urls for path http://aidl.org/I 2014/12/13 17:10:04 HostBrowser collected 0 urls for path https://mashedthemes.zendesk.com/entries/I 2014/12/13 17:10:04 HostBrowser collected 0 urls for path http://anthilias.bloggplatsen.se/gilla/?url=http://www.geckogo.com/Blog/145863738/simhocnec5mb/Real-World-Solutions-In-dragon-nest-Arou/I 2014/12/13 17:10:04 HostBrowser collected 0 urls for path http://bidikmisi.poltekpos.ac.id/I 2014/12/13 17:10:02 HostBrowser collected 0 urls for path http://h30175.www3.hp.com/hp_localizador_canales/html/I 2014/12/13 17:10:02 HostBrowser collected 0 urls for path http://blog.sirokou.com/archives/I 2014/12/13 17:10:02 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:10:00 HostBrowser collected 0 urls for path http://moviesmobile.net/common/link.php?link=http://blog.agora.ge/es/aumentar-followers-no-instagram/I 2014/12/13 17:09:57 HostBrowser collected 0 urls for path http://tinyls.net/I 2014/12/13 17:09:57 HostBrowser collected 0 urls for path https://martsys.zendesk.com/entries/I 2014/12/13 17:09:57 HostBrowser collected 0 urls for path http://www.baccaratresorts.com/__media__/js/I 2014/12/13 17:09:56 HostBrowser collected 0 urls for path http://www.masanang.com/guestbook/I 2014/12/13 17:09:55 HostBrowser collected 0 urls for path http://www.visual-pagerank.info/I 2014/12/13 17:09:53 HostBrowser collected 0 urls for path http://desaplajan.com/I 2014/12/13 17:09:52 HostBrowser collected 0 urls for path http://desaplajan.com/I 2014/12/13 17:09:52 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:09:50 HostBrowser collected 0 urls for path http://annonces.123mada.com/others/I 2014/12/13 17:09:50 HostBrowser collected 0 urls for path http://www.bankruptcyinbuffalo.com/news/standard-post/I 2014/12/13 17:09:50 HostBrowser collected 0 urls for path http://mail.mihas.net/redir.php?url=http://www.thebestchoice.nl/wat-is-the-best-choice-voor-parisha/I 2014/12/13 17:09:50 HostBrowser collected 0 urls for path http://ecbloguer.com/cuadroacuadro/el-atlas-de-las-nubes-todo-esta-conectado/trackback/I 2014/12/13 17:09:49 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:09:44 HostBrowser collected 0 urls for path http://cdmusicdj.com:8080/I 2014/12/13 17:09:44 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:09:44 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:09:44 HostBrowser collected 0 urls for path http://mail.kameruner-eck.de/I 2014/12/13 17:09:43 HostBrowser collected 0 urls for path http://nathan711uqpfblog.blog.com/2014/11/28/how-commence-a-beauty-salon/I 2014/12/13 17:09:42 HostBrowser collected 0 urls for path http://freegametime.co.uk/I 2014/12/13 17:09:41 HostBrowser collected 0 urls for path http://kunmi.zolipe.com/I 2014/12/13 17:09:41 HostBrowser collected 0 urls for path http://weddingbandcollection.com/__media__/js/I 2014/12/13 17:09:41 HostBrowser collected 0 urls for path http://hidefprinting.com/__media__/js/I 2014/12/13 17:09:40 HostBrowser collected 0 urls for path http://bloodbrothershackupdate.wordpress.com/I 2014/12/13 17:09:37 HostBrowser collected 0 urls for path http://www.festivaldellecolline.com/2014/06/09/ciao-mondo/I 2014/12/13 17:09:36 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:09:34 HostBrowser collected 0 urls for path http://www.carcabin.com/incoming-search-terms-for-the-article-s-860/me-dmc.net*wp-content*uploads*2012*10*375774_521743757853982_487099243_n.jpg/I 2014/12/13 17:09:34 HostBrowser collected 0 urls for path http://www.sexy-nation.com/I 2014/12/13 17:09:33 HostBrowser collected 0 urls for path http://www.r-visioncamping.org/I 2014/12/13 17:09:33 HostBrowser collected 0 urls for path http://huiyuan.fancai.com/I 2014/12/13 17:09:33 HostBrowser collected 0 urls for path http://blancoscasalinda.com.mx/colchas-cat-021/I 2014/12/13 17:09:32 HostBrowser collected 0 urls for path http://ebook.ange.co.kr/I 2014/12/13 17:09:30 HostBrowser collected 0 urls for path http://www.globalpn.it/I 2014/12/13 17:09:29 HostBrowser collected 0 urls for path http://www.weddinginlove.com/link/url=www.africanewswire.net/I 2014/12/13 17:09:29 HostBrowser collected 0 urls for path http://pointsvacations.com/__media__/js/I 2014/12/13 17:09:27 HostBrowser collected 0 urls for path http://samcoh.com/component/k2/item/I 2014/12/13 17:09:26 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:09:26 HostBrowser collected 0 urls for path http://pdlsound.de/cgi-bin/I 2014/12/13 17:09:24 HostBrowser collected 0 urls for path http://www.veranodivertido.com/region/monterrey/I 2014/12/13 17:09:22 HostBrowser collected 1 urls for path http://quieto.motocine.com/I 2014/12/13 17:09:22 HostBrowser collected 0 urls for path http://www.espanol.org.ru/spain/odp/go.php?url=http://www.tvrage.com/I 2014/12/13 17:09:22 HostBrowser collected 0 urls for path http://jeuxdesupermario.org/profile/I 2014/12/13 17:09:21 HostBrowser collected 0 urls for path http://xn--80ajbsrpgcce.com/index.php/I 2014/12/13 17:09:20 HostBrowser collected 0 urls for path http://valv.im/I 2014/12/13 17:09:19 HostBrowser collected 0 urls for path http://www.zoeller-arndt.de/cgi-bin/I 2014/12/13 17:09:19 HostBrowser collected 0 urls for path http://www.moranbunch.com/business_and_economy/I 2014/12/13 17:09:18 HostBrowser collected 0 urls for path http://www.thfoxs.com/wiki/I 2014/12/13 17:09:18 HostBrowser collected 0 urls for path http://spox.ru/r.php?u=http://I 2014/12/13 17:09:17 HostBrowser collected 0 urls for path http://www.portaldesaojorge.com.br/I 2014/12/13 17:09:16 HostBrowser collected 0 urls for path https://mcpvp.zendesk.com/entries/I 2014/12/13 17:09:16 HostBrowser collected 0 urls for path http://groenesterhandbal.nl/juniorentoernooi/let-op-nieuwe-doelgroep/I 2014/12/13 17:09:14 HostBrowser collected 0 urls for path http://alexander229vogyblog.wordpress.com/2014/11/28/vidal-sassoon-1875-w-turbo-dryer-beauty-product-review/I 2014/12/13 17:09:10 HostBrowser collected 0 urls for path http://www.menkemediation.nl/I 2014/12/13 17:09:09 HostBrowser collected 0 urls for path http://www.newconcepttechnologies.com/I 2014/12/13 17:09:08 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:09:08 HostBrowser collected 0 urls for path https://mcpvp.zendesk.com/entries/I 2014/12/13 17:09:07 HostBrowser collected 0 urls for path http://d324.com/link.php?url=http://I 2014/12/13 17:09:07 HostBrowser collected 0 urls for path http://netmapping.muearthlab.org/I 2014/12/13 17:09:07 HostBrowser collected 0 urls for path http://www.checkurl.info/whois.php?query=olshoper.com/I 2014/12/13 17:09:06 HostBrowser collected 0 urls for path http://www.dazbog.pl/tag%2Cdrzewa/I 2014/12/13 17:09:06 HostBrowser collected 0 urls for path http://wiki.terabigdata.info/I 2014/12/13 17:09:05 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:09:04 HostBrowser collected 0 urls for path http://motherblog.co.kr/tag/I 2014/12/13 17:09:02 HostBrowser collected 0 urls for path http://acathlaclothing.com/I 2014/12/13 17:09:02 HostBrowser collected 0 urls for path http://vostok-invest.com.ua/index.php?url=http://I 2014/12/13 17:09:02 HostBrowser collected 0 urls for path http://ppgcom.ufam.edu.br/I 2014/12/13 17:09:00 HostBrowser collected 0 urls for path http://home.kekenet.com/link.php?url=http://tarotgratuitos.com/en/I 2014/12/13 17:09:00 HostBrowser collected 0 urls for path http://temp.violy.net/I 2014/12/13 17:09:00 HostBrowser collected 0 urls for path http://taba.ru/?r=crossDomainAuth/passport&domain=www.okthaifood.com/%e0%b9%80%e0%b8%95%e0%b9%89%e0%b8%b2%e0%b8%ab%e0%b8%b9%e0%b9%89%e0%b8%97%e0%b8%ad%e0%b8%94%e0%b8%a3%e0%b8%b2%e0%b8%94%e0%b9%80%e0%b8%ab%e0%b9%87%e0%b8%94%e0%b9%80%e0%b8%82%e0%b9%87%e0%b8%a1%e0%b8%97%e0%b8%ad%e0%b8%87%e0%b8%99%e0%b9%89%e0%b8%b3%e0%b9%81%e0%b8%94%e0%b8%87/I 2014/12/13 17:08:59 HostBrowser collected 0 urls for path http://mcaf.ee/I 2014/12/13 17:08:59 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:08:58 HostBrowser collected 0 urls for path https://www.act.edu.om/portal/cpg15x/I 2014/12/13 17:08:57 HostBrowser collected 0 urls for path http://alessandrocanossa.com/I 2014/12/13 17:08:56 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:08:56 HostBrowser collected 0 urls for path http://bbs.gupt.com.cn/home/link.php?url=http://canadianpharmacyrxbest.com/I 2014/12/13 17:08:55 HostBrowser collected 0 urls for path http://www.sarahdeclerk.com/2011/04/I 2014/12/13 17:08:55 HostBrowser collected 0 urls for path http://liakada-ltd.job-reviews.co.ukI 2014/12/13 17:08:55 HostBrowser collected 0 urls for path http://www.mohsenhedayati.ir/I 2014/12/13 17:08:55 HostBrowser collected 0 urls for path http://km21016-01.keymachine.de/I 2014/12/13 17:08:53 HostBrowser collected 0 urls for path http://www.wxgj.org/I 2014/12/13 17:08:52 HostBrowser collected 0 urls for path http://forum.vru.ac.ir/I 2014/12/13 17:08:52 HostBrowser collected 0 urls for path http://georgiabracecenter.com/products/commodes/image-4/I 2014/12/13 17:08:51 HostBrowser collected 0 urls for path http://okaysaasagdevijegvar.blogspot.fr/2006/12/I 2014/12/13 17:08:51 HostBrowser collected 0 urls for path http://ststephensmonona.mobi/leaving.php?u=http://Www.Youtube.com/I 2014/12/13 17:08:50 HostBrowser collected 0 urls for path http://user.12301cn.com/link.php?url=http://onlinemarketing.intlbiz.biz/best-seo-tools-2/I 2014/12/13 17:08:50 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:08:50 HostBrowser collected 0 urls for path http://www.kiwibox.com/joshua752bvohbl/I 2014/12/13 17:08:50 HostBrowser collected 0 urls for path http://www.123cha.com/alexa/I 2014/12/13 17:08:49 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:08:48 HostBrowser collected 0 urls for path http://digitus.itk.ppke.hu/%7Eteipeda/I 2014/12/13 17:08:47 HostBrowser collected 0 urls for path http://www.rn-omsk.ru/link.php?url=http://www.nike-paobu.com/I 2014/12/13 17:08:47 HostBrowser collected 0 urls for path https://destroytheorder.com/anonymous-operation-net-storm-netstorm-occupyfcc-savetheinternet/I 2014/12/13 17:08:46 HostBrowser collected 0 urls for path http://user.wenweipo.com/link.php?url=http://castle-clash-hacktooldownload.tumblr.com/I 2014/12/13 17:08:46 HostBrowser collected 0 urls for path http://dxb-law.com/old_dxb-law.com/counter/I 2014/12/13 17:08:45 HostBrowser collected 0 urls for path http://gradviewmed.com/I 2014/12/13 17:08:45 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:08:44 HostBrowser collected 0 urls for path http://www.obstaclecrushers.com/activity/p/49545/I 2014/12/13 17:08:44 HostBrowser collected 0 urls for path https://wiki.rockwallisd.org/groups/kylahammond/wiki/3ecd0/I 2014/12/13 17:08:43 HostBrowser collected 0 urls for path http://mail.futureperfectinc.com/I 2014/12/13 17:08:42 HostBrowser collected 0 urls for path http://www.lambertvisser.com/hello-world/I 2014/12/13 17:08:42 HostBrowser collected 0 urls for path http://www.guiafehrproveedores.com/I 2014/12/13 17:08:41 HostBrowser collected 0 urls for path http://www.fumep.edu.br/~fabiogil/I 2014/12/13 17:08:40 HostBrowser collected 0 urls for path http://sportsrun.com.br/meia-maratona-sao-jose/hello-world/I 2014/12/13 17:08:39 HostBrowser collected 0 urls for path http://www.chemicalize.org/?url=http://lineletsgetrichhack2015.blogspot.com/I 2014/12/13 17:08:38 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:08:38 HostBrowser collected 0 urls for path http://sabangundogar.com/groups/discount-car-stereo/I 2014/12/13 17:08:36 HostBrowser collected 0 urls for path http://www.fifes.mobi/I 2014/12/13 17:08:35 HostBrowser collected 0 urls for path http://www.rinkabyror.se/goto/?url=http://www.tvrage.com/I 2014/12/13 17:08:33 HostBrowser collected 0 urls for path http://comedyclips.org/__media__/js/I 2014/12/13 17:08:32 HostBrowser collected 0 urls for path http://traffic.myrezki.com/members/wiltonigpzainb/activity/209366/I 2014/12/13 17:08:31 HostBrowser collected 0 urls for path http://meeranursing.com/httpdocs/test/php/I 2014/12/13 17:08:30 HostBrowser collected 0 urls for path https://tiemyfinger.zendesk.com/entries/I 2014/12/13 17:08:30 HostBrowser collected 0 urls for path http://bmwpost.net/activity/p/97256/I 2014/12/13 17:08:29 HostBrowser collected 0 urls for path http://www.topblogs.com.br/ranking/I 2014/12/13 17:08:29 HostBrowser collected 0 urls for path http://www.binghamtonhanmaum.org/zbxe/I 2014/12/13 17:08:28 HostBrowser collected 0 urls for path http://nosporadnik.ugu.pl/I 2014/12/13 17:08:28 HostBrowser collected 0 urls for path http://fortcollinsroofing.info/I 2014/12/13 17:08:27 HostBrowser collected 0 urls for path http://go.fiu.edu/I 2014/12/13 17:08:25 HostBrowser collected 0 urls for path http://qos-web5.exigo.ch/I 2014/12/13 17:08:24 HostBrowser collected 0 urls for path http://www.paramore.net/member/I 2014/12/13 17:08:23 HostBrowser collected 1 urls for path http://tnij.org/I 2014/12/13 17:08:23 HostBrowser collected 0 urls for path http://www.bimcity.com/users/I 2014/12/13 17:08:22 HostBrowser collected 0 urls for path http://alexander-heumann.de/cgi-bin/I 2014/12/13 17:08:21 HostBrowser collected 0 urls for path http://www.vivabelezafeminina.com/de-quantas-em-quantas-horas-devo-amamentar-o-bebe/I 2014/12/13 17:08:20 HostBrowser collected 0 urls for path http://viumallorca.com/UserProfile/tabid/1900/userId/1543/language/en-US/I 2014/12/13 17:08:18 HostBrowser collected 0 urls for path http://turpal.com/activity/p/311482/I 2014/12/13 17:08:18 HostBrowser collected 0 urls for path http://forum.pcwartung-online.de/I 2014/12/13 17:08:17 HostBrowser collected 0 urls for path http://ourstage.com/profile/kuwnzzicvibt/I 2014/12/13 17:08:16 HostBrowser collected 0 urls for path http://members.iif.hu/vitez/php3prob/I 2014/12/13 17:08:15 HostBrowser collected 0 urls for path http://www.aly2men.com/vb/I 2014/12/13 17:08:15 HostBrowser collected 0 urls for path http://archive.criticalstages.org/criticalstages3/entry/I 2014/12/13 17:08:14 HostBrowser collected 0 urls for path http://www.messagemagazine.com/members/sebaseoa/profile/I 2014/12/13 17:08:12 HostBrowser collected 0 urls for path http://www.wellgoodgames.com/profile/I 2014/12/13 17:08:12 HostBrowser collected 0 urls for path http://www.robinpiggott.ie/effective-writing-secrets-exposed-just-how-many-are-there/trackback/I 2014/12/13 17:08:11 HostBrowser collected 0 urls for path http://ptiturl.com/I 2014/12/13 17:08:11 HostBrowser collected 0 urls for path http://www.food-4-less.net/__media__/js/I 2014/12/13 17:08:10 HostBrowser collected 0 urls for path http://www.evergreenem.com/corn-maze-saturday-october-15-2011-700pm-until-1100pm/I 2014/12/13 17:08:10 HostBrowser collected 0 urls for path http://melhorlogistica.com.br/transporte-rodoviario-2/transporte-rodoviario-mlt/I 2014/12/13 17:08:09 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:08:06 HostBrowser collected 0 urls for path http://ww.salon.by/I 2014/12/13 17:08:05 HostBrowser collected 0 urls for path http://2icho.net/xe/I 2014/12/13 17:08:04 HostBrowser collected 0 urls for path http://www.majalahmatahati.com/I 2014/12/13 17:08:04 HostBrowser collected 0 urls for path http://www.arturin.it/I 2014/12/13 17:08:03 HostBrowser collected 0 urls for path https://anticoncepcao.org.br/test/php/I 2014/12/13 17:08:02 HostBrowser collected 0 urls for path http://www.anfield.pwp.blueyonder.co.uk/scripts/I 2014/12/13 17:08:02 HostBrowser collected 0 urls for path http://www.cassandra2.com/guestbook/I 2014/12/13 17:08:01 HostBrowser collected 0 urls for path http://www.spicejam.com/__media__/js/I 2014/12/13 17:07:59 HostBrowser collected 0 urls for path http://www.swi-alumni.net/I 2014/12/13 17:07:58 HostBrowser collected 0 urls for path http://www.marketing-nastasi.de/26/cgi-bin/I 2014/12/13 17:07:57 HostBrowser collected 0 urls for path https://web.marathonconsultants.com/I 2014/12/13 17:07:56 HostBrowser collected 0 urls for path http://dawilk.piwko.pl/I 2014/12/13 17:07:54 HostBrowser collected 0 urls for path http://videocollageapp.com.websitetrafficspy.com/I 2014/12/13 17:07:53 HostBrowser collected 0 urls for path http://bmwpost.net/groups/methods-for-receiving-the-most-from-solar-power-for-your-own-home-or-business/I 2014/12/13 17:07:52 HostBrowser collected 0 urls for path http://yapkan.com/I 2014/12/13 17:07:52 HostBrowser collected 0 urls for path http://www.usamimi.info/~ryouchi/curl/index.php?url=http://www.africanewswire.net/I 2014/12/13 17:07:51 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:07:51 HostBrowser collected 0 urls for path http://m.landing.siap-online.com/?goto=http://vsehity.com/go/url=http://www.whitehouse.gov/administration/I 2014/12/13 17:07:50 HostBrowser collected 0 urls for path http://www.ggcinfo.biz/__media__/js/I 2014/12/13 17:07:49 HostBrowser collected 0 urls for path https://www.exyst.de/I 2014/12/13 17:07:48 HostBrowser collected 0 urls for path http://gebednet.com/index.php/I 2014/12/13 17:07:48 HostBrowser collected 0 urls for path http://ss-top.com/~shinchan/cgi-bin/g_book/g_book.cgi/RK=0/RS=uVaq.D0Fr2znc_Qn.TGz81TRFmM-/I 2014/12/13 17:07:48 HostBrowser collected 0 urls for path http://www.rt-168.com/plus/I 2014/12/13 17:07:48 HostBrowser collected 0 urls for path https://www.prohorizons.com/member/13198/I 2014/12/13 17:07:46 HostBrowser collected 0 urls for path http://www.berryindo.com/official-os-5-0-0-608-blackberry-curve-8910-china-mobile-hong-kong/I 2014/12/13 17:07:46 HostBrowser collected 0 urls for path http://demonknights.madrealms.net/I 2014/12/13 17:07:45 HostBrowser collected 0 urls for path https://www.mochizuki.com/cgi/bbs/I 2014/12/13 17:07:44 HostBrowser collected 0 urls for path http://duadmin.isaev.info/I 2014/12/13 17:07:43 HostBrowser collected 0 urls for path http://www.manosmaravillosas.com/index.php/enviar-amigo/?url=http://lineletsgetrichhack2015.blogspot.com/I 2014/12/13 17:07:43 HostBrowser collected 0 urls for path http://www.linuxsecurity.com.br/redir.php?url=http://www.youtube.com/I 2014/12/13 17:07:42 HostBrowser collected 0 urls for path http://mspeed.dk/I 2014/12/13 17:07:42 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:07:42 HostBrowser collected 0 urls for path http://glendeninglaw.mobi/leaving.php?u=http://www.prevention.com/fitness/fitness-tips/I 2014/12/13 17:07:42 HostBrowser collected 0 urls for path http://tataboga.pkk.upi.edu/I 2014/12/13 17:07:41 HostBrowser collected 0 urls for path http://sportmagazine.info/blogs/view/backyardgardenspot.com/I 2014/12/13 17:07:40 HostBrowser collected 0 urls for path http://sosiyal.com/I 2014/12/13 17:07:40 HostBrowser collected 0 urls for path http://HTTP://www.dsl.windham.vt.us/I 2014/12/13 17:07:39 HostBrowser collected 0 urls for path http://netmax.isa.ru/netmax/I 2014/12/13 17:07:38 HostBrowser collected 0 urls for path http://www.rene-design.com/portfolio/fotografie-portfolio/panorama-fotografie-bad-waldsee/trackback/I 2014/12/13 17:07:38 HostBrowser collected 0 urls for path http://microlanas.bloggplatsen.se/gilla/?url=http://I 2014/12/13 17:07:37 HostBrowser collected 0 urls for path http://joseph764gztnblog.edublogs.org/2014/11/28/reasons-a-person-should-try-to-shop-in-online-pharmacies/I 2014/12/13 17:07:35 HostBrowser collected 0 urls for path http://forum.garaapps.com/index.php?members/KashaBegg.102703/I 2014/12/13 17:07:35 HostBrowser collected 0 urls for path http://www.thfoxs.com/wiki/I 2014/12/13 17:07:35 HostBrowser collected 0 urls for path http://food-dog.ru/index.php/kasha/3-kasha/I 2014/12/13 17:07:34 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:07:31 HostBrowser collected 0 urls for path http://auditchannel.tv/users/I 2014/12/13 17:07:31 HostBrowser collected 0 urls for path http://www.laynbryant.com/__media__/js/I 2014/12/13 17:07:30 HostBrowser collected 0 urls for path http://client.transeffect.com/petalsofthesoul/I 2014/12/13 17:07:30 HostBrowser collected 0 urls for path http://www.cgbbc.org/2012/01/04/hello-world/I 2014/12/13 17:07:29 HostBrowser collected 0 urls for path http://url.foxites.com/I 2014/12/13 17:07:27 HostBrowser collected 0 urls for path http://www.fanserials.ru/engine/link.php?url=http://usahabajurumahan.blogspot.com/I 2014/12/13 17:07:24 HostBrowser collected 0 urls for path http://www.jed-afrique.org/en/I 2014/12/13 17:07:23 HostBrowser collected 0 urls for path http://cityofclarksville.com/redirect.aspx?url=http://I 2014/12/13 17:07:22 HostBrowser collected 0 urls for path http://www.idsurvei.com/link.php?p=http://I 2014/12/13 17:07:22 HostBrowser collected 0 urls for path http://weed.ncity.net/xe/I 2014/12/13 17:07:22 HostBrowser collected 0 urls for path http://enid.org/redirect.aspx?url=http://www.moviecms.com/demo/I 2014/12/13 17:07:21 HostBrowser collected 0 urls for path http://www.banicco.com/__media__/js/I 2014/12/13 17:07:21 HostBrowser collected 1 urls for path http://ux.nu/I 2014/12/13 17:07:21 HostBrowser collected 0 urls for path http://fvv.kr/I 2014/12/13 17:07:20 HostBrowser collected 0 urls for path http://emilytylers.com/I 2014/12/13 17:07:20 HostBrowser collected 0 urls for path http://www.teamhellexpress.de/user/I 2014/12/13 17:07:20 HostBrowser collected 0 urls for path http://fvv.kr/I 2014/12/13 17:07:20 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:07:19 HostBrowser collected 0 urls for path http://www.gamewiwi.com/profile/I 2014/12/13 17:07:16 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:07:15 HostBrowser collected 0 urls for path http://www.samgiper.ru/nalogvspro/info.php/I 2014/12/13 17:07:14 HostBrowser collected 0 urls for path http://store.ancestry.com/(X(1)A(bILmQ-4pchUm-TfUSPvHxji27P2ro6SFvGSSlueOyBbFBfSv0IVRN-lv2c5xeo9SIPP1EF7P_hha2ChzdLTL_Uo3TuJbZXS7C-SHBjHF4Dbv-r-tGG1L4gz8_BjVhjapQr5hCybGRXcjYBrDdjZYTAFHz901))/ShoppingCartView.aspx?Returnurl=http://www.prevention.com/fitness/fitness-tips/I 2014/12/13 17:07:13 HostBrowser collected 0 urls for path http://ed316-23.ee.nctu.edu.tw/I 2014/12/13 17:07:11 HostBrowser collected 0 urls for path https://mdmconsulting.zendesk.com/entries/I 2014/12/13 17:07:09 HostBrowser collected 0 urls for path http://www.goeducation.com.au/gallery-post-format/I 2014/12/13 17:07:09 HostBrowser collected 0 urls for path http://boletimcdg.no-ip.info/xampp/I 2014/12/13 17:07:08 HostBrowser collected 0 urls for path http://mikesweet.com/__media__/js/I 2014/12/13 17:07:07 HostBrowser collected 0 urls for path http://topplacement.in/101/profile/I 2014/12/13 17:07:04 HostBrowser collected 0 urls for path http://minangrecord.co.id/I 2014/12/13 17:07:04 HostBrowser collected 0 urls for path http://prospokers.com/I 2014/12/13 17:07:03 HostBrowser collected 0 urls for path http://abuse.lc-pasaulis.com/?url=https://I 2014/12/13 17:07:02 HostBrowser collected 0 urls for path http://jh21v.hosting.paran.com/zbxe/I 2014/12/13 17:07:02 HostBrowser collected 0 urls for path http://www.coffeecafe.us/I 2014/12/13 17:07:00 HostBrowser collected 0 urls for path http://civicgate.com/index.php/component/k2/item/I 2014/12/13 17:07:00 HostBrowser collected 0 urls for path http://www.wmg.hu/jenzo2/index.php/2014-01-13-15-24-04/item/I 2014/12/13 17:06:58 HostBrowser collected 0 urls for path http://www.benessereviaggi.com/I 2014/12/13 17:06:58 HostBrowser collected 0 urls for path http://www.newportbeachca.gov/redirect.aspx?url=http://kayjosh.com/I 2014/12/13 17:06:58 HostBrowser collected 0 urls for path http://www.specialolympics.org/RegionsPages/ChangeSettings.aspx?Returnurl=http://I 2014/12/13 17:06:58 HostBrowser collected 0 urls for path http://br.fleecys-forum.com/I 2014/12/13 17:06:57 HostBrowser collected 0 urls for path http://safe.mn/I 2014/12/13 17:06:57 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:06:56 HostBrowser collected 0 urls for path http://j-a-net.jp/top/redirect?url=http://nike-paobu.com/I 2014/12/13 17:06:55 HostBrowser collected 0 urls for path http://assumeyourdestiny.com/groups/download-xbox-360-360-games-free-of-charge-legally/I 2014/12/13 17:06:55 HostBrowser collected 0 urls for path http://www.sundance.no/member/I 2014/12/13 17:06:54 HostBrowser collected 0 urls for path http://www.krinter.com/users/I 2014/12/13 17:06:54 HostBrowser collected 0 urls for path http://webasked.com/index.php?do=/profile-2651/info/I 2014/12/13 17:06:53 HostBrowser collected 0 urls for path http://blog.vivaspain.es/2011/10/I 2014/12/13 17:06:52 HostBrowser collected 0 urls for path http://you-can.com.tw/I 2014/12/13 17:06:49 HostBrowser collected 0 urls for path http://independent.academia.edu/ClarenceLangleya/I 2014/12/13 17:06:49 HostBrowser collected 0 urls for path https://www.bonhumer.com/wiki/index.php/I 2014/12/13 17:06:48 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:06:48 HostBrowser collected 0 urls for path http://mail.davisontwp-mi.org/I 2014/12/13 17:06:46 HostBrowser collected 0 urls for path http://dev.etmind.com/structure/I 2014/12/13 17:06:46 HostBrowser collected 0 urls for path http://www.bostonjin.com/MVJEL/I 2014/12/13 17:06:46 HostBrowser collected 0 urls for path http://contractorclubusa.com/members/ferdinandcamde/I 2014/12/13 17:06:43 HostBrowser collected 0 urls for path http://www.par-ma.com/tmp/admin/I 2014/12/13 17:06:43 HostBrowser collected 0 urls for path http://jensensfoods.com/redirect/?url=http://I 2014/12/13 17:06:42 HostBrowser collected 0 urls for path http://callumasherxhxeqv.soup.io/I 2014/12/13 17:06:42 HostBrowser collected 0 urls for path http://kristanshuford.com/2013/07/03/textures/I 2014/12/13 17:06:41 HostBrowser collected 0 urls for path http://www.tcoctn.com/plus/I 2014/12/13 17:06:39 HostBrowser collected 0 urls for path http://scsenergy.biz/__media__/js/I 2014/12/13 17:06:39 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:06:35 HostBrowser collected 0 urls for path http://wiki.ig-nagerzucht.de/I 2014/12/13 17:06:33 HostBrowser collected 0 urls for path http://www.top.showchat.ro/I 2014/12/13 17:06:32 HostBrowser collected 0 urls for path http://john581licwblog.soup.io/post/496237705/I 2014/12/13 17:06:31 HostBrowser collected 0 urls for path http://onlinemanuals.txdot.gov/help/I 2014/12/13 17:06:31 HostBrowser collected 0 urls for path http://www.perumahanbandung.net/I 2014/12/13 17:06:31 HostBrowser collected 0 urls for path http://most-tv.ru/faq/I 2014/12/13 17:06:31 HostBrowser collected 0 urls for path http://liakir-limited.job-reviews.co.ukI 2014/12/13 17:06:30 HostBrowser collected 0 urls for path http://most-tv.ru/faq/I 2014/12/13 17:06:29 HostBrowser collected 1 urls for path http://vcsc.cs.uh.edu/second-computing/I 2014/12/13 17:06:28 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:06:28 HostBrowser collected 0 urls for path https://www.rebelmouse.com/skskendalluj/I 2014/12/13 17:06:27 HostBrowser collected 0 urls for path http://www.perumahanbandung.net/I 2014/12/13 17:06:27 HostBrowser collected 0 urls for path http://www.perumahanbandung.net/I 2014/12/13 17:06:26 HostBrowser collected 0 urls for path http://www.emptycage.com/__media__/js/I 2014/12/13 17:06:26 HostBrowser collected 0 urls for path http://community.dianecanfield.com/activity/p/7847/I 2014/12/13 17:06:25 HostBrowser collected 0 urls for path http://www.yeserentoprak.com/I 2014/12/13 17:06:25 HostBrowser collected 0 urls for path http://tworzeniestronwww24.cba.pl/I 2014/12/13 17:06:25 HostBrowser collected 0 urls for path http://elias.ztonline.ch/I 2014/12/13 17:06:23 HostBrowser collected 0 urls for path http://redtube.nu1.pl/members/profile/185578/I 2014/12/13 17:06:22 HostBrowser collected 0 urls for path https://mdmconsulting.zendesk.com/entries/I 2014/12/13 17:06:21 HostBrowser collected 0 urls for path http://kohkaew.comsueksa.com/I 2014/12/13 17:06:21 HostBrowser collected 0 urls for path http://www.goodkarmafunder.com/I 2014/12/13 17:06:21 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:06:20 HostBrowser collected 0 urls for path http://arseh.at/I 2014/12/13 17:06:20 HostBrowser collected 0 urls for path http://arcadeworld.at/profile/I 2014/12/13 17:06:19 HostBrowser collected 0 urls for path http://trapandbass.com/x/I 2014/12/13 17:06:19 HostBrowser collected 0 urls for path http://www.groundnai.com/I 2014/12/13 17:06:16 HostBrowser collected 0 urls for path http://qualab.com/__media__/js/I 2014/12/13 17:06:16 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://csinerd.com/bookmarks/bookmarks.php/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://thecalilook.com/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://video2.stockroom.com/users/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://junkfoodfight.net/__media__/js/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://binaryblitz.com/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://www.altiusfortius.com/profile/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://www.jacobsonline.eu/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://rhinopump.com/sandard-post-without-image%/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://www.sakamath.com/guestbook/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://lawtraining.co.in/top/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path http://rampe.com/__media__/js/I 2014/12/13 17:06:15 HostBrowser collected 0 urls for path https://medialogix.zendesk.com/entries/I 2014/12/13 17:06:12 HostBrowser collected 0 urls for path http://huiyuan.fancai.com/I 2014/12/13 17:06:11 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:06:07 HostBrowser collected 0 urls for path http://shorl.com/I 2014/12/13 17:06:06 HostBrowser collected 0 urls for path http://spectrecommand.com/I 2014/12/13 17:06:06 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:06:05 HostBrowser collected 0 urls for path https://melodramatic.zendesk.com/entries/I 2014/12/13 17:06:05 HostBrowser collected 0 urls for path http://www.dvdmania.ru/eshop/search.php?search_query=%3Ca href%3Dhttp://I 2014/12/13 17:06:04 HostBrowser collected 0 urls for path http://pics.pingnw.com/profile/I 2014/12/13 17:06:01 HostBrowser collected 0 urls for path https://timberway.zendesk.com/entries/I 2014/12/13 17:06:00 HostBrowser collected 3 urls for path http://sn.im/I 2014/12/13 17:06:00 HostBrowser collected 0 urls for path http://snurl.com/I 2014/12/13 17:05:59 HostBrowser collected 0 urls for path http://wikiwc.insight-media.co.uk/index.php/I 2014/12/13 17:05:59 HostBrowser collected 0 urls for path http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/http://iusgn.sltjwmjz.dghnyt.forum.mythem.es/groups/create/I 2014/12/13 17:05:57 HostBrowser collected 23 urls for path http://www.primaboinca.com/I 2014/12/13 17:05:57 HostBrowser collected 0 urls for path http://tootyphoonpiratematthew328xrhabl.tumblr.com/post/103827690420/I 2014/12/13 17:05:56 HostBrowser collected 0 urls for path http://vidyapur.com/redirect?url=http://www.revogame.com/es/get-a-lot-of-instagram-followers-fast/I 2014/12/13 17:05:54 HostBrowser collected 0 urls for path http://www.agustin.com/__media__/js/I 2014/12/13 17:05:53 HostBrowser collected 0 urls for path http://seslisohbetlerim.com/I 2014/12/13 17:05:51 HostBrowser collected 0 urls for path http://traffic.myrezki.com/groups/global-mining-and-trade-updates/I 2014/12/13 17:05:51 HostBrowser collected 0 urls for path http://iyideba.com/profile/I 2014/12/13 17:05:50 HostBrowser collected 0 urls for path http://www.parintimaibuni.ro/noutati/I 2014/12/13 17:05:49 HostBrowser collected 0 urls for path http://casbak.ihep.ac.cn/cas/I 2014/12/13 17:05:46 HostBrowser collected 0 urls for path http://wajebaty.com/I 2014/12/13 17:05:46 HostBrowser collected 0 urls for path http://www.silverstoregames.com/profile/I 2014/12/13 17:05:45 HostBrowser collected 0 urls for path http://specjalizacjaedukacja.pl/warsztaty-nauczycieli/stres-pracy-nauczyciela-plynace-zagrozenia-zawodowe/I 2014/12/13 17:05:44 HostBrowser collected 0 urls for path http://www.bestbuygalileothermometers.com/will-need-internal-body-facial-cleanser/



Meine Frage: Wenn ich das abbreche, fängt der Peer dann beim nächsten Start die ganze Prozedur von vorne an oder geht es an der Stelle weiter wo ich es abgebrochen hab?

Statistik: Verfasst von LA_FORGE — Sa Dez 13, 2014 5:14 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-12-13 19:50:11

Hallo,

momentan kommt eine ziemliche Menge an neuen YaCy-Peers hinzu. Bis gestern Mittag waren nie mehr als 220 Peers gleichzeitig online, gerade eben wurden auf http://yacy.info/stats_main mehr als 240 gemeldet.
Ist in den letzten 24 Stunden irgendetwas passiert das ich noch nicht mitbekommen habe?
Schade ist nur das von den neuen YaCy-Peers wohl nur wenige eine schnelle Internetanbindung haben da die Anzahl dieser Peers relativ gleich geblieben ist (und in Prozent sogar sinkt). Ansonsten sind in den letzten 24 Stunden mehr als 100 neue YaCy-Peers aufgetaucht, eine deutlich sichtbare Steigerung gegenüber den sonst üblichen 40 bis 50 neuen Peers pro Tag. Ich bin mal gespannt wie viele davon nur Eintagsfliegen sind und wie viele dauerhaft ein aktiver Teil des YaCy-Netzwerks bleiben. Auch die Anzahl der pro abgefragten Peer als bekannt gemeldeten anderen Peers ist angestiegen, wo bis gestern noch etwa 300 Peers die Regel waren sind nun zwischen 350 bis 430 bekannte Peers normal.

Am Morgen des 10.12. habe ich das letzte mal ein Update auf beide Server eingespielt das ein Problem mit dem Handling von Kollisionen bei den Peer-Namen/Hashes behoben hat. Die nicht korrekte Behandlung der Kollisionen hat dazu geführt das die Anzahl der als aktiv erkannten YaCy-Peers zwischen etwa dem 20.11. und dem 09.12. kontinuierlich gesunken ist, zuletzt wurden selbst als Spitzenwert keine 200 Peers mehr als online erkannt. Im Tagesverlauf des 10.12. und 11.12. sieht man dass das Problem behoben ist, diese 2 Tage ähneln optisch und auch in absoluten Zahlen stärker der Zeit (vor dem 13.11.) als die interne Datenbank noch bei jedem Software-Neustart verloren ging also neu aufgebaut wurde und damit auch Alterungsprobleme kaschiert wurden.

Mit der Stabilität das Gesamt-Systems bin ich momentan recht zufrieden, der Server hinter [a]{style=“font-weight: bold”}.yacy.info arbeitet seit Anfang November ununterbrochen und [b]{style=“font-weight: bold”}.yacy.info hatte am 29.11. nur einen kurzen BlackOut aber ohne das dadurch die interne Datenbasis beeinträchtigt wurde. Der Service als ganzes war durchgehend permanent erreichbar, das Konzept der Redundanz bzw. des Load-Balancing funktioniert also.

Erik\_S hat geschrieben:\ Mein yacyDNS wird ebenfalls Peers die mehr als etwa 2 Monate nicht mehr gesehen wurden löschen, das ist bisher noch nicht passiert weil es einfach noch nie lang genug lief aber da nun die interne Datenbank nicht mehr verloren geht wird das demnächst eintreffen,\

Genau das passiert seit dem 27.11. aber es werden pro Tag nur relativ wenige Peers gelöscht, zumindest deutlich weniger als neu auftauchen. Ich vermute dass das daher kommt das viele Peers in der Datenbank beim letzten echten Neustart meines Tools (am 13.11.) von YaCy-Peers gelernt wurden die dort bereits veraltet waren. Die meisten der gelöschten Peers wurden von meinem Tool selber nie gesehen so das diese Anzahl seit dem 27.11. langsam aber kontinuierlich sinkt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Sa Dez 13, 2014 7:50 pm


Hilfe für Einsteiger und Anwender • YacY Icon verschwindet ständig

Date: 2014-12-16 13:17:30

Hallo und guten Tag an Alle, ich bin Linux Mint Benutzer und habe folgendes Problem mit Yacy. Ich habe mir yacy für Linux runtergeladen und es funktioniert auch über opera. Aber nach ein paar Tagen ist auf einmal das Icon von yacy verschwunden und ich versuche dann über den Downloadordner das yacy wiederzu aktivieren. Am mitgeschickten snapshot erseht Ihr meine Vorgehensweise, die aber meistens nicht funktioniert, egal was ich da versuche zu aktivieren. Ich muss dann meistens yacy neu downloaden und installieren. Dann geht es wieder ein paar Tage bis dann das Icon wieder verschwunden ist.

Bin sehr gespannt und freue mich auf die Antworten. Dankeschön.

1hartmann

Statistik: Verfasst von 1hartmann — Di Dez 16, 2014 1:17 pm


Hilfe für Einsteiger und Anwender • Re: YacY Icon verschwindet ständig

Date: 2014-12-16 16:15:44

Hallo,

verschwindet nur das Icon oder der gesamte YaCy-Prozess?
Ist YaCy noch per Browser ansprechbar wenn das Icon verschwunden ist?

Wenn das nächste mal das YaCy-Icon verschwindet Bitte einfach mal per Task-Manager nachsehen ob noch der YaCy-Prozess vorhanden ist. Der Prozess heißt üblicherweise nur \“java\” ist aber an einer sehr langen Befehlszeile erkennbar in der u.a. die Speicherzuweisungsparamater für die Java-VM enthalten sind.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Dez 16, 2014 4:15 pm


Hilfe für Einsteiger und Anwender • Re: YacY Icon verschwindet ständig

Date: 2014-12-16 16:55:54

das ist ja lustig, ich wusste gar nicht dass YaCy überhaupt irgendwo in einem Linux-Umfeld ein Icon erzeugt :) Das wirft die Frage auf: woher genau hast du YaCy genommen und wie hast du das installiert? Hat da jemand für Linux Mint einen Installer gebaut?

Statistik: Verfasst von Orbiter — Di Dez 16, 2014 4:55 pm


Suchmaschinen • Ich war bei Google... (\“intimate and exclusive event\“)

Date: 2014-12-16 19:23:35

Ich war bei Google...

Achtung es wird länglich aber auch nicht uninteressant, hatte noch kein Zeit das alle aufzuschreiben..

\“This is an intimate and exclusive event\”

https_events.withgoogle.com_leadership-impact-scale-google.png
https://events.withgoogle.com/leadershi ... le-google/{.postlink}

Am 28. November gab es ein merkwürdiges Event bei Google namens \“Leadership, Impact & Scale @ Google\” zu dem ich eingeladen wurde. Also bin ich da mal hingefahren, hier kommt der Bericht:

Die Veranstaltung war innerhalb des Office-Bereich in den Google-Büroräumen der Google-Zentrale in München in einem recht kleinen Vortragsraum. Es waren geschätzt nur 25 Personen eingeladen, wie ich später feststellte waren alle aus München, ich war der einzige der von weiter her kam. Die Räumlichkeiten sahen genau so aus wie man das von Pressebildern kennt, bunt, alles voller angeklebten Zetteln, bekritzelten Whiteboards, Spielzeug, Kicker, im Meetingraum Sofaecke, Musikgeräte und so ein Zeug.

Ich hab mich nicht getraut Bilder zu machen, aber so in etwa wie hier hats ausgesehen:
https://in.finance.yahoo.com/photos/goo ... 48651.html{.postlink}
.. es war nur [erheblich]{style=“text-decoration: underline”} zugemüllter :mrgreen:

Die Agenda liess nicht so richtig durchblicken warum ich und die anderen eingeladen waren und ob das Ereignis öfters stattfindet oder was besonderes ist und warum wir alle da waren. Einen der Gäste kannte ich sogar - der Linuxtag-Urheber (ich schreibe mal keine Namen). Jedenfalls dachte ich mir, Google läd da ggf. genau die Leute ein denen ich mal meine Visitenkarte geben könnte damit die mal auf YaCy gucken - hab mir extra neue gemacht die so ein bisschen YaCy-Miniprospekt waren. Also ich wollte die Veranstaltung hacken und am Ende alle zu YaCy-Fans machen, hat aber nicht so ganz geklappt...

Die Vorträge:
Ich habe versucht mitzuschreiben, Folienkopien gab es keine was sehr schade ist denn da standen interessante Sachen drauf. Alles war auf englisch. Im Publikum waren ungefähr 5 nicht-Deutschsprechende, was ich so hörte, also 20%. Die Namen der Vortragenden sieht man auf dem Snapshot oben.

Erst mal gab es ein [Vorwort bei dem erklärt wurde warum wir eingeladen wurden]{style=“font-weight: bold”}:
Zunächst sei es so dass Google nie viele Dinge über Interna erzählt, heute würden sie das ändern! Der deutsche Google-Ableger dürfte das eigenständig und das würden sie nun auch unabgestimmt machen. [Sie hätten sich aber entschlossen nicht mit der Presse reden zu wollen weil sie tatsächlich über Technik reden wollen und das würden sie lieber mit Technikern machen.]{style=“text-decoration: underline”} Also hätten sie besondere Spezialisten eingeladen damit man gemeinsam über Technik reden kann.. (an der Stelle wurde es dann doch spannend..)

1. Vortrag [\“Organization & Leadership\“]{style=“font-weight: bold”}
Die deutsche Google-Zentrale in München macht vor allem Billing, aber nicht nur. Da werden also Rechnungen geschrieben. Sie haben aber auch Entwicklungs- und Produktionsverantwortung dort, denn die 247 Verfügbarkeit will man nicht über Nachtschichten und Bereitschaften machen sondern durch Rotation der Verantwortung über den Globus. So würde man in München (auch, es gibt ja noch Zürich) die Administration für ganz-Google in den Kalifornischen Nachtstunden übernehmen.
Man würde bei Google keine Leitenden Personen wünschen, die nicht auch die Service administrieren können und Software entwickeln können. So würden alle Führungspositionen in allen Hierarchien Teilaufgaben innerhalb der Technik behalten damit sie in der Lage sind bei technischen Themen die richtigen Entscheidungen zu fällen. Umgekehrt soll es auch keine reinen Techniker geben sondern auch Managementfunktionen und Freiheiten erhalten.
Man würde bei Google keine Mitarbeiter über Stellenausschreibungen bekommen. Alles was fähig ist, wäre weg. In Silicon Valley würden auch keine arbeitlosen Geeks rumlaufen. Also würde man bei Google versuchen selber über verschiedene Wege Personen anzusprechen, die dann immer ganz überrascht seien dass sich Google für sie interessieren würden. Man bekommt dann auch nicht nach 1-3 Interviews gleich einen Vertrag, je nach Kandidat wären das auch ganz junge von der Uni weggeklaute Langzeitpraktikanten die sich im Laufe der Zeit als geeigneit zeigen oder auch nicht. Sie hätten in der Vergangenheit auch viele Nieten gehabt. Man schmeisst aber selten jemanden raus sondern \‘verwendet sie ihren Fähigkeiten entsprechend\‘. Die Mehrheit der Angestellten würden sicherlich insgeheim denken dass sie nur riesiges Glück hatten und bei den Vorgesetzen irgendwas falsch gelaufen wäre das man ausgerechnet sie genommen hätte. Das diese Angestellten so denken würden, würde (auch) damit zusammenhängen dass man nicht die typischen selbstsicheren Selbstdarsteller anspricht sondern eher die introvertierten Genies. So habe ich das jedenfalls verstanden.

2. Vortrag [\“Large Scale Design\“]{style=“font-weight: bold”}
Man würde bei Google einem \‘holistisches Design\’ folgen und alle Komponenten, Hardware, Netzwerke Software selber herstellen oder spezielle zusammenstellen. Manche Infos waren dann doch eher flach: es gäbe \‘many Boards\’ (weiss grad nicht mehr was da gemeint war) mit \‘Commodity Chips\‘, sehr schnellen Netzschnittstellen (ach!). Es wird nirgendswo ein RAID eingesetzt, die Speicherung von jeglichen Daten erfolgt immer auf Festplatten die zu den Servicerechnern gehören. Man hätte eine hohe Poweeffizienz. Jetzt kommen die Buzzwords:
Networking: es gäbe ein hardware CDN routing, RPC Systeme, Kompression, OpenFlow.
Software: Data-driven Software practices. Für Scalability: sharding, denormalized load balancing with intermedia layers.
Utilization: die Billing-Aufgaben in München beziehen sich offensichtlich (so habe ich das verstanden) vor allem auf Youtube. Dazu gabe es auch (unglaubliche) Zahlen:
- jeden Tag werden 20 Milliarden (es stand 20*10\^9 auf der Folie) Webseiten gecrawlt
- jeden Tag werden (angeblich) 4 Milliarden Stunden auf Youtube hochgeladen.

Die letzte Zahl sorgte zurecht zu Rückfragen. Man versicherte dass das richtig sei. Ich habe dann später in der Bar nochmal persönlich und direkt nachgefragt ob das wirklich sein kann, was bestätigt wurde. Drei Tage später kam dann eine Berichtigung:

\“Also, as some of you have noticed, there was a mistake in the numbers presented in Alex’s talk. Thanks for noticing, and pointing it out. We copied the wrong row from another slide. YouTube has more than 4 billion views per day and the number of daily uploaded hours of video is more like 150,000.\”

Vier Milliarden Ansichten pro Tag und 150000 Stunden Uploads sind trotzdem gewaltig. Das sind 104 Stunden Upload pro Minute. Schade dass dieser Copy-Paste Fehler und Uninformiertheit der \‘Informierer\’ hier einen faden Geschmack auf die ganze Veranstaltung werfen.
Weiter Utilization:
16 Videoformate würden verarbeitet werden und durchlaufen eine recht lange Verarbeitungskette. Dazu gab es ein Bild das ein Zuhörer für ein Raumschiff hielt, es sei aber der Workflowprozess, stark verkleinert. Beispielsweise wird aus dem Video der Ton extrahier und in verschiedenen weiteren Queues entweder zwerschnitten, daraus ID-Hashes berechnet die wiederum mit Copyright-Content-IDs verglichen werden oder es wird in einer Queue eine Stimmerkennung gemacht mit nachgelagerter Volltextindexierung (da werden sie bei Gronkh ja spass haben dachte ich). Es gäbe 3D Conversion (was auch immer das macht).
Man hätte 70% Utilization der Resources, der Load Balancer / Scheduler wurde von Google entwickelt und heisst intern \‘Borg\‘. Im allgemeinen wären alle Tools, die von Google entworfen worden schon drei oder mehr mal komplett neu geschrieben worden.

3. Vortrag: [\“Service Managament\“]{style=“font-weight: bold”}
Hier ging es um die Fragen der Organisation von Services, Performance und Skalierung.
Buzzwords: uniformity, maturity, expectations, growth - das sind wohl die Metriken nach denen Services skalieren sollen.
Es gab eine längliche Diskussion um die verwendeten Programmiersprachen. Dabei ist wohl so alles was man sich so vorstellen kann, viele der schrägen Mitarbeiter hätten die merkwürdigsten Programmiersprachen \‘mitgebracht\’ und eingesetzt. Im Laufe der Zeit sind ein paar Klopper dann rausgeflogen, offenbar auch eine frühe \‘Borg\‘-version die in List geschrieben war. Es würde zur Zeit auf vier Programmiersprache hinauslaufen, in das nun konvergiert wird:
- C++ für das Backend
- Python für System Managament
- Java für Frontend
- und immer mehr \‘R\’ (es gäbe auch viele Scheme Programmierer bei Google)
Traditionell gäbe es nur ein einziges Version Control System in dem alle Entwicklungen von Google intern liegen.
Bei der Neuentwicklung würde man den folgenden Grundsätzen folgen:
- \“Act tactically or your service will go down\”
- \“Think strategically or your team will go down\”

[Q&A]{style=“font-weight: bold”}
In den dann folgenden Q&A gab es noch viele \‘Stories\’ wie man zu neuen Leuten kommt und wie diese gemanaget werden. Es gäbe halt bei Google viele Freiheiten aber auch Mitarbeiter die nicht nur diese zu sehr ausnutzen sondern auch \‘die anderen mit runter ziehen\‘. Man müsste dann auch mal \‘motivieren\’ indem man die leute auch mal wieder zwingt zu fokussieren. Wie macht man das? \“pressure on goal\” - \“people do not work faster but focus better\“. Ich lass das mal so stehen.

[Bar & Buffet]{style=“font-weight: bold”}
Nachfolgend sind wir alle in eine Bar gepilgert die zur Häfte für uns reserviert war und wo es ein Flying Buffet mit Saufen bis Abwinken gab. Auf dem Weg dorthin hatte ich die erste Gelegenheit mit anderen Teilnehmern zu sprechen. Bis zu dem Zeitpunkt war mir nicht klar was Google mit dem Ereignis erreichen wollte. Wollte man neue Mitarbeiter finden? Es gab aber offenbar bei den Besuchern auch selber Personen mit Personalverantwortung, die kamen offenbar nicht in Frage. Es war auch mindestens ein Bewerber dabei. Ich selbst hab mit keinem einzigen Wort irgendwie eine Zuordnung von mir zu Knowhow von Suchtechnik, YaCy, Jobangebot oder irgendwas gehört. In der Bar hab ich mir dann meinen YaCy-Button ans Hemd geheftet und bin damit ein wenig offensiver umgegangen und hab versucht den anderen Teilnehmern davon zu erzählen, mit durchwachsenem Erfolg. Die drei Vortragenden waren auch dort und es gab auch angeregte Diskussionen um Sinn und Unsinn der Google-Kritik, Datenschutz, Zensur, Streetview-Wegblenden, Leistungsschutzrecht und mehr.

Am Ende fragte ich dann kurz bevor ich ging \“darf ich das alles bloggen\“? Ich kann mich an die Antwort nicht mehr erinnern aber der Blick hatte so ein \‘Ring des Vertrauens\‘. Egal, so große Geheimnisse waren es ja nicht.

Also wie soll ich das bewerten? Wenn Google mehr Transparenz ausstrahlen will, dann wäre ggf. doch auch ein paar Leute von Datenschutzorganisationen als Zuhörer geeignet gewesen (z.B. digitalcourage oder netzpolitik-Leute), zumindest als \‘Beimischung\‘. Vielleicht war es doch eher eine Aktion um neue Mitarbeiter zu gewinnen. Ach ja, es fiel die Bemerkung \‘wir nehmen gerne Empfehlungen entgegen\‘.

Technisch gesehen war das ganze nicht soo die Offenbarung, aber ein bisschen war ja schon dabei, diese Infos gibts ja sonst nur in klitzekleinen Bröckchen.

Jetzt hab ich schon so viel geschrieben, ggf. erinnere ich mich an mehr, bitte nachfragen.

Statistik: Verfasst von Orbiter — Di Dez 16, 2014 7:23 pm


Hilfe für Einsteiger und Anwender • Re: YacY Icon verschwindet ständig

Date: 2014-12-16 19:29:01

Danke Orbiter für die schnelle antwort. Ich lade mir das immer direkt von der yacy seite runter. Schau hier: http://yacy.net/de/
Das sind tar.gz Dateien. Da ich Opera als Standardsuchmaschine habe öffnet yacy damit. aber ein Icon war falsch von mir. Das gibt es nicht. Ich muss yacy immer über das Dir erste mitgeschickte Snap öffnen. Ich weiss auch nicht welchen Button ich beim Terminalicon drücken soll, ob \“Im Terminal ausführen\” oder \“Ausführen\“. Bitte erkläre mir mal den Unterschied. Jedenfalls habe ich immer auf alle zwei gedrückt und es hat funktioniert. Aber ich musste irgendwas in die URL eingeben ähnlich wie: localhost: 8090....…und den rest habe ich vergessen. Dann hat es immer geklappt.yacy 1.png. Wie kann ich denn übrigens yacy in Firefox integrieren?

Danke Dir vorerst.

1hartmann

Statistik: Verfasst von 1hartmann — Di Dez 16, 2014 7:29 pm


Suchmaschinen • Re: Ich war bei Google... (\“intimate and exclusive event\“)

Date: 2014-12-16 20:30:58

Hallöchen Orbiter,

interessanter Bericht!

Öhm... 20 Milliarde Seiten pro Tag? Da haben wir mit YaCy aber noch \‘nen sehr weiten Weg vor uns! Was mich gerade wundert:

\ Es wird nirgendswo ein RAID eingesetzt, die Speicherung von jeglichen Daten erfolgt immer auf Festplatten die zu den Servicerechnern gehören.\



Irgendwie kann ich mir das nicht so recht vorstellen, das klingt jetzt selbst für mich als reinen Anwender mehr als nur etwas merkwürdig! :?:

Statistik: Verfasst von TmoWizard — Di Dez 16, 2014 8:30 pm


Suchmaschinen • Re: Ich war bei Google... (\“intimate and exclusive event\“)

Date: 2014-12-16 20:37:21

fand ich total plausibel. Da haben wir tatsächlich nochmal in der Bar drüber gesprochen. Das ist zum Teil eine Methode um Resourcen besser zu nutzen denn man braucht ja keine Extra-RAID Rechner und dann habe ich nochmal spezielle Eigenschaften des IO beim Indexieren angesprochen (sequentielles Schreiben ohne interrupt dazwischen) aber der Google-Mitarbeiter hatte entweder davon keine Ahnung oder wollte nix sagen.

Ach ja und dann haben wir über die Unmengen von Videos gesprochen die nur ein mal angeguckt werden (vom Uploader :? ): es gibt keine Bestrebungen solche sachen irgendwann zu löschen weil es eh niemand anguckt: \“Speicher ist soo billig\” sagte er.

Statistik: Verfasst von Orbiter — Di Dez 16, 2014 8:37 pm


Mitmachen • Re: yacy.net wird von Check Point als File-Sharing gebrandma

Date: 2014-12-17 11:12:00

Trend Micro hat leider keine Kostenlosversionen und http://global.sitesafety.trendmicro.com/ zeigt andere Ergebnisse als ich auf meinem Rechner bekomme. Für Trend Micro musst also zu mir ins Büro kommen. ;)

Statistik: Verfasst von Low012 — Mi Dez 17, 2014 11:12 am


English • Re: How to get YACY working as a proxy

Date: 2014-12-17 16:40:53

Hello,

Orbiter hat geschrieben:\ But here is the solution: \[\....\] submit a fix\

Okay, i think the problem can be provisional solved in File \”source/net/yacy/search/Switchboard.java{.postlink}\”:
Change Lines 924 / 1443 from

Code:
Domains.setNoLocalCheck(isAllIPMode());

to

Code:
Domains.setNoLocalCheck(isAllIPMode() | !(this.getConfigBool("isTransparentProxy",false)));

I hope this will disable the Local-IP-Check if the internal Proxy is disabled by the Peer-Configuration. That means that all incoming Connections are always handled by the HTTP-Server because the Check is completely avoided if the internal Proxy is disabled. This is variant 2 from this Post{.postlink}.

Your Peer is still reliable responding with a 403-Error for accesses with the Link (i have sent you with a PM), i think there is a really good chance for removing this problem.

Orbiter hat geschrieben:\ From a moderators point of view \....\ As a forum moderator \....\

Okay, i think your suggestion is right, from a moderators point of view.
But one question is open: what could be the correct answer from a developers point of view?
I mean the answer for my (hard) criticism.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mi Dez 17, 2014 4:40 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-12-17 17:05:34

Hallo,

der massive Ansturm an neuen YaCy-Peers ist erst einmal abgeebbt aber es sind jetzt etwa 20 bis 30 Peers mehr online gegenüber der selben Tageszeit von vor dem Wochenende. In gut 2 Tagen sind knapp 300 neue YaCy-Peers aufgetaucht wovon derzeit etwa 40 bis 60 Peers keine Eintagsfliegen geblieben sind, die Anzahl der Peers die in den vergangenen 7 Tagen mindestens einmal online waren ist jedenfalls deutlich gestiegen. Am Sonntag waren im Maximum mehr als 270 YaCy-Peers gleichzeitig online, zuvor lag dieses Maximum bei gut 230 YaCy-Peers. Die Anzahl der pro Peer als bekannt gemeldeten Peers ist seit dem Wochenende auf etwa 350 gesunken, es stellt sich also wieder eine Normalisierung ein.

Ist dass das Vorweihnachtsgeschäft von YaCy? Zum 3. Advent. ;)
Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Dez 17, 2014 5:05 pm


Hilfe für Einsteiger und Anwender • Re: YacY Icon verschwindet ständig

Date: 2014-12-17 17:33:06

Hallo,

1hartmann hat geschrieben:\ Ich muss yacy immer über das Dir erste mitgeschickte Snap öffnen.\

Was Bitte ist ein \“Snap\“?
Wenn Du YaCy per \“startYACY.sh\” startest, öffnet sich dann automagisch ein Browserfenster mit der Suchseite Deines YaCy-Peers (also mit \“localhost:8090\” o.ä. in der Adresszeile des Browser) oder musst Du das manuell machen?

1hartmann hat geschrieben:\ ob \"Im Terminal ausführen\" oder \"Ausführen\". Bitte erkläre mir mal den Unterschied.\

Ich kenne mich mit Mint-Linux nicht aus, ich bin bekennender [K]{style=“font-weight: bold”}ubuntu User, aber ich vermute der wesentlich Unterschied ist das bei \“im Terminal ausführen\” ein Terminal-Fenster (sowas wie die Eingabeaufforderung/Kommandozeile von Windows) geöffnet wird damit der User die Ausgaben des Programms dort sehen/verfolgen kann. Da die \“startYACY.sh\” aber nur die Java-VM als neuen eigenständigen Prozess startet und dann zu ende ist (womit vermutlich das Terminal-Fenser automatisch geschlossen wird) dürfte der Unterschied letztlich vernachlässigbar sein.

1hartmann hat geschrieben:\ Wie kann ich denn übrigens yacy in Firefox integrieren?\

Du kannst mit jedem Browser der auf Deinem Computer läuft \”localhost:8090{.postlink}\” aufrufen und bekommst dann die Suchseite von YaCy angezeigt, YaCy ist u.a. eine Art Web-Server der auf Deinem Computer läuft und dort mit jedem beliebigen Browser nutzbar ist. YaCy läuft auch dann im Hintergrund weiter wenn Du den Browser komplett zu machst. Falls Du mit \“integrieren\” etwas anderes meinst dann frage Bitte konkreter.

Was ist denn nun der genaue Grund warum Du YaCy immer wieder neu installierst?
Was genau [verschwindet]{style=“font-style: italic”} denn?
Wenn Du den Eindruck hast das YaCy [weg]{style=“font-style: italic”} ist, hast Du dann mal geprüft ob der Java-VM-Process noch vorhanden ist? In der \“Systemüberwachung\” von Mint Linux ist wohl ein Taskmanager vorhanden, damit sollte ersichtlich sein ob Java noch läuft oder nicht.

Grüße
Erik

Statistik: Verfasst von Erik_S — Mi Dez 17, 2014 5:33 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2014-12-17 21:43:44

der Traffic kam von hier: https://news.ycombinator.com/item?id=8746883
Vor drei Tagen gab es in Spitzenzeiten 400 neue Besucher pro Minute auf yacy.net wegen diesem Posting.
Auf Twitter war auch ganz schön was los: https://twitter.com/search?q=yacy&src=typd
Man kann das ganze auch im YaCy piwik sehen: http://anomic.de/piwik/

Statistik: Verfasst von Orbiter — Mi Dez 17, 2014 9:43 pm


English • Address Host: []:8090

Date: 2014-12-18 10:51:14

Hello,
We have a machine (YaCy version 1.819282) reporting this on Status.html page:

\ Address\ Host: \[\]:8090\



A healthy machine will report something like this

\ Address\ Host: \[a.bcd.ef.gh\]:8090\ Public Address: \



Not surprisingly, it logically reports on the same page:

\ The peer must go online to get a peer address.\



While it runs, and results can be searched,
> [[it cannot crawl, cannot see the Net, and cannot be seen by other machines]{style=“text-decoration: underline”}]{style=“font-weight: bold”} - even if they have the correct Solr address for Robinson servers
i.e., http://abc.def.g.hi:8090/solr

How to restore it being able to see the net, please?

Also we note ConfigPortal.html reports this error:

\ HTTP ERROR 500\ \ Problem accessing /ConfigPortal.html. Reason:\ \ Server Error\ Caused by:\ \ javax.servlet.ServletException: /usr/share/yacy/htroot/ConfigPortal.html\ at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)\ at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)\ at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:800)\ at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)\ at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)\ at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)\ at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)\ at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)\ at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)\ at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)\ at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at org.eclipse.jetty.server.Server.handle(Server.java:497)\ at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:310)\ at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)\ at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)\ at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:620)\ at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:540)\ at java.lang.Thread.run(Thread.java:745)\ \ YaCy 1.81 - powered by Jetty -\



Thank you for your help

Statistik: Verfasst von xioc752 — Do Dez 18, 2014 10:51 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-18 22:09:52

So, das Repository ist angelegt, jetzt muss ich nur noch den Code der App com letzten Jahr finden. Ich werde das Projekt diesmal mit Android Studio bearbeiten, da dass ADT-Plugin für Eclipse leider mittlerweile keine Liebe mehr bekommt.

https://gitorious.org/31c3-search

Statistik: Verfasst von Low012 — Do Dez 18, 2014 10:09 pm


Hilfe für Einsteiger und Anwender • Re: YacY Icon verschwindet ständig

Date: 2014-12-19 01:04:20

Hallo an Alle,

ich möchte mich bei euch recht herzlich bedanken. Ich habe den Fehler gefunden. Leider kann ich garnicht richtig erklären an was es gelegen hat. Jedenfalls wenn ich jetzt in die URL localhost:8090 eingebe und vorher über das Terminal starte funktioniert es immer. Also vielen Dank.

1hartmann

Statistik: Verfasst von 1hartmann — Fr Dez 19, 2014 1:04 am


Off-Topic • Re: SQL-Fehler auf forum.yacy-websuche.de

Date: 2014-12-19 10:32:15

Orbiter hat geschrieben:\ ich weiss, habs auch ein paar mal gesehen. Keine Ahnung was man da machen kann, vielleicht hat der Hoster da ein Problem. Ich wollte mich da nicht beschweren bevor es nicht viel schlimmer wird.\



Hi Orbiter,

der Fehler tritt auf, wenn die Anzahl der [gleichzeitgen]{style=“font-weight: bold”} Verbindungen zum MySQL Server das konfigurierte maximum überschreitet. Das kann z.B. auftreten, wenn sehr viele Nutzer gleichzeitg auf der Seite unterwegs sind. Um das Problem zukünftig zu umgehen müsste die MySQL Server Konfiguraton angepasst werden

Falls ihr selbst root Zugriff auf den Server habt:
Die Datei /etc/mysql/my.cnf (Debian) oder /etc/mysql/mysqld.conf o.ä. editieren und den Eintrag [max_connections]{style=“font-style: italic”} anpassen. Als Standard ist soweit ich weiß 100 konfiguriert. EInfach hochsetzen auf z.B. 200. Um das neue Limit zu aktivieren, muss der MySQL Server neu gestartet werden. Noch ein Hinweis: Das Erhöhen dieses Wertes sorgt auch für einen höheren RAM Bedarf des MySQL Servers.

Statistik: Verfasst von freak — Fr Dez 19, 2014 10:32 am


Hilfe für Einsteiger und Anwender • Re: Tutorial - Monitoring Yacy with Cacti

Date: 2014-12-19 18:29:03

Orbiter hat geschrieben:\ nice work! can I download your tutorial and offer it from yacy.net as download (there is no license note in the document)?\



Sure.

Statistik: Verfasst von oneaty — Fr Dez 19, 2014 6:29 pm


Hilfe für Einsteiger und Anwender • Re: Wiki co ntribution

Date: 2014-12-19 18:32:16

Orbiter hat geschrieben:\ sorry for the late answer.. I like this a lot and try to push it to the public a bit, maybe we get more users for this:\ [https://twitter.com/yacy\_search/status/ \... 9103342592](https://twitter.com/yacy_search/status/542968499103342592){.postlink}\



That\’s the idea.

Statistik: Verfasst von oneaty — Fr Dez 19, 2014 6:32 pm


Hilfe für Einsteiger und Anwender • Re: Tutorial - Monitoring Yacy with Cacti

Date: 2014-12-19 19:05:26

Orbiter hat geschrieben:\ nice work! can I download your tutorial and offer it from yacy.net as download (there is no license note in the document)?\



Please, use this latest version: https://docs.google.com/document/d/1AVAGqVa80mwauDQWUVFYOObZ1B0_69ElFr3k0txeogY/edit?usp=sharing

I added 2 notes for those who will read the document outside this forum thread.

Statistik: Verfasst von oneaty — Fr Dez 19, 2014 7:05 pm


Fragen und Antworten • How to deal with error \“Your peer cannot be reached from out

Date: 2014-12-19 22:44:47

side\” after port has been opened on router?[1]

Hi,
I\’m getting the error message \“Your peer cannot be reached from outside\” in the `Basic Configuration` section (weeks) after I opened HTTP and HTTPS ports on my router for TCP and UDP. How can I debug further?

-Kalle

---
[1] Is the length restriction supposed to prevent users from writing meaningful titles?

Statistik: Verfasst von krichter — Fr Dez 19, 2014 10:44 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-20 10:16:36

Hello,

you can try canyouseeme.org{.postlink} or yacy.info/tool_test{.postlink}, the last one checks for the availability of a real YaCy-Peer but works only for HTTP (not HTTP[S]{style=“font-weight: bold”}). And the last one supports IPv4 and IPv6.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Dez 20, 2014 10:16 am


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-20 13:21:01

Hi,
http://canyouseeme.org/ says that the port is reachable. http://yacy.info/tool_test says \“No valid YaCy-Peer found.\” without any explanation why there\’s no valid peer, links to what a valid peer is, etc. I was already running a yacy instance with the same DynDNS-Setup (BTW, I\’m using DynDNS...) I have now, but between some unknown versions it stopped working. How to find out what a valid peer is (after both the testing site and the yacy frontend don\’t reveal that) and the wiki contains a lot of blank pages which make search too annoying to lead to a result)?

Statistik: Verfasst von krichter — Sa Dez 20, 2014 1:21 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-20 14:16:14

hoho, sehe ich da Testanfragen im log?

Code:
Dalvik/2.1.0 (Linux; U; Android 5.0.1; Nexus 5 Build/LRX22C)

Statistik: Verfasst von Orbiter — Sa Dez 20, 2014 2:16 pm


English • Re: YaCy is staring message but it never starts.

Date: 2014-12-20 14:32:11

Copy the Yacy directory and try this.
Look at YaCy\DATA\LOG files and see if any Errors when starting.
If so then please report at http://mantis.tokeek.de/my_view_page.php

Delete yacy.conf in yacy\data\settings and try to start with startYACY.bat in the copied directory.
Try a reinstall of Yacy just a thought.

Failing all that just get going again on different install dir.
I have had to do it once or twice in the past 18 months.
I now run a VPS server saves me on the power bill USD \$8.00/month.

Statistik: Verfasst von smokingwheels — Sa Dez 20, 2014 2:32 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-20 15:15:56

Hello,

krichter hat geschrieben:\ http://canyouseeme.org/ says that the port is reachable.\

canyouseeme.org opens the TCP-Port but does not transfer any data, that means it does not check for the availability of any kind of service.

YaCy is a HTTP-Server, you can try webpagetest.org{.postlink} with your IP-Address + Port + / for a analysis of the HTTP-Response from your Peer. (see on the Tap \“Details\” in the Result-Page)

krichter hat geschrieben:\ http://yacy.info/tool\_test says \"No valid YaCy-Peer found.\" without any explanation why there\'s no valid peer\

That is true, sorry. The tool on this Server is coded by me and i know there is no correct Error-Handling between the Layers in my Software. There are many reasons that can cause the response \“No valid YaCy-Peer found\“. It can be a problem on the HTTP-Layer (e.g. a HTTP-403-Error), or the received data is not correct or empty, or something else is wrong. You may receive the most precise answer if you send me your IP-Address + Port as a private message and i will use my tool on my local PC with a network-analyzer running in background.

Greetings
Erik

Statistik: Verfasst von Erik_S — Sa Dez 20, 2014 3:15 pm


English • Having trouble with port forwarding

Date: 2014-12-20 20:09:10

Hello, I would very much like to contribute my index to the network, but I am having trouble with port forwarding.

I\’m running Yacy 1.89000 on a Macintosh with Yosemite connected to the Internet through a wire. My ISP is Cablevision/Optimum Online.

I have opened both ports 8090 and 8443 on my router, and I\’ve tested that they\’re open using the Network Utility in OS X, but Yacy still says that my peer can\’t be reached from the outside. I\’ve tried restarting Yacy several times, without success.

I\’ve also tried opening different ports, 9090 and 9443, both of which I also tested with network utility, with no effect. (Of course, I also changed the ports Yacy looks for in the administration menus.)

My ISP blocks both ports 80 and 25, but I have a feeling that isn\’t the problem. Optimum Online does give the option of opening these ports, and so I opened port 80, again with no effect.

Might anyone know what the problem is?

Statistik: Verfasst von erkofle — Sa Dez 20, 2014 8:09 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-20 22:02:33

Ja, das bin ich. :) Ich habe meinen alten Code gefunden und mich erschreckt, wie viele Probleme da noch drin sind. Bis auf den Parser werde ich wohl fast alles neu schreiben. Ich werde aber trotzdem so schnell wie möglich was ins git pushen. Wenn ich den Kram nur lokal habe, habe ich immer so ein schlechtes Gefühl.

Statistik: Verfasst von Low012 — Sa Dez 20, 2014 10:02 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-21 00:20:02

The test provided by http://www.webpagetest.org/ succeeded for my domain without port specification and failed with port 8090 added with error message \“Skipped repeat view, first view failed: Test run failed with result code -1\” (no idea what this could mean...).

I\’m not in a hurry to get it running. I\’d prefer to get this fix for everyone (http://mantis.tokeek.de/view.php?id=516) rather than just me.

Thanks for you assistance.

-Kalle

Statistik: Verfasst von krichter — So Dez 21, 2014 12:20 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-21 00:26:53

Ich habe eben Code ins git übertragen. Das sollte sich mit der akuellen Version von Android Studio bauen lassen. Die App sollte mit allen Geräten laufen, auf denen mindestens Android 2.2 installiert ist. Leider habe ich aber keine Testgeräte hier, um das zu überprüfen. Mal schauen, ob ich noch welche auftreiben kann. Tablets habe ich ebenfalls nicht hier. Ich kann nur mit meinem Nexus 5 testen.

Ich poste Binaries, wenn ich halbwegs zufrieden mit dem Stand der App.

Statistik: Verfasst von Low012 — So Dez 21, 2014 12:26 am


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-21 10:20:53

Hello,

krichter hat geschrieben:\ The test provided by succeeded for my domain without port specification\

Does that mean your YaCy-Peer is public accessible with Port 80? Or runs on Port 80 a regular HTTP-Server (or something else) independent from YaCy?

krichter hat geschrieben:\ and failed with port 8090 added with error message \"Skipped repeat view, first view failed: Test run failed with result code -1\" (no idea what this could mean\...)\

Can you see in the Result-Page a Tap with \“Details\“? There should be a view with the results of the plain HTTP-Request.

krichter hat geschrieben:\ I\'d prefer to get this fix for everyone\

Okay, i do working on this issue, a fix should be online in the very near future. I will post in this thread for notification.

krichter hat geschrieben:\ http://mantis.tokeek.de/view.php?id=516\

I am not part of the [official]{style=“font-style: italic”} YaCy-Team, i am not sure if mantis.tokeek.de is the right place for reporting bugs on yacy.info, but i feel me responsible for problems with my tools/web-site and i will fix it asap.

Greetings
Erik

Statistik: Verfasst von Erik_S — So Dez 21, 2014 10:20 am


English • Re: Having trouble with port forwarding

Date: 2014-12-21 10:31:11

Hello,

you can try canyouseeme.org{.postlink} or webpagetest.org{.postlink} with your IP-Address + Port.
If both Tests are positive, you can check with yacy.info/tool_test{.postlink} for a correct response of a real YaCy-Peer. But please be warned, this Test is still under development and gives currently only a simple Okay/NotOkay-Answer.

Greetings
Erik

Statistik: Verfasst von Erik_S — So Dez 21, 2014 10:31 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-21 12:20:02

cool, ich versuche mich damit zu beschäftigen sobald ich Zeit hab, d.h. erst ab 23.12. nachts...

Hier habe ich nun artwork fürs 31c3 gefunden, kannst du das verwenden?
http://www.nerd2nerd.org/chaostreff-wue ... nproof.png{.postlink}

Statistik: Verfasst von Orbiter — So Dez 21, 2014 12:20 pm


Mitmachen • Re: [Info] golem.de ist im Index

Date: 2014-12-21 14:21:29

flegno hat geschrieben:\ Oder gibt\'s bereits ein Kochrezept dafür, wie man unerwünschte Inhalte vom Index fernhalten kann? Dann her da mit dem Link ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile") .\



Als stummer MItleser und Gelegenheitscrawler irritiert mich das ein wenig. Wie ist das kompatibel zu \“ohne Zensur\“?

-h

Statistik: Verfasst von rzkh — So Dez 21, 2014 2:21 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-21 16:04:29

Hi,

Erik\_S hat geschrieben:\ Does that mean your YaCy-Peer is public accessible with Port 80? Or runs on Port 80 a regular HTTP-Server (or something else) independent from YaCy?\


There\’s a webserver running on port 80 and yacy is set up to run on port 8090. There\’re no subdomains or URL pathes.

Erik\_S hat geschrieben:\ I am not part of the official YaCy-Team, i am not sure if mantis.tokeek.de is the right place for reporting bugs on yacy.info, but i feel me responsible for problems with my tools/web-site and i will fix it asap.\


Great, I\’m looking forward for the fixed. I added a note to the issue in the mantis bug tracker.

Erik\_S hat geschrieben:\ Can you see in the Result-Page a Tap with \"Details\"? There should be a view with the results of the plain HTTP-Request.\


In a second run today the test succeeds (on the yacy port), but yacy still complains \“Your peer cannot be reached from outside\“.

-Kalle

Statistik: Verfasst von krichter — So Dez 21, 2014 4:04 pm


English • Re: Having trouble with port forwarding

Date: 2014-12-21 16:29:04

Thank you, Eric S.

I tried the two sites, and I think I see part of the problem...

(First, I\’m not sure how I would test the ports on webpagetest...)

The IP addresses in my router settings and on canyouseeme and yacy are different. The one on my router is called \“internal IP.\” When I tried to change my router settings to match the IP address on the websites, It said \“Server IP address must be a LAN IP address\” and changed it back to the original IP.

On canyouseeme.org, it does not let me change the IP address. When I enter the ports I opened on my router, it says it can not see it my service.

On the Yacy test site, when I enter my internal IP, nd ports it says \“Get Not global Unicast-IP-Address.\”

If I enter the IP it says I have, (which is the same one canyouseeme.org thinks I have) it waits for a while, and then says \“No valid Yacy peer found.\”

Statistik: Verfasst von erkofle — So Dez 21, 2014 4:29 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-21 18:35:06

Hello,

krichter hat geschrieben:\ In a second run today the test succeeds (on the yacy port)\

With which test-site?
If the Port-Forwarding is working, you should see on yacy.info/tool_test what your Peer think about its public reachability.

krichter hat geschrieben:\ but yacy still complains \"Your peer cannot be reached from outside\".\

Please go to the List of active Peers of your Peer (localhost:8090[/Network.html?page=1]{style=“font-weight: bold”}{.postlink}) and try some different Peer-Lists of other Peers (follow the Link on the right-most icon in the column \“Info\“, you should reach /Network.html?page=1 on an external IP-Address) and search there your Peer.

With the Hash or Name of your Peer (the two left-most columns on the Peer-List), you can check on yacy.info/tool_query{.postlink} what the YaCy-Network think about your Peer.

Greetings
Erik

Statistik: Verfasst von Erik_S — So Dez 21, 2014 6:35 pm


Mitmachen • Re: [Info] golem.de ist im Index

Date: 2014-12-21 19:14:52

Hallo,

rzkh hat geschrieben:\ Wie ist das kompatibel zu \"ohne Zensur\"?\

Eigentlich gar nicht.
Meiner persönlichen Meinung nach kommt das Problem eher vom Wohnort Deutschland. Als Peer-[Betreiber]{style=“font-style: italic”} bist du eventuell dafür verantwortlich zu was für Seiten Dein Peer Links anbietet. Denke nur mal daran wie die Betreiber der PiratenBucht von der zuständigen Justiz geradezu gelyncht wurden und die haben auch nur Links angeboten. Diese Links waren maximal Urheberrechtsverletzungen, stell Dir mal vor was wäre wenn in Deinem Index Links zu richtig krassem Zeugs auftauchen. Nach deutschen Recht genießen Suchmaschinen zwar einen gewissen Sonderstatus aber möchtest Du Dich darauf verlassen das ein deutscher Richter das auch für Deinen YaCy-Peer anerkennt (bei \“Peer-to-Peer-Netzwerk\” denkt der Richter doch höchstwahrscheinlich sofort an die allerschlimmsten Sachen). Und selbst wenn der Richter Deiner Argumentation folgen kann und es auf einen perfekten Freispruch endet, so einem Prozess geht für gewöhnlich eine Hausdurchsuchung mit Beschlagnahmung aller Geräte die auch nur im entferntestem einem Computer oder einem Datenträger ähneln könnten einher. Ob und wann Du Dein Zeugs jemals wieder siehst kann Dir niemand sagen. Selbst die Backup-Festplatte mit den Urlaubsfotos der vergangenen 10 Jahre ist eventuell auf nimmerwidersehen in irgendeinem Polizeiarchiv verschwunden, womöglich trotz Freispruch, was dazu wohl Deine Familie sagt?

Ich hab absolut keine Ahnung was Dir Dein digitales (oder Dein analoges) Leben wert ist und Du darfst mich auch gerne als paranoid bezeichnen, es geht mir nur um das Bewusstsein um die [möglichen]{style=“font-style: italic”} Risiken. Es gibt in Deutschland bereits ein paar Fälle wo ganze Existenzen nach obigen Schema vernichtet wurden (alles weg + Familie und Arbeitsplatz futsch + mehrere Jahre Untersuchungshaft) die nachweislich unschuldig waren.

Ich persönlich habe absolutes Verständnis dafür wenn sich die Leute so gut wie möglich absichern wollen damit Ihr YaCy-Peer keine \“problematischen\” Dinge macht/anbietet, auch wenn das dem Gedanken der \“Zensurfreiheit\” zuwider läuft.

Grüße
Erik

Statistik: Verfasst von Erik_S — So Dez 21, 2014 7:14 pm


English • Re: Having trouble with port forwarding

Date: 2014-12-21 19:54:18

Hello,

erkofle hat geschrieben:\ (First, I\'m not sure how I would test the ports on webpagetest\...)\

The Link with an IP-Address has this form: \“1.2.3.4:8090/\” (the IP-Address must be your public/external IP-Address)

erkofle hat geschrieben:\ The IP addresses in my router settings and on canyouseeme and yacy are different. The one on my router is called \"internal IP.\" When I tried to change my router settings to match the IP address on the websites, It said \"Server IP address must be a LAN IP address\" and changed it back to the original IP.\

This is correct. It seems you use a NAT-Router, please see to http://en.wikipedia.org/wiki/Network_ad ... ranslation{.postlink} for more details.
An internal IP-Address is only valid/usable inside your local Network, and in a local Network are typical only private/internal IP-Addresses usable/available.

erkofle hat geschrieben:\ On canyouseeme.org, it does not let me change the IP address. When I enter the ports I opened on my router, it says it can not see it my service.\

The problem may be the Configuration of your Router, please look into the manual of your Router for correct configuration of a Port-Forwarding. An alternative can be UPnP, if your Router does support it, your YaCy-Peer may be able to use this protocol for opening the Port-Forwarding automatically if enabled. An other possible reason can be a port-blocking by your ISP.

erkofle hat geschrieben:\ On the Yacy test site, when I enter my internal IP, nd ports it says \"Get Not global Unicast-IP-Address.\"\

This is also correct, private/internal IP-Addresses are not usable on the global/public Internet.

erkofle hat geschrieben:\ If I enter the IP it says I have, (which is the same one canyouseeme.org thinks I have) it waits for a while, and then says \"No valid Yacy peer found.\"\

The short time is the timeout for creating a TCP-Connection from my Server to your Computer and it seems that your Router or your Computer does not responds to my Server. Probably is the Port-Forwarding in your Router not working correctly or the Connection is blocked by an other reason.

What do your router think about your [public]{style=“text-decoration: underline”} IP-Address? Is it the same as reported by canyouseeme.org or yacy.info?

Greetings
Erik

Statistik: Verfasst von Erik_S — So Dez 21, 2014 7:54 pm


Mitmachen • Re: [Info] golem.de ist im Index

Date: 2014-12-21 20:48:51

Hallo Erik,

ich bin paranoid genug, hatte auch schon eine vierstellige Anzahl Datenträger mit Asservate-Aufklebern (die wilden 90er...), und hier steht auch genug rum, was bei Abholung schmerzlich vermisst werden würde.

Allerdings - und da bin ich sehr pessimistisch - ist unser Rechtsstaat gerade auf dem Weg, sich vollends zu verabschieden. Man nehme als Beispiel Spanien mit seinem Filmverbot für prügelnde Polizisten. Die EU ist da gewiss noch steigerungsfähig.
Denkt man die möglichen Konsequenzen zu Ende, schaltet man am besten seine Peers ab. Denn es ist auf Grund der Menge gar nicht machbar,
selbst (proaktiv) soweit zu filtern und zu löschen, um \“sauber\” zu sein. Wobei \“sauber\” immer im Auge des Anklägers liegt, nicht im eigenen Auge.

Mal eben Filter einbauen wie \”*sex*, *child*, *etc*\” wird nicht helfen und Kollateralschäden produzieren. Per Hand gehts auch nicht. Und sich darauf verlassen, dass eine authorisierte Stelle vorher anfragt, ob Du löschen magst - ne, darauf vertraue ich nicht.

Da ist es mir lieber, erst einmal renegat zu sein - denn wenn wir alle proaktiv kuschen, hat die Zensur gewonnen.

-h

Statistik: Verfasst von rzkh — So Dez 21, 2014 8:48 pm


English • Re: Having trouble with port forwarding

Date: 2014-12-22 02:46:47

\ The problem may be the Configuration of your Router, please look into the manual of your Router for correct configuration of a Port-Forwarding. An alternative can be UPnP, if your Router does support it, your YaCy-Peer may be able to use this protocol for opening the Port-Forwarding automatically if enabled. An other possible reason can be a port-blocking by your ISP.\



Here are the instructions for configuring port forwarding on my router. I think I followed them correctly...

http://kb.netgear.com/app/answers/detail/a_id/24046

UPnP is on, and in the Yacy configuration I see a green checkmark next to \“Configure your router for Yacy,\” but in system monitoring, it still says the peer can not be found.

Update: Suddenly, the green checkmark has been replaced with \“Configuration was not successful. This may take a moment.\”

\ What do your router think about your public IP-Address? Is it the same as reported by canyouseeme.org or yacy.info?\



I think it\’s different. I have the internal IP and a different IP, which one can use to connect to the router over the internet. It is in the router settings. It is different from the IP given in canyouseeme and yacy.info.

Statistik: Verfasst von erkofle — Mo Dez 22, 2014 2:46 am


English • Re: Having trouble with port forwarding

Date: 2014-12-22 09:38:46

Hello,

erkofle hat geschrieben:\ I have the internal IP and a different IP, which one can use to connect to the router over the internet. It is in the router settings. It is different from the IP given in canyouseeme and yacy.info.\

This could be the root-cause of your problem, it seems your ISP use Carrier-Grade-NAT and this makes it impossible for you to offer a public/global accessible Service. Please ask your ISP for giving you a real IP-Address or (even better) for real IPv6-Connectivity. If your ISP is not able to do so, your only chance is an exchange of your ISP.

erkofle hat geschrieben:\ It is different from the IP given in canyouseeme and yacy.info.\

canyouseeme and yacy.info show the Source-IP-Address of your incoming connection. If it differs from the \“external\” IP-Address of your Router (the Source-IP-Address of any outgoing Connection from your Router), there is an additional Address-Translation between your Router and the real public Internet. This \“between\” is your ISP.

Greetings
Erik

Statistik: Verfasst von Erik_S — Mo Dez 22, 2014 9:38 am


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-22 16:41:49

Hi,
you can perform tests yourself for my domain `richtercloud.de` it you want (port 8090 and 8443 are set up to be yacy and yacy-HTTPS ports, maybe you can even enter the `administration` panel and check out some setting read-only - again, you have explicit permission for that). I named my peer `richtercloud` (because dots seem to be forbidden).

`http://yacy.info/tool_query` says \“The requested YaCy-Peer is unknown.\“. In the peer list is only one entry which is `richtercloud`. `http://richtercloud.de:8090/Network.html?page=1` says \“no remote senior/principal peer for this list known\“.

Thanks for you help!

-Kalle

Statistik: Verfasst von krichter — Mo Dez 22, 2014 4:41 pm


English • Re: Having trouble with port forwarding

Date: 2014-12-22 20:25:30

I see, OK, yes, that is probably the problem. I\’ll talk with my ISP.

Thanks again, Erik and happy holidays.

Statistik: Verfasst von erkofle — Mo Dez 22, 2014 8:25 pm


Fragen und Antworten • Re: Indexing Cache

Date: 2014-12-22 21:58:02

Wenn mein YaCy (mit Crawling) mehr als einen Tag läuft, habe ich das gleiche Ergebnis: Der Indexing Cache enthält zunehmend mehr Worte und wird nicht mehr geleert.
Ich habe es mit verschiedenen Maximalgrößen versucht: 50.000, 20.000, 2.000. Kein Unterschied.
Bei ca. 200.000 hilft bei mir dann nur Neustart.

Für den CleanUp-Thread habe ich unter PerformanceQueues_p.html die Default-Werte eingestellt: Min-Memory=0k und Max-Load=16.
Der sollte also regelmäßig laufen.

Gibt es eine Möglichkeit diesen Cache manuell zu leeren?

Gruß, otter

Statistik: Verfasst von otter — Mo Dez 22, 2014 9:58 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-23 00:49:02

Ups! Ich sollte öfter hier rein schauen! Ich habe die App nun ziemlich hell gestaltet. Ich schaue morgen mal, ob ich das auf dunkel umgebogen bekomme. Ich brauche auf jeden Fall noch etwas, wenn der Bildschirm leer ist. Ich hoffe, dass ich morgen fertig werde. Danach ist erstmal wenig Zeit.

Statistik: Verfasst von Low012 — Di Dez 23, 2014 12:49 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-23 09:48:48

Ich konnte eben noch mit Android 2.2, 2.3 und 4.3 testen. App läuft, manchmal gibt ews aber noch einen Absturz, den ich noch nicht nachvollziehen kann.

Statistik: Verfasst von Low012 — Di Dez 23, 2014 9:48 am


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-23 12:02:16

Hello,

krichter hat geschrieben:\ you can perform tests yourself for my domain \`richtercloud.de\` it you want\

Thank you, i did some Tests:
as first i have checked with commandline-tool \‘wget\’

as next i have checked with webpagetest.org

the only difference is the content of the Host-Parameter in the HTTP-Request (you can see in both detailed views).

yacy.info can not successful access your YaCy-Peer caused by the 403-HTTP-Response, sorry, there is nothing what i can do (except a better (more descriptive) Error-Text, i do work on this).

Your YaCy-Peer is reachable from outside but YaCy has a bug that cause an invalid response, the inappropriate HTTP-Error 403, that prevent successful access to the Peer.
In this Forum we do talk about the HTTP-Error 403 since months, see viewtopic.php?&t=5165#p31401{.postlink-local}, but without a satisfactory result. I have offered my help/support for working on a bugfix multiple times, but without any reaction.

\@Orbiter:
This (the results from webpagetest.org) clearly proves the 403-Error is [inside]{style=“text-decoration: underline”} of YaCy!

krichter hat geschrieben:\ I named my peer \`richtercloud\` (because dots seem to be forbidden).\

The Peer-Name must be a valid single DNS-Label, this means: only numbers and letters and minus and underscore + length in range of 3...63 characters

krichter hat geschrieben:\ \`http://richtercloud.de:8090/Network.html?page=1\` says \"no remote senior/principal peer for this list known\".\

For this i do not have an explanation, the bootstrapping of your Peer may be failed.

Greetings
Erik

Statistik: Verfasst von Erik_S — Di Dez 23, 2014 12:02 pm


Mitmachen • Re: [Info] golem.de ist im Index

Date: 2014-12-23 12:40:51

Hallo,

rzkh hat geschrieben:\ Die EU ist da gewiss noch steigerungsfähig.\

Ja, ganz gewiss, siehe England als neuestes Beispiel.

rzkh hat geschrieben:\ denn wenn wir alle proaktiv kuschen, hat die Zensur gewonnen.\

Da hast Du auf jeden Fall uneingeschränkt recht. Aber wie soll man sich nun verhalten?
Aus meiner Sicht sind hier große \“Vorbilder\” gefragt. Wenn z.B. der CCC mehrere YaCy-Peers ganz ohne jegliche Filter o.ä. betreiben würde könnte sich eventuell auch der kleine Privatbürger auf diese berufen wenn der Staat versucht ihm was tun zu wollen. Außerdem ist beim CCC keine natürliche Person direkt betroffen sondern der Verein als solcher wenn auf deren Peers irgendwas [komisches]{style=“font-style: italic”} gefunden wird und der CCC hat ganz andere Möglichkeiten für Öffentlichkeit zu sorgen als irgendeine unbedeutende Privatperson wie einer von uns.

\“proaktiv kuschen\” ist ganz sicher nicht die richtige Verhaltensweise aber wenn die potentiellen Konsequenzen wirklich existenzbedrohend sind dann sehe ich leider keine echte Alternative. Das Risiko müsste auf jeden Fall auf sehr viel mehr Schultern verteilt werden damit es für den Einzelnen akzeptabel ist.

Grüße
Erik

Statistik: Verfasst von Erik_S — Di Dez 23, 2014 12:40 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-23 16:41:48

Hello,

krichter hat geschrieben:\ http://yacy.info/tool\_test says \"No valid YaCy-Peer found.\" without any explanation why there\'s no valid peer\

I have updated both Servers with a new Version of my Software, please try again (and give a small feedback).

Greetings
Erik

Statistik: Verfasst von Erik_S — Di Dez 23, 2014 4:41 pm


Fragen und Antworten • Re: How to deal with error \“Your peer cannot be reached from

Date: 2014-12-23 17:24:15

Hi,

Erik\_S hat geschrieben:\ I have updated both Servers with a new Version of my Software, please try again (and give a small feedback).\


Now the tool responds \“No valid YaCy-Peer found: “HTTP-Error : invalid HTTP-Response-Code 403, Code 200 is expected”.\” which I see as significant improvement, thanks!

Erik\_S hat geschrieben:\ I have offered my help/support for working on a bugfix multiple times, but without any reaction.\


That\’s a pity. Feel free to link this forum thread in the discussion you referenced and share the test results. Feel free to repeat the tests you conducted with my domain name, again, in order to fix this issue.

Erik\_S hat geschrieben:\ In this Forum we do talk about the HTTP-Error 403 since months, see viewtopic.php?&t=5165\#p31401\


After reading the thread, I deactivated the remote proxy which I set up to point to a transparent squid3 instance running on the same machine, and guess what - the issue is fixed, i.e. my yacy peer reachable from the outside and working in the peer-to-peer network. Unfortunately, that doesn\’t allow me to set up a proxy.

Thanks a lot for your help!!

-Kalle

Statistik: Verfasst von krichter — Di Dez 23, 2014 5:24 pm


Fragen und Antworten • Videosuche und verlinkung auf die Startseite

Date: 2014-12-23 23:19:53

Hallo,

ich hab einen Peer gesehen, mit Videosuche, die will ich natürlich jetzt auch haben.

Und wie kann ich den link, links oben, ändern? (Nach einer erfolgten suche) Der soll auf meinen lokalen Peer zeigen und nicht yacy.net

danke
mfg

Statistik: Verfasst von HûntSt°rJonny — Di Dez 23, 2014 11:19 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-24 23:30:52

So, die App ist soweit fertig, wie ich es in der kurzen Zeit hinbekommen habe. Es gibt ein paar Sachen, die man schöner machen könnte, aber die App funktioniert.

Ich habe sie im Google Play Store veröffentlicht, weil ich so Rückmeldungen über eventuelle Abstürze bekommen kann: https://play.google.com/store/apps/details?id=de.audioattack.yacy31c3search Es daueret wahrscheinlich noch ein paar Stunden, bis die App sichtbar wird.

Man kann aber die App auch direkt hier runterladen: http://low.audioattack.de/yacy/31c3_congress_search_v0.1.apk

Das Design zu ändern habe ich zeitlich leider nicht mehr hinbekommen.

Und jetzt? Wie bekommt irgendwer mit, dass es die App gibt? Zettel beim 31c3 aufhängen fällt für mich ja leider weg: :(

Ich bin am übefrlegen, die App vielelicht als YaCy-App weiter zu führen, dazu würde ich dann aber ein neues Repository anlegen.

Ich wollte eben noch das Repository für die 31c3-Such-App bei Gitorious an \“yacy-developers\” übertragen, aber es gab nur einen HTTP-Error 500.

Statistik: Verfasst von Low012 — Mi Dez 24, 2014 11:30 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-25 01:50:58

Ui super, ich werde das morgen testen. Ich habe heute schon probiert die apk selbst zu bauen, aber war mit meinem Notebook nicht fertig mit den Android-lib Konfigurationen.

Die Verbreitung werden wir dann über Tweets und die 31c3-YaCy-Wikiseite machen. Meine Tweets zur Suche wurden bislang von ccc-Account immer retweetet, an 74k Follower :) Mal gucken. Ich mache daraus eine Story, mit mehreren Tweets, Ankündigung, Aufruf zum Mitmachen, Updates u.s.w.
Ich suche mir morgen noch einen strategischen Zeitpunkt für den ersten Tweet, so um 15:00 sollen Tweets die größte Reichweite bekommen.

Statistik: Verfasst von Orbiter — Do Dez 25, 2014 1:50 am


Fragen und Antworten • Re: Videosuche und verlinkung auf die Startseite

Date: 2014-12-25 14:15:52

Ok ich hab mittlerweile herausgefunden, dass man unter Portal Design/Suchseitenlayout die Videosuche anschalten kann.

Statistik: Verfasst von HûntSt°rJonny — Do Dez 25, 2014 2:15 pm


Fragen und Antworten • Re: Videosuche und verlinkung auf die Startseite

Date: 2014-12-25 14:29:52

Das andere war auch recht einfach unter Portal Konfiguration/URL der Homepage.
Manchmal sieht man den Wald vor...

Statistik: Verfasst von HûntSt°rJonny — Do Dez 25, 2014 2:29 pm


Hilfe für Einsteiger und Anwender • öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-25 14:36:07

Wenn ich unter Acces Rules Protection of all Pages anschalte, wechselt mein Peer in Junior Modus. Ich möchte aber das nur ich mein Suchportal benutzen kann, hab auch die entsprechende Option aktiviert \“Nur der Administrator darf suchen\“, dies scheint aber keine Auswirkung zu haben.

Ist es richtig dass wenn andere Peers, meinen Peer nach Suchergebnissen fragen, die Ergebnisse die mein Peer liefert nicht nachverfolgbar weitergegeben werden?

Statistik: Verfasst von HûntSt°rJonny — Do Dez 25, 2014 2:36 pm


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-25 18:28:28

Hallo,

soweit ich das verstanden habe ist das Suchportal eines YaCy-Peers der aktives Mitglied des globalen Index \“freeworld\” ist auch immer für jeden benutzbar. Dein lokaler Index ist aber auf jeden Fall von außen, also durch die anderen YaCy-Peers, abfragbar. Das ist meiner persönlichen Meinung nach auch grundsätzlich richtig so, wer vom globalen Index profitieren will muss auch dazu beitragen.

Wirklich Anonym bist Du als Betreiber eines YaCy-Peers (der von außen erreichbar ist, also mindestens Senior-Status hat) nicht, zumindest Deine aktuelle IP-Adresse ist immer sichtbar. Außerdem ist Dein Peer als solcher identifizierbar und damit auch über einen längeren Zeitraum hinweg wiedererkennbar, ganz ohne dem funktioniert das Prinzip der Distributed-Hash-Table nicht.

Viele Leute betreiben ihren YaCy-Peer als \“nebenbei-crawler\“, also der eigene Peer crawlt beim normalen surfen im Internet nebenbei alles was so im Browserfenster auftaucht. Da zu jedem gefundenen Wort auch immer die URL der Seite auf der es gefunden wurde mit im Index landet, ansonsten würde eine Suchmaschine auch keinen Sinn machen, lässt sich durch geschicktes Abfragen eines bestimmten Peers ganz sicher auch die Surf-History des Browser analysieren der diesen Peer zum \“nebenbei-crawlen\” benutzt. Zumindest in groben Zügen da die Links im lokalem Index mit der Zeit mit von außen, per DHT-Transfer, kommenden Links durchsetzt werden. Wie stark Deine persönliche Surf-History über Deinen Peer analysierbar ist, falls Du überhaupt das Feature \“nebenbei-crawlen\” benutzt, hängt also wesentlich davon ab wie intensiv die YaCy-Peers die Links per DHT-Transfer austauschen. Näheres hierzu kann aber nur der Programmierer von YaCy (das bin nicht ich) wirklich schlüssig erklären.

Aber all das lässt sich nur bis zu Deiner IP-Adresse zurückverfolgen, allein daraus kommt man noch nicht auf Deine konkrete Person (Name, Adresse, ...), das können in Deutschland üblicherweise nur die offiziellen Strafverfolgungsbehörden.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Dez 25, 2014 6:28 pm


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-25 19:37:34

Wenn es keine Möglichkeit gibt das Suchportal als Senior abzuschalten, ist yacy in deutschland unbenutzbar(zumindest als Senior) eine öffentliche Website die mir nahezu unkontrollierbare Inhalte anzeigt und auch noch leicht zu finden ist, ist in deutschland reines kamikaze. Dabei halte ich das Suchportal kritischer als die Tatsache das mein Peer gehashte Links weiter gibt.

Statistik: Verfasst von HûntSt°rJonny — Do Dez 25, 2014 7:37 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-25 20:42:26

So, neue Version. Ab sofort unter http://low.audioattack.de/yacy/31c3_con ... h_v1.1.apk{.postlink} und demnächst dann auch im Play Store.

Statistik: Verfasst von Low012 — Do Dez 25, 2014 8:42 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-25 22:10:02

http://low.audioattack.de/yacy/31c3_con ... h_v1.2.apk{.postlink}

Am besten einfach immer in http://low.audioattack.de/yacy/ schauen, wie die aktuelle Version heißt.

Statistik: Verfasst von Low012 — Do Dez 25, 2014 10:10 pm


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-25 23:15:11

Hallo,

ich persönlich sehe da keinen allzu großen Unterschied, ob Du einen Server betreibst der Links als klickbare Liste im HTML-Format (die Suchergebnisseite für Browser) oder als [kryptisches]{style=“font-style: italic”} Datenformat (DHT-Suchanfrage durch andere Peers) rausgibt kommt aufs selbe hinaus. Die Links sind in jedem Fall im Klartext, auch beim DHT-Transfer, denn schließlich muss der Anwender (bzw. sein Browser) damit was anfangen können.

Im übrigen genießen Suchmaschinen nach deutschen Recht einen Sonderstatus, also der Betreiber ist nicht unmittelbar für die Links haftbar zu machen (solange kein Vorsatz o.ä. vorliegt) wobei hier natürlich noch das Problem bleibt ob ein Richter ohne technischen Sachverstand (sowas soll in Deutschland eher die Regel als die Ausnahme sein) das auch so sieht. Um von Deinem YaCy-Peer wenigstens den gröbsten Schmutz fern zu halten gibt es die Möglichkeit Blacklists einzubinden aber leider ist nirgends dokumentiert wie die genau arbeiten (z.B. ob bei einem neuen Eintrag in der Blacklist der vorhandene Index durchsucht wird damit eventuell bereits indexierter Müll sofort von der Festplatte verschwindet) und wie viel Performance und Speicher diese benötigen (vor allem wenn mal einige 100000 Domain-Namen enthalten sind).

Der verantwortliche Entwickler von YaCy sollte zu diesem Thema mehr wissen, ich gehe doch mal davon aus das er sich hierzu hat juristisch beraten lassen. Zumindest bin ich persönlich der Meinung das wenn man so eine Software zum freien Download anbietet das man dann zumindest grundlegend über die durch die Benutzung der Software entstehenden Risiken aufklären kann.

Ein anderer Aspekt von YaCy ist meiner persönlichen Meinung nach deutlich kritischer, der Crawler hinterlässt beim Crawlen natürlich auch immer Deine aktuelle IP-Adresse im Log-File der besuchten Server und wenn Dein Crawler zufälligerweise mal einem Link zu [fragwürdigem]{style=“font-style: italic”} Zeugs folgt und dieser Server danach eventuell von irgendeiner Strafverfolgungsbehörde (aus irgendeinem Land dieser Welt) kassiert wird und die die geloggten IP-Adressen an die Behörden der jeweiligen Länder weitergeben (siehe Fall Edathy) könnte das schon sehr viel unangenehmer sein. Denn wenn Du (beweise erstmal dass das nicht Du sondern ein automatischer Crawler war) auf irgendwelchen fragwürdigen Inhalt [aktiv]{style=“text-decoration: underline”} zugegriffen hast kommt die Hausdurchsuchung (mit Beschlagnahme von allem was auch nur im entferntesten einem Computer oder einem Datenträger ähnelt) sicher schneller als wegen irgendeinem Link den eine Suchmaschine ausspuckt.

Grüße
Erik

Statistik: Verfasst von Erik_S — Do Dez 25, 2014 11:15 pm


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-26 00:54:47

HûntSt°rJonny hat geschrieben:\ eine öffentliche Website die mir nahezu unkontrollierbare Inhalte anzeigt und auch noch leicht zu finden ist, ist in deutschland reines kamikaze.\


das ist unbegründet.

Erik\_S hat geschrieben:\ ob Du einen Server betreibst der Links als klickbare Liste im HTML-Format (die Suchergebnisseite für Browser) oder als [kryptisches]{style="font-style: italic"} Datenformat (DHT-Suchanfrage durch andere Peers) rausgibt kommt aufs selbe hinaus. Die Links sind in jedem Fall im Klartext, auch beim DHT-Transfer, denn schließlich muss der Anwender (bzw. sein Browser) damit was anfangen können.\


das ist richtig.

Die rechtliche Lage ist tatsächlich komplex. Ich habe (in einem Meeting) miterlebt wie beispielsweise die Telekom auf Takedown-Notices reagiert; es ist so dass Suchportale z.B. bei Gerichtsentscheidungen zur Entfernung von Links aufgefordert werden können. Suchportale bekommen so eine Notiz und dann werden Links entfernt. Einen Rechtsverstoß bis zum Takedown liegt dann aber nicht vor. Dann muss man noch zwischen privaten und kommerziellen Webseiten unterscheiden; diese Unterscheidung gibt es offenbar nicht bei Suchmaschinen weil es private Suchmaschinen irgendwie nicht gibt (bis auf uns) aber das hat noch nie zu einem Präzedenzfall geführt. Nachdem wir das hier ja nun schon zehn Jahre machen und niemand das, was wir hier machen für illegal erklärt hat sehe ich wenig Grund zur Beunruhigung.

Schon damals hatte ich gesagt, dass alles was wir hier machen legal sein soll (natürlich) und niemand hier das Gefühl entwickeln soll, wir würden so etwas wie eine Untergrundorganisation mit unklarer rechtlichen Lage machen. Wenn es so weit kommen sollte, dass privat betriebene Suchmaschinen illegal sind, dann ist das Internet sowieso kaputt.

Statistik: Verfasst von Orbiter — Fr Dez 26, 2014 12:54 am


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-26 01:19:52

Ich kann mich Orbiter hier anschließen. Es ist sehr unwahrscheinlich, dass man da Ärger mit der Justiz bekommen wird. Nicht völlig unmöglich, aber doch sehr unwahrscheinlich.

Ich betreibe jetzt seit 1996 die eine oder andere Suchmaschine. Erst als Einzelgewerbe, dann als GbR, als GmbH, und im Moment wieder als Privatperson. Ich habe in all den Jahren da nie irgendwelche Probleme erlebt.

Was ich erlebt habe, ist dass Personen bzw. Firmen an mich herangetreten sind, die ihre Seite entfernt haben wollten, weil sie aufgrund einer Unterlassungserklärung oder Gerichtsentscheidung verpflichtet waren ihr Möglichstes zu tun, ihre Seiten entfernen zu lassen. Dem bin ich in der Regel auch nachgekommen. Meistens waren die entsprechenden Inhalte durch automatische Recrawls eh schon aus dem Index entfernt, oder wären es in Kürze gewesen.

Statistik: Verfasst von MikeS — Fr Dez 26, 2014 1:19 am


English • Re: What do I have wrong with my setup using freedns.org

Date: 2014-12-26 06:07:09

Had 2 new installs giving Error 403 proxy use not allowed when connecting externally.
I went to the page /Settings_p.html?page=ServerAccess and entered my external IP Address, Problem fixed.

Settings Receipt:

Your server access filter is now set to *

Also from status page
Proxy
Transparent off URL off

In yacy.conf is the serverClient=* setting what you have to change?

I tried the hosts file yesterday but no luck, It still may need it though.

Statistik: Verfasst von smokingwheels — Fr Dez 26, 2014 6:07 am


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-26 12:13:18

Hallo,

Orbiter hat geschrieben:\ Die rechtliche Lage ist tatsächlich komplex.\

Gewiss, aber wie sieht das eigentlich mir dem Crawler aus. Den Crawlern der großen etablierten Suchmaschinen wird niemand irgendeine problematische Absicht vorwerfen da es allgemein bekannt ist das diese alles crawlen was ihnen irgendwie in die Finger kommt, aber der Crawler in YaCy crawlt üblicherweise nur das was der verantwortliche Peer-Betreiber vorgegeben hat. Gibt es irgendeine theoretische Abschätzung was passiert wenn die IP eines YaCy-Peer im Log-File eines Servers auftaucht auf dem problematischer Content vorhanden ist und die URL zu der IP gerade auf diesen Content zeigt?

Orbiter hat geschrieben:\ Nachdem wir das hier ja nun schon zehn Jahre machen und niemand das, was wir hier machen für illegal erklärt hat \.....\

Vielleicht war YaCy die vergangenen 10 Jahre nie groß genug damit es ausreichend auffallen konnte. Die großen etablierten Suchmaschinen standen alle schon x-fach als Angeklagte vor Gericht, da gibt es in der Zwischenzeit reichlich Präzedenzfälle (sicher wegen allem möglichem und unmöglichem Unsinn). Ich denke das einige Peer-Betreiber etwas ruhiger schlafen könnten wenn es auch für YaCy ein paar Präzedenzfälle gäbe auf die man sich im Zweifel berufen könnte. Gerade diese rechtliche Unklarheit, wer kann schon vorhersagen wie ein deutscher Richter über YaCy denken wird wenn es eventuell doch mal zu einem Problemfall kommt, ist meiner Meinung nach der Grund für das nachvollziehbare Unbehagen mancher Leute.

Orbiter hat geschrieben:\ Wenn es so weit kommen sollte, dass privat betriebene Suchmaschinen illegal sind, dann ist das Internet sowieso kaputt.\

Full ACK!

Grüße
Erik

Statistik: Verfasst von Erik_S — Fr Dez 26, 2014 12:13 pm


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2014-12-26 14:26:11

Ist nicht schlimm wenn es nach einem Neustart des Peers wieder von vorne anfängt, ich habe jetzt einfach den Peer heruntergefahren, da ich meinen Server auf ESXi migriert habe. Für YaCy habe ich eine VM mit 96 GB RAM reserviert, die auch in Sachen Performance Vorrang vor allen anderen VMs auf der Maschine hat.

Ich habe noch eine ganz andere Frage: Was passiert denn, wenn ich 2 x Blacklists zusammenkopiere und darin evtl. Dubletten-Einträge vorhanden sind?

Statistik: Verfasst von LA_FORGE — Fr Dez 26, 2014 2:26 pm


English • Re: How to get YACY working as a proxy

Date: 2014-12-26 16:16:45

We are needing to index everything locally, so this means we need to turn this ON.
These are independent Robinson servers, that read each other but write locally.
How do we turn that on manually, please? We do not have access to the admin screens, obviously
As written elsewhere

\ Do you have «Transparent Proxy» enabled under «Advanced Settings / HTTP Networking»?\


Apparently it is this that needs resetting manually, but where is it and what to do, please?
Thanks

We wrote:

xioc752 hat geschrieben:\ our admin & user pages are not visible in our cloud installation because of this message\


You wrote:

\ This Message is caused by a Bug in YaCy.\ You have the \"transparent Proxy\" disabled, this is correct if you do not want to route all your HTTP-Traffic to the public Internet through your YaCy-Peers. The lead through of information through a YaCy-Peer is only necessary/useful if your Peer must crawl all this informations for adding it to its local Index.\


Many thanks

Statistik: Verfasst von xioc752 — Fr Dez 26, 2014 4:16 pm


English • RSS feeds not processing correctly

Date: 2014-12-26 20:56:56

in YaCy version 1.819319

A fresh cloud installation, only a few days old, and normally very fast.
All pages are functioning properly, however, except for [Content Importer]{style=“font-weight: bold”} > [Load_RSS_p.html]{style=“font-weight: bold”}

That page displays properly, at first.
at the promot

\ URL of the RSS feed\


We add a known, functional and valid RSS address. It very slowly loads the header lines - and sometimes takes 2-3 minutes. The browser reports \‘it is waiting\’ for the IP address of the server
Normally, below the header lines are the instructions about crawl frequency and below that are the individual pages identified in the RSS.
However, no lines display. This means there are no articles to include or not include.
Example:

\ RSS Feed of \ Titleifrs org - xxxx AuthorDescription\[yyy feed\]LanguageDateTime-to-liveDocs\ StateTitleURLAuthorLanguageDateDescription\



Below this there should be selectable articles.
However there are none. It is the end of the page.

How to correct this, please?
Many thanks.

Statistik: Verfasst von xioc752 — Fr Dez 26, 2014 8:56 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-26 23:47:48

http://low.audioattack.de/yacy/31c3_congress_search_v1.3.apk

Statistik: Verfasst von Low012 — Fr Dez 26, 2014 11:47 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-27 00:44:22

auf dem 31c3-Peer ist tatsächlich stetiger Traffic, nicht viel aber jede Minute so ein neuer Besucher. Das ist ungefähr doppelt so viel wie yacy.net permanent hat. Die Anfragen wechseln sich zwischen mozilla und dalvik- user agent ab, und das mitten in der Nacht, das ist eigentlich schon ok so. Lass uns eine Story entwickeln für kleine Änderungen, damit ich immer was zum twittern habe.

Apropos twitter: es wäre strategisch gut wenn ihr (ihr alle!) euch einen Twitter-Account besorgt und regelmäßig \@yacy_search retweetet, das erhöht die Sichtbarkeit massiv...

Statistik: Verfasst von Orbiter — Sa Dez 27, 2014 12:44 am


English • Loader and file size limits

Date: 2014-12-27 08:49:17

Hi guys

I\’ve just noticed that after starting crawling there are large files being downloaded (these can be observed under \“Crawler Monitor\” -> \“Processing Monitor\“/\“Loader\“) which seem to exceed file size limits. I\’ve checked limits under \“System Administration\” -> \“Advanced Settings\” -> \“Crawler Settings\” and these are:


For example, I\’ve observed following file being downloaded: http://www.swi-prolog.org/download/stab ... d.mpkg.zip{.postlink}
HTTP response for this file returns Content-Length:\“12026535\” which is bigger than Yacy HTTP file size limit (10485760).
I have also seen 400Mb+ files being downloaded.

Could you please clarify whether this is a bug (I will create ticket in bugtracker then) or I am just missing something. Could you please also explain what is a Loader in Yacy terminology (is that just an additional queue for large binary files that runs in parallel with crawler?)

Statistik: Verfasst von solaris — Sa Dez 27, 2014 8:49 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-27 13:38:05

Zwischenstand: bis seit 9 Uhr hier, hab den Server in der Colocation abgeladen, aber das colocation-Netz war gerade kaputt. Server daher noch nicht online...
Auf dem 31c3.yacy.net brummts tatsächlich, immer noch direkte Zugriffe und Android App gemischt.

Eine der meistbeklatschten Sätze bei der Keynote war: \“mistrust auhorities, decentralize\“. :D

Statistik: Verfasst von Orbiter — Sa Dez 27, 2014 1:38 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-27 22:06:17

ich habe die App nun auf https://events.ccc.de/congress/2014/wik ... ess_Search{.postlink} hinzugefügt, das sollte doch nun brummen.

Das Suchportal für das filesharing{.postlink} ist nun auch up: http://151.217.170.61:8090/yacyinteractive.html

Statistik: Verfasst von Orbiter — Sa Dez 27, 2014 10:06 pm


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-28 21:17:28

Gestern habe ich noch eine Version gebaut, in der man den Peer-Namen frei einstellen kann (1.4). Die ist also mit jedem Peer nutzbar (spricht aber nur http, kein https).

Ich habe eben mal die Statistik bei meinem Webspace-Anbieter angeschaut und da hat die App bis diese Nacht um 2 ca. 300 Downloads gehabt (200x 1.2 und 100x 1.3). Die Daten bei Google sind noch älter. Am 26.12. war die App 60x installiert worden. Mal schauen, wohin die Reise geht.

Ich bin mit dem derzeitigen Stand der App recht zufrieden. Auf jeden Fall bin ich weiter gekommen als ich am Anfang gedacht habe. Ich denke, dass die App in der derzeitigen Form eine ganz gute Basis ist, um damit weiter zu machen.

\@Orbiter: Kannst du den Link im Wiki einfach auf http://low.audioattack.de/yacy/ setzen? Ich habe ja dummerweise im Dateinamen immer die Versionsnummer drin...

Statistik: Verfasst von Low012 — So Dez 28, 2014 9:17 pm


Hilfe für Einsteiger und Anwender • nach Datum suchen oder Index auslesen

Date: 2014-12-28 21:55:16

Hallo zusammen,

ich bin neu hier und habe keine Ahnung :) Ich brauche für ein Projekt Informationen der folgenden Art: auf Website X [Y,Z...], aber nur im Text, wurde im Jahr 2000 [2001,2002...] n mal das Wort \‘Eisbär\’ [\‘Braunbär\‘,\‘Nasenbär\‘,...] geschrieben. Ich habe die Seiten jetzt von YaCy crawlen und indexieren lassen und die Suche läuft auch. Wie kann ich aber gezielt nach Treffern in einem Zeitraum suchen?

Wenn das nicht geht: Gibt es eine Möglichkeit, den Index auszulesen oder in ein lesbares Format zu exportieren?
Ich habe gesehen, dass geparste Sätze und die Texte usw. in der GUI sichtbar sind - kann ich das für viele Seiten auf einmal exportieren? Manuelles Copy & Paste scheidet wegen mehreren 100 000 Seiten leider aus...

Bin für jeden Hinweis dankbar und verschenke freundliche Smileys :)

Statistik: Verfasst von annalynx — So Dez 28, 2014 9:55 pm


Mitmachen • Re: Die richtige Konfiguration

Date: 2014-12-29 10:39:57

Auch ich habe experimentiert - mit meinem Windows-Laptop. Den muss ich solange nehmen, bis ich wieder an meinen (Linux)-Tower \‘rankomme. Der hat zwar auch nur 4 GB (Laptop), aber der Crawl läuft flüssig, nachdem ich das Ram für Java auf etwas über einem GB gehoben habe. Davon nutzt er gerade mal knapp 820 MB - und dass sollte für fast Jeden reichen. Zugegeben, auch ich bin ein sogenannter Profi, aber auch nur auf meinem Gebiet - aber ohne Testen läuft YaCy eben nur sehr gebremst. Dagegen habe ich mit dem Principal-Modus einfach nichts zum laufen gebracht: FTP-Adresse, ftp-Zugangsdaten, System-Adresse (Ordner, wo seed.txt gespeichert wird), serverseitige html-Adresse - alles stimmt, nur dann kommt die nette Fehlermeldung: \“SaveSeedList: Seed upload failed (IO error): UPLOAD CHECK - Error: the result vector is different. Element at position 0 is different. <br>\“. OK, damit kann ich dann doch nichts anfangen. Ihr seht, keiner kann alles, und nicht viele User können es für Laien verständlich machen, was wie auf deutsch heißt, wenn man meist im Fachchinesisch argumentiert - obwohl es relativ simpel oben erklärt war.
Grüße von der Insel, Yoda0*

Statistik: Verfasst von Yoda0* — Mo Dez 29, 2014 10:39 am


Mitmachen • Re: YaCy\@31c3

Date: 2014-12-29 22:06:32

Also nachdem ich gestern zu einem Workshop gerufen habe ist genau einer gekommen :roll:

Dafür habe ich nun bei der Digitalcourage auf dem Speakerssofa eines Spontanvortrag zu YaCy, morgen 14:00.

Low012 hat geschrieben:\ Ich bin mit dem derzeitigen Stand der App recht zufrieden. Auf jeden Fall bin ich weiter gekommen als ich am Anfang gedacht habe. Ich denke, dass die App in der derzeitigen Form eine ganz gute Basis ist, um damit weiter zu machen.\


Marc das war super Arbeit und ich bin total happy damit. Das Suchlog zeigt ungefähr eine Anfrage pro Minute, ich finde das ganz ok auch wenn es nicht berauschen ist. Etwa 50% kommen von der App. Bis gestern waren da überwiegend porn-Begriffe drin, weil die Leute das wohl missverstanden haben, heute sind kaum noch welche drin, da vermute ich mal dass das nun ein Lerneffekt ist was auf Wiederkehrende Nutzer schliessen lassen kann. Das ist doch schon mal schön.

Low012 hat geschrieben:\ \@Orbiter: Kannst du den Link im Wiki einfach auf setzen? Ich habe ja dummerweise im Dateinamen immer die Versionsnummer drin\...\


Ich hatte einen Eintrag im Wiki geändert, aber muss mal gucken ob da noch ein zweiter ist, hab da mehrfach Spuren hinterlassen. Leider geht zur Zeit wieder mal der Zugriff aufs Wiki nicht .. :roll:

Statistik: Verfasst von Orbiter — Mo Dez 29, 2014 10:06 pm


Hilfe für Einsteiger und Anwender • Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2014-12-30 13:41:14

Hallo an Alle,

habe folgende Frage: Die Fehlermeldung dass mein Peer nicht erreichbar wäre erseht Ihr ja am Snapshot. Ihr seht aber dass ich genügend Anfragen über den Netzwerkzugriff (Outgoing) zu verzeichnen habe. Der Systemstatus läuft auch wie verrückt. Nun verstehe ich aber nicht warum dann immer diese Fehlermeldung da steht dass mein Peer von aussen nicht erreichbar wäre.

Danke

1hartmann

Statistik: Verfasst von 1hartmann — Di Dez 30, 2014 1:41 pm


English • Config pls New Cloud Group + Migration of Robinson Servers

Date: 2014-12-30 14:11:00

Hello.
Please we are setting up a private group of new YaCy servers which will be in full P2P with DHT. We need your \’ seasoned \’ advice, please. Thanks.

1. We need the [[Current Best Practices Instructions]{style=“text-decoration: underline”}]{style=“font-weight: bold”} on prefered configuration for this new group of cloud servers, starting with 3 new servers that are \’ UP \’ and functioning now in stand alone Robinson mode.
We will continue to add more servers to the private group.
The servers in the new group are currently identical to each other.
The servers can currently read each other\’s Solr files, but they cannot write to each other.
This means the the new cloud servers were set up, one by one, in Robinson mode with cross reading privileges between servers.
Now they need to be changed to the fully shared and standard YaCy environment for private groups of servers working together.
We wish these to be in the full DHT P2P mode as a private network.

We appreciate this requires more space and we have cloud computing and storage capacity assigned for this - in and across the clouds.

+
2. We have 2 prior Robinson servers that need to be migrated to this new group, described above.
They each have somewhat less than 20 GB of DATA Sets, each.
This data must be retained and moved to the new P2P DHT environment safely.

We understand that the function of the environment is such that as this data is migrated, duplicates will be eliminated as part of the standard indexing process.
Is this correct?

How do we safely change their Robinson configurations to become part of the new private DHT P2P group.
Essential is that they not lose the data they have collected and indexed.

3. As noted: Our ultimate goal is to migrate the data the earlier two Robinson servers have independently collected and move it to the pool of data among the others - in the framework of the new collective, described above.
The result is that there will no longer be any Robinson servers (-0-).
All servers will be in a secured private P2P group with DHT.
All 5 servers (initially) will become part of the private pool of servers in full P2P with DHT - but as a stand alone private network of cloud servers with appropriate security features protecting it from the outside.

The environment will be fed data, and read by standard approaches to a YaCy server. We are assuming that this distributed computational environment will create a kind of load sharing for crawling and search results generation.
Traffic is still light.

Thank you for your careful, precise and detailed instructions and guidance. No detail is too small, please. [[Please Assume that we do not know what may seem obvious to you]{style=“text-decoration: underline”}]{style=“font-style: italic”}. Thanks for your patience! :) PMs are very OK, too. Many Thanks, once again!

Statistik: Verfasst von xioc752 — Di Dez 30, 2014 2:11 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2014-12-30 19:19:21

Die Zugriffe die im Screenshot zu sehen sind zeigen lediglich das dein Peer anfragen nach Außen aufbaut, allerdings nicht das auch Verbindungen von Außen aufgebaut werden können.
Hast du die Port Weiterleitung in deinem Router aktiviert?

Statistik: Verfasst von HûntSt°rJonny — Di Dez 30, 2014 7:19 pm


Hilfe für Einsteiger und Anwender • Re: öffentliches Suchportal abschalten und Funktionalität

Date: 2014-12-30 19:24:36

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Nachdem wir das hier ja nun schon zehn Jahre > machen und niemand das, was wir hier machen für illegal erklärt hat > \.....\ > >

Vielleicht war YaCy die vergangenen 10 Jahre nie groß genug damit es ausreichend auffallen konnte. Die großen etablierten Suchmaschinen standen alle schon x-fach als Angeklagte vor Gericht, da gibt es in der Zwischenzeit reichlich Präzedenzfälle (sicher wegen allem möglichem und unmöglichem Unsinn). Ich denke das einige Peer-Betreiber etwas ruhiger schlafen könnten wenn es auch für YaCy ein paar Präzedenzfälle gäbe auf die man sich im Zweifel berufen könnte. Gerade diese rechtliche Unklarheit, wer kann schon vorhersagen wie ein deutscher Richter über YaCy denken wird wenn es eventuell doch mal zu einem Problemfall kommt, ist meiner Meinung nach der Grund für das nachvollziehbare Unbehagen mancher Leute.


Das sehe ich ähnlich bis jetzt hat kaum jemand yacy gekannt, vllt endeckt so langsam der ein oder andere Neuland-polizist oder Abmahnabwalt yacy und überlegt was man damit anfange könnte. Und dann sind wir ganz schnell bei der Argumentation alle yacy betreiber sind böse, weil Recht auf vergessen wird nicht umgesetzt, kinderpornografie kann vom staat nicht entfernt werden und sowieso wird sowas neulandiges nur von terroristen genutzt ...ach und fast das gleiche raubmordkopierer hab ich noch vergessen.

Erik\_S hat geschrieben:\ >
> > Orbiter hat geschrieben:Wenn es so weit kommen sollte, dass privat > betriebene Suchmaschinen illegal sind, dann ist das Internet sowieso > kaputt.\ > >

Full ACK!


Hinsichtlich Snowden kann man da eh nicht sagen das das Internet schon kaputt ist?

Statistik: Verfasst von HûntSt°rJonny — Di Dez 30, 2014 7:24 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2014-12-30 19:42:21

Hallo und danke für Deine Antwort. Leider kann ich als Laie damit nicht viel anfangen. Eigentlich sollten doch Anfragen von Aussen durch die User an mich kommen? Also die sollten doch meine Seiten, die ich eingestellt habe, anfragen und abholen. Ich selber stelle doch keine Anfragen an die User, wenn ich nicht über den Suchlink (URL) etwas eingebe? Das mit der Portweiterleitung habe ich alles schon durch. Dann stand das immer noch da. Kannst Du mir bitte mal die Einstellung in meiner Fritz Box erklären? Also etwas verstehe ich bestimmt falsch.

Danke Dir.

1hartmann

Statistik: Verfasst von 1hartmann — Di Dez 30, 2014 7:42 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2014-12-30 20:20:12

http://praxistipps.chip.de/portfreigabe ... ehts_12449{.postlink}
Hier wird erklärt wie du deinen Port freigibst. Da einfach 8090 und TCP und deinen PC nehmen(kannst du anhand vom namen oder der ip, falls du beides nicht kennst, an deinem rechner eine Konsole auf machen STRG+ALT+t und \“ifconfig\” eingeben)

Richtig ist die anderen Peers/User würden gerne Anfragen an deinen Peer stellen, können es aber nicht.
Vereinfacht ist öffentlich nur dein Router sichtbar der weigert sich aber vor allem aus Sicherheitsgründen die Anfrage weiterzuleiten und er weiß ja auch gar nichts von einem Service auf Port 8090, auf den die anderen Clients ihn kontaktieren, also musst du ihm sagen, hier ist ein Service bitte lass alle Anfragen auf diesem Port durch und leite die an meinen Pc weiter. Falls dich das näher interessiert, das was ich gerade versucht hab möglich kurz zu beschreiben heißt NAT.

Du selbst stellst natürlich nur Anfragen an andere Peers wenn du was suchst und dein Peer(PC) für koordinierungszwecke im Netzwerk. Im Screenshot ist zu sehen das du Crawls gestartet hast also yacy gesagt hast es soll auf anderen Websiten alle Wörter in deine Datenbank ordnen damit danach später gesucht werden kann.

Statistik: Verfasst von HûntSt°rJonny — Di Dez 30, 2014 8:20 pm


Hilfe für Einsteiger und Anwender • solr ignoriert Argumente

Date: 2014-12-31 13:24:22

Hallo,

folgendes Problem: wenn ich

Code:
http://localhost:8090/solr/select?core=collection1&q=einwort&start=0&rows=3&host_s=www.eltiempo.com


abfrage, kriege ich die Ergebnisse für einwort, aber nicht auf den host beschränkt. Gleiches gilt für sku=www.eltiempo.com.
Hier der Response-Header:

Code:
<response><lst name="responseHeader"><lst name="params"><str name="bq">crawldepth_i:0^0.8 crawldepth_i:1^0.4</str><str name="start">0</str><str name="q">einwort</str><str name="host_s">www.eltiempo.com</str><str name="qf">url_paths_sxt^3.0 synonyms_sxt^0.5 title^5.0 text_t^1.0 host_s^6.0 h1_txt^5.0 url_file_name_tokens_t^4.0 h2_txt^3.0 keywords^2.0 author^1.0 </str><str name="defType">edismax</str><str name="rows">3</str></lst><int name="status">0</int><int name="QTime">55</int>



Weiß jemand, warum die Host-Beschränkung nicht funktioniert?

Statistik: Verfasst von annalynx — Mi Dez 31, 2014 1:24 pm


Hilfe für Einsteiger und Anwender • Re: solr ignoriert Argumente

Date: 2014-12-31 13:39:29

scheint so funktioniert zu haben:
http://localhost:8090/solr/select?core= ... q=einwort&{.postlink}[fq=host_s:]{style=“font-weight: bold”}http://www.eltiempo.com&fl=host_s,last_modified,title,text_t
ist also gelöst.

Statistik: Verfasst von annalynx — Mi Dez 31, 2014 1:39 pm


English • Re: How to get YACY working as a proxy

Date: 2015-01-01 23:05:12

I solved this error by going to /Settings_p.html?page=ServerAccess and setting the staticIP to the external IP instead of the IP address behind the firewall.

Statistik: Verfasst von frier — Do Jan 01, 2015 11:05 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-02 01:11:43

Danke für die Antwort. Aber die Portfreigabe habe ich schon lange eingerichtet. Die IP stimmt auch. Und trotzdem diese Meldungen. Was läuft falsch?

Statistik: Verfasst von 1hartmann — Fr Jan 02, 2015 1:11 am


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-02 01:13:59

Hier noch ein Hinweis: Habe mir in Linux eine Firewall eingerichtet. Ob das was damit zu tun hat?

Statistik: Verfasst von 1hartmann — Fr Jan 02, 2015 1:13 am


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-02 10:28:17

Hallöchen!

1hartmann hat geschrieben:\ Hier noch ein Hinweis: Habe mir in Linux eine Firewall eingerichtet. Ob das was damit zu tun hat?\



Hast Du Port 8090 und die beiden Protokolle dort ebenfalls freigegeben? Sonst geht da mal gar nichts, denn deine Firewall blockiert den Zugriff von außen, wie es ihre Aufgabe ist!

Statistik: Verfasst von TmoWizard — Fr Jan 02, 2015 10:28 am


Mitmachen • Re: LinuxTag 2015

Date: 2015-01-02 11:51:39

Wie ich beim 31c3 aus erster Hand erfahren habe, gibt es nun einen Ersatz für den Linuxtag: OpenTechSummit, http://opentechsummit.net/
Ich weiss noch nicht wie das mit Projektsupport dort ist, aber wahrscheinlich bekommen wir eine Einladung. Das ganze wird an nur einem Tag stattfinden, 15.Mai. Die Orientierung des Ereignisses ist dabei mehr auf Maker und Projekte, nicht mehr \‘die x-te linux distro\‘.

Statistik: Verfasst von Orbiter — Fr Jan 02, 2015 11:51 am


English • Re: How to get YACY working as a proxy

Date: 2015-01-02 19:03:41

HI... thank you for the idea
However, when I did that, I still got this kind of message:

\ HTTP ERROR: 403\ \ Problem accessing /Settings\_p.html. Reason:\ \ proxy use not allowed (see Advanced Settings -\> HTTP Networking -\> Transparent Proxy; switched off).\



How do I get behind this into the area where this is \’ decided \’ please.
Many thanks!

Statistik: Verfasst von xioc752 — Fr Jan 02, 2015 7:03 pm


English • Where is the file that makes Table_API_p.html , please

Date: 2015-01-02 20:34:44

Hello,
We want to copy the entire file that makes the data displayed on page
Table_API_p.html
Then we want to insert it in a new server.
Imagine there are 900 hundred valuable crawling instructions in http://zxc.asd.e.wt:8090/Table_API_p.html
A URL line on page zxc.asd.e.wt:8090/Table_API_p.html - such as this - will display the entire list
/Table_API_p.html?startRecord=1&maximumRecords=900&inline=false&filter=.*

These URLs and RSS feeds, etcetera are In the list entitled \” Recorded Actions \”
Prepare the list by cleaning it of the majority of housekeeping duties, if possible.

We wish to extract the crawling data and the frequency of crawling instructions, only.
The common technique is to copy all the instructions, but this becomes impractical as the number of instructions grows and the frequency of crawl is difficult to manage.
Doing this the \” old \” way is extremely manual and time consuming. It assumes that each instruction and frequency will be manually reinserted into another server.

You can, alternatively, place the data in an spreadsheet and use selectors to remove housekeeping instructions.
Still, this is very manual.

After removing all server housekeeping instructions, we wish to reinsert the pages to crawl and RSS feeds into the same file format, but in a fresh server.
Then we will insert the prepared file into the new server - replacing the generic file.
Why do this?
Our experience indicates that doing an extraction of URLs in RSS format does not capture all the URLs for some unknown reason.

Where is the file that holds the data that generates the/Table_API_p.html , please?
Many thanks

Statistik: Verfasst von xioc752 — Fr Jan 02, 2015 8:34 pm


English • Re: P2P mode, dht exchange

Date: 2015-01-02 21:40:04

We need to build a network of private peers, too.
How do we do this?
All the references I can find are many years old.
Since the basic internal structure of YaCy has changed considerably in recent years, and now uses Solr, using those old instructions can be fatal.
We currently have 3 Robinson servers that only read each other.
We want to convert then and add more minimum 2+ more servers to make a private, secure, P2P + DHT environment.
Where are instructions to do this, please?
We must not lose the considerable amount of data we have already harvested.

Who knows how to do this, please?
Many thanks

Statistik: Verfasst von xioc752 — Fr Jan 02, 2015 9:40 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-01-02 22:00:21

Mittlerweile sind die Statistiken von Google da. Die App wurde über den Google Play Store 173 Mal installiert. Viele Leute scheinen die App noch nicht deinstalliert zu haben. Der relativ geringe Aufwand, auch älter Android-Versionen zu unterstützen war nicht ganz umsonst, 32 Installationen waren auf Android 2.2 oder 2.3-Geräten.

Leider habe ich im Nachhinein festestellt, dass die App eine blöde Racecondition enthält, die dazu führen kann, dass bei zwei aufeinanderfolgenden Suchen Ergebnisse vernischt werden. Der 31c3-Server ist relativ schnell, aber bei langsameren Peers könnte das Problem häugfiger Auftreten. Da muss ich also nochmal ran, bevor ich aus der 31c3-App eine YaCy-App mache.

Gibt es von dem Digitalcourage-Ding irgendeine Aufzeichnung?

Statistik: Verfasst von Low012 — Fr Jan 02, 2015 10:00 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-01-03 12:07:43

von dem #speakerssofa gibt keine Aufnahme, das war auch nur so gelaber... Ich habe da nur Sachen gesagt die ihr sowieso schon längst kennt. \@padeluun war da und hat zugehört, dafür hats sich schon gelohnt. \@mariobehling hab ich eine Minute vor Beginn dort getroffen und der hat spontan zum Mikro gegriffen und anmoderiert, so war das ganze wie eine talkshow, war lustig so etwas spontan zu machen.

Marc, deine App ist super gewordem, wir probieren dann mal daraus eine YaCy-App zu machen; ich hätte da aber noch einen dicken Wunsch: Bilder- und Lokationssuche... Für die Lokationen müssten wir in YaCy Flags vorsehen wo drin steht dass eine \‘besondere\’ Lokationssuche unterstützt wird; z.B. durch eine POI-Anreicherung die ich mal gebau aber nicht veröffentlich hatte.. Die Lokationssuche alleine hattest du schon einmal als eigenständige App gebaut und das war auch super. Für die Bilder müsste man so eine Matrix bauen? Für das Backend und das p2p-Bootstraping baue ich dann was.

Statistik: Verfasst von Orbiter — Sa Jan 03, 2015 12:07 pm


English • Re: P2P mode, dht exchange

Date: 2015-01-03 12:15:57

the old instructions should still be valid! solr did not change that; it gave just one more opportunity for a search network topology.

Statistik: Verfasst von Orbiter — Sa Jan 03, 2015 12:15 pm


English • Re: P2P mode, dht exchange

Date: 2015-01-03 13:04:32

OK, that is great news!
THANK YOU
1.
[Please post the correct link or links.]{style=“font-weight: bold”}
Not taking any chances...there are relative newbies out here in the rest of the world! :) 2.
Are there instructions anywhere to safely convert or even Migrate the data in the Robinson servers to that DHT P2P new environment of the new servers, please?
The 2 oldest Robinson servers (of 3) are full and totally out of space, so we need to move the data.
We want to have the entire group in P2P DHT, in the end. (No more Robinson servers)
What are our options, please?

[[[Many, many thanks, once again!]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Statistik: Verfasst von xioc752 — Sa Jan 03, 2015 1:04 pm


English • Yacy crash

Date: 2015-01-03 15:11:48

I got these errors when i start Yacy :

Code:
I 2015/01/03 14:34:00 Domain Init local host address: fe80:0:0:0:20b:6aff:fe1c:3757 (local)I 2015/01/03 14:34:01 Domain Init local host address: fe80::20b:6aff:fe1c:3757 (local)I 2015/01/03 14:34:01 Domain Init local host address: 0::1 (local)I 2015/01/03 14:34:01 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)I 2015/01/03 14:34:01 Domain Init local host address: 127.0.0.1 (local)I 2015/01/03 14:34:01 Domain Init local host address: 192.168.0.100 (local)I 2015/01/03 14:34:01 Domain Init local host address: 192.168.1.100 (local)I 2015/01/03 14:34:02 HeapReader generating index for /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap, 0 MB. Please wait.I 2015/01/03 14:34:02 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap, 2 entries, 0 gaps.I 2015/01/03 14:34:02 Heap initializing heap /usr/share/yacy/DATA/WORK/admin_bookmarks.bheapI 2015/01/03 14:34:03 HeapReader generating index for /usr/share/yacy/DATA/WORK/stats.bheap, 0 MB. Please wait.I 2015/01/03 14:34:03 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/stats.bheap, 4932 entries, 0 gaps.I 2015/01/03 14:34:03 Heap initializing heap /usr/share/yacy/DATA/WORK/stats.bheapI 2015/01/03 14:34:03 HeapReader generating index for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 0 MB. Please wait.I 2015/01/03 14:34:03 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 1 entries, 0 gaps.I 2015/01/03 14:34:03 Heap initializing heap /usr/share/yacy/DATA/WORK/pkcounter.bheapI 2015/01/03 14:34:03 HeapReader generating index for /usr/share/yacy/DATA/WORK/searchfl.bheap, 0 MB. Please wait.I 2015/01/03 14:34:03 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/searchfl.bheap, 5 entries, 0 gaps.I 2015/01/03 14:34:03 Heap initializing heap /usr/share/yacy/DATA/WORK/searchfl.bheapI 2015/01/03 14:34:03 HeapReader generating index for /usr/share/yacy/DATA/WORK/api.bheap, 0 MB. Please wait.I 2015/01/03 14:34:03 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/api.bheap, 2 entries, 0 gaps.I 2015/01/03 14:34:03 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheapI 2015/01/03 14:34:04 HeapReader generating index for /usr/share/yacy/DATA/WORK/rss.bheap, 4 MB. Please wait.I 2015/01/03 14:34:06 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/rss.bheap, 20855 entries, 688 gaps.I 2015/01/03 14:34:06 HeapReader BLOB /usr/share/yacy/DATA/WORK/rss.bheap: merged 0 free recordsI 2015/01/03 14:34:06 Heap initializing heap /usr/share/yacy/DATA/WORK/rss.bheapI 2015/01/03 14:34:06 UPNP found device: Freebox ADSLI 2015/01/03 14:34:07 UPNP mapped mapped port 8090 to port 49160 on device Freebox ADSL, external IP is 78.218.10.58I 2015/01/03 14:34:08 UPNP mapped mapped port 8443 to port 49161 on device Freebox ADSL, external IP is 78.218.10.58I 2015/01/03 14:34:12 Word hashCache.size = 20000I 2015/01/03 14:34:13 SWITCHBOARD Initializing Segment '/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS.I 2015/01/03 14:34:13 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140806221109187.blob, 3642 MB. Please wait.I 2015/01/03 14:37:36 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140806221109187.blob, 4747618 entries, 2706 gaps.I 2015/01/03 14:37:36 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20140806221109187.blob: merged 0 free recordsI 2015/01/03 14:37:46 HeapReader saturation of text.index.20150103124646248.blob.H0royER1AofG.idx: keylength = 5, vallength = 3, size = 12890, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MBI 2015/01/03 14:37:46 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20150103124646248.blob.I 2015/01/03 14:37:48 HeapReader saturation of text.index.20150103131127438.blob.V7zP2qHnVmgQ.idx: keylength = 6, vallength = 4, size = 214009, maximum saving for index-compression = 1 MB, exact saving for value-compression = 0 MBI 2015/01/03 14:37:48 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20150103131127438.blob.I 2015/01/03 14:37:58 org.apache.solr.core.ConfigSolr Loading container configuration from /usr/share/yacy/defaults/solr/solr.xmlI 2015/01/03 14:38:01 org.apache.solr.update.UpdateShardHandler Creating UpdateShardHandler HTTP client with params: socketTimeout=0&connTimeout=0&retry=falseI 2015/01/03 14:38:02 org.apache.solr.logging.LogWatcher SLF4J impl is org.slf4j.impl.JDK14LoggerFactoryI 2015/01/03 14:38:02 org.apache.solr.logging.LogWatcher Registering Log Listener [JUL (org.slf4j.impl.JDK14LoggerFactory)]I 2015/01/03 14:38:05 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabledI 2015/01/03 14:38:05 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabledI 2015/01/03 14:38:48 HeapReader close HeapFile text.index.20140806221109187.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountOldest(ArrayStack.java:332) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkOldFiles(ReferenceContainerArray.java:427) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:212) -> net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)I 2015/01/03 14:38:48 RICELL-shrink4/rewrite unmountOldest()I 2015/01/03 14:38:48 IODispatcher appended rewrite job of file text.index.20140806221109187.blob to text.index.20150103133848619.blobI 2015/01/03 14:38:48 BLOBArray rewrite of text.index.20140806221109187.blobI 2015/01/03 14:38:48 org.apache.solr.rest.ManagedResourceStorage File-based storage initialized to use dir: /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_10/webgraph/confI 2015/01/03 14:38:48 org.apache.solr.rest.RestManager Initializing RestManager with initArgs: {storageDir=/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_10/webgraph/conf}I 2015/01/03 14:38:49 org.apache.solr.rest.ManagedResourceStorage Reading _rest_managed.json using file:dir=/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_10/webgraph/confI 2015/01/03 14:38:49 org.apache.solr.rest.ManagedResourceStorage Loaded LinkedHashMap at path _rest_managed.json using file:dir=/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_4_10/webgraph/confI 2015/01/03 14:38:49 org.apache.solr.rest.RestManager Initializing 0 registered ManagedResourcesI 2015/01/03 14:39:46 MEMORY performed explicit GC, freed 118551 KB (requested/available/average: 1081 / 118937 / 0 KB)E 2015/01/03 14:42:23 ReferenceIterator lost entry 'C6RDnumkbZ2f' because of too low memory: net.yacy.cora.util.SpaceExceededException: 1105880 bytes needed for importRowSet: OutOfMemoryError: 255808 free at Sat Jan 03 14:42:23 CET 2015E 2015/01/03 14:44:42 org.apache.solr.core.CoreContainer Error creating core [collection1]: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandlerorg.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:873)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:646)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:491)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:255)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:249)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler   at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:564)   at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:620)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:835)   ... 8 moreCaused by: java.lang.reflect.InvocationTargetException   at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)   at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)   at java.lang.reflect.Constructor.newInstance(Constructor.java:526)   at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:550)   ... 10 moreCaused by: java.lang.OutOfMemoryError: Java heap space   at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)   at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)   at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)   at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)   at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)   ... 15 moreI 2015/01/03 14:44:42 SolrEmbeddedInstance detected default solr core: collection1E 2015/01/03 14:44:42 STARTUP YaCy cannot start: SolrCore 'collection1' is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandlerorg.apache.solr.common.SolrException: SolrCore 'collection1' is not available due to init failure: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler   at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:745)   at net.yacy.cora.federate.solr.instance.EmbeddedInstance.<init>(EmbeddedInstance.java:89)   at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)   at net.yacy.search.Switchboard.<init>(Switchboard.java:532)   at net.yacy.yacy.startup(yacy.java:205)   at net.yacy.yacy.main(yacy.java:697)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:873)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:646)   at org.apache.solr.core.CoreContainer.create(CoreContainer.java:491)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:255)   at org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:249)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)Caused by: org.apache.solr.common.SolrException: Error Instantiating Update Handler, solr.DirectUpdateHandler2 failed to instantiate org.apache.solr.update.UpdateHandler   at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:564)   at org.apache.solr.core.SolrCore.createUpdateHandler(SolrCore.java:620)   at org.apache.solr.core.SolrCore.<init>(SolrCore.java:835)   ... 8 moreCaused by: java.lang.reflect.InvocationTargetException   at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)   at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)   at java.lang.reflect.Constructor.newInstance(Constructor.java:526)   at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:550)   ... 10 moreCaused by: java.lang.OutOfMemoryError: Java heap space   at org.apache.solr.update.TransactionLog.<init>(TransactionLog.java:154)   at org.apache.solr.update.UpdateLog.init(UpdateLog.java:261)   at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:134)   at org.apache.solr.update.UpdateHandler.<init>(UpdateHandler.java:94)   at org.apache.solr.update.DirectUpdateHandler2.<init>(DirectUpdateHandler2.java:100)   ... 15 more



Server Linux Debian Jessie

Statistik: Verfasst von lann — Sa Jan 03, 2015 3:11 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-03 19:05:55

Hallo TmoWizard, ich habe die gesamte Firewall gelöscht. Denn das war von meiner Seite aus nur die alte Angewohnheit von Windows her. Linux (ich habe Mint17), benötigt keine Firewall.
Aber trotzdem erscheint immer dieselbe Meldung dass mein Peer freigegeben werden soll und von aussen nicht erreichbar ist. Kann ich denn das nicht irgendwie überprüfen? Geht das nicht meines Wissens nach mit einem \“PING\“?

Statistik: Verfasst von 1hartmann — Sa Jan 03, 2015 7:05 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-01-03 21:28:06

Bilder- und Lokationssuche hätte ich auch noch gerne gemacht, hatte aber nicht genug Zeit.

Die alte Lokationssuche-App ist noch unter https://gitorious.org/yacy-poi-search-client verfügbar, wobei ich nicht weiß, was sich an der OSM-Android-API seitdem geändert hat. Google hat ja seine Maps-API komplett umgebaut, aber die Library ist auch von Android in die Play-Services gewandert, die zwar cool, aber keine freie Software sind. Ich hoffe, dass sich auch bei OSM seit damals ein bisschen was getan hat.

Für die Bildersuche würde ich ein GridView{.postlink} anbieten. Das ist ein Layout, in das man eine Liste von Bildern schmeißt und die dann als Matrix angezeigt werden, ohne dass man da groß was tun muss. EIn bisschen knifflig ist es, wenn gescrollt wird, übers Netzwerk die richtigen Grafiken zum richtigen Zeitpunkt zu laden, aber das habe ich auch schonmal gemacht (leider für ein Kundenprojekt, so dass ich das nochmal neu programmieren muss).

Ich löse jetzt erstmal meiine Racecondition und dann schaue ich mal, womit ich danach weiter mache.

Statistik: Verfasst von Low012 — Sa Jan 03, 2015 9:28 pm


English • Re: Yacy crash

Date: 2015-01-04 04:46:19

If you are using a VPS Cloud server it could be lack of swap space.

Try this.
cd /var
touch swap.img
chmod 600 swap.img
dd if=/dev/zero of=/var/swap.img bs=2048k count=1000
mkswap /var/swap.img
swapon /var/swap.img
echo \“/var/swap.img none swap sw 0 0\” >> /etc/ fstab

see https://www.digitalocean.com/community/ ... e-on-a-vps{.postlink}
About 13 down the page.
Hope this helps

Statistik: Verfasst von smokingwheels — So Jan 04, 2015 4:46 am


English • Strange HDD failure

Date: 2015-01-04 09:20:56

Hi,

my YaCy process crashes in irregular intervals due to a hdd failure:

Code:
492967.409223] sd 2:0:1:0: [sdb] Unhandled sense code[492967.409227] sd 2:0:1:0: [sdb]  Result: hostbyte=invalid driverbyte=DRIVER_SENSE[492967.409230] sd 2:0:1:0: [sdb]  Sense Key : Medium Error [current][492967.409234] Info fld=0x6153ca9a[492967.409235] sd 2:0:1:0: [sdb]  Add. Sense: Unrecovered read error[492967.409238] sd 2:0:1:0: [sdb] CDB: Read(10): 28 00 17 cf 0c b0 00 01 00 00[492967.409244] end_request: critical target error, dev sdb, sector 399445168[492974.615767] sd 2:0:1:0: [sdb] Unhandled sense code[492974.615771] sd 2:0:1:0: [sdb]  Result: hostbyte=invalid driverbyte=DRIVER_SENSE[492974.615774] sd 2:0:1:0: [sdb]  Sense Key : Medium Error [current][492974.615777] Info fld=0x6153ca9a[492974.615778] sd 2:0:1:0: [sdb]  Add. Sense: Unrecovered read error[492974.615782] sd 2:0:1:0: [sdb] CDB: Read(10): 28 00 17 cf 0d 98 00 00 08 00[492974.615788] end_request: critical target error, dev sdb, sector 399445400



What I don\’t understand is, I tested the whole drive with the command

while true; do dd if=/dev/urandom of=/dev/sdb; done

And let it run for a few days. I checked the kernel log and above error isn\’t happening. It only happens when Solr reads/writes from the drive. Anyone out there can explain that weird behaviour?

Greetings

Steve

Statistik: Verfasst von LA_FORGE — So Jan 04, 2015 9:20 am


English • Re: Yacy crash

Date: 2015-01-04 16:02:45

No my swap it\’s OK :

Code:
             total       used       free     shared    buffers     cachedMem:       1261756    1156628     105128          0      19888     324312-/+ buffers/cache:     812428     449328Swap:      2931856       8400    2923456



Thank you

Statistik: Verfasst von lann — So Jan 04, 2015 4:02 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-05 13:13:38

Hallo gibt es denn niemanden mehr der hier auf mein techn. Problem eine Lösung hat? Ich habe alles probiert, die Einstellungen in der Fritz sind richtig. Genau mit diesen Einstellungen ist es monatelang mit Windows gelaufen. Auch UPNP habe ich aktiviert, hat auch nichts gebracht. SSL habe ich aktiviert und diesen Port zusätzlich freigegeben. Alles auch mal deaktiviert und mit,-sowie gegeneinander aktiviert und deaktiviert. Aber in yacy laufen doch in der Liste die ganzen anonoufe-Anfragen bei mir wie verrückt ein??? Ich kann doch die verschiedenen Peernamen lesen die bei mir reinkommen? Wie geht das denn mit einem PING? Da könnte ich doch überprüfen ob meine Ports geöffnetsind, oder?

Danke

Statistik: Verfasst von 1hartmann — Mo Jan 05, 2015 1:13 pm


English • Re: Loader and file size limits

Date: 2015-01-05 22:14:45

Hi,

I observe the same, have you submit the bug?

Regards,

Statistik: Verfasst von drixter — Mo Jan 05, 2015 10:14 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-06 09:19:02

Hallöchen \@1hartmann.

Bei Linux, also auch bei Mint geht eine Freigabe der Ports über \“iptables\“. Näheres hierzu findest du z. B. [[>hier<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}.

Statistik: Verfasst von TmoWizard — Di Jan 06, 2015 9:19 am


Fragen und Antworten • Re: Indexing Cache

Date: 2015-01-07 21:21:05

Ein paar neue Erkenntnisse:
Das Leeren des Caches findet beim Überschreiten der Grenze nahezu augenblicklich statt. (Höchstens einige Sekunden danach)
Der CleanUp-Thread scheint sich nicht darum zu kümmern.
Auch ohne Crawling - allein durch DHT-In - wird der Cache gefüllt und überschreitet auch dann die Grenze.

Jetzt schau ich mir mal den Source an. Vielleicht finde ich etwas...

Statistik: Verfasst von otter — Mi Jan 07, 2015 9:21 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-08 00:16:01

Hallo TmoWizard,

danke dir. Aber den Befehl habe ich eingegeben und es hat einiges an Daten runtergeladen. Trotzt des Durchlesen der Informationen über die Ports passierte nichts weiter. Ausserdem bin ich Linuxlaie. Was soll ich den mit den vielen Bezeichnun gen anfangen? wo kann ich da Ports öffnen etc. Ich denke die öffnet man in der Box? Wie komme ich denn überhaupt an die Macher von yacy ran?Vielleicht können die mir Rat geben. Falls Du nicht weiter weisst.

Statistik: Verfasst von 1hartmann — Do Jan 08, 2015 12:16 am


English • Re: Yacy crash

Date: 2015-01-08 10:43:06

\ lann\


I gave it a try the other day using Virtual Box using Jessie Beta 2 and Yacy wont start.
I suggest you log a bug report at http://bugs.yacy.net/

I confirm the non starting but not being a guru have no way to get the logs yet if you could post it.
Thanks

Statistik: Verfasst von smokingwheels — Do Jan 08, 2015 10:43 am


English • Re: Strange HDD failure

Date: 2015-01-08 12:33:40

Try http://ubuntuforums.org/showthread.php?t=1720375 mount the disk with live cd and run tests or replace HDD.
A failing HDD will last some time before it fails to dead (usually).
I\’m no guru in Linux though.

Statistik: Verfasst von smokingwheels — Do Jan 08, 2015 12:33 pm


Fragen und Antworten • opensearch and \’#\’ in the URL

Date: 2015-01-09 02:37:14

Hi,

opensearch for external search results seems to have trouble handling \’#\’ character in the URL when configured under \‘ConfigHeuristics_p.html\’
Based on my experience the URL is cropped and everything located after the \’#\’ is moved to the Comment field which should not be the desired behaviour.

Am I doing something wrong?

Thanks,

Statistik: Verfasst von zptoth — Fr Jan 09, 2015 2:37 am


English • Slash missing = Error in MediaWiki Dump Import

Date: 2015-01-09 14:06:46

in YaCy version 1.819319
Cloud computing environment, based on Ubuntu

Trying to import an xml file of the type used in Media Wikis
generates a curious error, Dropping the Second Slash

I you put in the full string as displayed at
IndexImportMediawiki_p.html
such as an example
http://1.234.56.78/dump/your.xml

it generates a results page as follows:

\ MediaWiki Dump Import\ \ Import Process\ Thread:Error: file not found \[[[http:/]{style="text-decoration: underline"}]{style="font-weight: bold"}your fully qualified web url\ Dump:Processed:0\ Wiki EntriesSpeed:0 articles per second\ Running Time:0 hours, 0 minutes\ Remaining Time:0 hours, 0 minutes\


Please Note that there is only [[ONE SLASH]{style=“text-decoration: underline”}]{style=“font-weight: bold”} instead of TWO SLASHES after the required

\ http:\

.
Therefore, it refuses to process the otherwise valid xml file

How to fix this, please? Many Thanks!!!

Statistik: Verfasst von xioc752 — Fr Jan 09, 2015 2:06 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-09 21:20:51

Ich verwende immer http://www.canyouseeme.org , um zu prüfen, ob meine Firewall(s) funktionieren bzw. die gewünschten Ports offen sind.
Dort gibst du das an, was du im YaCy-System-Status als \“Public Address\” siehst.
Wenn ich den Thread so lese, vermute ich dass da noch eine Firewall aktiv ist.
Was gibt denn der Befehl \“sudo ufw status\” aus?

Statistik: Verfasst von otter — Fr Jan 09, 2015 9:20 pm


English • Re: Where is the file that makes Table_API_p.html , please

Date: 2015-01-11 23:46:08

thats easy and it is actually intended to do so to clone a YaCy configuration!
You just need to copy the file DATA/WORK/api.bheap from the source peer to the target peer (while both are not running)

Statistik: Verfasst von Orbiter — So Jan 11, 2015 11:46 pm


English • Re: P2P mode, dht exchange

Date: 2015-01-11 23:49:01

The wiki page for a network set-up is at http://www.yacy-websuche.de/wiki/index. ... definition{.postlink}
I just saw that this is available in german only, you probably must use a online translator.

Statistik: Verfasst von Orbiter — So Jan 11, 2015 11:49 pm


English • Re: Yacy crash

Date: 2015-01-11 23:54:29

as far as I can see from your error log you just run out of memory. Because you cannot change the memory setting from the online config page, you must set it in the config file before you start YaCy again. Do:
- open DATA/SETTINGS/yacy.conf
- change value \“javastart_Xmx\” to a higher value

Statistik: Verfasst von Orbiter — So Jan 11, 2015 11:54 pm


Fragen und Antworten • Re: opensearch and \’#\’ in the URL

Date: 2015-01-11 23:57:19

well, I believe that is the correct behaviour. Can you please give an example for the url that you are using?

Statistik: Verfasst von Orbiter — So Jan 11, 2015 11:57 pm


English • Re: Slash missing = Error in MediaWiki Dump Import

Date: 2015-01-12 00:38:06

I just tried the mediawiki import and found actually bugs which I have fixed now. Please update your peer.
However, I did not see the bug that you reported. Can you tell me the wiki file address? If you like use a PM for details.

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:38 am


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2015-01-12 00:48:00

ich hab mich echt erschreckt als ich gelesen habe dass du den HostBrowser zwei Monate lang laufen läßt um URLs zu sammeln. Das ist natürlich nicht so gedacht weil das Servlet diese Sachen im RAM aufbaut und nach einem Neustart das weg ist. Der HostBrowser eignet sich wohl nicht für die Daten die du gesammelt hast...

Zusammengelegte Blacklists sollten kein Problem darstellen, dafür gibts ja auch einen Blacklist-Cleaner in /BlacklistCleaner_p.html der das bereinigt wenn da doppelte sind.

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:48 am


English • Re: RSS feeds not processing correctly

Date: 2015-01-12 00:49:04

can you please send me a PM with the address of the RSS feed to reproduce the problem?

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:49 am


Hilfe für Einsteiger und Anwender • Re: nach Datum suchen oder Index auslesen

Date: 2015-01-12 00:54:07

es gibt tatsächlich seit kurzem eine Möglichkeit, nach Datum zu suchen. Dazu musst du vor dem Indexieren in /IndexSchema_p.html alle Felder die mit date_in beginnen anschalten. Diese Option ist zur Zeit nicht per default an, weil sie eine miserable Performance hat. Was es macht: es versucht in allen Dokumenten die Stellen von Datumsangaben zu finden, in mehreren verschiedenen Sprachen und vielen verschiedenen Schreibweisen. Die dazugehörigen regulären Ausdrücke verbraten recht viel CPU. Vielleicht fällt mir ja noch was anderes ein.

Wenn dann die Dokumente damit indexiert sind, kannst du in einer Suchanfrage die Formulierung \“on:<date>\” benutzen, und das Ergebnis wird dann auf das Datum eingeschränkt. Eine Einschränkung auf ein Zeitraum-Intervall gibt es noch nicht.

Ein Export ist so, wie du es willst nicht möglich und auch nicht sinnvoll. Benutze für detailierte Recherche das native Solr-Interface unter bsp. /solr/collection1/select?q=*:*&defType=edismax&start=0&rows=3

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:54 am


English • Re: Address Host: []:8090

Date: 2015-01-12 00:57:14

this should be fixed, please upgrade

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:57 am


Hilfe für Einsteiger und Anwender • Crawler Optimieren für Rss Feeds

Date: 2015-01-12 10:44:57

Hallo,

ich benutze YaCy um aus bestimmten Links ALLE RSS Feeds zu finden.

Das sind dann manchmal 30-50 links die gecrawlt werden
das dauert natürlich alles seine Zeit und viel Müll wird auch gecrawled

nun meine Frage: Wie kann ich den \“Experten Crawl Start\” Einstellen das wirklich NUR Rss Feeds Indexiert werden?
mit Regex z.B.?

läuft dann der Crawler schneller da er nur nach Rss feeds sucht?

danke im vorraus :)
Gee

Statistik: Verfasst von GEESUZ — Mo Jan 12, 2015 10:44 am


Hilfe für Einsteiger und Anwender • Re: Crawler Optimieren für Rss Feeds

Date: 2015-01-12 12:04:21

RSS Feed Links sollten eigentlich gar nicht in den Index kommen. RSS Links sollten im html header als Link-Tag vorkommen, wie hier im Forum:

Code:
<link rel="alternate" type="application/atom+xml" title="Feed - forum.yacy.de" href="http://forum.yacy-websuche.de/feed.php" /><link rel="alternate" type="application/atom+xml" title="Feed - Neuigkeiten" href="http://forum.yacy-websuche.de/feed.php?mode=news" /><link rel="alternate" type="application/atom+xml" title="Feed - Neue Themen" href="http://forum.yacy-websuche.de/feed.php?mode=topics" /><link rel="alternate" type="application/atom+xml" title="Feed - Aktive Themen" href="http://forum.yacy-websuche.de/feed.php?mode=topics_active" />


Wenn so eine Deklaration im html drin ist, merkt sich YaCy diesen und schreibt ihn in die rss-Datenbank, welche du unter /Load_RSS_p.html abrufen kannst. Dort kannst du auch von jedem rss einen rss-Importer starten, der auch automatisch wiederholt werden kann.

Einen Export der RSS-Datenbank kannst du so machen:
http://localhost:8090/Tables_p.xml?tabl ... 00&search={.postlink}

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 12:04 pm


Hilfe für Einsteiger und Anwender • Re: Crawler Optimieren für Rss Feeds

Date: 2015-01-12 13:00:07

ahh ok dachte es gibt irgendwie die möglichkeit den Crawler nur auf RSS suche anzusetzen und damit zu beschleunigen

ui das is auch gut, ich kann also den Importer auf bestimmte RSS feeds setzen und damit den Feed aktuell halten?
verstehe ich das richtig?

thx

Statistik: Verfasst von GEESUZ — Mo Jan 12, 2015 1:00 pm


Hilfe für Einsteiger und Anwender • Re: Crawler Optimieren für Rss Feeds

Date: 2015-01-12 15:27:47

genau! Dazu gibts tatsächlich auch schon ein Tutorial, das ist Teil des \‘Secret Agents\’ Video:
iframe

Statistik: Verfasst von Orbiter — Mo Jan 12, 2015 3:27 pm


English • Re: Loader and file size limits

Date: 2015-01-13 18:12:18

drixter hat geschrieben:\ Hi,\ \ I observe the same, have you submit the bug?\ \ Regards,\



Not yet

Statistik: Verfasst von solaris — Di Jan 13, 2015 6:12 pm


Off-Topic • Re: Google Street View in Frankfurt?

Date: 2015-01-13 21:11:17

Sie sind wieder da! Da ist mir doch tatsächlich wieder so ein Wagen direkt vor mir rumgefahren, das war diesmal in Frankfurt Heddernheim. An der Stelle wo ich stand kam er nicht weiter weil ein Auto in einer engen Wohngebietsstrasse entgegenkam, was ihn zum Wenden veranlasste. Das war eine gute Gelegenheit um Fotos zu machen. Der Fahrer hat freundlich gewunken als ich ihn fotografiert habe.
IMG_20150113_143526.jpg
IMG_20150113_143513.jpg
IMG_20150113_143505.jpg

Statistik: Verfasst von Orbiter — Di Jan 13, 2015 9:11 pm


Hilfe für Einsteiger und Anwender • Re: Crawler Optimieren für Rss Feeds

Date: 2015-01-14 16:58:54

sehr nice !

trotzdem glaube ich nicht das es unmöglich ist den crawler irgendwie zu konfigurieren
das er z.B. nur nach den html tag rss/rdf/air/atom usw. sucht und wenn er nichts gefunden hat er die seite nicht Indexiert
und zur nächsten springt usw.

WENN dann müsste er doch um längen schneller crawlen

oder hab ich da einen Denkfehler?

Statistik: Verfasst von GEESUZ — Mi Jan 14, 2015 4:58 pm


English • scraper cannot load URL: java.io.IOException: Download exce

Date: 2015-01-14 21:13:50

HI, We need to scrape an html page that is frankly 53+ megabytes long and full of links we need to rescue from a sick server...to re-load in a new server.
It is an html save from inside YaCy.

Crawling of \“http://IP.Address/filename.html \” failed. Reason: scraper cannot load URL: java.io.IOException: Download exceeded maximum value of 10485760 bytes/

How + where do we eliminate the barrier, please?
Many thanks

Statistik: Verfasst von xioc752 — Mi Jan 14, 2015 9:13 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-01-15 12:22:52

Heute morgen habe ich im Radio gehört, dass YaCy offline ist: :o :shock: :D
http://www.radiozentrale.de/fileadmin/mnt_downloads/DL_Aktuell/Kampagne_Pro_Radio/WhatsApp_35.mp3

Statistik: Verfasst von Low012 — Do Jan 15, 2015 12:22 pm


Hilfe für Einsteiger und Anwender • Performance Verzweiflung

Date: 2015-01-15 13:36:33

Hallo,

ich komm einfach nicht weiter, egal was ich einstelle der Crawler kommt einfach nicht über seine durchschnittlichen 50 PPM

ich habe die Performance Wiki gelesen und folgende Einstellungen gemacht:
Ram von 600 auf 2500 erhöht
Maximale Wortzahl im Cache: von 50000 auf 90000
Crawler Pool: von 200 auf 400
httpd Session Pool: von 9 auf 18

trotzdem hat sich kaum bis garnichts geändert in der Geschwindigkeit.

JA ich habe die Suchfunktion benutzt und nahezu alles möglich versucht

Statistik: Verfasst von GEESUZ — Do Jan 15, 2015 1:36 pm


Hilfe für Einsteiger und Anwender • Re: Performance Verzweiflung

Date: 2015-01-15 13:57:20

Wie sieht denn dein Crawl-Auftrag aus? YaCy bremst das Crawling, wenn nur innerhalb einer oder weniger Domains gecrawlt wird, um nicht fremde Server zu überlasten.

Statistik: Verfasst von Low012 — Do Jan 15, 2015 1:57 pm


Hilfe für Einsteiger und Anwender • Re: Performance Verzweiflung

Date: 2015-01-15 14:14:47

na ich habe so an die 200 links
die ich in 10 crawljobs aufteile gleichzeitig

also je weniger links desto langsamer das crawling?

Statistik: Verfasst von GEESUZ — Do Jan 15, 2015 2:14 pm


Fragen und Antworten • Re: opensearch and \’#\’ in the URL

Date: 2015-01-16 03:13:06

It is http://blekko.com/#ws/?q={searchTerms}

Statistik: Verfasst von zptoth — Fr Jan 16, 2015 3:13 am


Hilfe für Einsteiger und Anwender • Re: Performance Verzweiflung

Date: 2015-01-16 13:27:15

Das kommt drauf an! ;) Wenn du Crawljobs hast die innerhalb einer oder weniger Domains bleiben, wird zwischen den einzelnen Zugriffen auf diese Domain gewartet. Wenn du so eine Einschränkung nicht hast, dann gibt es weniger Wartezeiten und die PPM sollten ansteigen.

Wenn alles richtig läuft, müsste also ein Crawljob, der de.wikipedia.org abarbeitet und dort bleibt (Crawl_Start über http://localhost:8090/CrawlStartSite.html), relativ langsam sein. Wenn du dagegen de.wikipedia.org abarbeitest und die Verzweigung außerhalb der Wikipedia zulässt (Crawl_Start über http://localhost:8090/CrawlStartExpert.html ohne Filter), dann sollte die Geschwindigkeit höher sein, als in deinem Ursprungsposting angegeben.

Es könnte also durchaus sein, dass du höhere Geschwindigkeiten erreichts, wenn du alle Links gelichzeitig als Crawlstart angibst, weil YaCy dann halt mehr Domains zur Auswahl hat und weniger wartet.

Statistik: Verfasst von Low012 — Fr Jan 16, 2015 1:23 pm


Hilfe für Einsteiger und Anwender • Re: Peer kann von aussen nicht erreicht werden- Linux Mint

Date: 2015-01-17 00:39:45

Hallo Otter,

danke für Deine Antwort. Wenn ich den Befehl eingebe kommt \“AKTIV\“. Anbei der Snapshot mit Errormeldung.

Statistik: Verfasst von 1hartmann — Sa Jan 17, 2015 12:39 am


Fragen und Antworten • Re: Knoten mit Freenet Webseiten

Date: 2015-01-17 01:53:54

Hi All,

any update on this?
I\’d be interested in going deeper with indexing Freenet but don\’t know how far we are already.

A browser fork is on the way with some P2P technology integrated.

Statistik: Verfasst von zptoth — Sa Jan 17, 2015 1:53 am


English • Re: What do I have wrong with my setup using freedns.org So

Date: 2015-01-17 04:56:30

I did a test today and my site works from Paris But not in the US.

I have just had to Whitelist my IP with http://www.projecthoneypot.org/ to restore Yacy\’s external web interface in the US.

Seems to have fixed the unable to connect error on http://www.webpagetest.org.

Statistik: Verfasst von smokingwheels — Sa Jan 17, 2015 4:56 am


English • Re: Config pls New Cloud Group + Migration of Robinson Serve

Date: 2015-01-17 05:27:44

What have you tried so far?
Export > Import ?

I hope your plan has HDD\’s no SSD\’s or you will run out of space.

Statistik: Verfasst von smokingwheels — Sa Jan 17, 2015 5:27 am


Hilfe für Einsteiger und Anwender • Re: nach Datum suchen oder Index auslesen

Date: 2015-01-17 15:41:35

Hallo,

im selben gedanken : ich möchte mehrere agendas mischen. Für eins gibt es ein RSS mit datum, ein andere muss geparst werden. Ist es möglich ein xpath fur das datum per crawl einzugeben ?

Statistik: Verfasst von lamite — Sa Jan 17, 2015 3:41 pm


English • Re: Address Host: []:8090

Date: 2015-01-17 15:52:57

Thank you. I did update, but it didn\’t fix the problem I am facing.
I am sure, however, that your fix surely improved things in that process.
My problem is more complicated, I suspect.
The Address Host: []:8090 remains.

However, it seems to be processing the RSS feeds it already has, curiously.
The results are readable from other locations.
Thanks for trying.
What to do next, please?

Statistik: Verfasst von xioc752 — Sa Jan 17, 2015 3:52 pm


English • Re: Config pls New Cloud Group + Migration of Robinson Serve

Date: 2015-01-17 16:07:56

HI and thanks for your reply.

All the servers are cloud based.
Hence, there is always a limitation on the internal size available for the ubuntu + YaCy dual Solr cores.

Our concept is to use individual servers with their own internal dual Solr cores, and connect them together in P2P + DHT to achieve maximum search and indexing speeds - shared across multiple individual clouds.
This will also facilitate failback and recover, later.

Our problem now is that we have multiple servers that should be sharing but are in fact acting like Robinson servers that read each other.
Hence, our migration from cross-reading Robinson servers to a full P2P + DHT group is incomplete.
Our network is the original

\ defaults/yacy.network.allip.unit\


Likely this needs to be changed, but how to do it and not lose our many GB of data?
This is the only \‘selectable\’ when starting our kind of environment...which we started in cross-reading Robinson servers.
We suspect that the network ID needs to be changed, but we do not know how to do it safely.
Many thanks!

Statistik: Verfasst von xioc752 — Sa Jan 17, 2015 4:07 pm


Hilfe für Einsteiger und Anwender • Re: nach Datum suchen oder Index auslesen

Date: 2015-01-19 17:34:21

XPath und rss Datum sind keine schlechte Ideen.

Statistik: Verfasst von Orbiter — Mo Jan 19, 2015 5:34 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-01-19 22:59:47

Auch wenn der Congress jetzt schon einige Zeit vorbei ist, habe ich eben noch ein Update der App nachgeschoben. Diese Version soll die Basis für eine zukünftige YaCy-Such-App werden.

http://low.audioattack.de/yacy/31c3_congress_search_v1.6.apk

Die Fehler die ich behoben habe sind:


Was ich als nächstes einbauen möchte:


Wenn diese Version vorzeigbar ist (HTTPS sollte schon funktionieren), werde ich sie bei Google Play und https://f-droid.org/ veröffentlichen und einen Hinweis in die 31c3-App einbauen. Zur Zeit gibt es noch gut 80 Installationen. Vielleicht installiert ja der eine oder andere.

Statistik: Verfasst von Low012 — Mo Jan 19, 2015 10:59 pm


English • Re: Loader and file size limits

Date: 2015-01-20 19:21:08

Hi,

I just made a bug using my and your data.

http://mantis.tokeek.de/view.php?id=526

Regards,

Statistik: Verfasst von drixter — Di Jan 20, 2015 7:21 pm


Hilfe für Einsteiger und Anwender • Re: Performance Verzweiflung

Date: 2015-01-21 15:27:49

aaah jetzt habe ich es verstanden :)
vielen Dank !

Statistik: Verfasst von GEESUZ — Mi Jan 21, 2015 3:27 pm


English • Re: Where is the file that makes Table_API_p.html , please

Date: 2015-01-21 17:35:24

Great...Thank you very much!

Statistik: Verfasst von xioc752 — Mi Jan 21, 2015 5:35 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2015-01-22 08:44:25

Ich habe letztens einen Newsletter von Oracle bekommen, in dem u.a. stand, dass Java 7 nach April 2015 nicht weiter gepflegt wird (siehe auch hier{.postlink}). Ich hoffe, openjdk-8 wandert in Debain bald von \“unstable\” wenigstens nach \“testing\“.

Statistik: Verfasst von Low012 — Do Jan 22, 2015 8:44 am


Hilfe für Einsteiger und Anwender • Peernamen auf alten Wert setzen geht nicht

Date: 2015-01-22 10:38:18

Hallo,
ich habe yacy mit dem Debianpaket installiert und habe danach auch den Peername geändert. Da ich Schwierigkeiten hatte habe ich später yacy deinstalliert und noch einmal komplett von vorne installiert.

Leider kann ich jetzt den Peernamen nicht mehr auf meinen alten (ersten) Peernamen setzten!
Es gibt nach dem Speichern keine Fehlermeldung; nur er ändert den Peernamen nicht. In einen anderen Peernamen den ich noch nicht verwendet haben kann ich ihn aber ändern.

[Meine Frage:]{style=“font-weight: bold”}
Was muss ich machen, damit ich meinen aller ersten gewählten Peernamen (den von der ersten Installation) wieder verwenden kann?

Im Voraus besten Dank für jede Hilfe.
Gruß
enero99

Statistik: Verfasst von enero99 — Do Jan 22, 2015 10:38 am


Hilfe für Einsteiger und Anwender • YaCy drosseln

Date: 2015-01-22 15:42:27

Ich wollte wie unter http://www.yacy-websuche.de/wiki/index. ... FirstSetup{.postlink} beschrieben den java Prozess drosseln.
Leider finde ich den Menüpunkt[ \“Peer Kontrolle\” -> \“Admin Console\” -> \“Leistung\“]{style=“font-weight: bold”} nicht.
Ich habe yacy mit einem Debianpaket installiert (Headless).

a) Wie komme ich über das Web-Interface an den entsprechenden Menüpunkt?
oder
b) Welcher Parameter muss in der config-Datei geändert werden?

Gruß und Dank für jede Hilfe.
enero99

Statistik: Verfasst von enero99 — Do Jan 22, 2015 3:42 pm


Hilfe für Einsteiger und Anwender • Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-22 17:14:49

YaCy sei eine privacy-freundliche Suchmaschine, dachte ich. Aber warum will YaCy bei jeder Suchanfrage eine Auslese-API per canvas-Funktion ausführen? Kann mir Jemand erklären, wozu das gut sein soll? Ich stelle keinen Unterschied fest, ob mit oder ohne canvas.

Canvas wird gerne zum heimlichen Fingerprinting eingesetzt: https://www.youtube.com/watch?v=-YPbtTvDAZQ

Statistik: Verfasst von peteding — Do Jan 22, 2015 5:14 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-22 20:48:36

öhm, ich habe keine Ahnung wovon die Rede ist. Bitte ein Beispiel. Was beobachtest du?

Statistik: Verfasst von Orbiter — Do Jan 22, 2015 8:48 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-23 15:28:06

auf diese Suggestivfrage von peteding gibts natürlich auch eine einfache Antwort: nein, YaCy spioniert nicht und es gibt kein canvas bei Suchanfragen.

Tatsächlich gibt es in dem gesamten YaCy Source code, html und javascript nicht ein einziges Mal das Wort \‘canvas\‘. Das kann man leicht nachvollziehen:

Code:
wget http://yacy.net/release/yacy_v1.82_20150121_9000.tar.gztar xfz yacy_v1.82_20150121_9000.tar.gzcd yacygrep -Rl canvas .



Dies listet alle Dateien, in denen das Wort \‘canvas\’ vorkommt. Diese sind:

Code:
./htroot/env/bootstrap/css/bootstrap-rtl.css./htroot/env/bootstrap/css/bootstrap-rtl.min.css./htroot/env/bootstrap/css/bootstrap.css./htroot/env/bootstrap/css/bootstrap.css.map./htroot/env/bootstrap/css/bootstrap.min.css./htroot/env/bootstrap/js/docs.min.js./htroot/env/bootstrap/js/html5shiv.js./htroot/env/bootstrap/js/jquery.min.js./htroot/jquery/js/jquery-1.7.min.js./htroot/jquery/js/jquery-ui-1.8.16.custom.min.js./htroot/yacy/ui/js/jquery-ui-1.7.2.min.js./htroot/yacy/ui/js/jquery.ui.all.min.js


Das sind alles Standard-Libraries (bootstrap und jquery) die überall auf Webseiten Verwendung finden.

Ich empfinde den Topic \“Wozu canvas bei Suchanfragen?\” als recht agressiv-suggestiv. Dazu gibt es keine Grundlage oder Rechtfertigung. Ich bitte um eine Richtigstellung!

Statistik: Verfasst von Orbiter — Fr Jan 23, 2015 3:28 pm


English • YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-01-23 15:42:43

I\’m trying to run YaCy for the first time. I have Mac OSX 10.0.1 and Java 8 update 31 I get this error message on first launch.

\“To view this web content, you need to install the Java Runtime Environment.\”

It would be very helpful to have the instructions to get this working included in a tutorial. I am unable to add \“localhost:8090/index.html\” to my site exceptions list because Java forbids me. I don\’t know what other Java settings I might change to allow YaCy to run. Can someone please help me? I\’m sure there are many other Mac users that will have this same issue. Thank you all very much.

Statistik: Verfasst von nicolasd — Fr Jan 23, 2015 3:42 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-01-23 18:00:55

I just tried to run YaCy on Java 8 on my Mac (within the development environment) and I am surprised to see that YaCy does not work at all; it constantly generates memory problems.
What causes that the application wrapper does think that you don\’t have any java installed is a mystery; I try to find out what it causes.

Statistik: Verfasst von Orbiter — Fr Jan 23, 2015 6:00 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-01-23 23:43:46

Thank you for looking into it. I\’d love to be able to use YaCy on my Mac.

Statistik: Verfasst von nicolasd — Fr Jan 23, 2015 11:43 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-25 19:09:26

\ öhm, ich habe keine Ahnung wovon die Rede ist. Bitte ein Beispiel. Was beobachtest du?\"\

canvas-blocker_0001.jpg
Die Frage: Wollen Sie das Auslesen von unsichtbaren <canvas> erlauben?

Diese Meldung kommt vom Canvas-Blocker.
https://addons.mozilla.org/de/firefox/a ... src=search{.postlink}
In der Konfiguration ist eingestellt \“bei Auslese-API um Erlaubnis fragen

Was mit \“unsichbaren <canvas>\” so alles möglich ist, wird dort beschrieben:
https://www.youtube.com/watch?v=-YPbtTvDAZQ

API steht für: Application Programming Interface, englisch für Anwendungsprogrammierschnittstelle
https://de.wikipedia.org/wiki/API

\ \"es gibt kein canvas bei Suchanfragen.\" - \"Ich bitte um eine Richtigstellung!\"\

Hoffentlich liegst Du richtig.
Warum stellt mein Canvas-Blocker bei jeder Suchanfrage fest, dass es nicht so ist? Ich behaupte ja nicht, dass YaCy spioniert, aber diese Meldung macht mich stutzig. Irgendeine Ursache muss sie ja haben, und die hätte ich gerne gewusst. Deshalb diese meine Frage.
Weil ich keinen Unterschied ob mit oder ohne Canvas bemerke, wäre die Canvas-API bei YaCy doch eigentlich verzichtbar,
oder?
Inzwischen habe ich bemerkt, dass der Canvas-Alarm auch bei Administrationsvorgängen anschlägt.

Statistik: Verfasst von peteding — So Jan 25, 2015 7:09 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2015-01-26 12:53:27

ich habe einen twitterscraper geschrieben:
http://twitterscraper.host-browser.org/

Source code kommt auch irgendwann...

Statistik: Verfasst von Orbiter — Mo Jan 26, 2015 12:53 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-27 04:02:08

Ich würde auch gerne die Antwort wissen, bin ich sehr daran interessiert.

Statistik: Verfasst von Amigo — Di Jan 27, 2015 4:02 am


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-01-27 04:04:52

JAVA8 does not seem to fit my MAC systemand under this condition can not completely work here.

Statistik: Verfasst von Amigo — Di Jan 27, 2015 4:04 am


Mitmachen • Re: YaCy\@31c3

Date: 2015-01-27 04:08:41

Vielen Dank für die APP, ich glaube, Ihr Link hilfreich ist.

Statistik: Verfasst von Amigo — Di Jan 27, 2015 4:08 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2015-01-27 04:10:38

Orbiter hat geschrieben:\ ich habe einen twitterscraper geschrieben:\ \ \ Source code kommt auch irgendwann\...\


Der Quellcode ist egal,Ihre Arbeit ist groß.

Statistik: Verfasst von Amigo — Di Jan 27, 2015 4:10 am


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2015-01-27 04:12:03

Orbiter hat geschrieben:\ iDas ist natürlich nicht so gedacht weil das Servlet diese Sachen im RAM aufbaut und nach einem Neustart das weg ist. Der HostBrowser eignet sich wohl nicht für die Daten die du gesammelt hast\...\ \ Zusammengelegte Blacklists sollten kein Problem darstellen, dafür gibts ja auch einen Blacklist-Cleaner in /BlacklistCleaner\_p.html der das bereinigt wenn da doppelte sind.\


das sit genau,+1

Statistik: Verfasst von Amigo — Di Jan 27, 2015 4:12 am


Wunschliste • Guaranteed Opensearch Results ALWAYS ADDED to index, Please

Date: 2015-01-27 14:24:41

On /ConfigHeuristics_p.html

It is written

\ opensearch load external search result list from active systems below\ When using this heuristic, then every search request line is used for a call to listed opensearch systems until enough results to fill the current search page are available. 20 results are taken from remote system and loaded simultanously, parsed and indexed immediately.\



>>> [We want and need the Opensearch results to BE INCLUDED in EVERY CASE.]{style=“font-weight: bold”}
We need to maximize our sources and Open Search engines are an important meta tool for us.

We recognize that this will increase the size of the results being stored considerably.
We want this, please.
[[How do we turn off the filter that decides to include Opensearch results ONLY if there are fewer than 20 results to display on a results page?]{style=“font-style: italic”}]{style=“font-weight: bold”}

Clearly there is [a filter that only adds Opensearch results if needed in the classic YaCy usage when the crawler sees it has insufficient results to fill the page]{style=“text-decoration: underline”} - described here:

\ until enough results to fill the current search page\



>>> While 20 Results from each Opensearch source is a good number for starting (ON or Off) for guaranteed inclusion,
>>> >>> [[we need to have the option to index unlimited results from each Opensearch source, please, and to be able to be load, parse and index the results automatically (from all selected Opeansearch background sources) each time a search is made for a specific search word or specific search string.]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

We believe that this should be pretty easy to do. It will lead to increased usability for professional big data usage of YaCy.

[[Thank you for making this possible as an option that we and probably some others -with tightly focussed searches- really need]{style=“font-style: italic”}]{style=“font-weight: bold”}.

Statistik: Verfasst von xioc752 — Di Jan 27, 2015 2:24 pm


Hilfe für Einsteiger und Anwender • Index verschwunden nach Wechsel von v1.80 zu v1.82

Date: 2015-01-28 12:03:43

Beim Wechsel von yacy Version v1.80 auf v1.82 wird mein alter Index nicht mehr erkannt.
Auf der Fehlersuche bin ich im Ordner DATA/INDEX/freeworld/SEGMENTS/ auf zwei verschiedene solr Versionen (4.9 und 4.10) gestoßen. Ist das die Ursache?
Und wenn ja, kann ich den Solr_4.9 in einen Solr_4.10 umwandeln?

Vielen Dank für eure Hilfe.

Statistik: Verfasst von Gucky — Mi Jan 28, 2015 12:03 pm


Hilfe für Einsteiger und Anwender • Re: Index verschwunden nach Wechsel von v1.80 zu v1.82

Date: 2015-01-28 14:18:08

eigentlich sollten alte Versionen automatisch migriert werden..

Du kannst mal versuchen das solr_4_9 einfach nach solr_4_10 umzubenennen, das sollte gehen.

Statistik: Verfasst von Orbiter — Mi Jan 28, 2015 2:18 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-01-28 15:48:07

History of the browser user-agent string{.postlink}

Statistik: Verfasst von Low012 — Mi Jan 28, 2015 3:48 pm


Hilfe für Einsteiger und Anwender • Re: Index verschwunden nach Wechsel von v1.80 zu v1.82

Date: 2015-01-28 21:23:18

Super! Dein Tipp hat einwandfrei funktioniert!

Statistik: Verfasst von Gucky — Mi Jan 28, 2015 9:23 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-29 14:38:26

ich denke ich habe oben ausreichend belegt dass es gar kein canvas in YaCy code gibt bis auf den, der in libraries vorkommt. Daher habe ich versucht deine Beobachtung zu reproduzieren. Dazu habe ich mir das gleiche firefox Plugin installiert, dann aber in den Settings des Plugins die Anzeige der Datei und der Codestelle aktiviert, um eine genaue Auskunft zu bekommen aus welcher Quelle diese Warnung generiert wurde. Hier ist das Setting im Plugin:
CanvasBlocker_setting.png
Danach habe ich wie du beschrieben hast eine YaCy Seite aufgerufen. In diesem Fall http://31c3.yacy.net also die 31c3 Suche. Das hat dann die folgenden beiden Meldungen erzeugt:
CanvasBlocker_1.png
und
CanvasBlocker_2.png
Weitere Meldungen sind nicht erschienen. D.h. die canvas-Tags kommen tatsächlich in bootstrap vor, aber eben nur in bootstrap. Ich habe keine weiteren Canvas-Warnungen erhalten.
Dann habe ich mir die Codestelle (hier von der 1. Warnung) im Bootstrap-Code angeschaut, hier ist sie:

Code:
canvas=document.createElement("canvas");var t=1,u=1,v=[];if(canvas.getContext)if(canvas.toDataURL("image/png").indexOf("data:image/png")<0)q.use_fallback=!0;else var w=canvas.getContext("2d");else q.use_fallback=!0;document.createElementNS&&document.createElementNS("http://www.w3.org/2000/svg","svg").createSVGRect&&(q.use_svg=!0,q.use_canvas=!1),q.use_fallback||(t=window.devicePixelRatio||1,u=w.webkitBackingStorePixelRatio||w.mozBackingStorePixelRatio||w.msBackingStorePixelRatio||w.oBackingStorePixelRatio||w.backingStorePixelRatio||1);


Leider ist das nur der minimalisierte Code, den Originalcode habe ich noch nicht gefunden, da würde ich Kommentarzeilen zu erwarten.

Darf ich also feststellen dass hier die Ursache für deine Beobachtung gefunden wurde? Ich finde den Bootstrap-Code nicht verdächtig, eine \‘Spionage\’ wäre ja nur gegeben wenn der canvas-Bereich ein Nachladen von extern triggern würde, und dafür gibt es im Code keinen Hinweis.

Zum Vergleich bitte ich, einfach mal http://getbootstrap.com/ anzusurfen, da kommen dann nämlich die gleichen Warnungen... :)

Statistik: Verfasst von Orbiter — Do Jan 29, 2015 2:38 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-01-29 15:32:22

Ok, ich [glaube]{style=“font-weight: bold”}, dass das nicht mal direkt Teil von Bootstrap, sondern Teil einer von Bootstrap benutzten Library ist: holder.js

Siehe auch: https://github.com/imsky/holder

Dort findet sich in src/holder.js ab Zeile 1473 Code, der dem hier erwähnten sehr ähnlich sieht, aber nicht identisch ist. Wahrscheinlich nicht dieselbe Version wie in Yacy/Bootstrap...

Statistik: Verfasst von MikeS — Do Jan 29, 2015 3:32 pm


English • User poll: feasible, but missing feature?

Date: 2015-01-30 01:03:03

Here is a question to all actual and potential users: what kind of feature would you like to have?
This question is not addressing large, complex function but feasible features that would increase the usability strongly.

Suggestions?

trackback: https://twitter.com/yacy_search/status/ ... 0909167616{.postlink}

Statistik: Verfasst von Orbiter — Fr Jan 30, 2015 1:03 am


English • Re: User poll: feasible, but missing feature?

Date: 2015-01-30 01:33:30

[Reducing memory footprint]{style=“font-weight: bold”}

When you index weekly a few websites which have a lot of new contents, YaCy eats a [lot]{style=“font-style: italic”} of memory and it never goes down.

Statistik: Verfasst von dClauzel — Fr Jan 30, 2015 1:33 am


English • Re: User poll: feasible, but missing feature?

Date: 2015-01-30 23:02:13

[Responsive Web Design]{style=“font-weight: bold”}

Using YaCy via the browser of smartphones works, but there is definitely room for improvement. What\’s there at the moment is a good starting point I think, but the layout could need some tweaks here and there to make it easy to use on a small display.

Statistik: Verfasst von Low012 — Fr Jan 30, 2015 11:02 pm


English • Re: User poll: feasible, but missing feature?

Date: 2015-01-31 20:43:13

Image search by size (small/medium/large) would be a nice feature to have - but that would require image search to actually work.

Image search not crashing half the time you search and most of the time when you click [2] to get the next page of images would be a nice \“feature\“.

Images from sites blacklisted not showing up as black images in the image search results would also be a nice \“feature\“.

Actually being able to use image search without logging in would also be a great \“feature\“.

For regular search, actually useful search results would be a nice \“feature\“. The way search results is sorted right now seems almost random - to put it mildly. What you are probably looking for & what other search engines place among the top 5 is almost never among the search results yacy presents (if search results even appear instead of yacy just crashing).

See a pattern here?

I would personally prefer to see the [very basic functionality]{style=“font-style: italic”} actually work as expected rather than see new half-baked barely working or not at all features. YaCy was a useless joke with no chance of getting attention from more than a minority of technically interested privacy-concerned people who dislike corporatism & fascism. Most people watch television and are so dumbed down and so brainwashed that they can not even manage to consider the idea that the whole \“war of terror\” was all false-flag operations and tv propaganda and they can\’t even being to consider that they are in a fascist police-state. This means that YaCy needs to be attractive to the masses out there in addition to those who have that rare quality called \“ability to think\“. This is not the case today. [Nobody will try YaCy and see the search \“results\” and experience how unable it is and what a resource-hog it is and think \“yeah this is great, I\’ll use this and even run this on my own computer.]{style=“font-weight: bold”} My humble opinion is that [that]{style=“font-style: italic”} is what you should focus on. Make the basics work. Make it less demanding by default (it is better to have 100000 people crawl ten pages per minute than have 10 people crawl 200 pages per minute). Work on sorting and presentation of search results. Make it possible to put caps on things like disk usage, right now you can ask it to stop doing things when there is X MB harddrive space left - it would be better to be able to say \“Limit yacy to 10 GB or 100 GB or whatever\“.

When a dedicated server with 4 cores and RAID10 and 8 GB RAM where 4 GB are dedicated to YaCy isn\’t enough then there is no way most people will install this thing on their desktop computers.

Go back to basics and make the basics work and then think about adding new things.

Statistik: Verfasst von oyvinds — Sa Jan 31, 2015 8:43 pm


Hilfe für Einsteiger und Anwender • Problem beim Konfigurieren des Routers für YaCy

Date: 2015-02-01 16:49:15

Hallo,

ich habe YaCy (tarball, Version 1.829000) auf einem Banana Pi installiert. Ich möchte mein YaCy als Senior Peer konfigurieren. Mit meinem alten Router hatte das geklappt. Jetzt habe ich eine fritz.box Fon WLAN 7390. Die Portfreigabe sollte dort funktionieren wie für 7270 beschrieben:

http://www.yacy-websuche.de/wiki/index. ... der_Router{.postlink}

Einziger Unterschied: bei \“bis Port\” wird keine leere Eingabe akzeptiert, ich trage da auch 8090 ein. Somit erscheint beim Router der Eintrag unter den Freigaben. In meinem Peer erhalte ich weiterhin die Meldung \“Die Konfiguration war nicht erfolgreich. Dies kann einen Moment dauern. \”
Der Moment dauert jetzt schon ein paar Tage :cry:

Wenn ich UPnP im Router aktiviere, funktioniert die Konfiguration als Senior Peer. Allerdings möchte ich das aus Sicherheitsgründen nicht: Für sämtliche MS-Rechner in meinem Heimnetz werden sonst automatisch alle möglichen Ports geöffnet.

Lässt sich denn irgendwie feststellen, ob das Problem bei YaCy liegt oder beim Router? Hat jemand eine Idee?

Viele Grüsse
Uhura

Statistik: Verfasst von Uhura — So Feb 01, 2015 4:49 pm


Hilfe für Einsteiger und Anwender • yacy auf BananaPi

Date: 2015-02-01 18:36:05

Versuche erfolglos yacy auf dem BananaPi zum laufen zu kriegen.
Folgendes Setting:
Banana Pro
Bananien 15.01 (minimal Debian 7 armhf Image)
freier Speicher 930 MB, swap 511MB
openjdk-7-jre-headless
und yacy mit apt installiert

mit „/etc/init.d/yacy start” gestartet
Terminalmeldung: Starting YaCy P2P Web Search: yacy.
Aber kein Zugriff über das Webinterface
in top wird angezeigt, dass der Nutzer yacy den Prozess java gestartet hat. CPU geht bis auf 190% hoch nach einigen Sekunden ist der Prozess verschwunden.
„/etc/init.d/yacy status” liefert \“is dead, but pid file exists.\”

hat jemand eine Idee was da schief läuft?

Statistik: Verfasst von BlueSky — So Feb 01, 2015 6:36 pm


Hilfe für Einsteiger und Anwender • Re: yacy auf BananaPi

Date: 2015-02-02 08:45:44

Hi,

mein BananaPi läuft seit vergangenem Herbst unter \‘Raspian für BananaPi\‘.

cat /boot/issue.txt
Raspberry Pi reference 2014-06-20 (armhf)
Generated using spindle, http://asbradbury.org/projects/spindle/, 8fe9fd4, stage4-lxde-edu.qed


Wenn ich mich recht entsinne, hatte ich Probleme mit \‘bananian\‘. Ich weiss aber nicht mehr was es war.

Gruß
lux

Statistik: Verfasst von lux — Mo Feb 02, 2015 8:45 am


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-02 11:57:01

thats easy, open http://localhost:8090/Settings_p.html?page=crawler
and set a new value at HTTP Crawler Settings

Statistik: Verfasst von Orbiter — Mo Feb 02, 2015 11:57 am


Hilfe für Einsteiger und Anwender • Re: Problem beim Konfigurieren des Routers für YaCy

Date: 2015-02-02 12:05:53

Hallo,

eine weitere Beobachtung:

vor der Konfiguration als Senior Peer wird unter \“Anwendungsfall & Zugangsdaten\” punkt 4 folgendes angezeigt:
\” warning Ihr Peer kann nicht von außen erreicht werden (was nicht schlimm ist, aber anders wäre für das YaCy-Netzwerk noch besser); Bitte öffnen Sie Ihre Firewall auf diesem Port und/oder stellen Sie einen virtuellen Server in Ihrem Router ein um Verbindungen auf diesem Port zu erlauben.\”

Nach dem ich \“Ihren Router für YaCy konfigurieren:\” aktiviert habe, und den Port im Router freigeschaltete habe, wird stattdessen angezeigt: \” Ihr Peer kann von anderen Peers erreicht werden\“, allerdings weitherhin mit der Warnung \” Die Konfiguration war nicht erfolgreich. Dies kann einen Moment dauern.\”

Das ist verwirrend! Wie kann ich feststellen was nun wirklich los ist?

Vielen Dank und Gruß
Uhura

Statistik: Verfasst von Uhura — Mo Feb 02, 2015 12:05 pm


YaCy Coding & Architektur • Re: HostBrowser collected x urls for path y

Date: 2015-02-02 13:14:29

\@Michael vielen Dank fuer die Hilfe!

Statistik: Verfasst von LA_FORGE — Mo Feb 02, 2015 1:14 pm


YaCy Coding & Architektur • Re: Lob an die Devs

Date: 2015-02-02 13:17:33

Code:
    YaCy version 1.82/9000    Uptime: 0 days 00:21    Processors: 8    Load: 10.85    Threads: 87/34, peak:281, total:5032Protection    password-protected [Configure] Address    Host: []:6070    Public Address: http://185.17.25.150:6070    YaCy Address: http://sokrates.yacy Proxy    Transparent off   URL off    Remote: not usedAuto-popup on start-up    Enabled [Disable] Tray-Icon    Experimental Memory Usage    RAM used:   17.86 GB    RAM max:   60.44 GB    DISK used:   (approx.) 642.42 GB    DISK free:   720.81 GB



Das mit der Thread-Uebersicht ist genial! total:5032 Threads momentan bei mir :D
\@Devs: Ihr seid spitze!!!!!!!!! Habe auch gelesen das zahlreiche meiner Bugs die ich im Tracker eingetragen habe gefixt wurden. Herzlichen Dank!

Statistik: Verfasst von LA_FORGE — Mo Feb 02, 2015 1:17 pm


Hilfe für Einsteiger und Anwender • Re: yacy auf BananaPi

Date: 2015-02-02 14:00:32

Benötigt YACY irgend welche Dienste?
Bananian ist mit 25MB Systemspeicherbedarf auf das nötigste reduziert:
SSH server, NTP server, haveged, rsyslogd,zsh, htop, bwm-ng, screen,swconfig
Deshalb schien es mit auch so gut geeignet.

Aber dann werde ich es mal mit Rsapian probieren, - danke für den Tip

Statistik: Verfasst von BlueSky — Mo Feb 02, 2015 2:00 pm


Fragen und Antworten • Re: Knoten mit Freenet Webseiten

Date: 2015-02-02 15:35:16

please try the hint above (use the \“yacy.network.allip.unit\” setting), that should work. Meanwhile we also implemented IPv6 support so there should be no barrier left.

Statistik: Verfasst von Orbiter — Mo Feb 02, 2015 3:35 pm


English • Re: Config pls New Cloud Group + Migration of Robinson Serve

Date: 2015-02-02 15:40:02

you can move your index from intranet/webportal (whatever you use) to allip if you just rename the folder in DATA/INDEX/
Do:
- switch to allip
- shutdown
- open DATA/INDEX/
you will notice subdirectories freeworld, intranet, webportal, allip (or a subset of that):
- You must rename the folder containing your previous index to allip
- start

Statistik: Verfasst von Orbiter — Mo Feb 02, 2015 3:40 pm


English • Re: Config pls New Cloud Group + Migration of Robinson Serve

Date: 2015-02-02 17:45:26

HI and Thank you for your reply!

In fact, all our servers are already using the ALLIP labels.
Yet, they are a collection of physically separate Robinson servers that read each other but do not write to each other.

They also do not have a separate network name.
We used the name presented in the generic setup.
All the servers are identical.
We assume this a security risk that needs to be corrected.
We cannot find a sample file + instructions for creating a new network name using existing data sets across multiple and existing - stand-alone - Robinson servers.

We need to find instructions please how to change this \‘early\’ environment to full p2p with DHT, please.
Many thanks

Statistik: Verfasst von xioc752 — Mo Feb 02, 2015 5:45 pm


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-02 18:14:01

Thank you!
I have used the -1 setting for unlimited.
These are all cloud servers.
I am processing the page on /CrawlStartExpert.html
I will let you know if it fails to load.
I know it is important for the circular indicator to generate a Green Check Mark to show that the page is remotely fully loaded.
I imagine that this will take a long time.
Thanks again!
:D

Statistik: Verfasst von xioc752 — Mo Feb 02, 2015 6:14 pm


Fragen und Antworten • Übernahme von Thunderbird-Feeds?

Date: 2015-02-02 18:20:55

Hallöchen zusammen!

Leider hatte ich hier technische Probleme und nun ist mein kompletter Index verloren! :o Ich hätte da jetzt die Frage ob es einfache Möglichkeit gibt, die bei Thunderbird/SeaMonkey abonnierten Feeds zu importieren? Ich kann das zwar auch von Hand bewerkstelligen, aber ich habe ja noch anderes zu tun. Es sind doch sehr viele Feeds, so daß ich da schon ein paar Stunden zum Importieren bräuchte.

Thunderbird und SeaMonkey können eine Liste dieser Feeds als [[*.opml{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} exportieren, was eventuell hilfreich hierbei sein könnte! [([Hier als Beispiel{.postlink}]{style=“font-weight: bold”} meine eigenen Feeds)]{style=“font-style: italic”}

Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Feb 02, 2015 6:20 pm


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-02 19:20:47

-1 did not work on one of our quiet servers.
Crawling of \“http://0.000.00.00/123456789.html \” failed. Reason: scraper cannot load URL: java.io.IOException: java.lang.OutOfMemoryError: Java heap space/

next thoughts, please?
Many thanks

Statistik: Verfasst von xioc752 — Mo Feb 02, 2015 7:20 pm


English • Re: User poll: feasible, but missing feature?

Date: 2015-02-02 21:04:03

Looking at my IO right now I would like to see this \“CollectionConfiguration\” being able to take a XX ms pause between each step like you can configure with crawling and other things.

I 2015/02/02 20:25:11 CollectionConfiguration postprocessed 6500 from 14401 collection documents; 33 ppm; 232 minutes remaining

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
2 3 573408 240576 2924 2057264 0 0 145988 89 4310 1239 31 4 17 47 0
4 2 573408 257612 2884 2042716 0 0 104890 91 4907 1178 51 3 11 35 0
2 3 573408 217676 3140 2083664 0 0 147230 125 4228 1317 35 4 12 48 0
4 2 573404 255456 3344 2045872 1 0 126203 600 5734 1338 40 4 15 41 0

This CollectionConfiguration, unless you turn it off, will eat as much IO as it can and make the system do 40-50% iowait for hours and hours.

I would not mind this taking longer under less load as the alternative seems to be to set postprocessing.maximum_load to 0.5 (so it doesn\’t do this at all). If it did a wait between each document or every X documents then that would probably be a good thing.

Statistik: Verfasst von oyvinds — Mo Feb 02, 2015 9:04 pm


Hilfe für Einsteiger und Anwender • Re: Problem beim Konfigurieren des Routers für YaCy

Date: 2015-02-03 09:22:23

Du könntest mit http://www.canyouseeme.org/ mal schauen, ob der Port ereichbar ist oder nicht. Wenn ja, ist eventuell nur die Anzeige in YaCy seltsam.

Wenn du UPnP nutzt, ist gar keine Warnung da?

Statistik: Verfasst von Low012 — Di Feb 03, 2015 9:22 am


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-03 11:37:32

Did you read the words \“java.lang.OutOfMemoryError: Java heap space\” to understand the meaning of that or did you just do a copy-paste?

?

The limitation of the html file size had a reason: to protect people exactly from that error message (which is is not an error at all!).

There would be an [obvious]{style=“font-style: italic”} answer to your question and I will give you that as an excercise: [think]{style=“font-style: italic”}! What would you need to do?

Statistik: Verfasst von Orbiter — Di Feb 03, 2015 11:37 am


Hilfe für Einsteiger und Anwender • Re: Problem beim Konfigurieren des Routers für YaCy

Date: 2015-02-03 14:59:45

nein, wenn ich UPnP benutze, gibt es keinerlei Warnung, nur schöne grüne Häkchen.

ja, über http://www.canyouseeme.org/ kann ich auf den Peer zugreifen. Unter Systemstatus wird auch der Status als Senior-Peer bestätigt. Wenn man zum Probieren unter Anwendungsfall&Zugangsdaten ein paar mal den Punkt 4 hin- und her konfiguriert hat, sollte man allerdings den Peer neu starten, damit die Anzeige im Systemstatus auch dem Stand der Dinge entspricht.

Ich habe auch schon versucht im Logfile zu lesen. Unter DATA/LOG soll wohl yacy00.log das aktuelle sein? Da müsste es doch auch irgendwelche Einträge geben. Mit \“uhura_2 finde ich nichts, Nur zu meiner IP-Adresse Einträge dieser Art: \“2015/02/03 13:50:47 YACY connect: SELF reference [88.75.45.xxx]\”
Was das heißen soll, kann ich nur raten.

Wenn ich auf Peer-to-Peer-Network gehe, ist in der Flash-Grafik zu sehen, das es zwischen meinem (uhura_2) und anderen Peers ordentlich funkt. Somit scheint dann doch alles korrekt zu sein, nur die Warnung ist etwas seltsam.

Gruss Uhura

Statistik: Verfasst von Uhura — Di Feb 03, 2015 2:59 pm


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-03 15:33:59

Mais oui, mon cher,...c\‘est evident.
Thanks for the fast reply.… [Homework assignment \‘done.\‘]{style=“font-style: italic”}
Of course, it is not an error, per se.
...
However, the real Question #1 is, of course, \‘how much extra memory is \“enough\” for processing an external, cloud hosted, html file that large (53+ megabytes, generated by a previous but ~ sick ~ YaCy server) if we use the /CrawlStartExpert.html for an input door on a new and healthy server?

Question #2, please, is where - other than the underlying cloud platform - is that new and extra memory applied inside the replacement, healthy, YaCy (where it is needed), please?
Somewhere in the crawler is unquestionably the correct place and possibly it is necessary to use a mix of settings for a cloud environment.
I am sure someone knows the current \‘best practices\’ guidance on this. ...ha ha... Many, Many Thanks :)

Statistik: Verfasst von xioc752 — Di Feb 03, 2015 3:33 pm


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-03 17:13:20

I don\’t know how much memory is needed but I recommend to split the 53 MB file into pieces and import them separately, step by step. I can also not do a guess a size of that pieces, you must try.

Statistik: Verfasst von Orbiter — Di Feb 03, 2015 5:13 pm


English • Re: scraper cannot load URL: java.io.IOException: Download e

Date: 2015-02-03 17:30:11

Seems eminently reasonable!
Many thanks...

Statistik: Verfasst von xioc752 — Di Feb 03, 2015 5:30 pm


English • YaCy TOR

Date: 2015-02-04 15:56:08

I\’m reading on http://www.yacy-websuche.de/wiki/index.php/En:YaCy-Tor that whitelist it\’s deactivated. So, Yacy-TOR isn\’t working.

Do you have any plan to activate it again? or it should be forked completelly?

Thanks!

Statistik: Verfasst von ccube — Mi Feb 04, 2015 3:56 pm


English • Internal & External Index

Date: 2015-02-04 16:05:47

Does it exists or planned feature to index specific intranet & regular internet?

Thanks

Statistik: Verfasst von ccube — Mi Feb 04, 2015 4:05 pm


English • Security

Date: 2015-02-04 16:57:06

I\’m looking YaCy security aspects.

I have a question about intercommunication between yacy nodes. Is there any IP list of all running YaCY nodes? or it\’s a hashed list?

What I want to know if there\’s any way to ennumerate all YaCy nodes on the network. Cause I would like to be annonymous

Thanks!

Statistik: Verfasst von ccube — Mi Feb 04, 2015 4:57 pm


English • Re: User poll: feasible, but missing feature?

Date: 2015-02-05 00:20:30

Have 2 install modes Typical and Advanced.

Typical: Would have no user decisions needed to run a peer to try out eg JNR Peer like current setup but no peer name or anything to configure.

Advanced: Similar to what is currently happening to an install of Yacy. eg SNR Peer
Option: to set Process Priority for Java VM in windows machines at setup.

Also a scheduled snapshot of all yacy\’s folders to be stored in another location in-case of a disaster.

Statistik: Verfasst von smokingwheels — Do Feb 05, 2015 12:20 am


English • Re: Any one interested in tracking users on Social networks?

Date: 2015-02-05 12:22:08

I read google is going to get a pipeline of tweets to there engine but how to harvest google?
I prefer 50 Twitter users per Yacy server and Quickbasic to scrape the info I need. PM if interested.

Statistik: Verfasst von smokingwheels — Do Feb 05, 2015 12:22 pm


English • Re: Any one interested in tracking users on Social networks?

Date: 2015-02-06 08:24:22

I invested some work meanwhile in an algorithm to scrape twitter search results from their html search results. I tried first last year but stopped when I believed that this work is so absurd since the html is extremely bloated and so inefficient to use as search result compared to a true API which was removed. But in January this year I nearly completed a scraper which is at this time an external project but not a part of YaCy:

http://twitterscraper.host-browser.org

I want to publish the code in the near future as soon as everything is inside that I want to for the initial source release (mostly license make-up). The code contains also some \‘nasty\’ I-am-a-browser-fake user-agent believe-me stuff which could be fighted back by twitter as soon as they read the source code. Without pretending that the scraper is a browser it does not work. Therefore this code can not be included into YaCy because I think that this could harm the \“properly-behaved robot\” status.

Statistik: Verfasst von Orbiter — Fr Feb 06, 2015 8:24 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-02-06 10:38:30

http://www.buzzfeed.com/sebastianfiebri ... informiert{.postlink}

Statistik: Verfasst von Orbiter — Fr Feb 06, 2015 10:38 am


YaCy Coding & Architektur • OpenBSD-Unterstützung

Date: 2015-02-06 20:17:07

Tja, mal zu diesem{.postlink} Bug: Den hätte ich natürlich gern behoben gesehen. Weil ich davon ausgehe, dass das schneller geht, wenn sich jemand damit beschäftigt, der sowieso OpenBSD nutzt, fasse ich mal zusammen:

Die Start-Datei muss offensichtlich für OpenBSD neu implementiert werden. Das kann ich gern übernehmen, hätte dafür aber gern die Information, was sie eigentlich genau tun muss, unabhängig vom System.
Nicht viel mehr als [java yacy.jar]{style=“font-style: italic”}, oder?

Statistik: Verfasst von OhSoLow — Fr Feb 06, 2015 8:17 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-07 23:26:42

so ähnlich. Das Script sammelt alle jar-Dateien aus lib zusammen und schreibt die in einen -cp Parameter. Die Startklasse heisst net.yacy.yacy und das Script schaut auch nach Parameter zum Aufruf von startYACY.sh zum Logging (-l).

Statistik: Verfasst von Orbiter — Sa Feb 07, 2015 11:26 pm


Hilfe für Einsteiger und Anwender • SWITCHBOARD dhtTransferJob: no selection, too many entries

Date: 2015-02-08 20:21:00

Hallo Leute,

ich bin absoluter Anfänger bei YaCy. Seit wenigen Wochen habe ich einen Senior Peer 247 am laufen.
Version 1.829000
Load:4.05
Nun qält sich das Maschinchen schon tagelang mit maximaler CPU-Auslastung herum, obwohl ich alle Crawls abgebrochen und pausiert habe. Was treibt mein YaCy? Auf die Benutzerschnittstelle kann ich wegen der hohen Last nur noch sehr eingeschränkt zugreifen.
Seit 2015/02/07 3:35 sieht der Server-Log so aus:

Code:
I 2015/02/08 16:12:10 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 16:12:10 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 16:11:38 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 16:11:38 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:55:53 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:55:53 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:55:21 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:55:21 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:54:49 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:54:49 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:54:16 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:54:16 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:53:44 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:53:44 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:53:11 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:53:11 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:29:07 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:29:07 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:23:12 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:23:12 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:03:46 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:03:46 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:03:11 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:03:11 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 15:02:38 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 15:02:38 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 13:54:57 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 13:54:57 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 13:24:40 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 13:24:40 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 13:24:06 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 13:24:06 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 13:07:39 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 13:07:39 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 12:01:12 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 12:01:12 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 11:25:09 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 11:25:09 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 11:24:04 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 11:24:04 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 11:14:42 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 11:14:42 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 11:02:28 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 11:02:28 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 11:00:14 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 11:00:14 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:58:33 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:58:33 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:41:47 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:41:47 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:39:03 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:39:03 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:37:58 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:37:58 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:32:06 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:32:06 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 10:06:35 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 10:06:35 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 09:38:07 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 09:38:07 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:38:17 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:38:17 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:37:44 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:37:44 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:37:11 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:37:11 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:34:26 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:34:26 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:33:54 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:33:54 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:14:39 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:14:39 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:13:35 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:13:35 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 08:13:02 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 08:13:02 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:55:43 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:55:43 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:11:52 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:11:52 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:11:18 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:11:18 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:10:46 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:10:46 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:09:42 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:09:42 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:04:23 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:04:23 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 07:03:51 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 07:03:51 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 06:42:45 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 06:42:45 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 06:10:55 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 06:10:55 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 06:10:23 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 06:10:23 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 06:09:51 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 06:09:51 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 06:09:19 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 06:09:19 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:56:17 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:56:17 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:50:48 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:50:48 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:48:37 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:48:37 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:48:04 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:48:04 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:47:32 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:47:32 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:47:00 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:47:00 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:46:27 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:46:27 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:28:08 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:28:08 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:27:36 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:27:36 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:27:04 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:27:04 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:26:32 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:26:32 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:14:41 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:14:41 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:09:53 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:09:53 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:09:21 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:09:21 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:08:50 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:08:50 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:08:18 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:08:18 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:07:47 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:07:47 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:07:15 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:07:15 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:06:43 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:06:43 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 05:06:10 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 05:06:10 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:48:29 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:48:29 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:47:55 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:47:55 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:47:22 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:47:22 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:46:50 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:46:50 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:46:16 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:46:16 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:45:11 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:45:11 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56W 2015/02/08 04:38:28 org.eclipse.jetty.http.HttpParser badMessage: 400 Illegal character 0x5 in state=START in '\x05<<<\x02\x00\x01>>>/api/feed.rss?cou...zw\xAc-\\W\x16\xE5i\xE9a\xA4\xF7\x91\xF6' for HttpChannelOverHttp@19b8688{r=0,c=false,a=IDLE,uri=-}I 2015/02/08 04:28:04 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:28:04 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:27:32 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:27:32 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:27:00 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:27:00 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:25:56 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:25:56 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:06:53 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:06:53 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:06:21 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:06:21 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:05:50 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:05:50 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 04:05:18 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 04:05:18 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:50:38 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:50:38 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:23:35 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:23:35 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:22:32 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:22:32 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:20:24 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:20:24 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:19:53 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:19:53 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:19:21 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:19:21 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 03:18:50 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 03:18:50 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:59:35 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:59:35 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:59:03 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:59:03 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:41:19 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:41:19 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:18:03 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:18:03 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:02:02 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:02:02 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:01:28 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:01:28 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:00:53 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:00:53 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 02:00:23 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 02:00:23 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:58:11 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:58:11 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:57:37 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:57:37 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:40:49 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:40:49 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:40:17 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:40:17 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:38:08 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:38:08 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:37:36 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:37:36 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:36:31 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:36:31 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:17:08 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:17:08 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:16:36 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:16:36 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:15:29 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:15:29 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 01:14:56 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 01:14:56 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 00:17:51 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 00:17:51 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/08 00:17:17 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/08 00:17:17 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:54:30 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:54:30 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:53:57 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:53:57 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:52:21 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:52:21 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:35:47 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:35:47 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:34:10 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:34:10 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:33:37 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:33:37 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:33:05 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:33:05 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:32:33 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:32:33 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:32:01 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:32:01 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:25:20 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:25:20 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 23:24:49 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 23:24:49 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56W 2015/02/07 22:38:33 SWITCHBOARD Crawl job '50_localcrawl' is paused: user demand on Status.htmlW 2015/02/07 22:37:47 SWITCHBOARD Crawl job '62_remotetriggeredcrawl' is paused: user demand on Status.htmlI 2015/02/07 22:11:14 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 22:11:14 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 22:10:41 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 22:10:41 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:50:46 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:50:46 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:13:40 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:13:40 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:07:02 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:07:02 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:06:29 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:06:29 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:05:56 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:05:56 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56I 2015/02/07 21:05:23 SWITCHBOARD dhtTransferJob: result from dequeueing: falseI 2015/02/07 21:05:23 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 56


Was soll ich machen? YaCy killen? Anders konfigurieren, aber was?

Statistik: Verfasst von bauhaus05 — So Feb 08, 2015 8:21 pm


Hilfe für Einsteiger und Anwender • Wie breit macht sich YaCy auf der Platte?

Date: 2015-02-08 20:35:56

Hallo Leute,

ich bin absoluter Anfänger bei YaCy. Seit wenigen Wochen habe ich einen Senior Peer 247 am laufen. Version 1.829000
Der freie Speicherplatz schwindet zusehends. 30 GB hat YaCy inzwischen schon occupiert, 15 sind noch frei. Wenn das so weitergeht, ist in einigen Tagen Ende. Was kann ich tun?

Statistik: Verfasst von bauhaus05 — So Feb 08, 2015 8:35 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-09 11:06:20

OhSoLow hat geschrieben:\ Die Start-Datei muss offensichtlich für OpenBSD neu implementiert werden.\



Eventuell reicht es ja, bei Zeile 48 zu schauen, ob es sich um OpenBSD handelt (in \$OS steht hoffentlich eine aussagekräftige Zeichenkette) und dann dort den Aufruf von getopt anzupassen, statt ein komplett neues Skript zu schreiben.

Statt

Code:
options="`getopt -n YaCy -o h,d,l,p,t,g -l help,debug,logging,print-out,tail-log,gui -- $@`"



also das hier:

Code:
if [ $OS = "OpenBSD" ]    # oder was auch immer der String für OpenBSD istthen  options="`getopt ???????????????????????????????????????????????????????????????????`"else  options="`getopt -n YaCy -o h,d,l,p,t,g -l help,debug,logging,print-out,tail-log,gui -- $@`"fi

Statistik: Verfasst von Low012 — Mo Feb 09, 2015 11:06 am


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-09 11:35:34

Ich habe es mit [options = \”\“]{style=“font-style: italic”} versucht, um wenigstens erst mal YaCy selbst zum Laufen zu bekommen - das tat dann aber überhaupt nichts mehr. Wahrscheinlich hakt da an anderer Stelle noch etwas.

Statistik: Verfasst von OhSoLow — Mo Feb 09, 2015 11:35 am


Hilfe für Einsteiger und Anwender • Re: Wie breit macht sich YaCy auf der Platte?

Date: 2015-02-09 12:19:30

Hallöchen \@bauhaus05!

Punkt [[1]{style=“font-style: italic”}]{style=“font-weight: bold”}: Aktuell ist wohl Version [[1.839040]{style=“font-style: italic”}]{style=“font-weight: bold”}

Punkt [[2]{style=“font-style: italic”}]{style=“font-weight: bold”}: [[30]{style=“font-style: italic”}]{style=“font-weight: bold”} GB sind sind wenig, mein YaCy benötigt inzwischen über [[130]{style=“font-style: italic”}]{style=“font-weight: bold”} GB!

Da hilft wohl nur eine größere Festplatte oder Du schränkst den Plattenverbrauch ein, das geht irgendwie in den Einstellungen. Das ist einfach davon abhängig, wie viele Websites Du indexierst. Je mehr Sites, desto größer der Verbrauch. Irgendwo muß dein Index ja gespeichert werden und der wird natürlich mit jeder Website immer größer! Die [[englische Wiki{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} sagt übrigens, daß [[25]{style=“font-style: italic”}]{style=“font-weight: bold”} GB schon das Minimum bei der Installation sein sollten.

Statistik: Verfasst von TmoWizard — Mo Feb 09, 2015 12:19 pm


Mitmachen • Import von Lesezeichen

Date: 2015-02-10 13:14:09

Hallo,

leider scheint es die Importfunktion für Bookmarks nicht mehr zu geben, jedenfalls nicht in der Version 1.839040.
Im Wiki gibt es noch eine Beschreibung für irgendeine ältere Version: http://www.yacy-websuche.de/wiki/index.php/De:Indexing

Ich würde so was z.B. unter Produkiton -> Importfuntkionen erwarten, habe es aber woanders auch nicht gefunden. Oder habe ich was übersehen?

Wenn es die nicht mehr gibt, wäre das eigentlich schade, weil das eine der naheliegenden Möglichkeiten ist, die man als YaCy-Neuling gerne ausprobiert!

Grüsse an alle
Uhura

Statistik: Verfasst von Uhura — Di Feb 10, 2015 1:14 pm


English • Translation (suggestion for the developers)

Date: 2015-02-10 18:56:57

Hello all,

I\’m translating YaCy to Portuguese (pt) and it\’s harder then it should be.
I\’ve already made translations for other software, namely Manjaro Linux components (Octopi, pacman, etc) and it\’s [much easier]{style=“font-weight: bold”}.
The use of .po language files instead of .lng makes a great difference, namely because if you use a site like Transifex a large number
of users can co-operate in the translation of the same file.
In the current situation no one is aware of what others are doing. Do you know how many of us are trying at the same time to
translate the .lng file into the same language?
I may be translating something that was already translated by someone else and that\’s a waste of time for all involved.
Transifex is a great solution because each language may be assigned to a mantainer and as many translators as necessary and
all in a coherent way.
YaCy being a Web search engine makes all sense to translate it into every possible language and in my humble opinion as fast
as possible so users have another alternative to Google (I use Duck Duck Go).
I don\’t know if it\’s possible to use ,po files with your code but it would be great if you could follow that approach.
I bet you would be astonished how fast YaCy would be translated to every available language worldwide.

I thank the developers for sharing with us all the result of their effort and hard work.

Best regards,
arcorreia

PS - I suggested .po because I can\’t find .lng in the list of formats supported by Transifex http://docs.transifex.com/developer/formats/
There is also an opensource and free (projects must pay Transifex, it\’s free only for translators) alternative that seems very promising http://zanata.org/

Statistik: Verfasst von manjaro — Di Feb 10, 2015 6:56 pm


Hilfe für Einsteiger und Anwender • Wie bekomme ich meine Seite in den Index

Date: 2015-02-11 16:08:48

Hallo,ich habe nun seit einigen Wochen bei mir Yacy im Senior-Modus laufen. Lokal habe ich meine eigene Internetseite im Index drin. Wenn ich aber z.B. mit Metager im Yacy-Netz suche, wird diese leider gar nicht gefunden. Wie kann ich das ändern?

Statistik: Verfasst von ekohler — Mi Feb 11, 2015 4:08 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-02-11 19:20:42

Eher was für die Eltern unter uns:

http://schlaefteuerkindschondurch.de/

Statistik: Verfasst von Low012 — Mi Feb 11, 2015 7:20 pm


Hilfe für Einsteiger und Anwender • Re: Wie bekomme ich meine Seite in den Index

Date: 2015-02-12 10:23:27

Vielleicht hilft das hier:

https://www.metager.de/everybody.html

Statistik: Verfasst von Low012 — Do Feb 12, 2015 10:23 am


Mitmachen • Re: Import von Lesezeichen

Date: 2015-02-12 10:32:41

Im Menü habe ich es auch nicht mehr gefunden, aber unter http://localhost:8090/Bookmarks.html müsstest du fündig werden. Da gibt es oben im Menü den Punkt \“Import Bookmarks\“. Ob das noch funktioneirt, weiß ich nicht, ich glaube, das wurde länger nicht gepflegt.

Statistik: Verfasst von Low012 — Do Feb 12, 2015 10:32 am


Hilfe für Einsteiger und Anwender • Re: Wie bekomme ich meine Seite in den Index

Date: 2015-02-12 11:53:45

Danke für diese Idee, könnte prinzipiell auch funktionieren. Nur leider sind für sowas weder meine Internetleitung und noch die Leistung meines Rechner auch nur annähernd leistungsfähig genug.

Meine Frage bezieht sich eher darauf, das ich auf meinem Rechner einen großen Index-Daten-Bestand verwalte (beim letzten mal knapp 100 GB) der überwiegend automatisch (weil Senior) erstellt wurde.

Eigentlich sollten doch dann auch meine Crawls irgendwo in andere Index-Datenbanken verteilt werden (oder sehe ich das falsch) und wie kann ich das evtl. beeinflussen.

Statistik: Verfasst von ekohler — Do Feb 12, 2015 11:53 am


Mitmachen • Re: Import von Lesezeichen

Date: 2015-02-12 16:00:24

Vielen Dank für die URL.

Habe es ausprobiert, funktioniert leider nicht.
Ich werde das im Bugtracker mal auf diee Wunschliste setzen. Vielleicht erbarmt sich ja jemand …

Gruss Uhura

Statistik: Verfasst von Uhura — Do Feb 12, 2015 4:00 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-14 00:13:46

Also: Ja, [uname]{style=“font-style: italic”} gibt tatsächlich \“OpenBSD\” aus. Könnte man so also prüfen.

Zwei, naja, drei Patches:

  1. [bin/apicall.sh]{style=“font-style: italic”} und [bin/passwd.sh]{style=“font-style: italic”} müssen ebenfalls [#/usr/bin/env sh]{style=“font-style: italic”} statt [bash]{style=“font-style: italic”} verwenden (OpenBSDs pdksh kommt damit zurecht).

    Code:

    # cat bin/apicall.sh | more#!/usr/bin/env shcd "`dirname $0`"port=$(grep ^port= ../DATA/SETTINGS/yacy.conf |cut -d= -f2)# ...
  2. [getopt]{style=“font-style: italic”} funktioniert unter OpenBSD etwas anders, ich habe es bei mir mal komplett rausgenommen:

    Code:

    if [ $OS = "OpenBSD" ]then        #todo: adopt options        options=""else        options="`getopt -n YaCy -o h,d,l,p,t,g -l help,debug,logging,print-out,tail-log,gui -- $@`"fiif [ $? -ne 0 ];then        exit 1;fi


Die manpage{.postlink} sagt, OpenBSD hat ein etwas konservativeres \“getopt\” - lange Optionen etwa (\”--help\” u.dgl.) sind eine GNU-Ergänzung, die vom POSIX-Standard abweichen.

Ich für meinen Teil brauche das ja gar nicht. Ohne eine einzige Option tut\’s ganz gut:

\ \$ uname -sr\ OpenBSD 5.6\


\ \# ./startYACY\_OpenBSD.sh\ \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\* YaCy Web Crawler/Indexer & Search Engine \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\ \*\*\*\* (C) by Michael Peter Christen, usage granted under the GPL Version 2 \*\*\*\*\ \*\*\*\* USE AT YOUR OWN RISK! Project home and releases: \*\*\*\*\ \*\* LOG of YaCy: DATA/LOG/yacy00.log (and yacy\.log) \*\*\ \*\* STOP YaCy: execute stopYACY.sh and wait some seconds \*\*\ \*\* GET HELP for YaCy: see and \*\*\ \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\ \>\> YaCy started as daemon process. Administration at \<\<\



Und schon tut alles. :) Randbemerkung: YaCy muss unter OpenBSD als [root]{style=“font-style: italic”} laufen - sonst startet der Daemon nicht. Wieso auch immer. ;-)

Statistik: Verfasst von OhSoLow — Sa Feb 14, 2015 12:13 am


Fragen und Antworten • Yacy Speicherverbrauch Online und Offline ?

Date: 2015-02-17 03:52:00

Frage: Warum benötigt Yacy im Onlinebetrieb also auf einem Onlineserver mehr Arbeitsspeicher 6 - 9 Gig, als Yacy im Offlinebetrieb mit ca. 160 - 250 Mb?

Statistik: Verfasst von RoGott — Di Feb 17, 2015 3:52 am


Hilfe für Einsteiger und Anwender • Snapshot Creation

Date: 2015-02-18 12:51:58

Ich habe die Funktion Snapshot aktiviert. Die XML-Dateien werden im Verzeichnis /DATA/HTCACHE wie angegeben abgelegt. Aber leider kann ich keine pdf/jpg Dateien finden. Muss dazu noch an anderer Stelle etwas aktiviert oder eingestellt werden?

Statistik: Verfasst von hotel24 — Mi Feb 18, 2015 12:51 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2015-02-18 15:15:58

Hallo Berlin,
nachdem ich bei der Installation von Yacy auf dem BananaPi gescheitert bin habe ich jetzt euern Post von der erfolgreichen iInstallation gefunden.
Habt ihr einen Tipp für mich?

Ich habe einen Banana Pro:
Bananien 15.01 (minimal Debian 7 armhf Image)
openjdk-7-jre-headless
und yacy mit apt installiert
mit „/etc/init.d/yacy start” gestartet
Terminalmeldung: Starting YaCy P2P Web Search: yacy.
Aber kein Zugriff übers Webinterface.
In top wird angezeigt, dass der Nutzer yacy den Prozess java gestartet hat. CPU geht bis auf 190% hoch nach einigen Sekunden ist der Prozess verschwunden.
„/etc/init.d/yacy status” liefert \“is dead, but pid file exists.\”

viele Grüße aus Frankfurt
Chris

Statistik: Verfasst von BlueSky — Mi Feb 18, 2015 3:15 pm


Hilfe für Einsteiger und Anwender • Re: Wie bekomme ich meine Seite in den Index

Date: 2015-02-18 15:55:06

Wenn du einen Senior-Peer betreibst, sollte dein Index auch automatisch an andere Peers verteilt werden.

Wenn dein Peer sehr stark mit Crawling und Indexing beschäftigt ist, kann es sein, dass die Verteilung ausgebremst wird, wenn auf http://localhost:8090/ConfigNetwork_p.html die Verteilung in diesen Fällen ausgeschaltet ist.

Clipboard02.png

Statistik: Verfasst von Low012 — Mi Feb 18, 2015 3:55 pm


English • Re: Translation (suggestion for the developers)

Date: 2015-02-18 16:30:27

Unfortunatley you are not the first person who makes a (very valid) complaint about the current state of the translation system.

The system is quite old already and has not been touched in years (Correct me if I\’m wrong, anybody.). I had a look at it several months ago, but did not come up with any smart solution to improve it back then. You mentioned the .po format which is used by GNU gettext (http://en.wikipedia.org/wiki/Gettext). Without looking at the format any closer I see several advantages over the current system:


What I did not look at so far is if it works well with HTML (especially with fragments of documents and with non-standard elements which are used in the YacY template system).

Requirements for a new system which come to my mind right now:

Statistik: Verfasst von Low012 — Mi Feb 18, 2015 4:30 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2015-02-19 01:17:00

Hallo Chris,

das hört sich seltsam an.
Ich kann dir mal meine Konfiguration nennen:
Raspian Version 3.1
Oracle-Java JRE 1.7.0_40
Yacy hier herunterladen und entpacken: http://yacy.net/release/yacy_v1.82_20150121_9000.tar.gz

Vielleicht erst mal nur das Tarball probieren anstelle der Debian-Version.
Evtl. liegt das Problem aber auch am open-java. Davon hatte schonmal jemand berichtet, glaube ich mich zu erinnern.

Meld dich mal, ob\’s klappt

Gruss Uhura

Statistik: Verfasst von Uhura — Do Feb 19, 2015 1:17 am


English • Re: Translation (suggestion for the developers)

Date: 2015-02-20 00:36:14

Hi Low012,

I hope you can find answers for your questions because I think it can be used with html (zanata uses it to translate their website. As they are also an opensource project I suggest you contact them and ask for help regarding your doubts, we are a community so we are supposed to help each other). I suspect that other languages like java or php are used from inside the html code in order to get the translated strings.

Converting the old files to [.po]{style=“font-weight: bold”} is probably not necessary. Use something like [sed]{style=“font-weight: bold”} in unix/linux to get rid of everything to the right of the [::]{style=“font-weight: bold”} and sites like zanata will allow you to upload the file in .txt format (but I\’m not 100% sure).


In linux there is also the option http://docs.translatehouse.org/projects/translate-toolkit/en/latest/commands/txt2po.html?id=toolkit/txt2po and I think there are file converters for windows too.

Best regards,
arcorreia

Statistik: Verfasst von manjaro — Fr Feb 20, 2015 12:36 am


Hilfe für Einsteiger und Anwender • Rescue Data

Date: 2015-02-20 17:26:57

HI,
Problem
We have 2 Robinson type cloud servers that must be replaced
Saving the harvested data from each crawler is CRITICAL
The data in them is different. The crawlers had different tasks.


We need to recover the folders with the harvested data. This is essential.
1. What folders do we need to \“save\” and
2. What do we move it to...\‘where,\’ please?
We can make new generic crawlers in another cloud space.
Our goal is to add these harvested data to a private [P2P/DHT environment]
However, all the new servers are Robinson servers, that read each other, at this time

Many thanks

Statistik: Verfasst von xioc752 — Fr Feb 20, 2015 5:26 pm


Hilfe für Einsteiger und Anwender • Re: yacy auf BananaPi

Date: 2015-02-20 18:48:11

ok, es war schlicht die falsche Java Version, keine Ahnung wo ich da gelandt bin..
Das ist die richtige:
ejre-7u75-fcs-b13-linux-arm-vfp-hflt-client_headless-18_dec_2014.tar.gz

Grüße, Chris

Statistik: Verfasst von BlueSky — Fr Feb 20, 2015 6:48 pm


Mitmachen • Re: Yacy-Stammtisch Berlin

Date: 2015-02-20 18:52:10

Danke für das Auflisten, alles nochmal durchgesehen...
ok, es war schlicht die falsche Java Version, keine Ahnung wo ich da gelandet bin..
Jetzt klappts
Das ist die Richtige:
ejre-7u75-fcs-b13-linux-arm-vfp-hflt-client_headless-18_dec_2014.tar.gz

Grüße, Chris

Statistik: Verfasst von BlueSky — Fr Feb 20, 2015 6:52 pm


Hilfe für Einsteiger und Anwender • Re: SWITCHBOARD dhtTransferJob: no selection, too many entri

Date: 2015-02-22 12:00:57

schwaches Forum

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 12:00 pm


Hilfe für Einsteiger und Anwender • Re: Wie breit macht sich YaCy auf der Platte?

Date: 2015-02-22 12:02:18

Danke für die Antwort!

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 12:02 pm


Hilfe für Einsteiger und Anwender • Re: Stoppen / Neustarten

Date: 2015-02-22 12:07:01

Als Anfänger habe ich auch kaum Ahnung, aber ich vermute, dass noch irgendwelche Daten auf die Platte geschrieben werden müssen.
Ich selbst stoppe YaCy über den Taskmanager, indem ich brutal die JVM abschieße. Das funktioniert zuverlässig und am schnellsten.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 12:07 pm


Hilfe für Einsteiger und Anwender • Re: Rescue Data

Date: 2015-02-22 12:21:58

I\’m only a beginner. On my Ubuntu the data is stored in the folder /home/[username]/yacy/DATA/INDEX/[networkname]/SEGMENTS/

Baobab is an helpful tool for analysing structures!

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 12:21 pm


Hilfe für Einsteiger und Anwender • Platzverbrauch reduzieren, Teillöschung des Index möglich?

Date: 2015-02-22 12:28:24

Mein Plattenspeicher ist sehr begrenzt. Wahrescheinlich war es ein Fehler, den Remote Crawl freizugeben.
Kann ich einzelne Urls gezielt löschen, um den Platzverbrauch zu reduzieren, oder muss ich gleich den gesamten Index platt machen?

Drei Möglichkieten der Löschung werden mir angeboten: /IndexControlURLs_p.html
Lösche den lokalen Suchindex (Embedded Solr und alte Metadaten)
Lösche RWI Index (DHT übertragene Worte)
Lösche Citation Index (Verlinkung zwischen URLs)

Ich kann damit wenig anfangen. Welche Möglichkeit ist in meinem Fall sinnvoll?

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 12:28 pm


Hilfe für Einsteiger und Anwender • Re: Stoppen / Neustarten

Date: 2015-02-22 12:58:37

bauhaus05 hat geschrieben:\ Als Anfänger habe ich auch kaum Ahnung, aber ich vermute, dass noch irgendwelche Daten auf die Platte geschrieben werden müssen.\ Ich selbst stoppe YaCy über den Taskmanager, indem ich brutal die JVM abschieße. Das funktioniert zuverlässig und am schnellsten.\



aber nur bis Du dabei Dateien beschädigst! So ist es mir ergangen!

Statistik: Verfasst von Micki — So Feb 22, 2015 12:58 pm


Hilfe für Einsteiger und Anwender • Re: Wie bekomme ich meine Seite in den Index

Date: 2015-02-22 14:26:08

\ https://www.metager.de/everybody.html\ Eine EMail an das Meta-Team mit folgenden Angaben schreiben:\ -- Welche Software benutzt die persönliche Suchmaschine? (YaCy, OpenCrawl, andere)\ -- Die Adresse (URL) zur Abfrage der Suchsoftware (z.B.: ).\


Kein guter Rat. Der Hinweis wird lediglich im Gästebuch veröffentlicht. Bei einer dynamischen IP-Adresse ändert diese sich täglich mindestens einmal. Dann ist der Eintrag schon veraltet!
Nur wer einen eigenen Server mit fester IP-Adresse betreibt kann das nutzen.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 2:26 pm


Hilfe für Einsteiger und Anwender • Re: Spioniert YaCy? Wozu canvas bei Suchanfragen?

Date: 2015-02-22 14:29:36

\ Darf ich also feststellen dass hier die Ursache für deine Beobachtung gefunden wurde? Ich finde den Bootstrap-Code nicht verdächtig, eine \'Spionage\' wäre ja nur gegeben wenn der canvas-Bereich ein Nachladen von extern triggern würde, und dafür gibt es im Code keinen Hinweis.\


Dann ist die Welt von YaCy ja in Ordnung.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 2:29 pm


Hilfe für Einsteiger und Anwender • Re: YaCy drosseln

Date: 2015-02-22 14:34:55

Schwaches Forum. Antworten zu bekommen ist anscheinend Glückssache.

Meine Empfehlung: Da du Linux benutzt, kannst du mit einem Taskmanager (KDE Systemmanager -> Prozesstabelle) die Priorität von Java herabsetzen. Aber das geht leider bei jedem Neustart verloren.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 2:34 pm


Hilfe für Einsteiger und Anwender • Re: Platzverbrauch reduzieren, Teillöschung des Index möglic

Date: 2015-02-22 14:37:50

Hallo,

schau mal unter Index Administration -> Index Deletion (/IndexControlURLs_p.html)
Da gibt es auch eine Möglichekit altes zeug zu löschen.
Anschliessend ist es Sinnvoll den Index wieder zu optimieren -> URL Database Administration -> Optimize Solr -> merge to max 1 segments.
So wird auch der gebrauchte Plattenplatz weniger.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Feb 22, 2015 2:37 pm


Hilfe für Einsteiger und Anwender • Re: Peernamen auf alten Wert setzen geht nicht

Date: 2015-02-22 14:38:52

Ein Autokennzeichen darf nur ein einziges Mal existieren. Vielleicht ist es mit Peernamen ähnlich. Da müssten sich die YaCy-Freaks auskennen. Aber die sind in diesem Forum sehr rar.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 2:38 pm


Hilfe für Einsteiger und Anwender • Re: YaCy drosseln

Date: 2015-02-22 14:51:48

Hallo,

javastart_priority setzt den nice-level mit dem YaCy gestartet wird - eine Möglichkeit das in der Weboberfläche zu setzen scheint verschwunden zu sein :-(

Viel effektiver drosselst Du aber in System Administration -> Performance settings of Busy Queues (/PerformanceQueues_p.html).
Unter Unixen kann mit kleineren Werten für \‘Maximum of System-Load\’ z.B. für Local Crawl oder DHT Distribution viel genauer die erzeugte Last einstellen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Feb 22, 2015 2:51 pm


Hilfe für Einsteiger und Anwender • Re: Platzverbrauch reduzieren, Teillöschung des Index möglic

Date: 2015-02-22 14:53:28

\ Da gibt es auch eine Möglichekit altes zeug zu löschen.\

Und welche der drei mir angebotenen Möglichkeiten wäre das?
– Lösche den lokalen Suchindex (Embedded Solr und alte Metadaten)
– Lösche RWI Index (DHT übertragene Worte)
– Lösche Citation Index (Verlinkung zwischen URLs)

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 2:53 pm


Hilfe für Einsteiger und Anwender • Re: YaCy drosseln

Date: 2015-02-22 15:01:01

\ System Administration -\> Performance settings of Busy Queues (/PerformanceQueues\_p.html)\

Das sicht sehr nach Expertenlevel aus. Als Anfänger habe ich Angst, etwas kaputt zu machen.
Überhaupt hatte ich mir das alles einfacher vorgestellt. Aber Suchmaschinen sind offenbar hochkomplex.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 3:01 pm


Hilfe für Einsteiger und Anwender • DHT-Verteilung, Speicherplatzverbrauch?

Date: 2015-02-22 18:09:20

/CrawlResults.html?process=3

\ Ergebnisse der DHT-Verteilung\ Die URL Indexierung wurde von anderen Peers initiiert und durchgeführt. Diese Links wurden an Ihren Peer übermittelt, da er am angemessensten zur Speicherung übereinstimmend mit der Logic der verteilten Hash Tabelle ist.\ Anwendung: Dies Liste füllt sich, wenn Sie die \'Index Empfang\' Option auf der \'Index Kontrolle\' Seite aktiviert haben.\


Bedeutet das, dass die per DHT-Transfer übermittelten URLs bei meinem Peer ebensoviel Speicherplatz verbrauchen wie selbstgecrawlte Links?

Andersherum gefragt: Wäre es sinnvoll, die DHT-Verteilung abzuschalten, um Speicherplatz zu sparen, indem nur selbstgesammelte Links lokal gespeichert werden? Oder gelangen meine Ergebnisse dann nicht mehr zu anderen Peers?
Als Filter benutze ich beim ExpertenCrawlStart \“Auf Startdomain beschränken(s)\“, damit nur die in meiner Liste angegbenen URLs abgesucht werden und keine externen Links.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 6:09 pm


Fragen und Antworten • Re: Frage Ex- und Import

Date: 2015-02-22 18:29:39

Um über 60 Mio. URLs handelt es sich. Wie hiess nochmal gleich das Verzeichnis in der YaCy Verzeichnisstruktur worin man Files ablegen kann die dann automatisch geladen & indexiert werden?

Wenn man das über den (Advanced) Crawler macht und eine Crawl-Depth von 0 eingestellt hat, wird trotzdem noch ne Menge aus dem Internet nachgeladen, bei der Indexgröße die ich importieren will würde das also Jahre dauern, da das forcierte Crawl-Delay ja hier noch hinzukommt. Ich habe mal einen Eintrag{.postlink} im Bugtracker dazu erstellt.

Statistik: Verfasst von LA_FORGE — So Feb 22, 2015 6:29 pm


Hilfe für Einsteiger und Anwender • Re: Platzverbrauch reduzieren, Teillöschung des Index möglic

Date: 2015-02-22 20:29:09

Hallo,

das löschen der alten URLs löscht Daten aus dem Suchindex.
Der RWI-Index baut sich durch dht von selber ab.

Cu, Sebastian.

Statistik: Verfasst von sixcooler — So Feb 22, 2015 8:29 pm


Hilfe für Einsteiger und Anwender • Re: DHT-Verteilung, Speicherplatzverbrauch?

Date: 2015-02-22 20:36:43

Hallo,

unter /ConfigNetwork_p.html kannst Du index / dht -Verteilung und -Empfang ein und abschalten.
Wenn Du Index verteilst baust Du deinen RWI-Index ab - brauchst weniger Plattenplatz.
Wenn du von anderen Peers index empfängst muss das zeug auch irgendwo hin gespeichert werden -> mehr Plattenplatz.

Wir freuen uns natürlich immer wenn Peers sowohl Index verteilen als auch empfangen - damit das Freeworldnetzwerk gut funktioniert.

Cu, Sebastian.

Statistik: Verfasst von sixcooler — So Feb 22, 2015 8:36 pm


Hilfe für Einsteiger und Anwender • Re: DHT-Verteilung, Speicherplatzverbrauch?

Date: 2015-02-22 21:06:11

Danke für die Information. Mal sehen, wie weit mein Speicherplatz reicht. Vielleicht muss ich eines Tages den Index-Empfang abschalten.

Statistik: Verfasst von bauhaus05 — So Feb 22, 2015 9:06 pm


Hilfe für Einsteiger und Anwender • Re: Rescue Data

Date: 2015-02-22 23:28:13

Thank you
Questions please
1. what needs to be done to reuse it elsewhere?
2. must it stay separate and intact forever in a new location, or
3. can it be the basis for a new crawler that will grow? a fresh YaCy
Many thanks!

Statistik: Verfasst von xioc752 — So Feb 22, 2015 11:28 pm


Hilfe für Einsteiger und Anwender • Wie erhöhe ich das verfügbare Ram

Date: 2015-02-23 10:06:36

Bereits gemacht: in Systemsteuerung den Speicher von Java hochgesetzt und in der startYACY.bat

set javacmd=-Xmx600m -Xms180m

auf

set javacmd=-Xmx1024m -Xms360m

gesetzt ohne Erfolg. Gibt es da noch einen anderen Wert wo zu setzen?

Statistik: Verfasst von Micki — Mo Feb 23, 2015 10:06 am


Hilfe für Einsteiger und Anwender • Re: Wie erhöhe ich das verfügbare Ram

Date: 2015-02-23 12:56:50

Hat sich erledigt!

Statistik: Verfasst von Micki — Mo Feb 23, 2015 12:56 pm


Hilfe für Einsteiger und Anwender • Administration Passwortschützen?

Date: 2015-02-23 16:07:23

Ein Großteil des Admin Panel ist bereits Passwort geschützt... ist es auch möglich Seiten wie status.html mit ein zu beziehen ohne sich zum Suchen anmelden zu müssen?

Statistik: Verfasst von lifeless — Mo Feb 23, 2015 4:07 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-23 23:13:06

Ich habe das \“bash\” jetzt fast überall durch \“sh\” ersetzt. In reconfigureYACY.sh wird [read]{style=“font-style: italic”} mit einer Option benutzt, die es wohl nur in der Bash gibt. Das muss ich mir nochmal anschauen.

Das Start-Skript habe ich auch angepasst. Das [getopt]{style=“font-style: italic”} nutzt jetzt unter OpenBSD nur kurze Parameter und gibt eine Warnung aus, wenn es ein \”--\” findet.

Leider habe ich ziemliche Probleme mit OpenBSD in einer VM auf meinem Laptop ǵehabt, so dass ich die Änderungen nicht testen konnte. Es wäre super, wenn du das tun könntest. Ich habe die Änderungen vor ein paar Minuten ins Git gepusht: https://gitorious.org/yacy/rc1/commit/53e4ae65d0bca0ff8fb6b2a766742de87d1691d6

edit: Ach ja, warum YaCy unter OpenBSD \“root\” braucht, weiß ich leider nicht.

Statistik: Verfasst von Low012 — Mo Feb 23, 2015 11:13 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-23 23:41:04

Low012 hat geschrieben:\ edit: Ach ja, warum YaCy unter OpenBSD \"root\" braucht, weiß ich leider nicht.\



Nach etwas Spielerei: Ich nehme an, da fehlen einfach einige Pfade, möglicherweise würde es also durchaus funktionieren, wenn man den Benutzeraccount mal brauchbar berechtigen würde. OpenBSD ist ja standardmäßig höchst paranoid eingestellt.

Die Änderungen umfassen nur \“meine\” getenv-Änderungen sowie die überarbeiteten Optionen, richtig?
Was genau muss ich da noch testen?

Statistik: Verfasst von OhSoLow — Mo Feb 23, 2015 11:41 pm


Wunschliste • Bremsliste

Date: 2015-02-24 10:38:13

Ich hätte gerne so was wie eine Bremsliste. Was soll das sein: Ich habe festgestellt das manche Domains ultra groß und Umfangreich sind, so daß sie beim Crawlen 1000ende von Einträge produzieren und das crawlen anderen Domains fast auf Null runter bremsen. Es wäre jetzt schön, wenn man diese Domains auf eine Liste setzen könnte und das die dann nur quasi Häppchen weiße z. B. 1000 Links und dann Pause für andere Domains und dann wieder 1000 Links gecraweled werden. Vielleicht gibt es ja so was schon und ich hab es nur nicht gefunden? Was ich nicht mein ist die Link Anzahl zu limitieren.

Statistik: Verfasst von Micki — Di Feb 24, 2015 10:38 am


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-24 13:18:04

OhSoLow hat geschrieben:\ Die Änderungen umfassen nur \"meine\" getenv-Änderungen sowie die überarbeiteten Optionen, richtig?\



Genau, mehr habe ich bis jetzt nicht gemacht.

Es wäre super, wenn du die folgenden Skripte ausprobieren könntest:

./startYaCy.sh
./bin/myip.sh (sollte bei laufendem YaCy deine IP anzeigen, kann sein, dass zusätzlich einen Warnung angezeigt wird)

Wenn das beides funktioniert, sollte hoffentlich auch alles andere in ./bin funktionieren. Wenn du Lust hast, kannst du alle Skripte in diesem Ordner testen, dabei wirst du aber (je nach Skript) Daten verlieren.

Statistik: Verfasst von Low012 — Di Feb 24, 2015 1:18 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-24 13:47:18

./startYaCy.sh: Entspricht ja jetzt so ungefähr meiner (oder soll ich da irgendwelche Optionen gezielt prüfen?).

./bin/myip.sh: Zeigt meine öffentliche IP ohne jede Warnung an.

Statistik: Verfasst von OhSoLow — Di Feb 24, 2015 1:47 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-24 20:41:22

OhSoLow hat geschrieben:\ ./startYaCy.sh: Entspricht ja jetzt so ungefähr meiner (oder soll ich da irgendwelche Optionen gezielt prüfen?).\



Äh, ja! Hatte ich ganz vergessen! Probier doch bitte nochmal das hier aus:

./startYACY.sh -h (sollte Optionen zeigen)
./startYACY.sh --help (sollte eine Warnung und dann einen Fehler anzeigen)

Statistik: Verfasst von Low012 — Di Feb 24, 2015 8:41 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-24 21:19:11

\ \# ./startYACY.sh -h\ getopt: unknown option \-- o\


\ \# ./startYACY.sh \--help\ WARNING: Unfortunately this script does not support long options in OpenBSD.\ getopt: unknown option \-- o\



Naja ... ;)

Statistik: Verfasst von OhSoLow — Di Feb 24, 2015 9:19 pm


Fragen und Antworten • Wie Visualisierung beim Crawling ausschalten?

Date: 2015-02-25 12:58:01

Hallo liebe Yacy-Community,

ich bin dabei, Yacy gerade auszuprobieren. Beim Crawling von http://www.gute-mathe-fragen.de/ geht mein Rechner jedoch in die Knie. Ich vermute es liegt an der Visualisierung, die enorme \“Größen\” annimmt.

Leider kann ich in den Settings keine Option finden, die Visualisierung auszuschalten.
Wer kann mir weiterhelfen? Danke!

Statistik: Verfasst von q2apro — Mi Feb 25, 2015 12:58 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 13:24:45

OK, das muss ich mir nochmal ansehen. :oops:

Statistik: Verfasst von Low012 — Mi Feb 25, 2015 1:24 pm


Hilfe für Einsteiger und Anwender • Re: Snapshot Creation

Date: 2015-02-25 15:19:43

Hat diese Funktion niemand in Verwendung, oder habe ich die Funktion falsch verstanden und es werden gar keine Screenshots der indizierten Seiten angelegt? :?
Danke für die Hilfe!

Statistik: Verfasst von hotel24 — Mi Feb 25, 2015 3:19 pm


Hilfe für Einsteiger und Anwender • Re: Snapshot Creation

Date: 2015-02-25 15:35:19

dazu musst du wkhtmltopdf installiert haben und das auf einem Mac oder unter Linux. YaCy findet das dann automatisch und legt dort dann PDFs der Webseiten ab.
Je nach dem welches System du hast (z.B. einen Headless Server) musst du auch noch imagemagick und/oder xvfb installieren damit das klappt.

Statistik: Verfasst von Orbiter — Mi Feb 25, 2015 3:35 pm


English • Re: Translation (suggestion for the developers)

Date: 2015-02-25 15:40:20

I\’m open for changes here. Please consider that you do the work yourself. Your work would be very welcome! All existing translations should be moved/imported to the new system.

Statistik: Verfasst von Orbiter — Mi Feb 25, 2015 3:40 pm


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2015-02-25 20:09:47

Hi, is there any update on this? I\’m hoping to do some experiments with this data, so it would be great to have this implemented. Thanks!

Statistik: Verfasst von biolizard89 — Mi Feb 25, 2015 8:09 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 21:24:53

OK, mit einer OpenBSD-VM unter Windows hatte ich weniger Probleme als unter Debian (\“testing\“, daher vielleicht die Probleme). Ich habe ein bisschen rumprobiert und eine neue Version hochgeladen. Leider ist OpenBSD für mich sehr ungewohnt und ich weiss noch nicht, wie ich mir eine Umgebung einrichten kann, um wirklich zu testen, was ich da fabriziere. Ich weiss ja noch nichtmal, wie ich zusätzliche Software installiere. :o

https://gitorious.org/yacy/rc1/commit/d23f7165ab23894b17831d4a58c5e4ed5d68aab5

Wenn du also das startYACY.sh nochmal mit Parametern (z.B. -h oder -p) testen könntest und die Ausgabe hier posten könntest, wäre das super!

Statistik: Verfasst von Low012 — Mi Feb 25, 2015 9:24 pm


Fragen und Antworten • Win 7(64bit) javaw nicht gefunden - 2015er-Edition

Date: 2015-02-25 21:34:06

Hallo allerseits,

der Zusatz im Titel wurde angebracht, weil\’s schon mal so \‘nen Thread gab, bloß dass der uralt war – im Jahr 2010 erstellt – und mir nicht so recht weiterhalf.

System:
Ich benutze Win 7(64bit) und habe Java 7u9 installiert; Java ist jedoch auf einer Festplatte nur für Programme installiert, und nicht etwa auf der System-Festplatte C: .
Aufbauend auf jenem Java laufen bereits Programme von Dritten ohne Anstalten zu machen; die Java-Installation ist also heile und funktioniert.
Runtergeladen habe ich mir YaCy 1.82 für Windows.
Bei der Installation habe ich \“Installation ohne Java\” gewählt, weil ich ja bereits Java drauf hab und es so funktioniert, und YaCy auf besagte Programm-Festplatte installiert.

Problem:
Wenn ich startYACY.bat anklicke, erscheint die Fehlermeldung, dass javaw nicht gefunden werden konnte, und YaCy öffnet sich nicht.

Missglückte Lösungsansätze:
Ich fand den Ansatz sehr chamant, einfach den konkreten Pfad zu javaw.exe auf meinem Rechner in startYACY.bat anstelle von \“javaw\” einzutragen,
aber startYACY.bat findet javaw dann noch immer nicht, weil der Pfad Leerzeichen enthält; ganz konkret: \“F:\Programme\Java RE\Java 7u9\bin\” .

Also, statt

Code:
start %priority% javaw %javacmd% -classpath %CLASSPATH% net.yacy.yacy


den vollen Pfad zu meiner javaw.exe angeben

Code:
start %priority% F:\Programme\Java RE\Java 7u9\bin %javacmd% -classpath %CLASSPATH% net.yacy.yacy



So - also ohne Anführungsstriche - eingegeben, geht startYACY.bat nur dem Pfad \“F:\Programme\Java\” nach.
Wenn man den Pfad mit Anführungsstrichen eingibt, kommt die startYACY.bat auch ned drauf klar.
Ich hab\’ auch versucht, da wo Leerzeichen sind, einfach einen Unterstrich einzutippen; hat nix genützt.

Hieraufhin hab\’ ich mal den Pfad an sich abgeändert, indem ich die Leerzeichen entfernt habe; aus obigem wurde somit das hier: \“F:\Programme\JavaRE\Java7u9\bin\“.
Folge war, dass zum einen die Programme, die auf Java bei mir laufen, nicht mehr starten konnten - sehr ärgerlich und inakzeptabel - und zum anderen YaCy zwar
nicht mehr den javaw-Fehler hatte, aber letztendlich auch nicht startete; YaCy\’s Fehlstart sieht durch die Änderung wie folgt aus:
Es poppt einmal ganz kurz die Konsole auf - es ist nur ein kurzes Aufflackern - ja, und dann sieht man unten rechts so ein neues Startmenü-Icon und wenn man da
dann mit dem Mauszeiger drüber geht, bekommt man ein kleines graues Menü eingeblendet, dem man entnehmen kann, dass YaCy versucht, zu starten.
Dieses Startmenü-Icon verschwindet kurze Zeit später wortlos und es erscheint dann auch kein YaCy-Browser-Fenster, wie im Erklär-Video zu sehen.
Ich hab\’ daraufhin frustriert den Pfad wieder auf seine ursprüngliche Fassung zurück gestellt.


Gruß,
Kürbishälfte

Statistik: Verfasst von Kürbishälfte — Mi Feb 25, 2015 9:34 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 21:36:40

Low012 hat geschrieben:\ OK, mit einer OpenBSD-VM unter Windows hatte ich weniger Probleme als unter Debian (\"testing\", daher vielleicht die Probleme).\



Über Linux könnt\’ ich mich hier stundenlang aufregen. Hab\’ schon Gründe, wieso ich stattdessen BSD-Server habe.

Low012 hat geschrieben:\ Leider ist OpenBSD für mich sehr ungewohnt und ich weiss noch nicht, wie ich mir eine Umgebung einrichten kann, um wirklich zu testen, was ich da fabriziere. Ich weiss ja noch nichtmal, wie ich zusätzliche Software installiere. ![:o](http://forum.yacy-websuche.de/images/smilies/icon_e_surprised.gif "Surprised")\



Nicht schwer.{.postlink}

Code:
export PKG_PATH=<Mirror deiner Wahl>



Wobei das aktuell, glaube ich, in -CURRENT sogar schon voreingestellt ist.
Dann: [pkg_add <Software>]{style=“font-style: italic”}.

Low012 hat geschrieben:\ Wenn du also das startYACY.sh nochmal mit Parametern (z.B. -h oder -p) testen könntest und die Ausgabe hier posten könntest, wäre das super!\


Code:
# ./startYACY.sh  -hstartscript for YaCy on UNIX-like systemsOptions  -h, --help            show this help  -t, --tail-log        show the output of "tail -f DATA/LOG/yacy00.log" after starting YaCy  -l, --logging         save the output of YaCy to yacy.log  -d, --debug           show the output of YaCy on the console  -p, --print-out       only print the command, which would be executed to start YaCy  -g, --gui             start a gui for YaCy


Code:
# ./startYACY.sh  -pnice -n 10 /usr/local/jdk-1.7.0/bin/java -Xms1200m -Xmx1200m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.directoryFactory=solr.MMapDirectoryFactory -classpath .:htroot:lib/J7Zip-modified.jar:lib/apache-mime4j-0.6.jar:lib/bcmail-jdk15-1.46.jar:lib/bcprov-jdk15-1.46.jar:lib/chardet.jar:lib/commons-codec-1.9.jar:lib/commons-compress-1.8.1.jar:lib/commons-fileupload-1.3.1.jar:lib/commons-io-2.3.jar:lib/commons-jxpath-1.3.jar:lib/commons-lang-2.6.jar:lib/commons-logging-1.2.jar:lib/fontbox-1.8.8.jar:lib/geronimo-stax-api_1.0_spec-1.0.1.jar:lib/guava-18.0.jar:lib/htmllexer.jar:lib/httpclient-4.3.6.jar:lib/httpcore-4.3.3.jar:lib/httpmime-4.3.6.jar:lib/icu4j-core.jar:lib/jakarta-oro-2.0.8.jar:lib/jaudiotagger-2.0.4-20111207.115108-15.jar:lib/javax.servlet-api-3.1.0.jar:lib/jcifs-1.3.17.jar:lib/jcl-over-slf4j-1.7.9.jar:lib/jempbox-1.8.8.jar:lib/jetty-client-9.2.6.v20141205.jar:lib/jetty-continuation-9.2.6.v20141205.jar:lib/jetty-deploy-9.2.6.v20141205.jar:lib/jetty-http-9.2.6.v20141205.jar:lib/jetty-io-9.2.6.v20141205.jar:lib/jetty-jmx-9.2.6.v20141205.jar:lib/jetty-proxy-9.2.6.v20141205.jar:lib/jetty-security-9.2.6.v20141205.jar:lib/jetty-server-9.2.6.v20141205.jar:lib/jetty-servlet-9.2.6.v20141205.jar:lib/jetty-servlets-9.2.6.v20141205.jar:lib/jetty-util-9.2.6.v20141205.jar:lib/jetty-webapp-9.2.6.v20141205.jar:lib/jetty-xml-9.2.6.v20141205.jar:lib/jsch-0.1.51.jar:lib/json-simple-1.1.1.jar:lib/jsoup-1.8.1.jar:lib/log4j-over-slf4j-1.7.9.jar:lib/lucene-analyzers-common-4.10.3.jar:lib/lucene-analyzers-phonetic-4.10.3.jar:lib/lucene-classification-4.10.3.jar:lib/lucene-codecs-4.10.3.jar:lib/lucene-core-4.10.3.jar:lib/lucene-facet-4.10.3.jar:lib/lucene-grouping-4.10.3.jar:lib/lucene-highlighter-4.10.3.jar:lib/lucene-join-4.10.3.jar:lib/lucene-memory-4.10.3.jar:lib/lucene-misc-4.10.3.jar:lib/lucene-queries-4.10.3.jar:lib/lucene-queryparser-4.10.3.jar:lib/lucene-spatial-4.10.3.jar:lib/lucene-suggest-4.10.3.jar:lib/metadata-extractor-2.7.0.jar:lib/noggit-0.5.jar:lib/org.restlet.jar:lib/pdfbox-1.8.8.jar:lib/poi-3.10.1.jar:lib/poi-scratchpad-3.10.1.jar:lib/slf4j-api-1.7.9.jar:lib/slf4j-jdk14-1.7.9.jar:lib/solr-core-4.10.3.jar:lib/solr-solrj-4.10.3.jar:lib/spatial4j-0.4.1.jar:lib/webcat-0.1-swf.jar:lib/weupnp-0.1.2.jar:lib/wstx-asl-3.2.9.jar:lib/xercesImpl.jar:lib/xml-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy >/dev/null 2>/dev/null &



Dafür hast du nun die langen Parameter kaputtgemacht.

Code:
# ./startYACY.sh  --helpWARNING: Unfortunately this script does not support long options in OpenBSD.getopt: unknown option -- -getopt: unknown option -- e



Noch so eine Idee übrigens: Wenn man startYACY mehrmals ausführt, tut er so, als würde jedes Mal eine neue Instanz gestartet. Vielleicht kann man das abfangen.

Statistik: Verfasst von OhSoLow — Mi Feb 25, 2015 9:36 pm


Fragen und Antworten • Re: Indexing Cache

Date: 2015-02-25 22:32:06

Alle paar Monate komme ich etwas weiter :D Ich habe nun festgestellt, dass das Problem daher rührt, dass der FlushThread an der folgenden Stelle hängenbleibt (ewig wartet):
\@zottel: Kannst du das in Deinem ThreadDump auch so sehen?

Code:
Thread= IndexCell.FlushThread(/home/yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/default) id=36 WAITINGat java.util.concurrent.ArrayBlockingQueue.put(ArrayBlockingQueue.java:324)at net.yacy.kelondro.rwi.IODispatcher.merge(IODispatcher.java:127)at net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkAnySmallFiles(ReferenceContainerArray.java:414)at net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:198)at net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65)at net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172)at net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)

Statistik: Verfasst von otter — Mi Feb 25, 2015 10:32 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 22:40:38

Danke für die Hinweise zur Installation der Packages. Das sieht aus, als könnte auch ich es schaffen, mir eine Umgebung zu basteln, mit der ich testen kann.

<offtopic>
Die BSDs wollte ich mir immer mal anschauen, habe es aber nie ernsthaft geschafft. Demnächst bin ich in Chemnitz bei den Linuxtagen. Wenn ich es schaffe, werde ich mal bei NetBSD vorbei schauen und vielleicht werde ich ja dort überzeugt, mal zu wechseln. Linux funktioniert halt für mich, aber ich bin auch offen für Neues, wenn ich mich dadurch nicht irgendwie einschränken muss.
</offtopic>

Die Ausgaben sehen wie erhofft aus. Das BSD-getopt (oder POSIX-getopt allgemein) unterstützt, wenn ich das richtig recherchiert habe, keine langen Optionen. Ich werde da nochmal genauer schauen und wenn das tatsächlich so ist, hoffentlich einen Weg um diese Limitierung herum finden. Die Warnung habe ich eingefügt, damit man wenigstens einen Hinweis hat, dass es zur Zeit einfach nicht funktioniert und das Problem nicht vor dem Bildschirm (jedenfalls nicht vor dem des Anwenders) sitzt.

Ich habe mir das Ticket im Bugtracker mal zugewiesen

Statistik: Verfasst von Low012 — Mi Feb 25, 2015 10:40 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 22:50:28

<OT>

Low012 hat geschrieben:\ Die BSDs wollte ich mir immer mal anschauen, habe es aber nie ernsthaft geschafft.\



Naja, \“die BSDs\“. [(Fang\’ doch mit PC-BSD oder GhostBSD an, das sind schon vorkonfigurierte, \“linuxige\” FreeBSD-Desktops.)]{style=“font-size: 70%; line-height: 116%;“} NetBSD/EdgeBSD und OpenBSD/Bitrig sind halt eher für die Hartgesottenen: Schwer kaputtzukriegen, aber vor der Installation hast du sozusagen Lesepflicht.

Ein großer Vorteil allerdings, gerade bei den ja bereits verlinkten OpenBSD-FAQ: Du hast noch vor der Inbetriebnahme eine Ahnung, was genau gerade passiert. FreeBSD scheint sich mittlerweile ja eher an den bequemen Umsteiger zu richten, da lernt man nur was, wenn man das auch will (dann aber richtig, Stichwort z.B. ZFS). Ich selbst nutze für verschiedene Zwecke FreeBSD und OpenBSD neben Windows. Für NetBSD bin ich noch zu ungeduldig.

</OT>

Low012 hat geschrieben:\ Die Ausgaben sehen wie erhofft aus.\



Ach so, dass vorher nichts \“erschien\“, war eigentlich Teil des Bugs? Dann habe ich das missverstanden.

Statistik: Verfasst von OhSoLow — Mi Feb 25, 2015 10:50 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 23:09:15

OhSoLow hat geschrieben:\ Ach so, dass vorher nichts \"erschien\", war eigentlich Teil des Bugs? Dann habe ich das missverstanden.\



Ja, da hätte was erscheinen müssen, aber weil das BSD-getopt mit den Parametern des GNU-getopt wohl nichts anfangen konnte, ist das Skript nicht so weit gekommen.

Mit ein paar anderen BSDs müsste ich das eigentlich auch noch testen. (Und da wird aus dem offtopic schon fast wieder ontopic!) Vielleicht kann ich das ja damit verbinden, mir mal ein paar BSDs näher anzusehen! :)

Statistik: Verfasst von Low012 — Mi Feb 25, 2015 11:09 pm


YaCy Coding & Architektur • Re: OpenBSD-Unterstützung

Date: 2015-02-25 23:13:51

Die meisten (alle?) \“richtigen\” BSDs nutzen POSIX-getopt, ich gehe also davon aus, dass die Prüfung auf OpenBSD da einfach nur erweitert werden müsste. Aber dein Vorhaben ist löblich. ;)

Statistik: Verfasst von OhSoLow — Mi Feb 25, 2015 11:13 pm


Fragen und Antworten • Import von Domainlisten

Date: 2015-02-26 05:22:43

Gibt es eine Möglichkeit umfangreiche zB. CSV Listen von Domains in den clawler zu importieren die er dann bevorzugt abarbeitet. Sagen wir so in Listengröße 2000er Paketen.

Statistik: Verfasst von Micki — Do Feb 26, 2015 5:22 am


Fragen und Antworten • Re: Win 7(64bit) javaw nicht gefunden - 2015er-Edition

Date: 2015-02-26 11:41:04

Ah, ich Idiot hab\’ vergessen, \‘ne Firewall-Ausnahme für YaCy einzurichten; deshalb wohl die Startprobleme selbst nach Überwinden des javaw-Problems... gut, das ist dann wohl geklärt, aber das javaw-Problem und somit das Hauptproblem des Threads hier besteht nachwievor =/ ...

Statistik: Verfasst von Kürbishälfte — Do Feb 26, 2015 11:41 am


Mitmachen • Re: Import von Lesezeichen

Date: 2015-02-26 14:04:23

Habe mir den Bug mal selbst zugewiesen.

Statistik: Verfasst von Low012 — Do Feb 26, 2015 2:04 pm


Fragen und Antworten • YaCy Umzug auf anderen Rechner

Date: 2015-02-26 19:41:54

Hallöchen zusammen!

Ich hätte da mal eine ganz wichtige Frage:

Im Laufe der nächsten Woche bekomme ich einen neuen Rechner, der dann rein für YaCy zuständig sein soll. Das Betriebssystem wird wie auch jetzt ein *buntu sein. Was ist hier notwendig, um YaCy komplett auf diesen Rechner zu bekommen, also mit dem Index und so? Immerhin ist mein Index inzwischen bei über 13.000.000 Dokumenten angekommen, das möchte ich nicht unbedingt verlieren!


Grüße nun aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Do Feb 26, 2015 7:41 pm


Wunschliste • Crawlplugin Mozilla

Date: 2015-02-27 06:31:41

Ich fände ein Plugin gut, mit dem ich eine Domain auf der ich gerade surfe per Klick im Kontext Menü im Crawler ganz vorne einstellen könnte, daß diese Seite möglichst als nächstes gecrawled wird.

Statistik: Verfasst von Micki — Fr Feb 27, 2015 6:31 am


Wunschliste • Re: Crawlplugin Mozilla

Date: 2015-02-27 11:54:38

das ist eine gute Idee, ich mache dazu gerne die backend API fit wenn jemand das Plugin baut.
(es gibt zwar die YaCyBar aber die ist ja da eher bloated und hat keinen Support mehr richtig.. so was kleines wäre nett)

Statistik: Verfasst von Orbiter — Fr Feb 27, 2015 11:54 am


YaCy Coding & Architektur • JetLeak

Date: 2015-02-28 14:42:38

Hallo,

ich lese gerade vom JetLeak - eine Lücke in Jetty 9.2.3-9.2.8.
http://www.heise.de/newsticker/meldung/ ... 60894.html{.postlink}
Da sollten wir wohl mal auf Jetty auf 9.2.9 bringen.
Ich habe leider aktuell viel zu wenig Zeit hierzu, hoffe aber das ich dessen einer annehmen kann.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Feb 28, 2015 2:42 pm


YaCy Coding & Architektur • Re: JetLeak

Date: 2015-02-28 15:49:00

Hab das Update gemacht! Ist so was eigentlich jetzt ein Grund schnell ein richtiges Main hinterher zu schieben?

Statistik: Verfasst von Orbiter — Sa Feb 28, 2015 3:49 pm


Hilfe für Einsteiger und Anwender • Index Browser

Date: 2015-02-28 15:52:58

Hallo!

Bin seit gestern begeisteter Senior bei Yacy.
Eins interessiert mich aber - Im Index Browser werden ja abertausende Websiten dargestellt.
Kratzt sich Yacy diese rein aus meinen gecrawlten Seiten zusammen?

Vielen Dank!

Statistik: Verfasst von brandy — Sa Feb 28, 2015 3:52 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-02-28 16:56:28

Schau mal unter Crawler Überwachung
in der Mitte unter Indexgröße Dokumente.
Die Zahl daneben zeigt die Menge deiner indexierten URL\’s / Dokumente \“Achtung nicht Domains\” an.

LG.
Micki

Statistik: Verfasst von Micki — Sa Feb 28, 2015 4:56 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-02-28 17:02:20

Ich vermute mal die Frage geht auch in Richtung P2P: der Index Browser zeigt ausschliesslich an, was in deinem eigenen Index ist. Insofern ist die Antwort \‘ja\‘.

Statistik: Verfasst von Orbiter — Sa Feb 28, 2015 5:02 pm


Hilfe für Einsteiger und Anwender • Pages pro Minute für Domain festlegen

Date: 2015-02-28 17:07:12

Kann ich wo festlegen, daß er pro Minute von einer Bestimmten Domain nur z. B. 1 Seite runter läd?

Statistik: Verfasst von Micki — Sa Feb 28, 2015 5:07 pm


English • Run lots of Yacy\’s configs on 1 PC

Date: 2015-02-28 17:36:46

For Advanced users only or experimenters in windows.
Not to sure of implications but I have 3 Yacy\’s running on my P4 at the same time with different roles.

Install YaCy into a separate directory.
Start Yacy > change port number eg 8095
Rename icon eg YaCy 8095.

Install YaCy into a another directory.
Start Yacy > change port number eg 8100
Rename icon eg YaCy 8100.

The second install of YaCy wont start if the default port 8090 is being used.

Statistik: Verfasst von smokingwheels — Sa Feb 28, 2015 5:36 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-02-28 17:47:38

Wahnsinn...
Echt interessant was da zusammenkommt!

Vielen Dank!

Statistik: Verfasst von brandy — Sa Feb 28, 2015 5:47 pm


Hilfe für Einsteiger und Anwender • robot.txt

Date: 2015-03-01 15:18:58

Beachtet YaCy den Eintrag:
User-agent: yacybot
Crawl-delay: 5

?
Schon mal wer getestet?

Statistik: Verfasst von Micki — So Mär 01, 2015 3:18 pm


YaCy Coding & Architektur • Re: JetLeak

Date: 2015-03-01 17:32:01

Hallo,

super das es so schnell ging.
Ich halte das Gefährdungspotential von dem JetLeak zwar nicht für so fuper fett - wo man ja wirklich viel Hirnschmalz anstrengen muss um es auszunutzen,
aber doch fänd ich ein Main dazu gut - um zu zeigen das man zügig auf sowas reagiert.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mär 01, 2015 5:32 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-03-01 17:47:53

Jetzt ist mir nochwas aufgefallen:
In meinem Index-Browser befinden sich auch Pornoseiten.
Ich hab schon im Forum recherchiert und grundsätzlich wäre es ja nicht Sinn einer freien Suchmaschine so etwas zu reglementieren - aber könnte es rechtlichte Probleme geben weil man hierzu etwas gespeichert hat?
Grundsätzlich sind sie mir eh egal - irgendjemand wird schon Interesse daran haben diese zu crawlen - mich interessiert nur, ob es hier für mich zu Problemen kommen kann, nur weil etwas auf meinem Computer ist?

Vielen Dank!

Statistik: Verfasst von brandy — So Mär 01, 2015 5:47 pm


YaCy Coding & Architektur • Re: JetLeak

Date: 2015-03-01 20:35:55

So weit ich JetLeak verstanden habe läßt das Rückschlüsse auf Anmeldedetails anderer Clients zu, nicht aber Zugriffe auf den Server. Es geht also bei dem Fix für YaCy \‘nur\’ darum, den Admin-Account zu schützen. Es gibt sicherlich einige remote-Administrierer von YaCy, die können sich nun wieder sicher fühlen. Allerdings habe ich auch richtige YaCy-Kunden denen ich so einen Fix als Support schulde, insofern war es schon gut so schnell einen Fix rauszugeben.

Statistik: Verfasst von Orbiter — So Mär 01, 2015 8:35 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-03-01 20:42:11

du hast ja sowieso keinen Bildcontent, das lädt YaCy normalerweise nicht runter. Textcontent hast du nur wenn du das selbst gecrawlt hast. Und Porno ist nun mal im Internet - Überraschung! Du kannst natürlich auf deinem Peer löschen wie du magst, dafür gibt es die Blacklists und auch das Löschinterface kannst du automatisieren.

Beispiel: wenn du alles löschen willst wo das Wort \‘xxx\’ auf der Webseite vorkommt, machst du:
- /IndexDeletion_p.html aufrufen
- im Feld \‘q\’ unter \“Delete by Solr Query\” eintragen: text_t:xxx
- \‘Simulate Deletion\’ drücken
- dann siehst du wieviele gelöscht werden würden und \‘Engage Deletion\’ wird aktiviert
- wenn du dann auf \‘Engage Deletion\’ drückst, sind die weg
- dann kannst du unter /Table_API_p.html dir den Vorgang raussuchen (steht dann ganz unten) und den Scheduler aktivieren und das ganze automatisiert wiederholen lassen

Statistik: Verfasst von Orbiter — So Mär 01, 2015 8:42 pm


Hilfe für Einsteiger und Anwender • Re: robot.txt

Date: 2015-03-01 20:44:19

das crawl-delay wird beachtet, kannst das gerne testen. Das sind übrigends Sekunden! Mit crawl-delay: 5 bekommt man dann nur maximal 20 Seiten pro Minute durch.

Statistik: Verfasst von Orbiter — So Mär 01, 2015 8:44 pm


Hilfe für Einsteiger und Anwender • Re: Peernamen auf alten Wert setzen geht nicht

Date: 2015-03-01 20:47:39

es gibt einige Mechanismen um die Doppeltzuteilung von Namen zu unterbinden. Darunter musst du dann als echten Eigentümer auch leiden. Es gibt ja im p2p Netz kein Anmeldemechanismus, daher kann man auch nicht seinen Namen \‘zurückholen\‘.
Mach doch am Namen ein \’_new_\’ oder \’_resurrected\’ oder \’_v2\’ oder so dran und versuche den dann später nochmal auf den ursprünglichen zurückzunennen.

Statistik: Verfasst von Orbiter — So Mär 01, 2015 8:47 pm


Fragen und Antworten • Re: Frage Ex- und Import

Date: 2015-03-01 20:56:38

also du willst nur URL mit Titel importieren? Dazu gibt es keinen Import. Der normale Vorgang wäre es, das per Crawl Start wieder reinzuziehen.
Als Alternative kannst du diese Daten aber mit dem Surrogat-Reader einlesen, der will aber Record im Dublin Core Metadatenformat haben.

Statistik: Verfasst von Orbiter — So Mär 01, 2015 8:56 pm


Hilfe für Einsteiger und Anwender • Re: Index Browser

Date: 2015-03-01 21:28:43

Cool - danke!

Statistik: Verfasst von brandy — So Mär 01, 2015 9:28 pm


Fragen und Antworten • Re: Wie Visualisierung beim Crawling ausschalten?

Date: 2015-03-01 23:19:44

da ist jetzt so ein Knopf zum Ausschalten direkt in der Grafik

Statistik: Verfasst von Orbiter — So Mär 01, 2015 11:19 pm


Mitmachen • Mitmachen

Date: 2015-03-02 13:43:25

Hallo!

Ich hab gerade gelesen, dass Grafiker und Web-Designer, die gerne bei Yacy mitarbeiten wollen, herzlich willkommen sind.

Ich würde gerne mithelfen :-)
Ich arbeite hauptberuflich als Grafiker in einer Druckerei und bin nebenbei selbstständiger Grafiker und Webdesigner!
Wäre cool wenn ich euch irgendwo unterstützen könnte!

Vielen Dank!

Statistik: Verfasst von brandy — Mo Mär 02, 2015 1:43 pm


Mitmachen • Linuxtage Chemnitz CLT2015 21.-22. März 2015

Date: 2015-03-02 15:55:45

Hallo und willkommen zu meinem Lieblingsthema: jährliche Exkursion ins malerische Chemnitz, der Orchidee der Nation, zu den Cateringtagen mit Linuxvorträgen{.postlink}
Bild
(Foto aus den 80ern von der Marx-Büste, aber egal, das sieht da immer noch so aus)

Roland organisiert das dieses Jahr, dabei sind auch Marc und ich. [Es ist noch ein Standhelferplatz frei]{style=“font-weight: bold”}, so weit ich weiss (Roland?), [wer hat Lust mit dabei zu sein und als Standhelfer das YaCy Projekt den Besuchern zu erklären]{style=“font-weight: bold”}? Ist immer schön dort.

Apropos schön: wie immer freue ich mich auf das schönste Hotel des Planeten, den Mercure-Hochhausklotz direkt gegenüber dem größten Marx-Kopf den es gibt (glaube ich mal, wer davor steht glaubt es auch). Marc ist dieses mal auch dort:
Bild
(auch ein Bild aus den 80ern, das Hotel ist das hässliche hinten rechts an der hässlichen Strasse, links Marx vor der hässlichen Platte. Das ist die City, schöner wirds nicht!)

Lasst euch nicht davon abbringen da hin zu kommen, ist wirklich toll dort, ein Geheimtipp (keine Ironie diesmal!), siehe auch Chemnitz 2014{.postlink} und Chemnitz 2012{.postlink}

Wie gesagt, für einen weiteren Standhelfer ist das Bankett noch frei!

Statistik: Verfasst von Orbiter — Mo Mär 02, 2015 3:55 pm


Hilfe für Einsteiger und Anwender • Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 07:46:33

Kann man eigentlich ne Einstellung machen, daß wenn man Etwas such, das im eigenen Index nicht findet, die Ergebnisse aus den anderen Indizes bevozugt automatisch in den eigenen übernommen werden?

Statistik: Verfasst von Micki — Di Mär 03, 2015 7:46 am


Mitmachen • Re: Linuxtage Chemnitz CLT2015 21.-22. März 2015

Date: 2015-03-03 08:58:45

Die Sache mit dem Kopf hat mich überzeugt! Ich hatte mal eine Postkarte mit dem Marx-Kopf drauf und der hat mich damals als West-Kind in einer Zeit, als Chemnitz noch Karl-Marx-Stadt war, ziemlich beeindruckt. Das Hotel war als Interhotel{.postlink} auch auf der Postkarte abgebildet und ich hätte damals nie gedacht, irgendwann mal einfach so dort übernachten zu können.

Falls noch jemand überlegt: Weder Orbiter noch ich beissen (Frank habe ich bis jetzt noch nicht kennen gelernt ;)) und man muss auch kein Entwickler sein, um den Standbesuchern was erzählen zu können.

Statistik: Verfasst von Low012 — Di Mär 03, 2015 8:58 am


Fragen und Antworten • Re: Win 7(64bit) javaw nicht gefunden - 2015er-Edition

Date: 2015-03-03 09:39:03

Leider habe ich grad kein Windows 7 da zum Testen. Ich habe aber eben bei meiner eher selten egnutzten Windows 8.1-Installation mit Java 8 nachgeschaut und da habe ich keen Leerzeichen im Pfad, sondern Unterstriche und ich bin mir ziemlich sicher, da nichts von Hand geändert zu haben. Windows und Leerzeichen im Pfad/Dateinamen sind ja sowieso so eine Sache... :roll:

Deine Java-Version ist aber auch schon ziemlich angegraut. Ich glaube, Java 7 ist mittlerweile schon bei Update 75 (du hast 9) und da waren auch einige Sicherheitsupdates dabei. Außerdem läuft der Support für Java 7 diesen April aus und dann gibt es nur noch Updates für zahlende Kunden (siehe http://www.oracle.com/technetwork/java/eol-135779.html).

Vielleicht ist daher jetzt ja ein guter Zeitpunkt, auf Java 8 umzusteigen (auch wenn YaCy es nicht benötigt), außer wenn irgendwas bei dir dagegen spricht und vielleicht erledigt sich ja damit auch dein Problem.

edit: Ach ja, am besten deinstallierst du das alte Java, bevor du das neue installierst, damit du ganz sicher gehen kannst, dass auch nur die neue Installation benutzt wird.

Statistik: Verfasst von Low012 — Di Mär 03, 2015 9:39 am


Hilfe für Einsteiger und Anwender • Re: Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 10:46:59

alle Suchergebnisse von remote Peers werden automatisch zum deinem eigenen Index hinzugefügt, so wie ich deine Frage verstehe ist das also der default-Zustand.

Statistik: Verfasst von Orbiter — Di Mär 03, 2015 10:46 am


Hilfe für Einsteiger und Anwender • Re: Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 10:54:23

Wenn dem so ist? Ich dachte immer nur es erfolgt Indexübertragung nach dem Motto immer ein Paket nach dem anderen ohne Bevorzugung! Aber ich teste mal.

Statistik: Verfasst von Micki — Di Mär 03, 2015 10:54 am


Mitmachen • Re: Linuxtage Chemnitz CLT2015 21.-22. März 2015

Date: 2015-03-03 11:00:38

boa, das Hotel ist tatsächlich von historischem Wert, das wusste ich gar nicht, Wikimedia Commons hat eine extra Bildersammelseite dazu: http://commons.wikimedia.org/wiki/Categ ... ,_Chemnitz{.postlink}

Vielleicht haben die ja so etwas wie Museumszimmer in nicht-restauriertem Zustand? Das wäre mal lustig zu sehen.

Statistik: Verfasst von Orbiter — Di Mär 03, 2015 11:00 am


Hilfe für Einsteiger und Anwender • Re: Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 11:04:22

Funktioniert aber und jetzt kommts, 1. Versuch mit aktiviertem p-2-p brachte so 250 Ergebnisse. P-2-p nach ein paar Minuten deaktiviert 2. Versuch 0 Ergebnisse 3. Versuch 165 Ergebnisse. Damit kann ich dann leben.

Statistik: Verfasst von Micki — Di Mär 03, 2015 11:04 am


Hilfe für Einsteiger und Anwender • Re: Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 12:02:17

die Übertragung in deinen eigenen Index ist natürlich vom Suchwort abhängig. Dein Index hat verschiedene Quellen, diese sind auf dem Schaubild unter /CrawlResults.html dokumentiert. Es gibt sieben unterschiedliche Indexdatenquellen, dort kannst du auch Listen abrufen was aus welcher Quelle gekommen ist, darunter:
2 per Suche
3 per rwi Übetragung
5 eigene crawls

Statistik: Verfasst von Orbiter — Di Mär 03, 2015 12:02 pm


Hilfe für Einsteiger und Anwender • Ergebnisse des lokalen Crawlens

Date: 2015-03-03 14:33:26

Sorry wenn ich mit nervenden Fragen komme.
Ergebnisse des lokalen Crawlens da gibt es löschen und Del & Blacklist.
Also Del und Blacklist würde die Domain auf die Blacklist setzen und löschen.
löschen alleine ? Löscht das nur aus dem Crawler oder oder auch aus dem INDEX?

Statistik: Verfasst von Micki — Di Mär 03, 2015 2:33 pm


Hilfe für Einsteiger und Anwender • Re: Suchergebnisse in eigenen Index übernehmen

Date: 2015-03-03 14:45:55

Hat doch nicht funktioniert. Vermeintlich übertragene Datenbestände waren nach Neustart von YaCy weg!

Statistik: Verfasst von Micki — Di Mär 03, 2015 2:45 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-03 15:00:34

Hi, I have the same problem, has anybody found a solution yet? I have installed YaCy as per the instructions, but when I click on the app icon it loads briefly in the sidebar dock before disappearing. When I try to access through http://localhost:8090/index.html it gives a server not found error.

I run OS 10.9.5 and latest Java and have added \“http://localhost:8090/index.html" in site exception list.

Any help will be appreciated, I am very keen to try YaCy!

Statistik: Verfasst von vanzyla — Di Mär 03, 2015 3:00 pm


Hilfe für Einsteiger und Anwender • Beschränken <-> Ordnen

Date: 2015-03-03 17:25:14

Es gibt ja die Möglichkeit einen Crawljob auf eine Domain zu beschränken.
Gibt es auch eine Möglichkeit zu sagen erst bitte alle Domains des Crawljob bzw. der Crawljobs und dann bitte erst um die gefundenen Sachen kümmern?

Statistik: Verfasst von Micki — Di Mär 03, 2015 5:25 pm


YaCy Coding & Architektur • Re: Als Entwickler Erweiterungen anbieten. (background-Frag

Date: 2015-03-03 18:50:28

Ich weiß nicht in wie weit das Thema noch offen ist. Aber ich denke wäre evtl. ein erster Schritt den Alt - Tag so vorhanden auszulesen. Ich weiß etwas altmodisch!

Vielleicht in einem Zweiten Schritt, schauen ob man den mit Titel-Tag oder Keywords der Seite verbinden kann. Hätte da ja so eine Idee nur leider noch keinen PAP dafür.

Statistik: Verfasst von Micki — Di Mär 03, 2015 6:50 pm


Hilfe für Einsteiger und Anwender • Migrate Robinson servers to private P2P+DHT net

Date: 2015-03-03 20:45:36

Hi...
I looked everywhere.
I cannot find the real answers.

We now have 9 Robinson type YaCy servers.
with many millions of records and search instructions in each one.

Who can help us please [[to make a real plan how to do this migration]{style=“text-decoration: underline”}]{style=“font-weight: bold”}?
Theory is nice, for startup projects, but this is at a later level and we need guidance from someone, please.
Many thanks!
:D You can PM me, if you prefer, of course...and Thanks again!!!

Statistik: Verfasst von xioc752 — Di Mär 03, 2015 8:45 pm


Fragen und Antworten • Re: YaCy Umzug auf anderen Rechner

Date: 2015-03-03 21:05:34

HI...
Ten simple steps...to moving your data and links from an old computer and the old YaCy machine to a new computer and new YaCy
1) Preliminary: run optimize your Solr to 10 segments at /IndexControlURLs_p.html
2) Make a full Solr backup (be extra safe, make two, in case one is buggy)
3) Shut down your YaCy machine.
4) In this forum are instructions on how to copy your crawl instructions
Orbiter wrote

\ it is actually intended to do so to clone a YaCy configuration!\ You just need to copy the file DATA/WORK/api.bheap from the source peer to the target peer (while both are not running)\


http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5482

5) Make a new clean YaCy, test it for a healthy install, and then shut it down
6) Insert the crawl instructions file in the correct place,
7) boot up YaCy, and
8) import your Solr backup.
9) Then fully shut down the correct way and
10) reboot YaCy.
:D

Statistik: Verfasst von xioc752 — Di Mär 03, 2015 9:05 pm


Hilfe für Einsteiger und Anwender • crawlfehler

Date: 2015-03-04 12:39:56

wie kann man crawlfehler beheben?
Falsche Domain!

Statistik: Verfasst von Micki — Mi Mär 04, 2015 12:39 pm


YaCy Coding & Architektur • Gitorious verkauft

Date: 2015-03-04 21:38:23

Hallo,

ich fürchte wir müssen bald unser Repository umziehen:
http://www.pro-linux.de/news/1/22085/gi ... ommen.html{.postlink}
Bis Juni soll Gitorious nur noch laufen.

Cu, sixcooler

Statistik: Verfasst von sixcooler — Mi Mär 04, 2015 9:38 pm


YaCy Coding & Architektur • Gitorious schließt!

Date: 2015-03-04 21:44:40

Ich habe eben einen Newsletter von GitLab bekommen, in dem u.a. ein Link auf die folgende Seite enthalten ist:

https://about.gitlab.com/2015/03/03/gitlab-acquires-gitorious/

Gitorious wird es nur noch bis Ende Mai 2015 geben und das YaCy-Repository muss mal wieder umziehen. Ein Umzug von Gitorious zu GitLab soll wohl halbwegs schmerzlos möglich sein. Ich habe es allerdings noch nicht ausprobiert.

Statistik: Verfasst von Low012 — Mi Mär 04, 2015 9:44 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-03-04 21:53:08

HTTPS habe ich mittlerweile drin, aber ich möchte noch ein paar Dinge gerade ziehen, bevor ich wieder ein Release mache. Ich hoffe, dass ich zum Linuxtag in Chemnitz was zum Vorzeigen habe.

Mittlerweile hat sich jemand erbarmt und die App auch bei F-Droid eingestellt: https://f-droid.org/repository/browse/?fdid=de.audioattack.yacy31c3search

Statistik: Verfasst von Low012 — Mi Mär 04, 2015 9:53 pm


Mitmachen • Re: YaCy\@31c3

Date: 2015-03-04 23:59:04

das hat mich gewundert: wenn ich eine freie Android App baue, muss ich damit rechnen dass es irgendjemand dann auf F-Droid hochlädt? Ist ja irgendwie merkwürdig.

Statistik: Verfasst von Orbiter — Mi Mär 04, 2015 11:59 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-05 00:11:22

da habt ihr beiden um wenige Minuten versetzt zum gleichen Thema ein Topic aufgemacht hab die mal zusammengeführt -- sixcooler war leicht schneller :lol:

Ja na sowas. Zum Glück ist ein Umzug mit Git nicht schwer, nur die User zum Repository gehen verloren.
Ich hab mir dann mal die GitLab-Seite angeguckt: sehe ich das richtig dass die da gar kein Hosting anbieten sondern nur eine Hosting-Software?
Wenn das so ist, kann man ja gar nicht zu LitLab umziehen. Warum kaufen und schliessen die dan GitHub? Weil die deren Software auch verschwinden lassen wollen? Das ist doch Käse.

Also fängt ja niemand die Gitorious-Projekte auf, der naheliegende Gedanke wäre also, sich die Gitorious-Software zu schnappen und genau das zu machen! Ich würde mal vermuten dass genau das auch passiert. Ich stelle also mal die Prognose dass in ein, zwei Wochen eine Meldung da ist dass es einen neuen \‘Retter\’ gibt. Oder?

Jedenfalls könnten wir ab sofort auch mit dem YaCy Github-Repository{.postlink} weitermachen, dorthin wird nämlich automatisch immer alles gespiegelt.

Statistik: Verfasst von Orbiter — Do Mär 05, 2015 12:11 am


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-05 00:44:32

andererseits habe ich mal bei Gitlab einen Account gemacht um herumzugucken und es gefällt mir dort auch ganz gut. Was sagt ihr dazu, wohin nun?

Statistik: Verfasst von Orbiter — Do Mär 05, 2015 12:44 am


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-05 11:23:04

Ich habe dort auch einen Account und habe eben mal meine eigenen Projekte von Gitorious nach Gitlab migriert. Das haben sie echt nett gemacht. Man muss nur ein Knöpfchen drücken und der Rest läuft automatisch.

Der Hauptgrund Grund, warum YaCy z.Z. bei gitorious.org liegt, ist ja, dass die Gitorious-Software freie Software ist. Wie ist das denn mit GitLab? Da gibt es eine freie Version und eine kommerzielle. Aber welche benutzt gitlab.com?

Ein Grund, GitHub zu nutzen ist, dass es bekannter ist, was eventuell mehr Entwickler anziehen könnte. Andererseits finde ich es langweilig, immer das zu nutzen, was alle nutzen. :lol:

GitLab finde ich gut, aber ich habe keinen GitHub-Account, so dass ich die beiden nicht vergleichen kann.

Statistik: Verfasst von Low012 — Do Mär 05, 2015 11:23 am


Mitmachen • Re: YaCy\@31c3

Date: 2015-03-05 11:33:25

Ja, da muss man sich erstmal dran gewöhnen! ;-)

Allerdings gibt es ja bei F-Droid keine Accounts, so dass meine App jetzt nicht unter einem anderen Entwickler-Namen dort veröffentlicht wird. Es gibt lediglich eine Textdatei mit ein paar Meta-Daten, die jeder bearbeiten kann: https://gitlab.com/fdroid/fdroiddata/bl ... search.txt{.postlink}

Man eröffnet dann im entsprechenden git-Repository einen Merge-Request und dann werden die Daten nach Prüfung durch die F-Droid-Leute übernommen. Ich muss z.B. demnächst die Adresse des Repositorys ändern (Umzug von Gitorious zu GitLab) udn kann dann gleich noch reinschreiben, dass ich für jedes Release ein Tag nach einem bestimmten Schema anlegen was dann das Bauen einer neuen Version bei F-Droid triggert.

Allerdings könnte ich ja theoretisch auch eine beliebige freie Software nehmen und die bei Google veröffentlichen, wenn die Lizenz das zulässt. Das würde ich dann wirklich seltsam finden.

Statistik: Verfasst von Low012 — Do Mär 05, 2015 11:33 am


Hilfe für Einsteiger und Anwender • Tool zum Datenbank auslesen

Date: 2015-03-06 08:33:03

Gibt es ein Tool mit dem man die YaCy-Datenbank auslesen kann wenn die JVM zwar startet aber Yacy selber nicht mehr?
Würde gerne wenns geht einen Teil der Daten (8,005 Mio Documents) retten oder zumindest die Crawlaufträge. Leider ist das alles nicht in Klartext gespeichert.

Statistik: Verfasst von Micki — Fr Mär 06, 2015 8:33 am


Wunschliste • Ability to disable the HostBrowser completely

Date: 2015-03-06 10:42:52

Hi,

because I\’m importing huge HTML-Dumps I would really appreciate it to completely disable the HostBrowser and it\’s collecting procedures. I\’ve created an entry at our Bugtracker{.postlink}.

Greetings

Steve

Statistik: Verfasst von LA_FORGE — Fr Mär 06, 2015 10:42 am


Wunschliste • Re: Ability to disable the HostBrowser completely

Date: 2015-03-06 15:13:47

just delete the html and java file

Statistik: Verfasst von Orbiter — Fr Mär 06, 2015 3:13 pm


Wunschliste • Re: Ability to disable the HostBrowser completely

Date: 2015-03-06 16:12:02

Thank you very much. I did so. Now I found

Code:
W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://stellentexperts.blogspot.ca/2013/04/quick-hits-for-improving-performance-of.htmlW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://vizzzion.org/blog/2013/01/the-road-to-kde-frameworks-5-and-plasma-2/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://swtor.game-guide.fr/les-caps-a-la-2-0/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://lol.game-guide.fr/ezreal-explorateur-prodigue/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.gamereactor.eu/news/?system=iosW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.gamereactor.eu/articles/?system=vitaW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://acheterclecd.com/battlefield-3-premium-ea-origin-key.html?acc=2a38a4a9316c49e5a833517c45d31070&___store=acheterclecd_frenchW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.gold.ac.uk/music/staff/drever/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.infoshare.pl/en/2013-2/prelegenci/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.torparse.com/uploadW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.naughtydog.com/work/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://nerdybutflirty.com/2013/01/03/the-last-of-us-who-is-ellie/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.gamereactor.eu/overview/W 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.origin.com/fr/newsW 2015/03/06 16:03:10 CollectionConfiguration no fail type given for URL http://www.laboutiqueofficielle.com/contact.html



these entries in the log. I already disabled the postprocessing via the schema. Can I disable \‘CollectionConfiguration\’ too, to speedup the import process of my large HTML-Dumps?

Statistik: Verfasst von LA_FORGE — Fr Mär 06, 2015 4:12 pm


Hilfe für Einsteiger und Anwender • Java beschränken ? Sicherheits- und Systemanforderung?en?

Date: 2015-03-06 18:28:42

Hallo,

die Idee eines unzensierten Suchportals fixt an. Bin eher Laie, kein Geek.
Fragen:

1.
Es gab ja mal eine Zeit, oder gibt sie noch?, als Java-ausnutzende GVU-Trojaner um sich griffen.
Seitdem hatte ich kein Java mehr installiert. Pauschal einfach benutzbares Java, nur weil mans installiert hat, geht mir auf den Sack.

Frage: Kann man Java sicher beschränken, sodaß nur bestimmte Anwendungen drauf Zugriff haben? Wenn ja, nutze das wirklich betreffs
Sicherheit etwas? Betriebsvirus ist \“Doof\“.

2.
-Wieviel frißt Yacy, außer schon reichlich bis zu 200Gb Platte?
-Macht es eher Sinn, dafür ein separates System z.B. Raspberry 2B zu kaufen? Würde alles in allem teuer.
-Braucht man nicht eher eine SSD, wegen Zugriffszeit innerhalb der 200Gb Index?
-Was für ein Sendeleistung des Anschlusses wird benötigt, wobei davon auch nur ein Viertel bis Drittel herzugeben wäre?

Jo danke für alle Hinweise.

Statistik: Verfasst von Schwibbelschwabbel — Fr Mär 06, 2015 6:28 pm


Hilfe für Einsteiger und Anwender • Re: Java beschränken ? Sicherheits- und Systemanforderung?en

Date: 2015-03-06 18:47:15

ZU deinem Punkt 2:
Ich denke eine 200 GB Platte sollte für den Start reichen wobei das ja schon selten ist denke heute ist doch eher 1 TB üblich.
hatte 8 Mio Dokumente selber indiziert das waren 54 GB.
Von eine SSD HD würde ich derzeit abraten.
den Rspery würde ich auch net nehmen der hat etwas wenig RAM.
Ich fahre das Ganze mit 2 GB Ramdisk und etwa 6 GB was der Yasy dann mit der JVM verwendet
Dazu 6 Kerne. Das System selber hab ich auf 15 GB RAM eingestellt win2003 Server.

Statistik: Verfasst von Micki — Fr Mär 06, 2015 6:47 pm


Hilfe für Einsteiger und Anwender • Re: Java beschränken ? Sicherheits- und Systemanforderung?en

Date: 2015-03-06 19:26:30

Hallo Schwibbelschwabbel,

willkommen im Forum!

Zu Frage 1.:

Du kannst Java getrost installieren, aber das entsprechende Plugin in deinem Browser deaktivieren. Mir ist bis heute jedenfalls unbekannt, wozu dieses Plugin überhaupt benötigt werden soll!


Zu Frage 2.:

Hier läuft YaCy im Hintergrund auf einem Athlon II X2 mit 6 GB RAM und einer 500 GB Festplatte. Dabei gebe ich YaCy maximal 2,5 GB RAM und auf der Festplatte werden bei derzeit ~15,5 Millionen indexierter Dokumente ca. 84 GB benötigt. Die Anforderungen sind also eigentlich gar nicht so besonders hoch, wobei das eventuell bei mir auch an Kubuntu liegen kann!

Hier stellt sich mir die Frage, wie Du auf 200 GB Festplatte kommst? YaCy würde bei solch einer Verschwendung ohne weiteren Kommentar deinstalliert werden, wobei ich allerdings derzeit einen weiteren Rechner teste, der dann nur für YaCy zuständig sein wird. Hierfür genügt ein einfacher gebrauchter Computer, für den ich bei [[QUANT Electronic{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} knapp 40 Euro bezahlt habe!

Schwibbelschwabbel hat geschrieben:\ -Was für ein Sendeleistung des Anschlusses wird benötigt, wobei davon auch nur ein Viertel bis Drittel herzugeben wäre?\



Diese Frage verstehe ich jetzt nicht so ganz, Du meinst aber wohl deine Internetverbindung. Hier gilt natürlich das selbe Motto wie immer im Internet:

[[[Je schneller, desto gut!]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Es kommt hierbei jedoch auch darauf an, wie Du YaCy verwendest. Wenn Du ständig einen Crawler laufen hast, dann sollten Rechenleistung und Internetverbindung schon ziemlich gut sein. Wenn Du aber wie ich den Index fast ausschließlich mit Feeds fütterst, dann ist die Belastung weit weniger hoch. Wie weiter oben erwähnt habe ich inzwischen über 15 Millionen Dokumente in meinem Index, ohne daß ich von YaCy viel bemerkt habe! Entsprechend habe ich inzwischen auch für mich relativ gute Suchergebnisse, so daß ich immer mehr auf andere Suchmaschinen verzichten kann. ;)

Statistik: Verfasst von TmoWizard — Fr Mär 06, 2015 7:26 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-03-07 09:19:35

Hat noch jemand einen Download-Link für die 1.72er Version?

Statistik: Verfasst von LA_FORGE — Sa Mär 07, 2015 9:19 am


Hilfe für Einsteiger und Anwender • Welche Rsesource muß ich erhöhen?

Date: 2015-03-07 10:46:06

Wenn ich nach dem Start von YacY nicht sofort die Administrationsseiten auf mache sondern erst etwas laufen lasse bekomme ich sie nicht mehr auf. Ich vermute dann wird eine Ressource zu knapp wie bekomme ich raus an welcher ich drehen muß? Hauptspeicher hab ich bis zum Abwinken.

Statistik: Verfasst von Micki — Sa Mär 07, 2015 10:46 am


Wunschliste • Ex- und Import von Crawls

Date: 2015-03-07 15:09:31

Es wäre sehr vorteilhaft, wenn man die Crawls die man selber angelegt hat exportieren und bei Bedarf wieder importieren könnte. Wenn einem mal das System zusammen bricht wäre diese Basis wieder da.

Statistik: Verfasst von Micki — Sa Mär 07, 2015 3:09 pm


Wunschliste • Re: Ex- und Import von Crawls

Date: 2015-03-07 22:03:13

ich arbeit seit ein paar Wochen an einem ganz anderen Projekt wo genau dieses Backup am von Anfang an dabei war. Näheres dazu in einer Woche. Das geht aber dort sehr gut, weil die Daten in relativ kleinen Paketen erzeugt werden.

Ggf. kann man das in YaCy auch so machen, wie aufwendig das ist kann ich aber noch nicht sagen.

Statistik: Verfasst von Orbiter — Sa Mär 07, 2015 10:03 pm


YaCy Coding & Architektur • Crawlstartexpert

Date: 2015-03-07 22:41:50

Gibt es eine Java class die man statt CrawlStartExpert.html und dem Aufruf dann von Crawler_p.html aufrufen kann um crawljobs zu generieren?

Statistik: Verfasst von Micki — Sa Mär 07, 2015 10:41 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-08 04:37:46

vielleicht Zufall, aber heute konnte ich auf gitorious keinen pull hinbekommen, sollten also nicht allzulang warten.

Was ich bei GitLab für ein public Project aktuell nicht so toll finde .…
ich habe fast eine 12 Stunde rumgesucht um den https://gitlab.com/explore link zu finden (um überhaupt zu sehen was dort gehostet wird) :-(

cu

P.S. in beiden Fällen, da username dem repository vorangestellt wird, ist es für Dritte nicht trivial das Originalprojekt von einem Clone zu unterscheiden :-/

Statistik: Verfasst von reger — So Mär 08, 2015 4:37 am


YaCy Coding & Architektur • GITAccess im Wiki

Date: 2015-03-08 11:00:22

Hi,

http://www.yacy-websuche.de/wiki/index.php/Dev:GITAccess

Ist die Anleitung noch aktuell? Ich kann das Repository nicht clonen (auch via SSH funktioniert es nicht).


Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — So Mär 08, 2015 11:00 am


Wunschliste • Re: Guaranteed Opensearch Results ALWAYS ADDED to index, Ple

Date: 2015-03-08 23:33:23

Actually, the \“until enough results\” filter is not active (description Needs to be updated in this regard).
As you desire, every new search uses the active opensearch Systems.

To the Point of how many results.… that depends on the remote System and can be influenced by the URL Parameter (e.g. like &Count=100 or &Count={count} to use value from yacy search page.

Statistik: Verfasst von reger — So Mär 08, 2015 11:33 pm


Fragen und Antworten • Performance

Date: 2015-03-09 10:13:52

Konfiguration
win2003
Java 7 Update 55 Oracle Build 1.7.0_55-b13
yacy_v1.82_20150121_9000
Ramdisk 2258 MByte

15 GB Ram
6 Kerne

Update auf Java 8 nicht möglich.

Läuft permanent in 100% Auslastung der Prozessoren. -> Absturz

hat wer einen Vorschlag was man machen kann um das stabil zu bekommen außer downdate von YacY oder andere OS ?

Update:
Mir ist noch aufgefallen, daß diese Probleme mal mehr mal weniger auftreten, ohne ersichtlichen Grund!

Statistik: Verfasst von Micki — Mo Mär 09, 2015 10:13 am


Wunschliste • Re: Guaranteed Opensearch Results ALWAYS ADDED to index, Ple

Date: 2015-03-09 12:18:43

Thank you very kindly for the good news.

Regarding the \‘harvest,\’ due to the use of YaCy for our project, we need to collect the maximum number of answers possible.
We know good sources frequently have many thousands of answers that can be generated in a local search on their sites,

You started to explain:

\ To the Point of how many results\.... that depends on the remote System and can be influenced by the URL Parameter (e.g. like &Count=100 or &Count={count} to use value from yacy search page.\



How and what/where do we adapt YaCy\’s approach to these OpeanSearch sources to harvest the most that each source has in its databases, please?
It seems we are getting less than we would expect from some big sources.
Many thanks

Statistik: Verfasst von xioc752 — Mo Mär 09, 2015 12:18 pm


Off-Topic • Wieso ist es so faszinierend?

Date: 2015-03-09 18:22:55

Hi,

ich \“begleite\” YaCy jetzt schon seit über 6 Jahren. Und habe mich mal aus \“philosophischer\” Sicht gefragt, warum YaCy mit allem drum und dran eigentlich so faszinierend ist. Ich bin zu dem Ergebnis gekommen, dass ich ein Faible für komplexe Systeme und Zusammenhänge habe. Außerdem habe ich mit YaCy schon zahlreiche digitalen Schätze gehoben, die andere Suchmaschinen bestimmt nicht zu Tage geliefert hätten!

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Mo Mär 09, 2015 6:22 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-09 20:47:37

Pullen kann ich auch nicht mehr. :-(

Bei GitLab ist es aber auch möglich, ein Projekt nicht unter einem Benutzer zu verwalten, sondern eine Gruppe anzulegen und dort ein oder mehrere Projekte zu verwalten. Hier ein Beispiel: https://gitlab.com/groups/gitlab-org

Wenn man als Benutzer eingeloggt ist, kann man Gruppen anlegen (siehe Screenshots).

Statistik: Verfasst von Low012 — Mo Mär 09, 2015 8:47 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-09 22:24:56

also bei mir ging der pull, merkwürdig.

egal wo wir hin gehen, da sollte es gruppen geben damit man nicht nur personalisierte repositories hat. Bei github müsste das auch gehen.

Statistik: Verfasst von Orbiter — Mo Mär 09, 2015 10:24 pm


Wunschliste • Sicherung

Date: 2015-03-12 08:14:33

Gibt es eine Möglichkeit oder ist es geplant hier eine Sicherung im laufenden Betrieb zu ermöglichen?
Ich habe zum herunterfahren Sichern (Kopieren YacY) und dann neu starten ca. 6 h gebraucht.

Ich hätte dazu eine grundsätzliche Idee, die ich aber noch nicht geprüft habe. Wie wäre eine Art yacy2 die für das Backup die Übertragungsroutine des peer-2-peer nutzt aber nur dahingehend, daß es die Daten vom Localhost zieht und in einer 2. DB abspeichert und ergänzt?

Statistik: Verfasst von Micki — Do Mär 12, 2015 8:14 am


Wunschliste • Re: Sicherung

Date: 2015-03-12 14:28:11

Ja, das würde echt mal Zeit werden! Ich darf heute inzwischen zum vierten mal bei NULL anfangen, nachdem heute Früh wieder einmal gar nichts ging.Bild Dazu eröffne ich allerdings gleich noch einen eigenen Thread.

EDIT: Doch kein neuer Thread, ich mach [[bei meinem Alten{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} weiter!

Statistik: Verfasst von TmoWizard — Do Mär 12, 2015 2:28 pm


Fragen und Antworten • Re: YaCy nach hat Update keine Funktion

Date: 2015-03-12 14:59:01

Selbes Spiel, ähnliches Glück! :( Heute früh ging absolut gar nichts mehr, nun kann ich wieder bei NULL anfangen! Einziger Unterschied ist, daß es diesmal kein Update gab [(YaCy version 1.839090)]{style=“font-style: italic”}. YaCy lief einfach, benötigte entsprechend RAM, dazu zwischen [[50]{style=“font-style: italic”}]{style=“font-weight: bold”} und [[90%]{style=“font-style: italic”}]{style=“font-weight: bold”} CPU, funktioniert hat aber gar nichts mehr. Ich habe YaCy also komplett mit Konfiguration und allem Drum und Dran deinstallieren und neu Installieren müßen, damit es wenigstens wieder läuft. Echt starke Leistung, [[über 16 Millionen Dokumente im Index sind nun weg!]{style=“font-style: italic”}]{style=“font-weight: bold”} Bild

Zusätzlich zu diesem ganzen Ärger gibt es nun auch noch das Problem, daß der Import von RSS-Feeds (/Load_RSS_p.html) nicht mehr funktioniert. Wenn ich dort einen Feed angebe, dann steht in meiner Statuszeile für ein paar Sekunden die Meldung [[\“Warten auf localhost...\“]{style=“font-style: italic”}]{style=“font-weight: bold”} und das war es! Ich kann meinen Index also nicht einmal mehr auf diese einfache Art füllen, es geht einfach nicht.


Edit:

Na toll, das wird ja immer noch übler! Bild Nun wollte ich einen Crawler starten:

Code:
Crawling von "http://mikespeier.cwsurf.de/ http://www.five-days.de/ http://martina-loder.blogspot.de/ http://andrea-s.cwsurf.de/ " schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can't execute: connect timed out duration=30100/scraper cannot load URL: java.io.IOException: Client can't execute: connect timed out duration=30100/scraper cannot load URL: java.io.IOException: Client can't execute: connect timed out duration=30099/scraper cannot load URL: java.io.IOException: Client can't execute: connect timed out duration=30102/



Was kann ich hier jetzt noch machen außer nur noch mit Proxy surfen?


Noch ein EDIT:

Jetzt wird\’s aber echt krass!

Code:
Einstellungen angenommen:Seed Einstellungen wurden geändert, aber etwas stimmt nicht.SaveSeedList: Seed upload failed (IO error): Unable to download seed file 'http://******.***/yacy/seed.txt'. Client can't execute: connect timed out duration=10049Seed Upload wurde automatisch deaktiviert. Bitte kehren Sie zu den Einstellungen zurück und modifizieren Sie die Daten.Sie können nun zurück zu den Einstellungen gehen, um weitere Änderungen vorzunehmen.

Statistik: Verfasst von TmoWizard — Do Mär 12, 2015 2:59 pm


Fragen und Antworten • Re: YaCy nach hat Update keine Funktion

Date: 2015-03-12 22:24:17

Keinen Bock mehr für heute, das wird mir jetzt doch zu viel! Morgen kümmere ich mich um den Rechner, der speziell für YaCy hier ist:

[[FSC Esprimo E5615 SFF
Athlon 64 3800+ 2,4GHz]{style=“font-weight: bold”} (WTF :?: Sollte der eigentlich nicht schneller sein??? :shock: )
[4GB
320GB SATA 7200]{style=“font-weight: bold”}]{style=“font-style: italic”}

Festplatte und DVD muß ich noch prüfen, dann wird dieser Rechner nur für YaCy da sein. BS wird wohl ein Ubuntu 14.04 LTS Server und dann schauen wir mal, was aus YaCy und mir wird.

Statistik: Verfasst von TmoWizard — Do Mär 12, 2015 10:24 pm


YaCy Coding & Architektur • Bot Spalterei

Date: 2015-03-13 20:16:09

Mal an unsere Entwickler, wäre es evtl. nicht effizienter den yacy-Bot zum Crawlen zu spalten ich meine so in der Art einen Domainbot, kümmert sich nur um die Startseiten von Domains und einen Deepbot der sich um alles darunter kümmert und neue Domains an den Domainbot meldet?

Ergänzend vielleicht noch daß man die Reihenfolge der Abarbeitung festlegen kann. Damit meine ich als erstes werden alle crawljobs abgearbeitet, danach werden die gefundenen Links zu anderen Domains abgearbeitet wobei man die Reihenfolge z. B. nach tdl festlegen kann. Bspl.: erst .de dann .com, dann .net, dann .com , dann .eu usw.

Statistik: Verfasst von Micki — Fr Mär 13, 2015 8:16 pm


Wunschliste • Datenbank mearching

Date: 2015-03-15 08:34:36

Ich habe von vielen hier gelesen, daß Sie das Problem haben 2 Datenbanken die sie gerne zu einer verschmelzen würden. Bisher geht das so weit ich weis nür in dem man 2 Peers laufen läßt und wartet bis die Datenbestände sich angeglichen haben. Was langwierig ist. Ich habe da eine Idee, die das Ganze evtl. schneller hin bekommt. Dazu suche ich einen Entwickler der den Crawler gut kennt und der beim Anpassen helfen kann.

Statistik: Verfasst von Micki — So Mär 15, 2015 8:34 am


Wunschliste • Aktualität

Date: 2015-03-15 23:10:59

Ich habe festgestellt, daß wir unter Anderem ein Problem mit der Aktualität der Suchergebnisse haben. Könnten wir denn Crawldaten mit Speichern Folgende Felder Crawldatum letzer Crawl, Zahl der Änderungen und aktuelles Crawlsdatum, Zeitdifferenz. Idee Aus Zahl der Änderungen und Zeitdifferenz einen Faktor zu bilden wie oft eine Seite gecraweld werden muß das die Ergebnisse halbwegs aktuell sind. Evtl. Daraus automatische Jobs erstellen.

Statistik: Verfasst von Micki — So Mär 15, 2015 11:10 pm


Hilfe für Einsteiger und Anwender • Running Crawls

Date: 2015-03-16 09:23:21

Kann man YaCy dazu bringen erst mal nur die Domais der Crawljobs abzuarbeiten die Funde an Links wo anders hin zwischen zu speichern und erst wenn die Crals durch sind das Gefundene ab zu arbeiten?

Statistik: Verfasst von Micki — Mo Mär 16, 2015 9:23 am


YaCy Coding & Architektur • Re: GITAccess im Wiki

Date: 2015-03-16 18:01:17

Ich habe es hinbekommen. YaCy läuft jetzt bei mir auch aus Eclipse heraus. Mal sehen, ob ich mit meinen 2 Jahre langem Java Theorie pauken was erreichen kann ;-) Ich denke eher nicht :D Aber evtl. kann ich beim Debugging{.postlink} etwas helfen.

Statistik: Verfasst von LA_FORGE — Mo Mär 16, 2015 6:01 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-03-16 20:00:17

http://www.picpaste.com/Leerdiskette.jpg

ROTFLOLFDTSITKSSTSOTFBSABUDKKN (Rolling on the floor Laughing Loud Falling Down The Stairs In The Keller Stösst Sich The Schädel On The Fußboden bricht sich alle beine und der krankenwagen kommt net)

Statistik: Verfasst von LA_FORGE — Mo Mär 16, 2015 8:00 pm


Mitmachen • Frage zum Typ: Senior

Date: 2015-03-16 20:33:51

Hallo Community,

ich habe meinen Server (Ubuntu Server) als Senior freigeschaltet:
01 yacy - Portfreigabe.png

Vor ein paar Tagen habe ich unsere Vereinsseite indexiert: http://www.mtv-stadeln.net.

Bin ich richtig in der Annahme, dass nach einem bestimmten Zeitraum mein Index an andere Teilnehmer übertragen wird und andere YaCy-SuMa ebenfalls diese Seite als Treffer liefern werden?
http://yacy.info/ oder http://search.yacy.de/ liefert keine Treffer zum Suchbegriff \“mtv stadeln\“. Lokal, hingegen, bekomme ich > 450 Treffer.
02 yacy - Suchergebnisse (lokal).png

Wenn ich auf meinen Server:8090 extern zugreife, bekomme ich folgende Meldung:
03 yacy - Externer Zugriff.png

Habe ich noch etwas in den Einstellungen übersehen oder soll ich mich noch etwas gedulden bis mein Index verteilt wird?

Danke im Voraus!

Gruß
dS810

Statistik: Verfasst von ds810 — Mo Mär 16, 2015 8:33 pm


Mitmachen • Re: Frage zum Typ: Senior

Date: 2015-03-16 21:13:35

Ah! Jetzt aber!

ich habe die Einstellung endlich gefunden:
05 yacy - Transparent Proxy.png

Danke! Jetzt klappt es auch mit den Nachbarn :)

Statistik: Verfasst von ds810 — Mo Mär 16, 2015 9:13 pm


English • java.lang.OutOfMemoryError: unable to create new native t...

Date: 2015-03-17 05:07:36

Hello,

After two hours of uptime since I launched a crawler, YaCy quit, leaving the following log file.

[System specs:]{style=“font-weight: bold”}

Code:
$ uname -r2.6.32-042stab076.8$ java -versionjava version "1.7.0_65"OpenJDK Runtime Environment (IcedTea 2.5.1) (7u65-2.5.1-5~deb7u1)OpenJDK Client VM (build 24.65-b04, mixed mode, sharing)# YacY version 1.82



[./DATA/LOG/yacy00.log]{style=“font-weight: bold”}

Code:
W 2015/03/17 04:39:49 ConcurrentLog java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)E 2015/03/17 04:39:49 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.job.1': nullI 2015/03/17 04:39:49 HostQueue opened HostQueue /usr/local/share/java/yacy/DATA/INDEX/webportal/QUEUES/CrawlerCoreStacks/www.baodagroup.com.80 with 0 urls.E 2015/03/17 04:39:49 BLOCKINGTHREAD Internal Error in serverInstantThread.job: nullE 2015/03/17 04:39:49 BLOCKINGTHREAD shutting down thread 'java.lang.reflect.Method.job.1'W 2015/03/17 04:39:49 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   ... 10 moreW 2015/03/17 04:39:49 ConcurrentLog java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)W 2015/03/17 04:39:49 ConcurrentLog java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)E 2015/03/17 04:39:49 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.job.1': nullI 2015/03/17 04:39:49 HostQueue opened HostQueue /usr/local/share/java/yacy/DATA/INDEX/webportal/QUEUES/CrawlerCoreStacks/www.juicedsystems.com.80 with 0 urls.E 2015/03/17 04:39:49 BLOCKINGTHREAD Internal Error in serverInstantThread.job: nullE 2015/03/17 04:39:49 BLOCKINGTHREAD shutting down thread 'java.lang.reflect.Method.job.1'W 2015/03/17 04:39:49 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   ... 10 moreW 2015/03/17 04:39:49 ConcurrentLog java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)W 2015/03/17 04:39:49 ConcurrentLog java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)E 2015/03/17 04:39:49 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.job.1': nullI 2015/03/17 04:39:49 HostQueue opened HostQueue /usr/local/share/java/yacy/DATA/INDEX/webportal/QUEUES/CrawlerCoreStacks/judaqipei.en.ec21.com.80 with 0 urls.E 2015/03/17 04:39:49 BLOCKINGTHREAD Internal Error in serverInstantThread.job: nullE 2015/03/17 04:39:49 BLOCKINGTHREAD shutting down thread 'java.lang.reflect.Method.job.1'W 2015/03/17 04:39:49 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException   at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)   at java.util.concurrent.FutureTask.run(FutureTask.java:262)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)   at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.OutOfMemoryError: unable to create new native thread   at java.lang.Thread.start0(Native Method)   at java.lang.Thread.start(Thread.java:714)   at net.yacy.crawler.robots.RobotsTxt.ensureExist(RobotsTxt.java:249)   at net.yacy.crawler.HostBalancer.push(HostBalancer.java:226)   at net.yacy.crawler.data.NoticedURL.push(NoticedURL.java:167)   at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:336)   at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)   ... 10 more



The log file continues for about another 1MB.

Is this a system limit, YaCy\’s, or OpenJDK\’s?
How can I work this around?

Statistik: Verfasst von davide — Di Mär 17, 2015 5:07 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-03-17 09:51:07

The sound(s) of sorting: https://www.youtube.com/watch?v=kPRA0W1kECg

Statistik: Verfasst von Low012 — Di Mär 17, 2015 9:51 am


Hilfe für Einsteiger und Anwender • Lokaler Crawler Queue

Date: 2015-03-17 14:28:16

Bei mir hat diese Queue den Wert 3.358.073 erreicht. An welchen Parametern muß ich was ändern, daß diese Queue wieder abgebaut bzw. besser abgearbeitet wird? Vielleicht dumm die Frage aber ich hätte das Ganze lieber in Documents als in Queues.

Statistik: Verfasst von Micki — Di Mär 17, 2015 2:28 pm


English • Re: java.lang.OutOfMemoryError: unable to create new native

Date: 2015-03-17 20:21:18

Hello Davide,

you can try to rise the amount of used Memory at /Performance_p.html

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Mär 17, 2015 8:21 pm


English • Re: java.lang.OutOfMemoryError: unable to create new native

Date: 2015-03-18 00:06:13

From ./DATA/SETTINGS/yacy.conf

Code:
javastart_Xmx=Xmx2500mjavastart_Xms=Xms200m



These configs were already in place at the time of the crash. These should be close to the upper limit for 32 bit hardware.

Statistik: Verfasst von davide — Mi Mär 18, 2015 12:06 am


English • Forum mail server not functional

Date: 2015-03-18 00:09:23

I do not receive mail notifications from this board.

Statistik: Verfasst von davide — Mi Mär 18, 2015 12:09 am


English • Aggregate / Clear duplicate results

Date: 2015-03-18 00:25:39

As you can see from the attached screenshot, lots of YaCy search results are duplicate or very similar and are positioned adjacently throughout the results list. So similar to be practically indistinguishable to the user and be of no utility to occupy the ranking list.

I think it would be best for YaCy to recognize these duplicates and tidy them up.

What do you think?

Statistik: Verfasst von davide — Mi Mär 18, 2015 12:25 am


English • Adopt English for forum language

Date: 2015-03-18 00:49:27

I understand that this is probably a recognized and uncared for problem.
But just to byte the procrastination indolence and resurrect the problem, the forum should probably not be in German.

The project put great care on maximizing the aesthetic presentation of YaCy and the website, with graphics, videos and immersive tutorials.
Having the forum in German ruins the image of YaCy IMHO, and incentives the growth of a localized German community while deterring the formation, or growth, of a larger international community.
Keeping one small subsection of the forum for collecting the posts from \”[just all the other folks who don\’t speak our beloved Deutsch]{style=“font-style: italic”}\” is not beneficial, to my view, to the growth of the project.

What do you think?

Statistik: Verfasst von davide — Mi Mär 18, 2015 12:49 am


YaCy Coding & Architektur • Re: GITAccess im Wiki

Date: 2015-03-18 16:39:52

Hab\’s hinbekommen :-) Fragt mich bitte nicht, was ich gemacht habe...

Statistik: Verfasst von LA_FORGE — Mi Mär 18, 2015 4:39 pm


English • Re: Adopt English for forum language

Date: 2015-03-19 01:31:33

I am completely biased but agree that a more universal language is English. If we learned nothing from the CCC that education transfer globally would be aided if we used a lingua franca like English.

Statistik: Verfasst von TomHutch — Do Mär 19, 2015 1:31 am


Jobs • Short Configuration Gig

Date: 2015-03-19 04:47:55

Hi,

I\’m looking for anyone who knows how to setup a private intranet cluster to tutor me over skype. I\’m happy to pay 20/hr for a minimum of 2 hrs. Tutoring must be in English and I may ask for a written procedural document. Please PM me if interest and I\’d be happy to chat.

Sincerely,
-Tom

Statistik: Verfasst von TomHutch — Do Mär 19, 2015 4:47 am


Fragen und Antworten • Re: Mehrere Peers im Intranet zu eigenem Netz verbinden

Date: 2015-03-19 05:04:37

Can we solve this?

Orbiter...How do you setup a private intranet cluster.

Statistik: Verfasst von TomHutch — Do Mär 19, 2015 5:04 am


Fragen und Antworten • Re: Privater Cluster

Date: 2015-03-19 05:11:40

So far as best I can tell this hasn\’t been answered. Can anyone put together a tutorial?

Statistik: Verfasst von TomHutch — Do Mär 19, 2015 5:11 am


Fragen und Antworten • Re: Privater Cluster

Date: 2015-03-19 09:08:44

Not sure if it will even work or do what you want But you could Feed several intranet peers from one Peer with an RSS feed.

Search [* /date]{style=“font-weight: bold”} then put that into the other peers. There will be a time delay.

Be sure to set the main Peer portal configuration to 100 results to avoid missing stuff.

Statistik: Verfasst von smokingwheels — Do Mär 19, 2015 9:08 am


Fragen und Antworten • Re: Privater Cluster

Date: 2015-03-19 10:14:58

SmokingWheels what are you actually answering? Did you not understand the question.

We all need a tutorial. Not recommendations with no real context.

Statistik: Verfasst von TomHutch — Do Mär 19, 2015 10:14 am


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-19 15:38:28

Was ich \@Orbiter vorschlagen wuerde, er nimmt sich #gitorious und macht damit sein eigenes nur fuer #YaCy auf, da hast du alles dabei, wie Foren, Wiki usw. Und du bist unabhaengig von #gitlab und anderen Unternehmen.

Statistik: Verfasst von Quix0r — Do Mär 19, 2015 3:38 pm


Hilfe für Einsteiger und Anwender • Wie YaCy-Index auf einen anderen Datenträger verlagern?

Date: 2015-03-19 18:39:55

Mein /home-Laufwerk ist demnächst wieder voll, mit YaCy.
Ich müsste den Datenberg auf ein anderes Laufwerk (extern) verlagern. Kopieren kann ich das mit einem Dateimanager. Aber wie bringe ich YaCy bei, dass sich sein DATA-Ordner nun in einem anderen Pfad befindet?

Statistik: Verfasst von bauhaus05 — Do Mär 19, 2015 6:39 pm


Fragen und Antworten • Übersicht der Domains und deren letzte Indexierung?

Date: 2015-03-19 20:34:03

Hallo Gemeinde,

gibt es eine Übersicht aller Top-Level-Domains mit dem Datum, wann diese zuletzt indexiert wurden?

So könnte man Doppelindexierungen vermeiden und evtl. alte Seiten auffrischen.

Gruß
dS810

Statistik: Verfasst von ds810 — Do Mär 19, 2015 8:34 pm


Wunschliste • Re: Aktualität

Date: 2015-03-19 22:01:33

Finde ich gut.

Ich würde mit meiner Hardware unterstützen die \“alten\” Seiten zu aktualisieren.

Statistik: Verfasst von ds810 — Do Mär 19, 2015 10:01 pm


Wunschliste • Bildersuche

Date: 2015-03-20 20:23:34

Wäre es denn möglich die Bildersuche mit einer Gesichtserkennungsoftware zu unterstützen / kombinieren?
Problem wenn nach Namen gesucht wird und mehrere Namen auf einer Seite kommen für verschiedene Namen das selbe Bild.

Statistik: Verfasst von Micki — Fr Mär 20, 2015 8:23 pm


Fragen und Antworten • Re: Privater Cluster

Date: 2015-03-21 19:48:52

As far as I understood, the web panel provides an option to pick a custom network name. IIRC, yacy comes preconfigured with a specific network name thru which all nodes are connected by default, forming the global public network.
Still AFAIK, to make a private cluster you have to set all your nodes under a same network name, which is just a text string, editable somewhere from the web panel.

However, for a private search engine I had better switched from yacy to OSS{.postlink}, only because I was impressed by how terrible search results are in yacy.
OSS is tougher to set up, but it\’s not only usable, it also works quite well and has decent search result.

Statistik: Verfasst von davide — Sa Mär 21, 2015 7:48 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-22 14:34:08

Also ich hatte ja schon länger zwei Accounts auf github mit Namen \‘yacy\’ und \‘Orbiter\‘. Nun habe ich festgestellt dass man User Accounts in Organisations-accounts umwandeln kann und das habe ich mit \‘yacy\’ nun gemacht:
https://github.com/yacy

Darin waren bislang schon mehrere git repositories, z.B. ein Greasemonkey script für YaCy, ein Munin Plugin, eine cream extension, ein OAI tool in php und cider, ein spin-off experiment rund um die YaCy Parser. Als weiteres Repository habe ich nun eins für YaCy selbst angelegt und diesen dämlichen Fehler, das \‘rc1\’ zu benenen nicht wiederholt sondern es yacy_search_server genannt in Anlehnung an den Twitter-Account \@yacy_search und in Begleitung der Idee, dass es auch YaCy Suchclients geben wird wie den Android client und das YAML Suchinterface die dann yacy_androidclient und yacy_webclient heissen werden.

In so einer github Organisation kann man User Groups mit entsprechenden Rechten anlegen die dann freien Schreibzugriff haben auf die Repositories, dieses habe ich auch angelegt und heisst yacy_developers: https://github.com/orgs/yacy/teams/yacy_developers

YaCy habe ich dann nach https://github.com/yacy/yacy_search_server gepusht.

Ich schlage vor dass wir das benutzen, ich habe zwar Bauchschmerzen bei der Idee dass man mithilft den github-Koloss weiter aufzupumpen aber andererseits bin ich es müde überall gegen Windmühlen zu kämpfen und räume YaCy bei github mehr Chancen ein wahrgenommen zu werden und neue Entwickler zu finden.

Daher würde ich die YaCy Developer aus https://gitorious.org/+yacy-developers bitten, bei github einen Account zu machen dann können die bei https://github.com/orgs/yacy/teams/yacy_developers beitreten und haben Repository Schreibrechte.

Es ist ja noch ein bisschen Zeit bis gitorious schliesst aber falls nicht jemand einfällt warum github total kacke ist würde ich dieses Repository als Migrationsziel vorschlagen.

Statistik: Verfasst von Orbiter — So Mär 22, 2015 2:34 pm


Mitmachen • Re: Linuxtage Chemnitz CLT2015 21.-22. März 2015

Date: 2015-03-23 10:10:31

So, meine ersten Linuxtage in Chemnitz sind vorbei und ich bin wieder zu hause. Frank hat nicht gebissen (hatte ich auch nicht erwartet) und Thomas (Vega hier im Forum) habe ich auch noch kennen gelernt. Die Verpflegung war wie angekündigt super und die Atmosphäre war sehr entspannt. Wer also überlegt, nächstes Jahr nach Chemnitz zu kommen, sollte das auf jeden Fall tun.

Mein Zimmer hatte einen wunderbaren Blick auf den riesigen Marx-Kopf. Ein Zimmer mit der alten Interhotel-Einrichtung gibt es übrigens tatsächlich. Michael hat es gesehen, ich war leider am Samstag erst mittags in Chemnitz und habe daher an der Besichtigung am Morgen nicht teilnehmen können. Naja, vielleicht ja nächstes Jahr...

Statistik: Verfasst von Low012 — Mo Mär 23, 2015 10:10 am


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 13:33:29

Ich habe mal aus allen Gitorious-URLs in YaCy GitHub-URLs gemacht und wollte das nach GitHub pushen, bekomme aber immer die folgende Meldung:

Code:
low012@pulgasari:~/git/yacy_search_server$ git push -u origin masterERROR: Permission to yacy/yacy_search_server.git denied to Low012.fatal: Could not read from remote repository.Please make sure you have the correct access rightsand the repository exists.



Die URLs sollten korrekt gesetzt sein:

Code:
low012@pulgasari:~/git/yacy_search_server$ git remote -vorigin    git@github.com:yacy/yacy_search_server.git (fetch)origin    git@github.com:yacy/yacy_search_server.git (push)



Es scheint auch kein generelles Problem mit meinem SSH-Key zu sein, den ich bei GitHub hinterlegt habe, denn grundsätzlich authentifizieren kann ich mich zu deren System:

Code:
low012@pulgasari:~/git/yacy_search_server$ ssh git@github.comPTY allocation request failed on channel 0Hi Low012! You've successfully authenticated, but GitHub does not provide shell access.Connection to github.com closed.



Ich bin jetzt ratlos und esse erstmal was. Vielleicht geht es ja dann... :lol:

Statistik: Verfasst von Low012 — Mo Mär 23, 2015 1:33 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 14:04:56

Hmm... Ich bin kein Git-Experte, aber ich benutze GitHub immer via Https.

Die URL für origin wäre dann: https://github.com/yacy/yacy_search_server.git

Ein \“git clone https://github.com/yacy/yacy_search_server.git\” hat problemlos funktioniert.

Und anschließend ergab ein \“git remote -v\” folgendes:

Code:
origin  https://github.com/yacy/yacy_search_server.git (fetch)origin  https://github.com/yacy/yacy_search_server.git (push)

Statistik: Verfasst von MikeS — Mo Mär 23, 2015 2:04 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 14:19:06

Clone funktioniert bei mir auch, nur push will nicht. HTTPS habe ich auch schon probiert, mit dem gleichen Ergebnis. Vielleicht probiere ich es gleich mal mit einem anderen Rechner, um auszuschließen, dass meiner irgendwie vergurkt ist.

Statistik: Verfasst von Low012 — Mo Mär 23, 2015 2:19 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 15:28:51

Jetzt mit Windows und HTTPS:

Clipboard01.jpg

Statistik: Verfasst von Low012 — Mo Mär 23, 2015 3:28 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 19:42:38

oh mist ich hatte vergessen das Team yacy_developers zuzuweisen. Jetzt sollte es gehen!

Statistik: Verfasst von Orbiter — Mo Mär 23, 2015 7:42 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-23 20:09:54

Und damit geht die Ehre des ersten Commits auf GitHub an: Mich! :D

Statistik: Verfasst von Low012 — Mo Mär 23, 2015 8:09 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-03-24 10:46:51

Sogar im großen \“hier alles rein\“-Offtopic-Thread offtopic: Von Playmobil gibt es einen Pottwal! Dank YaCy bin ich ja mittlerweile großer Wal- und Tiefseefan und bin stark versucht, mir das DIng zu bestellen, aber 34cm Länge sind schon recht ordentlich.

http://www.playmobil.de/Pottwal/7998.html

Bild

Statistik: Verfasst von Low012 — Di Mär 24, 2015 10:46 am


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-24 17:46:01

Any updates on this? I am unable to use Yacy, on mac os x 10.9.5.

Download the .dmg. Drag Yacy to app folder. Double click to launch, Yacy icon shows up in dock then immediately disappears??

Thanks for help and time.

Statistik: Verfasst von haigha — Di Mär 24, 2015 5:46 pm


Mitmachen • Re: YaCy Open Harvesting API: Surrogates

Date: 2015-03-24 21:43:23

Orbiter hat geschrieben:\ ahem .. jetzt gibts einen Film über \'Surrogates\' \



:-)))))))) großartig! Hab grad unterm Tisch gelegen als ich das gelsen habe. Auch schön: http://tinyurl.com/nz6hsj7

Sacht ma Jungs, wenn ich >200 GB konforme XML-Dumps in meinen Peer importiert habe und dann einen Solr Reindex anstoße dann werden doch die restlichen Felder aus dem Schema auch noch persistiert, oder?

Statistik: Verfasst von LA_FORGE — Di Mär 24, 2015 9:43 pm


English • Page HTML title tag

Date: 2015-03-25 05:51:22

Is it possible to index the HTML title tag off a page, and return it to the results page or the API?

I see that the API returns a [title]{style=“font-style: italic”} field, but this is evidently parsed by other means., I guess by the document URL / file name.

To give an example, the following are the search results for \“DDR\“. Notice the [title]{style=“font-style: italic”} field.

results.jpg

This is the actual page linked by the search result. Notice the page title reported on the browser\’s title bar.

target_page.jpg

Statistik: Verfasst von davide — Mi Mär 25, 2015 5:51 am


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-25 08:08:04

ok please do the following:
- download the tar.gz release version
- open terminal
- decompress the release with tar xf <release>
- cd into release
- run ./startYACY.sh -l
- post terminal output and content of yacy.log (in same folder)

The tar.gz version is exactly the same as inside the mac app, it\’s just encapsulated. So this test should tell us whats wrong with the java version you have.

Additionally you can run on the terminal
java -version
and post this here.

Statistik: Verfasst von Orbiter — Mi Mär 25, 2015 8:08 am


Fragen und Antworten • YaCy in „Unterverzeichnis”?

Date: 2015-03-25 10:30:30

Hi,

wir würden gern YaCy via mod_proxy_http auf einer Webseite unter https://«fqdn»/yacy/ einbinden. Leider benutzt das viel zu viel JavaScript, weswegen das mit der ProxyHTMLURLMap-Funktionalität von mod_proxy_http nicht geht – an vielen Stellen wird zwar localhost:8090 durch den externen FQDN ersetzt, oder der Pfad ist serverrelativ, aber das /yacy/ am Anfang nicht hinzugefügt (insbesondere in letzterem Falle).

Wie kann man YaCy auf http://localhost:8090/yacy/ verschieben? Ich finde dazu in der Konfig und Doku und bei einer kurzen Suche nix.

Danke & Gruß
//mirabilos

Statistik: Verfasst von mirabilos — Mi Mär 25, 2015 10:30 am


English • How to Ignore HTTPS certificate error

Date: 2015-03-25 15:05:34

Hi to everyone!

I\‘am trying to implement the effect of cURL parameters -k (or the equivalent Browser option: \“Add securirty Exception for this site\“) in YaCy.
how can I configure this type of behaviour for single host in YaCy? Can I enable it for every Host?

Infact if i Use:
-> curl https://SiteWithNonCorrectlyConfiguredH ... ficate.com{.postlink}
I get curl error on SSL EG (51) SSL, but using :
-> curl https://SiteWithNonCorrectlyConfiguredH ... ficate.com{.postlink} -k
I get the correct result!

Thanks a lot for every reply,
Cheers!

Statistik: Verfasst von Slntswrd — Mi Mär 25, 2015 3:05 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-25 21:46:13

terminal output:

Franks-MacBook-Pro:yacy frank\$ ./startYACY.sh -l
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** © by Michael Peter Christen, usage granted under the GPL Version 2 ****
**** USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/ ****
** LOG of YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log) **
** STOP YaCy: execute stopYACY.sh and wait some seconds **
** GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de **
*******************************************************************************
>> YaCy started as daemon process. Administration at http://localhost:8090 <<
Franks-MacBook-Pro:yacy frank\$ Exception in thread \“main\” java.lang.UnsupportedClassVersionError: net/yacy/yacy : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClassCond(ClassLoader.java:637)
at java.lang.ClassLoader.defineClass(ClassLoader.java:621)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:141)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:283)
at java.net.URLClassLoader.access\$000(URLClassLoader.java:58)
at java.net.URLClassLoader\$1.run(URLClassLoader.java:197)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher\$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

yacy.log:

24/03/15 17:16:03,000 kernel[0]: hfs: mounted YaCy on device disk1s2
24/03/15 17:16:03,384 mds[62]: (Normal) Volume: volume:0x7fcf42066c00 ********** Bootstrapped Creating a default store:1 SpotLoc:(null) SpotVerLoc:(null) occlude:0 /Volumes/YaCy
24/03/15 17:16:24,554 CoreServicesUIAgent[763]: Saving rejection record:
Rejected URL=file:///Applications/YaCy.app/
App URL=file:///Applications/YaCy.app/
24/03/15 17:16:24,559 com.apple.launchd.peruser.501[142]: ([0x0-0x40040].net.yacy.yacy[788]) Exited: Killed: 9
24/03/15 17:16:31,026 CoreServicesUIAgent[763]: Saving rejection record:
Rejected URL=file:///Applications/YaCy.app/
App URL=file:///Applications/YaCy.app/
24/03/15 17:16:31,034 com.apple.launchd.peruser.501[142]: ([0x0-0x41041].net.yacy.yacy[792]) Exited: Killed: 9
24/03/15 17:16:45,741 CoreServicesUIAgent[763]: Saving rejection record:
Rejected URL=file:///Applications/YaCy.app/
App URL=file:///Applications/YaCy.app/
24/03/15 17:16:45,750 com.apple.launchd.peruser.501[142]: ([0x0-0x42042].net.yacy.yacy[795]) Exited: Killed: 9
24/03/15 17:18:10,000 kernel[0]: hfs: unmount initiated on YaCy on device disk1s2
24/03/15 17:19:18,000 kernel[0]: hfs: mounted YaCy on device disk1s2
24/03/15 17:19:18,610 mds[62]: (Normal) Volume: volume:0x7fcf42064000 ********** Bootstrapped Creating a default store:1 SpotLoc:(null) SpotVerLoc:(null) occlude:0 /Volumes/YaCy
24/03/15 17:23:10,000 kernel[0]: hfs: unmount initiated on YaCy on device disk1s2
24/03/15 17:25:49,000 kernel[0]: hfs: mounted YaCy on device disk1s2
24/03/15 17:25:49,153 mds[62]: (Normal) Volume: volume:0x7fcf41857000 ********** Bootstrapped Creating a default store:1 SpotLoc:(null) SpotVerLoc:(null) occlude:0 /Volumes/YaCy
24/03/15 17:26:04,000 kernel[0]: hfs: unmount initiated on YaCy on device disk1s2
24/03/15 17:27:15,000 kernel[0]: hfs: mounted YaCy on device disk1s2
24/03/15 17:27:15,145 mds[62]: (Normal) Volume: volume:0x7fcf41857000 ********** Bootstrapped Creating a default store:1 SpotLoc:(null) SpotVerLoc:(null) occlude:0 /Volumes/YaCy
24/03/15 17:27:25,000 kernel[0]: hfs: unmount initiated on YaCy on device disk1s2
24/03/15 17:35:48,000 kernel[0]: hfs: mounted YaCy on device disk1s2
24/03/15 17:35:48,151 mds[62]: (Normal) Volume: volume:0x7fcf42013e00 ********** Bootstrapped Creating a default store:1 SpotLoc:(null) SpotVerLoc:(null) occlude:0 /Volumes/YaCy
24/03/15 19:16:39,000 kernel[0]: hfs: unmount initiated on YaCy on device disk1s2

Franks-MacBook-Pro:yacy frank\$ java -version
java version \“1.6.0_65\”
Java™ SE Runtime Environment (build 1.6.0_65-b14-462-11M4609)
Java HotSpot™ 64-Bit Server VM (build 20.65-b04-462, mixed mode)


**** I hope I got all that right for you, thank you for helping *****

Statistik: Verfasst von haigha — Mi Mär 25, 2015 9:46 pm


Fragen und Antworten • Re: Privater Cluster

Date: 2015-03-28 00:31:29

Thanks for the recommendation Davide, but can you give us a step by step instruction for this?

Statistik: Verfasst von TomHutch — Sa Mär 28, 2015 12:31 am


Off-Topic • wie aktien handeln

Date: 2015-03-28 03:33:55

jeder will ein wenig mehr Einkommen durch Nichtstun zu verdienen und siee reichh werden wollen . wenn Sie ein Student eine Hausfrau oder jemand, der viel Zeit hat , um zu töten und wollen reicch werden , wie Siee alless, was Siie tun müssen, ist in der Online-Aktienhandel zu investieren hier investieren eine bestimmte Menge an Geld, das Sie kaufen die Aktien der wollte es dass Unternehmen durch den Kauf der Anteile sind Sie berechtigt, Gewinne, die das Unternehmen in die Seie investieren das ist der einfachste Weg, jemand jemals reich werden durch Nichtstun anfallen erhalten viel alle, was Sie brauchen, ist eine Geldsumme , die Sie bereit sind, zu investieren und ein wenig Zeit aus Ihrem Leben , einige der Forschung über das Unternehmen zu tun , so dass Ssie nie incurr losses.online -Handel können Siie über Nacht reich alles, was ie tun müssen, ist, setzen Sie einfach einige Erstinvestitionen lehnen Sie sich zurück und sehen Sie Ihr Geld wiederum in profits.if Sie bereit sind , es zu tun , dann sind Siee sollten eine gute Website , mit denen Siee es zu tun finden investition in den aktienmarkt is the best 47353
http://www.bux2get.com

Statistik: Verfasst von trungnguyen — Sa Mär 28, 2015 3:33 am


Off-Topic • stock investments online

Date: 2015-03-28 04:06:55

not found how to lift stock investments online? P3b
http://www.moneyonlineinvestment.com/_/stock_investments_online/How%20stock%20investments%20online.html
p/s : thank the creators of this forum !

Statistik: Verfasst von trungnguyen — Sa Mär 28, 2015 4:06 am


English • Re: Forum mail server not functional

Date: 2015-03-28 04:50:01

i do not know what were you talking about :?:

Statistik: Verfasst von Französisch — Sa Mär 28, 2015 4:50 am


English • Re: Any one interested in tracking users on Social networks?

Date: 2015-03-28 04:51:37

mabye i will try, that sounds good 8-)

Statistik: Verfasst von Französisch — Sa Mär 28, 2015 4:51 am


Mitmachen • Re: Mitmachen

Date: 2015-03-28 04:55:09

ich auch :)

Statistik: Verfasst von Französisch — Sa Mär 28, 2015 4:55 am


Mitmachen • Re: Geld für Yacy?

Date: 2015-03-28 04:57:40

kann ich nun auch Vorschläge einreichen_ :shock:

Statistik: Verfasst von Französisch — Sa Mär 28, 2015 4:57 am


Mitmachen • Re: I want to pay for yacy installation

Date: 2015-03-28 04:59:24

dank ,vielleicht sehe ich das zu spät...aber auch mir bunützlich

Statistik: Verfasst von Französisch — Sa Mär 28, 2015 4:59 am


Off-Topic • investing money online my satisfaction evidence

Date: 2015-03-28 05:43:44

User money 190.10 send cashout Filip one certainly nice set eyes on screenshot as recommended.
http://www.moneyonlineinvestment.com

Statistik: Verfasst von trungnguyen — Sa Mär 28, 2015 5:43 am


Off-Topic • watch tv live free

Date: 2015-03-28 11:15:33

watch tv live free 11454
http://ibrod.tv

Statistik: Verfasst von trungnguyen — Sa Mär 28, 2015 11:15 am


Fragen und Antworten • New Segments set in New YaCy blocks startup

Date: 2015-03-28 16:59:50

HI...
In a previous post we got instructions that to move the core data from ALLIP in a small server to a much larger environment, we needed to collect the SEGMENTS folder which contains default, Solr_4_10 and firstseen.index to a new installation of YaCy.

This we did.
We installed a healthy fresh YaCy in the cloud, based on the latest Ubuntu long term support
Then shutting it down, via SSH we erased the generic Segments folder and all of its contents
The data segments set we are moving by SSH in total has 17.7 GB
We copied the desired Segments folder from the home folder to the ALLIP folder space, as before.
Once it was in there, we updated Ubuntu and attempted upgrade of YaCy (which was already the latest version)
Then we rebooted Ubuntu from SSH

What we find:
YaCy starts then shuts down by itself
We also executed a hard reboot from the cloud provider\’s interface.
= No change in behavior

We can go into the command line by SSH and call

\ sudo /etc/init.d/yacy restart\



it returns:

\ not running\

.
Then

\ Starting YaCy P2P Web Search: yacy.\


However,
It never starts completely with the new segment set and apparently shuts down
We can never get back to the proven working engine visible in the browser - yet with the new segments set.
We have done this test with two different sets of segments on two clouds of new YaCy installations
Results are the same

Interestingly, this process worked before, some weeks ago.
Is there something in the new YaCy which does not allow changing Segments sets?
How do we disable this, please?
Or is the problem somewhere else, please?
Many thanks

Statistik: Verfasst von xioc752 — Sa Mär 28, 2015 4:59 pm


Fragen und Antworten • Re: New Segments set in New YaCy blocks startup

Date: 2015-03-28 18:44:27

There has nothing changed with segments.
If you just upgraded to the latest version you maybe do not have Java 7 installed. YaCy now needs Java 7

Statistik: Verfasst von Orbiter — Sa Mär 28, 2015 6:44 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-28 18:46:55

from this log output it is very easy to see the problem, you should be able to discover that yourself.

However: your Java Version is 1.6
YaCy needs 1.7

Ich recommend to deinstall your java and install the latest version, 1.7 or 1.8

Statistik: Verfasst von Orbiter — Sa Mär 28, 2015 6:46 pm


Fragen und Antworten • Re: New Segments set in New YaCy blocks startup

Date: 2015-03-28 18:53:54

OK, thanks for the helpful and fast reply.
What is the recommended best practices method for ensuring and if necessary upgrading to Java 7 - without disturbing the environment or the data, please?
Thank you!

Statistik: Verfasst von xioc752 — Sa Mär 28, 2015 6:53 pm


English • Install Yacy in more than on servers

Date: 2015-03-28 19:55:30

Hello
First i want to congratulate your team for your beautiful script and the excellent idea for peer to peer function.
I want to use this search engine for my own portal and i would like to ask:
How can i install it in 4-5 different servers so to make different crowling at the same time and to \“connect\” all the results from all servers to one and only server with one domain?
Thank you very much

Statistik: Verfasst von Vasnet7 — Sa Mär 28, 2015 7:55 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-03-28 21:39:34

as an average user this log output is all gibberish to me but thanks for the snarky response.

However, I would like to point out that on a mac with Java 6 installed it is very difficult to simply disable and re-enable Java 6, let alone delete it entirely, without Unix experience. Expert users may elect to delete key files to prevent Java 6 apps from ever running, but it\’s not a great idea for the average user without Unix and command line experience. It\’s better to be aware if you\’re running a native Java app, built for Java 6, and then keep Java 6 updated (with Software Update in OS X). Otherwise, find an alternative non-Java solution or do a complete fresh reinstall on my OS.

Yeah, OK. So in order to just even try out YaCy I have to do a clean reinstall. Good luck with that.

Statistik: Verfasst von haigha — Sa Mär 28, 2015 9:39 pm


Hilfe für Einsteiger und Anwender • file:// links in der Suche nicht zu öffnen

Date: 2015-03-29 21:32:54

Hallo,

ich habe yacy soweit erfolgreich am Laufen. Ich führe eine Suche aus und Frage mich nun, wie ich die erscheinenden file://d:/irgendwas.pdf Links öffnen kann. Diese befinden sich ja auf einem anderen Rechner (NAS mit yacy) und Laufwerk D ist auf der Clientseite nicht vorhanden.

Yacy sollte also Dektopsuche eingesetzt werden, auch von mehreren Rechnern zugänglich...

Statistik: Verfasst von hast0011 — So Mär 29, 2015 8:32 pm


Hilfe für Einsteiger und Anwender • Re: file:// links in der Suche nicht zu öffnen

Date: 2015-03-30 17:26:09

das macht Sinn bei gesharten Laufwerken. Wenn du diese dann auch indexierst (z.B. Z:-Laufwerk, das überall gleich gemountet ist), können alle User in deinem Netz darauf zugreifen.

Dann gibts noch einen Trick:
file://-Links öffnet der Firefox nur als Kopie, so wie ein Download. Das ist aber nicht das was man im Intranet will, da will man das Original öffnen. Das kann aber der IE.

Statistik: Verfasst von Orbiter — Mo Mär 30, 2015 4:26 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-03-31 00:26:35

Ich bin dafür, mehr Mercurial einzusetzen. git ist schlecht.

Statistik: Verfasst von OhSoLow — Mo Mär 30, 2015 11:26 pm


Hilfe für Einsteiger und Anwender • Re: file:// links in der Suche nicht zu öffnen

Date: 2015-03-31 10:02:36

Hallo Orbiter,

danke für den Tipp mit dem gemeinsamen Laufwerk. Ich konnte noch eine Erweiterung (OpenLink) für Firefox finden, mit der ich die Dateien auch \“speichern als...\” kann.

Es gibt aber noch zwei Punkte die mich etwas stören.

1. Sonderzeichen in Dateinamen werden in den Suchergebnissen nicht angezeigt: ö,ä usw.
2. Ich kann mit der Methode nicht in ein Verzeichnis wechseln bzw. dieses öffnen

Bin für weitere Tipps dankbar.

Statistik: Verfasst von hast0011 — Di Mär 31, 2015 9:02 am


English • Re: Adopt English for forum language

Date: 2015-03-31 16:28:29

I agree, I personally would like it to be an international project and community, and the German language doesn\’t make it easy for us...

Statistik: Verfasst von YogliB — Di Mär 31, 2015 3:28 pm


English • Re: Adopt English for forum language

Date: 2015-03-31 17:36:01

This is the place where we started to discuss about YaCy: up to 30 developers all from Germany. For YEARS almost no foreign user appeared. There was no reason and no use to speak english here while inline-documentation was always in english.

This project is about freedom; freedom of information and freedom of speech. It\’s just natural that no dictate can be stated to everybody to use a specific language.

When more english users came, they looked for an english forum. Other people speak other languages; as it is not feasible to do integrate language forum sections for all the languages I recommended that X-speaking people should open their X-language forum. An english forum, maintained by an australian was set up but stayed a wasteland since it was badly maintained and finally full of spam. To rescure the situation, one english forum was integrated here.

My opinion about other language YaCy forums is still the same: please open your own forum and please maintain it, I will link it. But there is NO WAY that this forum should be turned into a english-speaking forum only by a dictate. Furthermore I like to remind you to respect other languages, in this case German, therefore you should not ask to stop using our mother language at all.

Statistik: Verfasst von Orbiter — Di Mär 31, 2015 4:36 pm


English • Crawl Websites I visit

Date: 2015-03-31 23:26:34

https://plus.google.com/b/110283375734521017806/109098684258584576851/posts/fDED7CZRWyF

\ +YaCy Search Engine Hi, is there a way to have YaCy automatically crawl the websites I visit? I\'m way too lazy to crawl every website manually, I wish it was done automatically\... or is this being done already? I don\'t really understand how this works.\ Thank you\

Statistik: Verfasst von Huppi — Di Mär 31, 2015 10:26 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-03-31 23:39:33

Der Pottwal hat die falsche Farbe :-)

Statistik: Verfasst von Huppi — Di Mär 31, 2015 10:39 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-04-01 16:22:46

Huppi hat geschrieben:\ Der Pottwal hat die falsche Farbe ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\


Als Kind habe ich ja gerne hiermit{.postlink} rumgematscht, da lässt sich bestimmt das Richtige finden.

Statistik: Verfasst von Low012 — Mi Apr 01, 2015 3:22 pm


Fragen und Antworten • Re: Privater Cluster

Date: 2015-04-01 17:30:59

Bump

Statistik: Verfasst von TomHutch — Mi Apr 01, 2015 4:30 pm


English • Re: Crawl Websites I visit

Date: 2015-04-01 19:59:27

Huppi hat geschrieben:\ \ \ >
> > +YaCy Search Engine Hi, is there a way to have YaCy automatically > crawl the websites I visit? I\'m way too lazy to crawl every website > manually, I wish it was done automatically\... or is this being done > already? I don\'t really understand how this works.\ > Thank you\ > >



Hi,

There are two ways to do this: (1) using the YaCy HTTP proxy, or (2) using YaCyIndexerGreasemonkey{.postlink}. The proxy doesn\’t need any extra software, you just need to set your browser to use a proxy server. However, the proxy can\’t index pages that have cookies or use HTTPS, and its crawldepth is always 0. YaCyIndexerGreasemonkey requires a browser or browser extension that can run user scripts (e.g. Greasemonkey on Firefox), but it supports pages with cookies or HTTPS, and you can customize the crawldepth.

(I\’m the author of YaCyIndexerGreasemonkey.)

Hope this helps.

Statistik: Verfasst von biolizard89 — Mi Apr 01, 2015 6:59 pm


English • Debian 7.8 Yacy setup error Resolved

Date: 2015-04-02 03:45:36

Did a apt-get purge yacy as per http://mantis.tokeek.de/view.php?id=339
Did a reinstall eg fresh and it worked fine.

My latest problem on my PC Debian 7.8 fresh install today.
I have added the extra that goes fine but then I had a few errors.
I did a VM yacy install last night was fine.

Second error msg

root\@debian:/var# apt-get install yacy
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following NEW packages will be installed:
yacy
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded.
Need to get 0 B/39.5 MB of archives.
After this operation, 51.0 MB of additional disk space will be used.
Preconfiguring packages ...
Selecting previously unselected package yacy.
(Reading database ... 127611 files and directories currently installed.)
Unpacking yacy (from .../yacy_1.83.9118_all.deb) ...
Setting up yacy (1.83.9118) ...
Starting YaCy P2P Web Search: failed.
invoke-rc.d: initscript yacy, action \“start\” failed.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
E: Sub-process /usr/bin/dpkg returned an error code (1)
root\@debian:/var#

The first error below.

Adding group `yacy\’ (GID 265) ...
Done.
Adding system user `yacy\’ (UID 264) ...
Adding new user `yacy\’ (UID 264) with group `yacy\’ ...
Not creating home directory `/var/lib/yacy\‘.
Exception in thread \“main\” java.lang.UnsupportedClassVersionError: net/yacy/cora/order/Base64Order : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:643)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:277)
at java.net.URLClassLoader.access\$000(URLClassLoader.java:73)
at java.net.URLClassLoader\$1.run(URLClassLoader.java:212)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:205)
at java.lang.ClassLoader.loadClass(ClassLoader.java:323)
at sun.misc.Launcher\$AppClassLoader.loadClass(Launcher.java:294)
at java.lang.ClassLoader.loadClass(ClassLoader.java:268)
Could not find the main class: net.yacy.cora.order.Base64Order. Program will exit.
dpkg: error processing yacy (--configure):
subprocess installed post-installation script returned error exit status 1
Errors were encountered while processing:
yacy
E: Sub-process /usr/bin/dpkg returned an error code (1)
root\@debian:/var#

What am I doing wrong?

Statistik: Verfasst von smokingwheels — Do Apr 02, 2015 2:45 am


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-02 17:39:50

I think this isn\’t a yacy topic, because yacy has no control over page titles.

If you only check the page titles shown in result list, then you are right, if you talk about duplicates. But yacy (and any other search engine/crawler) is using the real url as the unique identifier for a search result.

As you can see in your result list the page title is the same, but url itself differs from result to result:

\ Title: Flash Memory - Buy Card \....\ Url: [http://www.misco.it/Cat/Fotografia-e-Vi \... orie-Flash](http://www.misco.it/Cat/Fotografia-e-Videocamere/Memorie-Flash){.postlink}?[Viewtype=list]{style="font-weight: bold"}\


\ Title: Flash Memory - Buy Card \....\ Url: [http://www.misco.it/Cat/Fotografia-e-Vi \... orie-Flash](http://www.misco.it/Cat/Fotografia-e-Videocamere/Memorie-Flash){.postlink}?[InStock=True]{style="font-weight: bold"}\

\ Title: Flash Memory - Buy Card \....\ Url: [http://www.misco.it/Cat/Fotografia-e-Vi \... orie-Flash](http://www.misco.it/Cat/Fotografia-e-Videocamere/Memorie-Flash){.postlink}?[Viewtype=gallery]{style="font-weight: bold"}\



To clear the results in the yacy way, you can do one of the following:

[Blacklist]{style=“text-decoration: underline”}
Decide if you want results with the parameter Viewtype in your index. To block such urls you can create a black list entry like (not tested) .*Viewtype=.* or something like that.

[Dynamic urls]{style=“text-decoration: underline”}
decide if you want to have dynamic urls crawled or not.

Hope it helps to clarify the \“duplicates\” topic. :)

Statistik: Verfasst von freak — Do Apr 02, 2015 4:39 pm


Fragen und Antworten • Suchanfragen

Date: 2015-04-03 05:13:52

Folgendes Phänomen: Suchanfrage im Robinson Modus:
1. Suche angeblich Null Ergebnisse
2. Suche selbe Suchwort 167
3. Umschalten in Peer-2-Peer
4. Ergebnisse 167 local + 10 remote
5. Zurück in den Robinson
6. Jetzt nur noch 99 lokale Ergebnisse
7. Nächster Versuch 170
8. Nächster Versuch wieder 99

Da stimmt doch etwas gewaltig nicht zwischen Datenbank Engine und der Javaapplikation?

Statistik: Verfasst von Micki — Fr Apr 03, 2015 4:13 am


English • Re: User poll: feasible, but missing feature?

Date: 2015-04-03 13:39:42

Like oyvinds said. Yacy needs to be able to actually search stuff. Whenever I search something even after crawling the site I want yacy still returns a bunch of junk.

Statistik: Verfasst von Winter_fox — Fr Apr 03, 2015 12:39 pm


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-03 13:44:01

I think google solves this buy not showing multiple pages from the same domain on the same page.

Statistik: Verfasst von Winter_fox — Fr Apr 03, 2015 12:44 pm


Fragen und Antworten • Re: Indexing Cache

Date: 2015-04-03 18:28:18

Should be fixed with version 1.83009118.

Statistik: Verfasst von otter — Fr Apr 03, 2015 5:28 pm


Hilfe für Einsteiger und Anwender • IP V6 - V4

Date: 2015-04-04 09:00:25

Wie bring ich Yacy unter Win2012 bei daß er von Außen unter unter IP V4 erreichbar ist und nicht unter IP v6?

Host: [2001:0:5ef5:79fb:386f:e45e:a7b0:79a6]:8090
Öffentliche Adresse:

YaCy Adresse: http://_de_hub-24992286-78.yacy

Statistik: Verfasst von Micki — Sa Apr 04, 2015 8:00 am


YaCy Coding & Architektur • Re: IPv6

Date: 2015-04-04 09:25:35

Gibt es denn schon eine Möglichkeit Yacy auf IP V4 zu \“zwingen\“? Sprich zu sagen bitte die 4er IP verwenden?

Statistik: Verfasst von Micki — Sa Apr 04, 2015 8:25 am


Fragen und Antworten • solr-Cloud

Date: 2015-04-05 01:32:48

Hallo,

Ich bin die Tage dabei, die Trennung der Yacy-Engine mit der Datenbank solr praktisch zu testen, um die Performanceansprüche der beiden Systeme besser auf verschiedene Hardware aufzuteilen. Mir geht es vor allem darum, eine Yacy-Installation als Fenster für das Netzwerk rund um die Uhr offen zu halten (Low-Power), während ein anderes System zeitweilig das Crowling und Indexieren übernimmt. Solr soll sich für beide Systeme auf leistungsfähiger Hardware im Hintergrund halten.

Bei der solr-Datenbank bin ich mir mir nicht sicher: Benötige ich für diese Konfiguration ein einfaches Interfache http://..../solr0, auf das ich mit dem Crawl-Yacy (Schreibzugriff) und dem Yacy-Suchportal (nur Anfragen, Lesezugriff) zugreife, oder muss hierfür eine Solr-Cloud eingerichtet werden und das Yacy für die Suche muss auf (z.B.) http://.../solr0 zugreifen, während das Yacy mit Crawl-Aufträgen auf http://.../solr1 zugreifen muss.

Ich möchte mich nicht erst in die Details der Systeme einarbeiten, sondern sie einfach sinnvoll nutzen. Die EInrichtung habe ich entsprechend den veröffentlichten Beschreibungen getestet. Meine Frage ist: Brauch ich in dieser Konfiguration eine solr-Cloud mt /solr0, /solr1... , oder können beide Systeme über das Interface http://.../solr0 zugreifen?

Nach meine Learning-by-doing-Versuchen zeigt sich, dass bei einer solr-Cloud die Datenbank zwischen http://.../solr0 von der mit Zugriff über http://...solr1 unterscheidet. Demnach müsste alle Systeme, die die gleiche solr-Datenbank nutzen über (z.B.) http://.../solr0 zugreifen. Oder ?

Viele Grüße
Frank

Statistik: Verfasst von fherb — So Apr 05, 2015 12:32 am


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-05 01:49:46

Also, meinen Versuchen nach, müssen sich das Crawling-Yacy und das Yacy, was rund um die Uhr als Such-Interface zu freeworld.unit arbeitet auf das gleiche Interface, z.B. .../solr0 verbinden. Wozu ist dann die cloud sinnvoll?

Statistik: Verfasst von fherb — So Apr 05, 2015 12:49 am


Fragen und Antworten • Nur max 10 Suchseiten?

Date: 2015-04-05 12:41:52

Hallo, folgendes wenn ich zb 2000 Such ergebnisse habe in der Web suche kann ich immer nur bis Seite 10 mir die Such ergebnisse anschauen.
Also wenn ich jetzt maximal 100 Ergebnisse pro such seite eingestellt habe komme ich nur bis Such Seite 10 und kann mir quassi nur die hälfte der Ergebnisse anschauen. Weiter geht es nicht,
auch nicht mit dem vorwärts button.
MfG

Statistik: Verfasst von tester22 — So Apr 05, 2015 11:41 am


YaCy Coding & Architektur • Re: IPv6

Date: 2015-04-05 18:28:37

-djava.net.preferipv4stack=true in der StartYaCy.bat

Statistik: Verfasst von LA_FORGE — So Apr 05, 2015 5:28 pm


English • Re: java.lang.OutOfMemoryError: unable to create new native

Date: 2015-04-06 10:52:50

davide hat geschrieben:\ From ./DATA/SETTINGS/yacy.conf\ \ Code: : `javastart_Xmx=Xmx2500mjavastart_Xms=Xms200m` \ \ These configs were already in place at the time of the crash. These should be close to the upper limit for 32 bit hardware.\



Linux 32 bit should be able to have 4gb Java memory but windows uses double overhead process and it maxes out at 1.6 GB and crashes.
There is a topic some where on here I will see if I can find it.

If you are running Linux Set your crawl running and try logging the system processes eg top > system.txt with ctrl-c to end it after the yacy server crashes.

It looks like you copied a windows yacy to Linux please let us know if this is true?
Should work but would need more experienced person to let me know.

If on a Virtual machine you must enable a swap file yacy will work for a little while without one.
https://www.digitalocean.com/community/ ... e-on-a-vps{.postlink}

Statistik: Verfasst von smokingwheels — Mo Apr 06, 2015 9:52 am


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-06 11:11:28

Interesting. I have similar problem with Twitter showing in many languages and no way to limit it.
Maybe have a delimiter character in the url string when you do a crawl eg cut short the URL or process on the peer later on.

Why don\’t you log a report for a Wishlist http://mantis.tokeek.de/my_view_page.php

Statistik: Verfasst von smokingwheels — Mo Apr 06, 2015 10:11 am


English • Re: User poll: feasible, but missing feature?

Date: 2015-04-06 11:25:01

Winter\_fox hat geschrieben:\ Yacy needs to be able to actually search stuff. Whenever I search something even after crawling the site I want yacy still returns a bunch of junk.\



Have you tried the /date option or button. Try * /date you will see what you have crawled.

Statistik: Verfasst von smokingwheels — Mo Apr 06, 2015 10:25 am


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-06 13:02:35

\ I have similar problem with Twitter showing in many languages\



Twitter has the annoying habit of sending a page in the language that is specified in the \“Accept-Language\” request-header. Which means that if you crawl the same Twitter-URL with different languages listed in the accept-language request-header, you will get different results.

This may be nice if a page is requested with an actual browser, but can be really confusing if you do this with a crawler.

Statistik: Verfasst von MikeS — Mo Apr 06, 2015 12:02 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-04-06 18:52:16

Vielen Dank.

Code:
20688 yacy      39  19  107m  11m  644 R 100.3  0.0  56833:20 gs19151 yacy      39  19  107m  11m  644 R 100.0  0.0  56843:51 gs21014 yacy      39  19  107m  11m  644 R 100.0  0.0  56831:13 gs21542 yacy      39  19  107m  11m  644 R 100.0  0.0  56827:19 gs



:D ich bin schon seit fast 2 Wochen auf Spurensuche, warum mein Hauptpeer lediglich die Crawler-Queue füllt aber nicht abarbeitet, wenn ich einen Crawl mit einer HTML-Datei aus dem lokalen Dateisystem starte. Gerade habe ich unter dem Useraccount yacy (Hier läuft schon seit über 2 Wochen keine Yacy-Instanz mehr) 4 x Prozesse von Ghostscript gefunden, die im Deadlock hingen. Kaum habe ich killall -9 gs gemacht, legt der Crawler der YaCy-Instanz die unter einem anderem Benutzerkonto (nämlich yacy2) läuft sofort los. Woran könnte das liegen?

Statistik: Verfasst von LA_FORGE — Mo Apr 06, 2015 5:52 pm


Hilfe für Einsteiger und Anwender • Re: IP V6 - V4

Date: 2015-04-06 19:47:38

Hast du eine feste IP und/oder einen festen (Dyn)DNS-Namen?

Statistik: Verfasst von LA_FORGE — Mo Apr 06, 2015 6:47 pm


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-07 14:18:56

MikeS hat geschrieben:\ >
> > I have similar problem with Twitter showing in many languages\ > >



Twitter has the annoying habit of sending a page in the language that is specified in the \“Accept-Language\” request-header. Which means that if you crawl the same Twitter-URL with different languages listed in the accept-language request-header, you will get different results.

This may be nice if a page is requested with an actual browser, but can be really confusing if you do this with a crawler.



There is a much better scraper for Twitter now but I not going to share my peer to the yacy network because my VM runs out of space every 2 days.
Its http://loklak.org using RSS feeds into yacy or a reader.

Statistik: Verfasst von smokingwheels — Di Apr 07, 2015 1:18 pm


Hilfe für Einsteiger und Anwender • yacybot indexing my own data?

Date: 2015-04-07 16:57:18

Hi,
Is Yacy indexing my own data?

I\’m not an expert, but that\’s the impression I got from this Apache log:

Code:
localhost:80 127.0.0.1 - - [07/Apr/2015:09:15:36 -0300] "POST /yacy/query.html HTTP/1.1" 404 377 "-" "yacybot (/global; amd64 Linux 3.13.0-48-generic; java 1.7.0_75; America/en) http://yacy.net/bot.html"

Statistik: Verfasst von oneaty — Di Apr 07, 2015 3:57 pm


Presse • Re: Blog-Sammel-Thread

Date: 2015-04-07 17:44:30

Videointerview über Yaci am Chemnitzer Linuxtag 2015:
http://spielend-programmieren.at/blog/2 ... clt15.html{.postlink}

Statistik: Verfasst von horstjens — Di Apr 07, 2015 4:44 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-07 18:58:01

Hi,

no, it\’s trying to contact another YaCy instance at this hostname/IP-Adress. The

Code:
POST /yacy/query.html


is specific for YaCy <=> YaCy communication.

Greetings from germany

Steve

Statistik: Verfasst von LA_FORGE — Di Apr 07, 2015 5:58 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-07 20:18:11

Thanks for the quick answer, Steve.

But I don\’t have another Yacy instance running on my network. Keep note that my only Yacy instance runs 24 x 7 and this is the first time I get this kind of entry in Apache (well, since I started monitoring Apache, which is since some 5 days ago). Shouldn\’t Apache be logging this attempt all the time?

Also, I don\’t understand two things from that entry.

Why is it on port 80 if my Yacy instance is listening to another port?

And what is this url http://yacy.net/bot.html referenced in that log entry about?

Browsing that url shows some instructions as to how to avoid yacybot to crawl \“my website\“. But what website exactly is this talking about? My Yacy peer?

Statistik: Verfasst von oneaty — Di Apr 07, 2015 7:18 pm


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-08 01:55:46

Seit einigen Tagen läuft nun die Cloud. Die erste Annahme war falsch: Es dauert manchmal einige Zeit, bis die richtigen Werte im Status zu finden sind. Die einzelnen YaCy liegen jetzt auf den Ports solr0, solr1, ... Dann funktioniert es.

Wie ich gesehen habe, scheint in [[freeworld]{style=“font-weight: bold”}]{style=“font-style: italic”} niemand solch eine Konfiguration zu fahren.

Für YaCy auf Low-Power-Plattformen scheint das aber eine Lösung zu sein: Solr gehört auf ein leistungsfähigeres System als Yacy. Mit so einer Zweiteilung verhakt sich YaCy nicht.

Ich hab in den letzten 2 12 Jahren YaCy mehrfach auf Low-Power-Plattformen getestet (RasPi, RasPi2, CubieTruck, virtuelle Maschienen auf Intel mit eingeschränkter Zuweisung auf den Prozessor: Weniger Kerne, geringere Leistung).


Der Leistungsabgleich erfolgt so, dass das Crawling in YaCy anfangs recht niedrig eingestellt wird (in der Regel weit unter 60 Pages/min). Solr auf der anderen Plattform wird beobachtet: Die Prozessorlast sollte gering sein. In den Folgetagen kann man dann das Crawling leicht erhöhen. 1 Seite pro Sekunde ist in meinem Fall ok. Ob mehr geht, probiere ich in den nächsten Tagen aus.

Das Problem mit Sol tritt immer dann auf, wenn Solr nicht hinterher kommt und YaCy Timeouts verzeichnet (wird in den Logs angezeigt). Ab diesem Zeitpunkt SCHEINT YaCy alle Solr-Zugriffe zu cachen: Der Speicher wächst, bis die Engine das Crawlen abschaltet. YaCy reagiert nicht mehr prompt. Und es dauert nur noch wenige Neustarts, bis YaCy neu aufgesetzt werden muss, weil gar nichts mehr geht. -- Das ist eine Vermutung. Ich hab mich nicht in den Quellcode von YaCy eingearbeitet. -- Eine Vermutung aus wiederholt gleichartigen Beobachtungen.

Das alles scheint nicht zu passieren, wenn solr grundsätzlich performanter als YaCy arbeitet. Deshalb die derzeitige Empfehlung, dieses Gleichgewicht über die Wahl der Hardware herzustellen.

Beste Grüße
Frank

Statistik: Verfasst von fherb — Mi Apr 08, 2015 12:55 am


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-08 14:41:09

>>> Shouldn\’t Apache be logging this attempt all the time?

definitely!

>>> Why is it on port 80 if my Yacy instance is listening to another port?

Maybe it\’s a bug. I\’ve seen these connections in some of my logfiles too, although my YaCy-Instance is running on Port 6070.

>>> Browsing that url shows some instructions as to how to avoid yacybot to crawl \“my website\“. But what website exactly is this talking about? My Yacy peer?

Exactly - It\’s some informational content on that page for those who don\’t know YaCy and how to stop the Bot crawling your pages.

Statistik: Verfasst von LA_FORGE — Mi Apr 08, 2015 1:41 pm


Fragen und Antworten • Kein Zugriff über gitorious mehr möglich - stattdessen:

Date: 2015-04-08 15:35:40

Bisher waren aktuelle Yacy-Builds über git://git://gitorious.org/yacy/rc1.git herunterzuladen.

gitorius ist jedoch von gitlab aufgekauft worden, die obige Adresse zeigt die Meldung: \“System notice: Gitorious is being acquired by GitLab and gitorious.org will shut down end of May 2015. Please import your repositories to GitLab.com\“.
Bei mir funktionierte auch Update über die GUI deswegen seit zwei Monaten nicht mehr.

Die nun (201503) gültige, neue Adresse für Builds ist: https://github.com/yacy/yacy_search_server.git
Aus Gründen, die ich noch nicht verstehe, kann ich darüber jedoch offenbar nur eine veraltete Version herunterladen (1.81 vom 201501).
Für die GUI, die auch auf neuere Updates zugreifen kann, war deshalb auch noch die htroot/ConfigUpdate_p.html entsprechend anzupassen:

<dt><br />Available Releases (<a href=\“https://gitorious.org/yacy/rc1/commits/master" target=\”_blank\”>changelog</a> and <a href=\“https://gitorious.org/yacy/rc1/commits/master/feed.atom" target=\”_blank\”><img width=\“16\” height=\“16\” src=\“env/grafics/rss.png\”> RSS feed</a>)</dt>

ist zu ersetzen mit:

<dt><br />Available Releases (<a href=\“https://github.com/yacy/yacy_search_server/commits/master" target=\”_blank\”>changelog</a> and <a href=\“https://github.com/yacy/yacy_search_server/commits/master.atom" target=\”_blank\”><img width=\“16\” height=\“16\” src=\“env/grafics/rss.png\”> RSS feed</a>)</dt>


Übrigens, das Tutorial unter http://www.yacy-websearch.net/wiki/inde ... ailability{.postlink} sollte noch entsprechend angepasst werden!


Viele Grüsse ... ;-)

Statistik: Verfasst von Cajun — Mi Apr 08, 2015 2:35 pm


Fragen und Antworten • Re: Nur max 10 Suchseiten?

Date: 2015-04-08 18:33:05

Ein ähnliche Beobachtung machte ich auch: Max. 10 SERP\’s zeigten bei meinen Tests Treffer, egal ob jeweils 10 oder 100 Treffer pro SERP angefordert werden. Und die Suche wird mit höheren Seitenzahlen zudem deutlich langsamer ...

Erstaunlich mühselig, überhaupt Informationen dazu im Web zu finden. Das Problem scheint nicht mit der Anzahl abrufbarer SERP\’s, sondern mit der Eigenschaft von SOLR zu zu tun zu haben, keine relationale Datenbank zu sein. SOLR\’s eigentlicher Job ist es nicht, alles wiederzugeben, sondern die Ergebnisse zu gewichten und dann nur relevantesten Ergebnisse wiederzugeben.

Was u.a. dazu führt, dass im folgenden Beispiel maximal 5000 Treffer auf der ersten SERP scheinbar (d.h., lt. Treffer-Anzahl-Anzeige) angezeigt werden. Tatsächlich sind es jedoch nur etwa 100. Auf der zweiten SERP gar keine mehr. Und sowieso werden die hinteren Treffer langsamer angezeigt. Obwohl die abgefragte Gesamt-Treffermenge deutlich im 5-stelligen Bereich liegt. Es scheint demnach tatsächlich ein Limit maximal anzeigbarer Treffer für eine Anfrage zu geben, welche in Abhängigkeit von maximumRecords Einstellung zudem zu variieren scheint.

Für die o.g. Tests veränderte ich die Einstellung des Parameters \“maximumRecords=10000\” (in der der URL).

Statistik: Verfasst von Cajun — Mi Apr 08, 2015 5:33 pm


Fragen und Antworten • Re: YaCy nach hat Update keine Funktion

Date: 2015-04-08 19:28:01

Aus eigener, leidvoller Erfahrung:

YaCy und SOLR unbedingt trennen!!!

SOLR läuft bei mir nun seit etwa einem Jahr unter Tomcat auf eigenen Servern. Das funktionierte übrigens testweise auch mit virtuellen Servern, ich habe sie aber inzwischen in FreeBSD jails verfrachtet, weil die sehr viel schonender mit den Resourcen umgehen.

Geeignete Tutorials (für debian/ubuntu) finden sich im YaCy Dev-Wiki.

Seitdem traten vergleichbare, ich vermute: eine Kombination aus JVM garbage-collection-, jetty-leakage- sowie YaCy-clean-up Problemen, seeehr viel seltener auf. Und SOLR läuft darüber echt stabil.

Hat noch weitere Vorteile: die Daten bleiben selbst nach kompletten YaCy-Reinstallationen erhalten. Und die YaCy-Maschine(n) können, im Gegensatz zu SOLR, gut und einfach auf schwächere Server ausgelagert werden.

Diese Strategie hat aber auch ihren Preis, der nicht unerwähnt bleiben soll: die meisten der in die YaCy-GUI eingebauten Tools zum Management des Indexes (Löschen, ReIndexing, etc) funktionieren nur für den eingebauten SOLR. Solches muss nun mit Hilfe der SOLR-Dokumentation und zu Fuss gemanaged werden. Verstehe noch nicht, warum. Aber so isses halt.

Statistik: Verfasst von Cajun — Mi Apr 08, 2015 6:28 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-04-09 14:49:18

weil gitorious gerade wieder zickt: ich switche nun auf github und deploye von dort: https://github.com/yacy/yacy_search_server

Wer ein anderes git repository benutzen will, kann das ja machen. merge requests von anderen repositories nehme ich gerne an.

Ich bitte nun alle Entwickler aus https://gitorious.org/+yacy-developers sich in github anzumelden, damit ich sie in https://github.com/orgs/yacy/teams/yacy_developers eintragen kann. Zur Erinnerung: dies sind die Entwickler aus gitorious:
gitorious_yacy_developer.gif

Statistik: Verfasst von Orbiter — Do Apr 09, 2015 1:49 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-04-09 14:57:39

GitHub ist in letzter Zeit durch Probleme aller Art aufgefallen. Vielleicht mal BitBucket im Auge behalten? ;-)

Statistik: Verfasst von OhSoLow — Do Apr 09, 2015 1:57 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-09 23:44:18

When I ask my Yacy instance to crawl someone\’s website, wouldn\’t it try to do that on that host\’s port 80? That host has probably nothing to do with Yacy, and it probably listens to the standard port 80.

According to this, that Apache log entry would be the result of someone else\’s Yacy instance crawling \“my website\“.

But... what website?

Although I recently created a website - it has only a week - it is still not public, in the sense that not even Google, who knows everything, has already indexed it, neither do I advertised it in whatever means, just I and two persons know about it for testing purposes. Besides, it is not even listening to port 80.

So, this yacybot log entry is still puzzling me: who was trying to crawl my host and why?

Statistik: Verfasst von oneaty — Do Apr 09, 2015 10:44 pm


YaCy Coding & Architektur • DublinCore parsing error

Date: 2015-04-10 13:30:50

Hi,

ich bekomme beim Importieren von DublinCore konformen XMLs bei speziellen Zeichen im URL eine SAXParseException:

Code:
W 2015/04/10 10:25:32 ConcurrentLog org.xml.sax.SAXParseException; lineNumber: 8; columnNumber: 109; The reference to entity "expand_cid" must end with the ';' delimiter.org.xml.sax.SAXParseException; lineNumber: 8; columnNumber: 109; The reference to entity "expand_cid" must end with the ';' delimiter.   at org.apache.xerces.util.ErrorHandlerWrapper.createSAXParseException(Unknown Source)   at org.apache.xerces.util.ErrorHandlerWrapper.fatalError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLScanner.reportFatalError(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanEntityReference(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)   at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)   at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)   at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)   at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)   at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source)   at org.apache.xerces.jaxp.SAXParserImpl.parse(Unknown Source)   at net.yacy.document.content.SurrogateReader.run(SurrogateReader.java:114)   at java.lang.Thread.run(Unknown Source)



Damit korrespondierendes XML-File:

Code:
<?xml version="1.0" encoding="utf-8"?><!-- YaCy surrogate file using dublin core notation --><surrogates xmlns:dc="http://purl.org/dc/elements/1.1/">  <record> <dc:creator></dc:creator>    <dc:Title><![CDATA[Kleinanzeigen - Berlin.de]]></dc:Title>    <dc:Identifier>http://www.berlin.de/special/kleinanzeigen/results.php%3Fcid=91&amp;&expand_cid=161&amp;&searchloc=Berlin&amp;&searchterms=&amp;&sort=D&amp;&p=35</dc:Identifier><dc:Description></dc:Description>   <dc:Language>de</dc:Language>   <dc:Date>2015-04-14T00:00:00Z</dc:Date> <!-- date is in ISO 8601 --> </record> </surrogates>



Code:
W 2015/04/10 10:25:11 ConcurrentLog org.xml.sax.SAXParseException; lineNumber: 8; columnNumber: 97; The reference to entity "repl2" must end with the ';' delimiter.org.xml.sax.SAXParseException; lineNumber: 8; columnNumber: 97; The reference to entity "repl2" must end with the ';' delimiter.   at org.apache.xerces.util.ErrorHandlerWrapper.createSAXParseException(Unknown Source)   at org.apache.xerces.util.ErrorHandlerWrapper.fatalError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source)   at org.apache.xerces.impl.XMLScanner.reportFatalError(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanEntityReference(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)   at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)   at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)   at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)   at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)   at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)   at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source)   at org.apache.xerces.jaxp.SAXParserImpl.parse(Unknown Source)   at net.yacy.document.content.SurrogateReader.run(SurrogateReader.java:114)   at java.lang.Thread.run(Unknown Source)



Damit korrespondierendes XML-File:

Code:
<?xml version="1.0" encoding="utf-8"?><!-- YaCy surrogate file using dublin core notation --><surrogates xmlns:dc="http://purl.org/dc/elements/1.1/">  <record> <dc:creator></dc:creator>    <dc:Title><![CDATA[America (Packet, 1917-1930)]]></dc:Title>    <dc:Identifier>http://digital.library.wisc.edu/1711.dl/SSRecIDSearch%3Frepl1=LaCrosseSteamboat&amp;&repl2=LaCrosseSteamboat.steam00722.bib</dc:Identifier><dc:Description></dc:Description>   <dc:Language>de</dc:Language>   <dc:Date>2015-04-14T00:00:00Z</dc:Date> <!-- date is in ISO 8601 --> </record> </surrogates>




Kann man da evtl. was machen um diese URLs trotzdem zu importieren?


Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Fr Apr 10, 2015 12:30 pm


Fragen und Antworten • kein Zugriff mit URL aber direkt mit IP möglich

Date: 2015-04-10 14:24:55

Hallo,
ich möchte [aus dem Internet auf meinen YaCy-Server zugreifen]{style=“font-weight: bold”}. In der [Fritzbox]{style=“font-weight: bold”} habe ich eine Weiterleitung für die Ports [8090]{style=“font-weight: bold”} und [8443]{style=“font-weight: bold”} eingestellt.
[[Ich kann nur auf die YaCy-Suchseite zugreifen, wenn ich direkt die IP-Adresse angebe. Nehme ich die URL bekomme ich eine Standartseite. ]{style=“text-decoration: underline”}]{style=“font-weight: bold”}

>>> Versuche ich [[mit der URL auf den Server]{style=“text-decoration: underline”}]{style=“font-weight: bold”} zuzugreifen bekomme ich [[nur eine Standardstartseite]{style=“text-decoration: underline”}]{style=“font-weight: bold”}.

https://myyacy.spdns.org:8443/

[It works!
This is the default web page for this server.
The web server software is running but no content has been added, yet.]{style=“font-style: italic”}

>>> Neheme ich aber [[direkt die IP-Adresse funktioniert es einwandfrei]{style=“text-decoration: underline”}]{style=“font-weight: bold”}.

[~\$ ping myyacy.spdns.org
PING myyacy.spdns.org (87.212.108.97) 56(84) bytes of data.
64 bytes from 55ff6c60.access.ecotel.net (87.212.108.97): icmp_seq=1 ttl=52 time=73.4 ms
\^C]{style=“font-style: italic”}

https://87.212.108.97:8443/

danach werde ich nach Kennung und Passwort gefragt und ich bekomme meine YaCy-Suchseite angezeigt.

Bin mit meinem Latein am Ende. Kann mir den Fehler nicht erklären.
Gruß und Dank im Voraus für jeden Tipp.
enero99

Statistik: Verfasst von enero99 — Fr Apr 10, 2015 1:24 pm


YaCy Coding & Architektur • Re: DublinCore parsing error

Date: 2015-04-10 18:09:34

Ja, kannst du. Ist ganz einfach:

Bilde die Sonderzeichen einfach HTML-konform ab: Aus & wird & und aus = wird &#61; so einfach ist das.

Statistik: Verfasst von LA_FORGE — Fr Apr 10, 2015 5:09 pm


Hilfe für Einsteiger und Anwender • closed port 8091(8090)

Date: 2015-04-10 19:30:44

Hello. There are 1 computer ( nginx+varnish )and 2 PC ( apache2 ) .

The server response is 200 Ok. But the search page doesn\’t open ( server not available )

Code:
You cannot be reached from outside. A possible reason is that you are behind a firewall, NAT or Router. But you can search the internet using the other peers' global index on your own search page. We encourage you to open your firewall for the port you configured (usually: 8090), or to set up a 'virtual server' in your router settings (often called DMZ). Please be fair, contribute your own index to the global index.

Jetty listens on port 8091. apache 80.
it Is possible to make visible the port 8091, but something he would have remained behind the gateway?
on the search page:

Code:
<iframe name="target"       src="http://***.***.***.***:8091/index.html?display=2&resource=local"       width="100%"       height="410"       frameborder="0"       scrolling="auto"       id="target">       </iframe> 



-------------------------
-------------------------
I\’m so sorry. Solution:

Code:
<VirtualHost *:80> ServerName site.com  <Proxy *>    Order deny,allow    Allow from all  </Proxy>  ProxyPass / http://local_ip2:8091/  ProxyPassReverse / http://local_ip2:8091/  ErrorLog /var/log/apache2/ts_error_log  CustomLog /var/log/apache2/ts_log common</VirtualHost>

Code:
sudo a2enmod proxy,  sudo a2enmod proxy_http,  service apache2 restart


only now the display is not correct:
Bild

Statistik: Verfasst von mass — Fr Apr 10, 2015 6:30 pm


English • Re: Install Yacy in more than on servers

Date: 2015-04-11 13:04:35

to run several YaCy servers on the same domain you just need to configure different ports for them.
Either change the port attribute in default/yacy.init before you start YaCy the first time or change the port in the basic configuration page after the start.

But you don\’t need several YaCy instances if you want to start several crawls. Just start several Crawls on the same YaCy instance, they will run concurrently.

Statistik: Verfasst von Orbiter — Sa Apr 11, 2015 12:04 pm


Fragen und Antworten • Re: kein Zugriff mit URL aber direkt mit IP möglich

Date: 2015-04-11 16:03:34

Hi,

trage einfach unter http://localhost:8090/Settings_p.html?page=ServerAccess unter \‘StaticIP\’ folgendes ein: myyacy.spdns.org und drücke auf \‘Submit*.

Gruß

LA_FORGE

Statistik: Verfasst von LA_FORGE — Sa Apr 11, 2015 3:03 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-11 16:12:39

Look for the IP-Adress in your Apache Log where the traffic originates from. 127.0.0.1 :-)

It\’s definitely your own Machine unless you are using port forwarding tools who don\’t hand over the original IP-Adress from the source such as rinetd or WinGate in Non-NAT mode.

Statistik: Verfasst von LA_FORGE — Sa Apr 11, 2015 3:12 pm


Fragen und Antworten • Re: kein Zugriff mit URL aber direkt mit IP möglich

Date: 2015-04-11 20:16:32

Hallo LA_FORGE,
Danke für die Hilfe.
[[Es funktioniert!]{style=“font-style: italic”}]{style=“font-weight: bold”}
Gruß
enero99

Statistik: Verfasst von enero99 — Sa Apr 11, 2015 7:16 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-11 21:37:36

:shock: You\’re right, I haven\’t noticed that, I\’m still getting used to Apache...

So, my own Yacy instance is crawling my own network?

Is there somewhere where I can learn more about this feature?

I want to know how to configure or even disable it, and how deep it goes within the network.

Statistik: Verfasst von oneaty — Sa Apr 11, 2015 8:37 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-11 23:38:56

I believe it\’s a bug. Feel free to open a ticket at our Bugtracker{.postlink}

Statistik: Verfasst von LA_FORGE — Sa Apr 11, 2015 10:38 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2015-04-12 10:24:26

Orbiter hat geschrieben:\ bei mir ist da Knock-Out Kriterium ja immer auch die Verfügbarkeit auf meinen nun 9 Jahre alten schwarzen Macbook.. oder ich muss mal ein neues kaufen.\



Ist das noch mit PowerPC Prozzi (Motorola)? Ich habe es tatsächlich geschafft die Java 7 JRE auf meinem iMac G5 zu bauen und es läuft einwandfrei. Java 8 werde ich vllt. bald mal in Angriff nehmen. Und wenns nichts wird unter OS X kann man ja immer noch Ubuntu booten (es gibt auch eine PowerPC-Version davon) und da sollte sich Java 8 auf jeden Fall installieren lassen.

Statistik: Verfasst von LA_FORGE — So Apr 12, 2015 9:24 am


Solr Support • Solr Datendateien

Date: 2015-04-12 10:30:12

Hi,

was würde eigentlich passieren, wenn ich 2 Datendatei-Verzeichnisse von Solr, die beide das gleiche Schema verwenden, einfach zusammen in ein Verzeichnis kopiere? Ich bin nämlich momentan zu faul die Anleitung{.postlink} in die Tat umzusetzen :P

VG

Stefan

Statistik: Verfasst von LA_FORGE — So Apr 12, 2015 9:30 am


English • Re: Install Yacy in more than on servers

Date: 2015-04-12 21:03:14

Thank you very much for your answer.
And how do they \“communicate\“? What settings (except the port, mentioned before) do i have to do so the first installation \“understand\” that has to \“communicate\” with other instances?

Statistik: Verfasst von Vasnet7 — So Apr 12, 2015 8:03 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-04-12 21:10:45

http://www.cbr900.de/fireblade_forum/in ... ID=1262856{.postlink}

Statistik: Verfasst von LA_FORGE — So Apr 12, 2015 8:10 pm


Mitmachen • Re: Linuxtage Chemnitz CLT2015 21.-22. März 2015

Date: 2015-04-13 09:19:43

Mittlerweile ist auch ein Video mit einem Interview mit Michael online: viewtopic.php?f=14&t=100&start=200#p31869{.postlink-local}

Statistik: Verfasst von Low012 — Mo Apr 13, 2015 8:19 am


English • Re: Adopt English for forum language

Date: 2015-04-13 10:25:04

I asked the owner of the English forum mentioned by Orbiter (http://www.yacy-forum.org) some time ago if it was OK for him if I moved the forum to my webspace to have more control (e.g. updates, plugins) and he agreed. Unfortunately I never found the time to make the dump (which he provided to me to) work and all I can do at the moment is to delete spam whenever I see it due to limited resources (mainly time) on my side.

I think if there was somebody who is willing to take over the English forum or at least to take good care of it, it could become a nice place again.

Statistik: Verfasst von Low012 — Mo Apr 13, 2015 9:25 am


Hilfe für Einsteiger und Anwender • YaCy als lokale Suchseite für PDF incl. Vorschau?

Date: 2015-04-13 13:04:36

Hallo *,

ich bin ganz neu hier und gerade durch ein wenig Internetrecherche auf YaCy aufmerksam geworden.
Was ich bisher gelesen habe, kommt dem was ich suche, schon recht nahe.

Ich betreibe einen root Ubuntu Server, auf dem ich eingescannte Dokumente per OCRmyPDF in indexierbare PDFs umwandle. Diese liegen auf einem entsprechenden Verzeichnis auf dem Server.
Als nächstes bin ich auf der Suche nach einer Software (webbasiert), die mir jetzt diese PDFs durchsucht und Treffer auflistet.
Ich möchte mir somit ein kleines, einfaches Dokumentenmanagement-System aufbauen.
Jetzt würde ich gerne YaCy dafür verwenden, diese PDFs zu indexieren und über die Suchmaske zu finden. Bis hier hin, glaube ich, ist noch alles ok.

Da die Dokumente aber leider keinen sprechenden Namen haben, sondern nur ihr Scandatum im Namen, wäre eine Vorschau der PDF Dateien super... bisher hab ich aber nichts gelesen, dass es das gibt.

Bin ich mit YaCy gut bedient, oder kennt evtl. jemand eine für meinen Zweck geeignete Lösung (speziell das Thema Vorschau)?

Danke vielmals!

Gruß,
Andy

Statistik: Verfasst von AndyMu — Mo Apr 13, 2015 12:04 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-13 15:34:35

LA\_FORGE hat geschrieben:\ Look for the IP-Adress in your Apache Log where the traffic originates from. 127.0.0.1 ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ \ It\'s definitely your own Machine unless you are using port forwarding tools who don\'t hand over the original IP-Adress from the source such as rinetd or WinGate in Non-NAT mode.\


I\’m not sure if it still originates from my machine.
By looking at Apache\’s modsecurity log, the entries regarding the same yacybot events refer to different hostnames.
For example,

954bbe540b813c9059.yacyh
af6eca1f9eeb987775.yacyh
a802157d2faa32b74d.yacyh

to name a few.

So, I repeat my question: what those hosts ( other yacy peers) are trying to do in my machine?

Statistik: Verfasst von oneaty — Mo Apr 13, 2015 2:34 pm


English • Incomplete Wiki !!

Date: 2015-04-13 16:50:41

Hi to all!

I\’m Reading about this: h t t p://www.yacy-websearch.net/wiki/index.p ... APICrawler{.postlink}
and I have noticed that the explanation in this wiki are incomplete :o !
Can someone of you describe the function of this unlisted parameters?

&createBookmark=on
&bookmarkFolder=/crawlStart
&crawlingIfOlderUnit=hour
&cachePolicy=iffresh
&crawlingIfOlderCheck=on&
bookmarkTitle=&
crawlingDomFilterDepth=1&
crawlingDomFilterCheck=on&
crawlingIfOlderNumber=1

Also can I have an example of Url command for Staring Crawler from: file, url list, and sitemap?
And finally, when i try to start a Crawl process with this kind of cUrl, the best result is a crawling action that only look for the single domain passed for start point (seems like that yacy was set for crawl with deep 1)!

PS
Is this wiki mainteined (last update 2013...)?
Because i can\’t find an \“official\” documentation and this lack can be very frustrating :x : !

Cheers!

Statistik: Verfasst von Slntswrd — Mo Apr 13, 2015 3:50 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-04-13 22:53:30

Hello everyone,

I\’m working on posting a writeup of last semester\’s effort; hopefully that will be up soon. Progress is continuing this semester.

Until then, a bit of interesting numbers.

As of the end of last semester, we were able to produce Solr ranking parameters which had a fitness score (measuring ability to learn ranking similarity to a given dataset) of 0.12 with a data sample of 300 search queries. We used Startpage results to train it (decentralized data gathering is still being worked on). For reference, Startpage would be 1.0 (since it matches itself perfectly), 0.0 would be random guessing, DuckDuckGo had a fitness of 0.47, and YaCy\’s default Solr ranking (without RWI) had a fitness of -0.006. So, basically, we\’ve closed about a quarter of the gap between YaCy\’s default Solr settings and DuckDuckGo in terms of ability to mimic Startpage (this will probably extrapolate to non-Startpage training data, although we don\’t have evidence of this yet).

We also demonstrated that a decentralized fitness calculation of YaCy Solr parameters does converge to a similar fitness (0.12) as a centralized calculation (0.13), but takes approximately 4 times as many generations (in the case of our very simplified test social graph) to achieve that fitness. We don\’t think this increased generation count is likely to be a problem in practical situations, but more research is needed before we can be confident of this.

We are very curious how the results are affected by doing RWI as well as Solr. Unfortunately, since RWI in YaCy doesn\’t yet support debugQuery output, we don\’t have the ability to get those results.

Hope this quenches your thirst for information on our efforts here, at least for now. I will try to post a more thorough writeup when I have a chance.

Cheers!

Statistik: Verfasst von biolizard89 — Mo Apr 13, 2015 9:53 pm


English • Re: Aggregate / Clear duplicate results

Date: 2015-04-13 23:14:15

Winter\_fox hat geschrieben:\ I think google solves this buy not showing multiple pages from the same domain on the same page.\



That sounds like an interesting approach. 2nd-level ICANN-approved domains are somewhat expensive, which acts as a rate limiter on spamming the same content across domains. 3rd-level domains on the same 2nd-level domain, however, are very cheap for the owner of that 2nd-level domain. Does Google require the 2nd-level domain to be unique?

I suppose another approach would be to use a similarity algorithm of the content in the Solr fields for the pages. For example, you could construct a float vector of words/phrases, and collapse groups that have a very high cosine similarity. This idea totally fails the KISS test compared to your approach, though.

Statistik: Verfasst von biolizard89 — Mo Apr 13, 2015 10:14 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-13 23:37:17

I believe that wiki is still maintained to some extent. I am also curious about those missing parameters; I was unaware of them.

Statistik: Verfasst von biolizard89 — Mo Apr 13, 2015 10:37 pm


English • Re: Adopt English for forum language

Date: 2015-04-16 05:30:30

I would be happy to learn and remove the spam from the English forum.
I have a very basic understanding of a PHP forum.
I run 4 of my own on IIS with windows (snitz forum) ASP based.
I have the time but can\’t host it anywhere.

Statistik: Verfasst von smokingwheels — Do Apr 16, 2015 4:30 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy-Index auf einen anderen Datenträger verlagern?

Date: 2015-04-17 00:32:40

Also, dieses Forum ist soetwas von besch..eiden. Wenn hier nicht bald brauchbare Antworten kommen werde ich meinen Server von YaCy befreien.

Statistik: Verfasst von bauhaus05 — Do Apr 16, 2015 11:32 pm


Hilfe für Einsteiger und Anwender • Re: Welche Rsesource muß ich erhöhen?

Date: 2015-04-17 00:40:22

Du mussst die CPU-Leistung vervielfachen, haha!

Statistik: Verfasst von bauhaus05 — Do Apr 16, 2015 11:40 pm


Off-Topic • Re: projectsearch.yacy.de

Date: 2015-04-17 00:53:53

Du musst alle Scripte freischalten!

Statistik: Verfasst von bauhaus05 — Do Apr 16, 2015 11:53 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-17 19:53:15

&createBookmark=on - creates a bookmark at /Bookmarks.html
&bookmarkFolder=/crawlStart - folder/tag to place the bookmark into

&crawlingIfOlderCheck=on
&crawlingIfOlderNumber=1
&crawlingIfOlderUnit=hour

These three are the same as Double-Check Rules in /CrawlStartExpert.html

&cachePolicy=iffresh - this is like Document Cache setting in /CrawlStartExpert.html and is used when &storeHTCache=on

I\’m not 100% sure about my knowledge but from my own understanding that\’s what these do.

As for different crawling modes:
&crawlingMode=url&crawlingURL=
&crawlingMode=sitelist&crawlingURL=
&crawlingMode=sitemap&sitemapURL=
&crawlingMode=file&crawlingfileURL=

Statistik: Verfasst von Scarfmonster — Fr Apr 17, 2015 6:53 pm


Fragen und Antworten • Re: Memory problems

Date: 2015-04-17 22:05:49

Not a direct answer to the last comments, but a general observation:

At least when run with OpenJDK, memory management seems to work better with v7 than with v6 (of OpenJDK).

On my old VPS, I had come to the limit where the database had grown so large that yacy wouldn\’t even start. As I had already planned to move to a larger VPS, I just stopped my node for a while. Shortly before I actually moved to the new VPS, I realized that I had still openjdk6 installed and moved to openjdk7.

With v7, yacy [did]{style=“font-style: italic”} start without problems. I didn\’t test if it lasted long at that time, but it was an unexpected improvement just by moving to the newer openjdk.

On my new VPS, I can now dedicate ~7 GB of RAM to yacy alone, so everything is working like a charm, of course. :-)

Statistik: Verfasst von zottel — Fr Apr 17, 2015 9:05 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-17 22:59:24

Scarfmonster hat geschrieben:\ &createBookmark=on - creates a bookmark at /Bookmarks.html\ &bookmarkFolder=/crawlStart - folder/tag to place the bookmark into\ \ &crawlingIfOlderCheck=on\ &crawlingIfOlderNumber=1\ &crawlingIfOlderUnit=hour\ \ These three are the same as Double-Check Rules in /CrawlStartExpert.html\ \ &cachePolicy=iffresh - this is like Document Cache setting in /CrawlStartExpert.html and is used when &storeHTCache=on\ \ I\'m not 100% sure about my knowledge but from my own understanding that\'s what these do.\ \ As for different crawling modes:\ &crawlingMode=url&crawlingURL=\ &crawlingMode=sitelist&crawlingURL=\ &crawlingMode=sitemap&sitemapURL=\ &crawlingMode=file&crawlingfileURL=\



How is crawlingIfOlderNumber different from reloadIfOlderNumber?

Statistik: Verfasst von biolizard89 — Fr Apr 17, 2015 9:59 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-18 01:41:07

biolizard89 hat geschrieben:\ >
> > Scarfmonster hat geschrieben:&createBookmark=on - creates a bookmark > at /Bookmarks.html\ > &bookmarkFolder=/crawlStart - folder/tag to place the bookmark into\ > \ > &crawlingIfOlderCheck=on\ > &crawlingIfOlderNumber=1\ > &crawlingIfOlderUnit=hour\ > \ > These three are the same as Double-Check Rules in > /CrawlStartExpert.html\ > \ > &cachePolicy=iffresh - this is like Document Cache setting in > /CrawlStartExpert.html and is used when &storeHTCache=on\ > \ > I\'m not 100% sure about my knowledge but from my own understanding > that\'s what these do.\ > \ > As for different crawling modes:\ > &crawlingMode=url&crawlingURL=\ > &crawlingMode=sitelist&crawlingURL=\ > &crawlingMode=sitemap&sitemapURL=\ > &crawlingMode=file&crawlingfileURL=\ > >



How is crawlingIfOlderNumber different from reloadIfOlderNumber?



Ah sorry, I think the crawlingIf... got renamed to reloadIf, so all of the above are reloadIfOlderCheck etc.

Statistik: Verfasst von Scarfmonster — Sa Apr 18, 2015 12:41 am


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-18 18:36:33

These addresses are used as an yacy-internal identifier and are not resolvable/reachable on the internet. The modsecurity module \“sees\” this kind of traffic because the YaCy P2P-Communication isn`t encrypted. I think the devs are on it to implement secure YaCy <=> YaCy communications in future releases.

I`m working as an security engineer and I\’m participating over 6 years in the YaCy Community. I`m able to assure that YaCy doesn\’t have any spy or phonehome features built in. When you sceptical about your security I recommend to install an intrusion detection system such as Snort.

Statistik: Verfasst von LA_FORGE — Sa Apr 18, 2015 5:36 pm


Hilfe für Einsteiger und Anwender • Re: Welche Rsesource muß ich erhöhen?

Date: 2015-04-18 18:39:39

Ich kenne das Problem aber nur wenn ich über längeren Zeitraum tiefschichtige, intensive Webcrawls mit über 800 PPM laufen habe. Sie dazu auch http://mantis.tokeek.de/view.php?id=479

Mit der v1.72 tritt das Problem nicht auf.

Statistik: Verfasst von LA_FORGE — Sa Apr 18, 2015 5:39 pm


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2015-04-19 06:16:59

Hi,

Is there any documentation on how exactly the RWI ranking calculations work? I dug through the source code and found the following:

https://github.com/yacy/yacy_search_ser ... .java#L215{.postlink}
https://github.com/yacy/yacy_search_ser ... java#L1054{.postlink}

I haven\’t found any details on the wiki, and the source code linked above is a bit difficult for me to read (although that\’s partially because I haven\’t done any serious Java coding in about 3-4 years). Is there any other source code that\’s relevant to the RWI ranking, and/or any wiki documentation on it?

Cheers,
-Jeremy

EDIT: Also found this one: https://github.com/yacy/yacy_search_ser ... java#L1392{.postlink}

Statistik: Verfasst von biolizard89 — So Apr 19, 2015 5:16 am


English • Re: User poll: feasible, but missing feature?

Date: 2015-04-19 14:27:02

A way to pause/unpause every crawl separately.

Statistik: Verfasst von sbolokanov — So Apr 19, 2015 1:27 pm


Hilfe für Einsteiger und Anwender • Re: Welche Rsesource muß ich erhöhen?

Date: 2015-04-19 15:33:52

LA\_FORGE hat geschrieben:\ Mit der v1.72 tritt das Problem nicht auf.\


Aber mit der 1.839090
stopYACY.sh wird \“überhört\“, einzig killYACY.sh funktioniert noch zuverlässig, mit allen Risiken und Nebenwirkungen.

Statistik: Verfasst von juvalos — So Apr 19, 2015 2:33 pm


Fragen und Antworten • RAM zu knapp, Gegenmaßnahmen?

Date: 2015-04-19 17:12:09

Seit einigen Wochen betreibe ich einen YaCy-Server.
YaCy version 1.839090
Java version: 1.7.0_75
xubuntu 14.04 LTS

Die Maschine hat 2 GB RAM, mehr geht nicht. Das beinhaltet auch den Videospeicher!

8090/Performance_p.html
Speicher Einstellungen
Für JVM reservierter Speicher 1400 MByte

Die CPU-Auslastung ist nahezu immer bei 100%, auch wenn keine Crawls laufen.

Anscheinend reicht der Speicher für YaCy nicht aus:

Code:
I 2015/04/15 21:23:54 SWITCHBOARD postprocessing deactivated: no enough ram (221683264), needed 436870912, to force change field postprocessing.minimum_ram


http://localhost:8090/ConfigProperties_p.html
geändert auf 100000000

Code:
E 2015/04/16 22:47:50 ReferenceIterator lost entry 'nvNE4Or2DoVC' because of too low memory: net.yacy.cora.util.SpaceExceededException: 55200 bytes needed for importRowSet: OutOfMemoryError: 163992560 free at Thu Apr 16 22:47:32 CEST 2015


\“change field postprocessing.minimum_ram\” ist also keine Lösung.
Nach spätestens 20 Stunden ist YaCy der Arbeitspeicher zu klein und es steigt einfach aus: [SWITCHBOARD postprocessing deactivated]{style=“font-weight: bold”}

Der LOG quillt über mit Meldungen wie:

Code:
ConcurrentLog * java.lang.OutOfMemoryError: Java heap space java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: GC overhead limit exceededorg.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!


[Wie kann ich den Speicherverbrauch von YaCy reduzieren, damit es endlich stabil läuft?]{style=“font-weight: bold”}
Den DHT-Empfang habe ich bereits ausgeschaltet.

Weiteres Problem:

Code:
HTTP ERROR: 503Problem accessing /ConfigHTCache_p.html. Reason:max. server connections reached (increase /PerformanceQueues_p.html -> httpd Session Pool).

:8090/PerformanceQueues_p.html#ThreadPoolSettings
Eine Erhöhung bringt zwar etwas, nach dem nästen Start ist jedoch der Wert wieder auf 50 gesetzt. Ein dauerhaftes Speichern ist nicht möglich. Eigentlich tendiere ich dazu, den Wert zu verringern, um die Last zu reduzieren.

Unter Cache Einstellungen: Maximale Wortzahl im Cache: [30]{style=“text-decoration: underline”}000 habe ich die Vorgabe von [50]{style=“text-decoration: underline”}000 schon verringert. War das der richtige Weg? Soll ich noch weiter runtergehen?

Laut Taskmanager verwendet java 1,4 GiB.
Speichernutzung0001.jpg

Statistik: Verfasst von juvalos — So Apr 19, 2015 4:12 pm


Fragen und Antworten • Fehlermeldungen ohne Ende!

Date: 2015-04-19 17:23:52

Seit einigen Wochen betreibe ich einen YaCy-Server.
YaCy version 1.839090
Java version: 1.7.0_75
xubuntu 14.04 LTS

Die Maschine hat 2 GB RAM, mehr geht nicht. Das beinhaltet auch den Videospeicher!

8090/Performance_p.html
Speicher Einstellungen
Für JVM reservierter Speicher 1400 MByte

Die CPU-Auslastung ist nahezu immer bei 100%, auch wenn keine Crawls laufen.

Ich werde mit regelrecht mit Fehlermeldungen bombardiert:

Hier ein Ausschnitt, was so in ein paar Minuten aufläuft:

Code:
E 2015/04/19 13:50:52 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:50:52 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:50:52 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.CausedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:50:52 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedorg.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:50:52 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:50:52 ConcurrentLog * java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id _m7wadqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:50:54 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 13:50:54 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!W 2015/04/19 13:51:11 org.eclipse.jetty.server.Response Committed before 500 nullorg.eclipse.jetty.io.EofExceptionCaused by: java.io.IOException: Datenübergabe unterbrochen (broken pipe)W 2015/04/19 13:51:11 org.eclipse.jetty.servlet.ServletHandler /solr/selectjava.lang.IllegalStateException: CommittedE 2015/04/19 13:51:50 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Error while processing facet fields: java.lang.OutOfMemoryError: Java heap spaceCaused by: java.lang.OutOfMemoryError: Java heap spaceE 2015/04/19 13:57:24 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:57:24 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedorg.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:57:24 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:57:24 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedorg.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:57:24 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 13:57:24 ConcurrentLog * java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id YDFGbdqlZTdA to the index; possible analysis error.Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 13:57:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 13:57:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!W 2015/04/19 14:02:16 org.eclipse.jetty.server.HttpChannel Commit failedjava.util.concurrent.TimeoutException: Idle timeout expired: 20233/9000 msW 2015/04/19 14:02:23 org.eclipse.jetty.servlet.ServletHandler /yacy/hello.htmljava.io.IOException: java.util.concurrent.TimeoutException: Idle timeout expired: 20233/9000 msW 2015/04/19 14:04:05 org.eclipse.jetty.server.HttpChannel Commit failedjava.util.concurrent.TimeoutException: Idle timeout expired: 13016/9000 msW 2015/04/19 14:06:00 ConcurrentLog * java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetExceptionCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 14:06:07 org.eclipse.jetty.servlet.ServletHandler javax.servlet.ServletException: /home/anonymous/yacy/htroot/yacy/hello.htmlW 2015/04/19 14:06:35 ConcurrentLog * java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetExceptionCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 14:06:55 org.eclipse.jetty.servlet.ServletHandler javax.servlet.ServletException: /home/anonymous/yacy/htroot/yacy/hello.htmlW 2015/04/19 14:07:08 ConcurrentLog * java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException


Und immer wieder das:

Code:
W 2015/04/19 14:52:01 ConcurrentLog * java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException   at sun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:606)   at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)   at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 14:52:08 ConcurrentLog * java.lang.OutOfMemoryError: GC overhead limit exceededjava.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 14:52:08 ConcurrentLog * java.lang.OutOfMemoryError: GC overhead limit exceededjava.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/19 14:52:08 BUSYTHREAD * Runtime Error in serverInstantThread.job, thread 'BusyThread net.yacy.search.Switchboard.schedulerJob': null; target exception: GC overhead limit exceededjava.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/19 14:52:35 ConcurrentLog * java.lang.OutOfMemoryError: GC overhead limit exceededjava.lang.OutOfMemoryError: GC overhead limit exceeded


Jetzt die Krönung:

Code:
Dein Beitrag enthält 410309 Zeichen. Es sind maximal 60000 Zeichen erlaubt.


Also die gekürzte Version:

Code:
W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 190W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 189W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 188W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 187W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 186W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 175W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 175W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 567, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 564, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 567, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 572, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 571, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 570, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 585, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 584, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 583, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 582, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 581, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 614, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 613, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 612, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 614, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 612, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 617, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 617, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 619, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 618, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 617, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 617, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 621, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 620, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 619, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 618, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 617, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 627, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 627, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 632, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 631, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 638, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 636, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 636, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 643, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 645, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 641, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 645, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 643, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 641, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 641, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 643, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 651, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 651, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 651, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 653, y = 174W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 653, y = 173W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 172W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 653, y = 171W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 170W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 214W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 214W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 567, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 564, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 565, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 567, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 566, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 572, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 571, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 570, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 585, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 584, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 583, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 582, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 581, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 591, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 587, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 590, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 589, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 588, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 596, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 595, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 597, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 594, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 593, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 603, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 599, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 602, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 601, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 600, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 608, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 607, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 609, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 606, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 605, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 614, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 612, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 614, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 613, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 612, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 613, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 615, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 611, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 620, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 619, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 618, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 627, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 623, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 626, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 625, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 624, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 632, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 631, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 633, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 632, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 629, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 633, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 632, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 631, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 629, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 629, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 632, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 631, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 630, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 638, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 639, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 638, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 639, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 638, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 637, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 636, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 635, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 643, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 645, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 641, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 645, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 645, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 641, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 644, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 643, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 642, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 651, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 651, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 647, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 650, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 649, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 648, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 213W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 653, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 657, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 653, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 656, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 655, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 654, y = 209W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 659, y = 212W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 659, y = 211W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 659, y = 210W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 560, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 557, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 49W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 49W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 559, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 558, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 429, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 428, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 428, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 427, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 427, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 426, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 428, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 427, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 429, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 428, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 434, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 433, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 432, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 447, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 446, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 445, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 444, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 443, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 453, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 449, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 453, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 452, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 451, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 450, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 449, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 453, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 452, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 450, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 449, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 453, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 452, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 451, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 450, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 449, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 452, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 451, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 450, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 459, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 458, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 455, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 459, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 458, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 457, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 455, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 459, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 458, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 457, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 456, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 455, y = 46W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 459, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 457, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 456, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 455, y = 45W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 459, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 456, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 455, y = 44W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 464, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 463, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 462, y = 48W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 465, y = 47W 2015/04/19 15:36:20 RasterPlotter * Coordinate out of bounds!: x = 464, y = 47

Code:
E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/19 20:21:32 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!

Statistik: Verfasst von juvalos — So Apr 19, 2015 4:23 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-04-20 10:30:09

Zufall? das neue repo auf github bekommt nun pull requests: https://github.com/yacy/yacy_search_ser ... s%3Aclosed{.postlink}
Vielleicht ist die Sichtbarkeit dort doch ganz gut.

Statistik: Verfasst von Orbiter — Mo Apr 20, 2015 9:30 am


English • Re: How to get YACY working as a proxy

Date: 2015-04-20 17:12:52

Hi

I see that this thread is quite old , but I don\’t see any solution posted...

If you can access to machine locally (or with ssh) [you can manually change the configuration file yacy.conf]{style=“font-weight: bold”} with a text editor
in this file you can looking for [isTransparentproxy=false]{style=“font-weight: bold”}, then change in true

for the part of:

\ I solved this error by going to /Settings\_p.html?page=ServerAccess and setting the staticIP to the external IP instead of the IP address behind the firewall.\



in yacy.conf you can also edit :[ StaticIP=]{style=“font-weight: bold”}
and fill it manually.

after editing you need to restar yacy
Cheers to all!

Statistik: Verfasst von Slntswrd — Mo Apr 20, 2015 4:12 pm


YaCy Coding & Architektur • Re: Gitorious verkauft

Date: 2015-04-20 17:15:23

Prima. Ich hab\’ da gleich mal einen Pull-Request gestartet.

(Eines Tages wird GitHub bestimmt noch kostenpflichtig. Das wird lustig.)

Statistik: Verfasst von OhSoLow — Mo Apr 20, 2015 4:15 pm


Fragen und Antworten • Re: Fehlermeldungen ohne Ende!

Date: 2015-04-20 17:26:41

Code:
E 2015/04/20 04:29:23 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.deleteDocuments(IndexWriter.java:1443)   at org.apache.solr.update.DirectUpdateHandler2.delete(DirectUpdateHandler2.java:329)   at org.apache.solr.update.processor.RunUpdateProcessor.processDelete(RunUpdateProcessorFactory.java:77)   at org.apache.solr.update.processor.UpdateRequestProcessor.processDelete(UpdateRequestProcessor.java:55)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalDelete(DistributedUpdateProcessor.java:931)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionDelete(DistributedUpdateProcessor.java:1659)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processDelete(DistributedUpdateProcessor.java:1239)   at org.apache.solr.handler.loader.XMLLoader.processDelete(XMLLoader.java:349)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:278)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:239)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:225)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:220)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:23 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id nEFTjulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:225)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:23 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3070)   at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:582)   at org.apache.solr.update.processor.RunUpdateProcessor.processCommit(RunUpdateProcessorFactory.java:95)   at org.apache.solr.update.processor.UpdateRequestProcessor.processCommit(UpdateRequestProcessor.java:64)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalCommit(DistributedUpdateProcessor.java:1707)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processCommit(DistributedUpdateProcessor.java:1684)   at org.apache.solr.handler.RequestHandlerUtils.handleCommit(RequestHandlerUtils.java:69)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:68)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:229)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:23 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id nEFTjulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:23 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:23 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:23 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:23 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!I 2015/04/20 04:29:24 YACY * hello/server: responded remote senior peer '_anonw-10534070-10' from [2001:0:5ef5:79fd:899:f2e:cd63:bc77, 50.156.67.136], time_dnsResolve=0, time_backping=1148, method=reportedip=50.156.67.136, urls=972998I 2015/04/20 04:29:24 YACY * hello/server: responded remote peer '_anonw-10534070-10' [2001:0:5ef5:79fd:899:f2e:cd63:bc77, 50.156.67.136] in 1164 millisecondsE 2015/04/20 04:29:26 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:214)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:26 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.deleteDocuments(IndexWriter.java:1443)   at org.apache.solr.update.DirectUpdateHandler2.delete(DirectUpdateHandler2.java:329)   at org.apache.solr.update.processor.RunUpdateProcessor.processDelete(RunUpdateProcessorFactory.java:77)   at org.apache.solr.update.processor.UpdateRequestProcessor.processDelete(UpdateRequestProcessor.java:55)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalDelete(DistributedUpdateProcessor.java:931)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionDelete(DistributedUpdateProcessor.java:1659)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processDelete(DistributedUpdateProcessor.java:1239)   at org.apache.solr.handler.loader.XMLLoader.processDelete(XMLLoader.java:349)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:278)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:239)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:225)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:220)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:26 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:225)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:26 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:26 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:26 ConcurrentLog * java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:238)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.solr.common.SolrException: Exception writing document id QWKxd4Ou1PgA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   ... 4 moreCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:27 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:27 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:28 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:214)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:214)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:28 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.deleteDocuments(IndexWriter.java:1443)   at org.apache.solr.update.DirectUpdateHandler2.delete(DirectUpdateHandler2.java:329)   at org.apache.solr.update.processor.RunUpdateProcessor.processDelete(RunUpdateProcessorFactory.java:77)   at org.apache.solr.update.processor.UpdateRequestProcessor.processDelete(UpdateRequestProcessor.java:55)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalDelete(DistributedUpdateProcessor.java:931)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionDelete(DistributedUpdateProcessor.java:1659)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processDelete(DistributedUpdateProcessor.java:1239)   at org.apache.solr.handler.loader.XMLLoader.processDelete(XMLLoader.java:349)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:278)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:239)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:225)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:220)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedorg.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:223)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:239)   at org.apache.solr.client.solrj.SolrServer.deleteById(SolrServer.java:225)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:220)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:155)   ... 8 moreCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.deleteDocuments(IndexWriter.java:1443)   at org.apache.solr.update.DirectUpdateHandler2.delete(DirectUpdateHandler2.java:329)   at org.apache.solr.update.processor.RunUpdateProcessor.processDelete(RunUpdateProcessorFactory.java:77)   at org.apache.solr.update.processor.UpdateRequestProcessor.processDelete(UpdateRequestProcessor.java:55)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalDelete(DistributedUpdateProcessor.java:931)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionDelete(DistributedUpdateProcessor.java:1659)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processDelete(DistributedUpdateProcessor.java:1239)   at org.apache.solr.handler.loader.XMLLoader.processDelete(XMLLoader.java:349)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:278)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   ... 8 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:28 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:225)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:225)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:28 org.apache.solr.core.SolrCore org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3070)   at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:582)   at org.apache.solr.update.processor.RunUpdateProcessor.processCommit(RunUpdateProcessorFactory.java:95)   at org.apache.solr.update.processor.UpdateRequestProcessor.processCommit(UpdateRequestProcessor.java:64)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalCommit(DistributedUpdateProcessor.java:1707)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processCommit(DistributedUpdateProcessor.java:1684)   at org.apache.solr.handler.RequestHandlerUtils.handleCommit(RequestHandlerUtils.java:69)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:68)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:229)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closedorg.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:223)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)   at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:229)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.solr.client.solrj.SolrServerException: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:155)   ... 8 moreCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.commit(IndexWriter.java:3070)   at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:582)   at org.apache.solr.update.processor.RunUpdateProcessor.processCommit(RunUpdateProcessorFactory.java:95)   at org.apache.solr.update.processor.UpdateRequestProcessor.processCommit(UpdateRequestProcessor.java:64)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalCommit(DistributedUpdateProcessor.java:1707)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processCommit(DistributedUpdateProcessor.java:1684)   at org.apache.solr.handler.RequestHandlerUtils.handleCommit(RequestHandlerUtils.java:69)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:68)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   ... 8 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:28 org.apache.solr.core.SolrCore org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededW 2015/04/20 04:29:28 ConcurrentLog * java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:238)   at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:204)   at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.update(AbstractSolrConnector.java:584)   at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.update(ConcurrentUpdateSolrConnector.java:391)   at net.yacy.search.schema.CollectionConfiguration$2.run(CollectionConfiguration.java:1424)Caused by: org.apache.solr.common.SolrException: Exception writing document id mKHgOulH8BXA to the index; possible analysis error.   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:168)   at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)   at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)   at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:926)   at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1080)   at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:692)   at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)   at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)   at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:99)   at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)   at org.apache.solr.core.SolrCore.execute(SolrCore.java:1976)   at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:150)   at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124)   at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:116)   at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:235)   ... 4 moreCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:698)   at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:712)   at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1507)   at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:240)   at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:164)   ... 19 moreCaused by: java.lang.OutOfMemoryError: GC overhead limit exceededE 2015/04/20 04:29:31 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!E 2015/04/20 04:29:31 org.apache.solr.util.ConcurrentLRUCache ConcurrentLRUCache was not destroyed prior to finalize(), indicates a bug -- POSSIBLE RESOURCE LEAK!!!


Über http://www.localhost:8090 bekomme ich keine Antwort.
Jetzt starte ich killYACY.sh! [Solange diese Probleme nicht beseitigt sind, bleibt mein YaCy down!]{style=“font-weight: bold”}

Statistik: Verfasst von juvalos — Mo Apr 20, 2015 4:26 pm


Fragen und Antworten • Re: Fehlermeldungen ohne Ende!

Date: 2015-04-20 23:31:53

da steht ganz oft \“GC overhead limit exceeded\“, d.h. Speicher knapp. Wenn dein Peer zu groß geworden ist, kann das sein.

Statistik: Verfasst von Orbiter — Mo Apr 20, 2015 10:31 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-20 23:33:57

\@Slntswrd sorry if wiki is outdated, but if you find any bug please correct it; thats the purpose of a wiki.

Statistik: Verfasst von Orbiter — Mo Apr 20, 2015 10:33 pm


Solr Support • Re: Solr Datendateien

Date: 2015-04-20 23:37:20

hm, die Anleitung die du gefunden hast weist darauf hin dass so ein merge gehen sollte. Habe das aber noch nie probiert. Sollte aber in YaCy auch gehen wenn es überhaupt geht denn an den Solr-Daten habe ich nix gedreht.

Statistik: Verfasst von Orbiter — Mo Apr 20, 2015 10:37 pm


Hilfe für Einsteiger und Anwender • Re: YaCy als lokale Suchseite für PDF incl. Vorschau?

Date: 2015-04-20 23:40:38

Hi, das Szenario passt gut zu YaCy aber eine PDF-Vorschau gibt es nicht. Dafür gibts aber Suchergebnis-Snippets wie bei Webseiten auch, so dass die Namen der PDFs eigentlich egal ist. YaCy identifiziert im PDF auch Titel und zeigt die an, jedenfalls sollte das so laufen. Manchmal werden solche größere PDF-Mengen aber auch von Programmen erzeugt, die den Titel nicht richtig setzten, dann heisst alles \‘Document Scan\’ oder so. In dieser Hinsicht kann YaCy noch nicht einen Alternativen Titel finden.

Du müsstest das ganze einfach mal ausprobieren und schauen wie gut du mit den Snippets zurecht kommst.

Statistik: Verfasst von Orbiter — Mo Apr 20, 2015 10:40 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-22 09:50:24

Thanks a lot for the ansewers!
However my second question in the post was:

\ when I try to start a Crawl process with this kind of cUrl, the best result is a crawling action that only look for the single domain passed for start point (seems like that yacy was set for crawl with deep 1)!\



Someone has any ideas?
Have you try to use a post arguments for starting a new crawl? what is the resoult? Maybe the regular expression, or something else, must be Url encoded? or maybe the entire post arguments must be url encoded?

\@Orbiter: For be honest, I would do it (updating the wiki) but I don\’t have even completely undestood the usage of the post arguments API ! Before editing the existing page I Would be sure about what I will have to write in it ;) !

Statistik: Verfasst von Slntswrd — Mi Apr 22, 2015 8:50 am


Fragen und Antworten • Re: Fehlermeldungen ohne Ende!

Date: 2015-04-22 15:59:33

Orbiter hat geschrieben:\ da steht ganz oft \"GC overhead limit exceeded\"\

Ich verstehe nicht einmal, was \“GC\” bedeuted.

Orbiter hat geschrieben:\ d.h. Speicher knapp.\

So etwas hatte ich auch schon vermutet und deshalb gefragt, was ich dagegen unternehmen kann: viewtopic.php?f=5&t=5592{.postlink-local}
Nach meinem Eindruck läuft YaCy bei mir höchstens 20 Stunden vernünftig, dann häufen sich die Warnungen und Fehlermeldungen im Log, stopYACY.sh wird scheinbar überhört, kein Zugriff mehr via Browser etc. [SWITCHBOARD postprocessing deactivated]{style=“font-weight: bold”}

Offenbar haben andere auch derartige Schwierigkeiten: viewtopic.php?f=5&t=5447{.postlink-local}

otter hat geschrieben:\ Betreff des Beitrags: Re: Indexing Cache\ BeitragVerfasst: Mo Dez 22, 2014 10:58 pm\ Wenn mein YaCy (mit Crawling) mehr als einen Tag läuft, habe ich das gleiche Ergebnis: Der Indexing Cache enthält zunehmend mehr Worte und wird nicht mehr geleert.\ Ich habe es mit verschiedenen Maximalgrößen versucht: 50.000, 20.000, 2.000. Kein Unterschied.\ Bei ca. 200.000 hilft bei mir dann nur Neustart.\

Ich müsst mein YaCy auch täglich killen und neu starten. Das geht mir zu weit.

otter hat geschrieben:\ Should be fixed with version 1.830/09118\

- Schön wärs gewesen!

Statistik: Verfasst von juvalos — Mi Apr 22, 2015 2:59 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-22 16:42:50

LA\_FORGE hat geschrieben:\ These addresses are used as an yacy-internal identifier and are not resolvable/reachable on the internet.\



However, they do uniquely identify a host within yacy network, right? So what I\’m trying to understand is what are those hosts trying to do, and this does not necessarily mean I\’m suspecting of someone\’s bad behaviour. I would just like to understand it, maybe know which yacy functionality from other peer results in those kind of connections. If I want to customize modsecurity, I have to make sure I know which are the good connections, which aren\’t. Just that.

LA\_FORGE hat geschrieben:\ I\`m working as an security engineer and I\'m participating over 6 years in the YaCy Community. I\`m able to assure that YaCy doesn\'t have any spy or phonehome features built in. When you sceptical about your security I recommend to install an intrusion detection system such as Snort.\



By no means was I sugesting the existence of such features in yacy. My line of thought goes more in the direction of realizing which tweaks I need to do either in my yacy peer and modsecurity.
I\’m very glad to hear that you and others are working on to improve yacy even more, and security, those days, is certainly an area that deserves attention.
Please take note that I\’m a strong believer of yacy and it\’s not for other reason that I\’m running 24 x 7, for more than six months now, my own peer in senior mode.
Finally, thanks for the tip on Snort. I didn\’t know that tool and will consider using it.

Statistik: Verfasst von oneaty — Mi Apr 22, 2015 3:42 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-23 14:21:11

You need to set the &crawlingDepth= to 2 or 3 or whatever else you want.

Statistik: Verfasst von Scarfmonster — Do Apr 23, 2015 1:21 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-04-23 19:37:04

Ich hab mal eine Frage zu dem Import von Wikipedia-Dumps über Surrogates: Wird während des Imports ein Dubletten-Check gemacht oder wird es einfach so in den Index geschaufelt?

Statistik: Verfasst von LA_FORGE — Do Apr 23, 2015 6:37 pm


Fragen und Antworten • Citations & RWIs

Date: 2015-04-24 11:57:37

Hi,

Code:
citation.index.20150418025252868.blobcitation.index.20150418025252868.blob.93wv9MbZAcl6.gapcitation.index.20150418025252868.blob.93wv9MbZAcl6.idxcitation.index.20150423201115375.blobcitation.index.20150423201115375.blob.nylfb3SeGh9e.gapcitation.index.20150423201115375.blob.nylfb3SeGh9e.idxcitation.index.20150424073141337.blobcitation.index.20150424073141337.blob.lhv21_ZKWqvR.gapcitation.index.20150424073141337.blob.lhv21_ZKWqvR.idxcitation.index.20150424095015508.blobcitation.index.20150424095015508.blob.mw3AezfnpTcA.gapcitation.index.20150424095015508.blob.mw3AezfnpTcA.idxtext.index.20150408000043631.blobtext.index.20150417184508687.blobtext.index.20150422151543611.blobtext.index.20150424084507162.blobtext.index.20150424094233009.blobtext.index.20150424094233009.blob.-EKeAsCBKgHV.gaptext.index.20150424094233009.blob.-EKeAsCBKgHV.idxtext.index.20150424094933446.blobtext.index.20150424094945503.blobtext.index.20150424094945503.blob.U-KKqd-49WbR.gaptext.index.20150424094945503.blob.U-KKqd-49WbR.idx



Kann ich diese BLOBs einfach von einem zu einem anderen Peer kopieren oder macht das keinen Sinn? Gibt es Dependencies zum Solr-Index d.h. müsste er dann mitkopiert werden?

Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Fr Apr 24, 2015 10:57 am


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-04-25 00:27:43

Hallo LA_FORGE,

leider ist es so das die gezeigten Blobs zwar in einen anderen Client copiert werden können - dort werden sie auch übernommen, aber die Referenzen zu den Jeweiligen Dokumenten wiese auf den Index im Solr.
Nur die Blobs zu kopieren macht also wenig Sinn.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Apr 24, 2015 11:27 pm


Off-Topic • Re: projectsearch.yacy.de

Date: 2015-04-25 10:44:19

bauhaus05 hat geschrieben:\ Du musst alle Scripte freischalten!\



Welche Scripte meinst du?

Statistik: Verfasst von flegno — Sa Apr 25, 2015 9:44 am


Fragen und Antworten • komfortable Suchmaske für Admin-Backend

Date: 2015-04-25 11:32:11

Hallo,

hier im Forum gab\’s ein Thread, in dem ein Link zu einem Formular für das Admin-Backend veröffentlicht wurde. Soweit ich mich erinnere man fängt an ein Wort zu tippen und es werden passende Parameter eingeblendet. Wenn ich mich nicht irre, war es eine CH-Domain. Ich habe sogar in diesem Thread ein Feedback zu dieser Lösung geschrieben, finde aber mit Suchbegriffen \“Parameter, Config, Konfig, GUI, Suche\” den Thread nicht (die Liste meiner Beitrage habe ich auch ein Paar mal durchgesucht - erfolglos) und bin an Hinweisen interessiert.

Edit 25.04.2015
Yu huuu, gefunden! Der Thread heisst Links zu allen Funktionen und Einstellungen{.postlink}

Gruss, flegno

Statistik: Verfasst von flegno — Sa Apr 25, 2015 10:32 am


Hilfe für Einsteiger und Anwender • Re: Wie YaCy-Index auf einen anderen Datenträger verlagern?

Date: 2015-04-25 11:52:09

Hallo,

bauhaus05 hat geschrieben:\ Aber wie bringe ich YaCy bei, dass sich sein DATA-Ordner nun in einem anderen Pfad befindet?\


Wäre es eine Lösung für dich, einfach YaCy auf dem neuen Datenträger installieren und DATA-Ordner mit deinen Daten dieser Installation unterschieben? S. auch YaCy-Installation von einem Rechner auf einen anderen kopieren{.postlink}.

Gruss, Gustav

Statistik: Verfasst von flegno — Sa Apr 25, 2015 10:52 am


YaCy Coding & Architektur • YaCy-app für Firefox OS

Date: 2015-04-25 15:28:19

Hallo,

hier https://marketplace.firefox.com/search?q=yacy wird YaCy nicht gefunden. Also nehme ich an, dass für Firefox OS{.postlink} keine YaCy-App gibt. Was ich sehr schade finde. Da die eigene Firefox_OS-Suchfunktion findet so ziemlich alles im Internet. Eine vernünftige Suche für eigene Apps habe ich nicht gefunden.

[Vielleicht ist der Anpassungsaufwand der Android-Lösung für Firefox_OS überschaubar? ]{style=“font-weight: bold”}Firefox_OS ist nämlich ein Linux-basiertes Betriebssystem. Und die Apps sind nichts anderes als HTML-Seiten mit JavaScript und CSS. Hier meine erste Firefox_OS-App Digital Honeypot{.postlink} .

Gruss, flegno

Statistik: Verfasst von flegno — Sa Apr 25, 2015 2:28 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-25 18:22:59

Sorry for the misunderstanding. You\’re welcome. I\’m a strong believer of yacy, too. Where are you from? I\’m from germany.

Statistik: Verfasst von LA_FORGE — Sa Apr 25, 2015 5:22 pm


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-04-25 18:38:53

Vielen Dank. Gibts eine Möglichkeit, die Citations & RWIs zu rekonstruieren / neu aufzubauen? Ich habe sie bei meinem Hauptpeer durch einen Plattencrash verloren :-( Der Solr-Index selbst hat über 92 Mio. Einträge.

Statistik: Verfasst von LA_FORGE — Sa Apr 25, 2015 5:38 pm


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-26 11:02:14

Danke für Deinen Erfahrungsbericht. Diese zweiteilung ging mir auch durch den Kopf.

Viele Grüße,

Volker

Statistik: Verfasst von Huppi — So Apr 26, 2015 10:02 am


English • Re: Crawl Websites I visit

Date: 2015-04-26 11:06:11

Prima. Muß ich auch mal ausprobieren.

Statistik: Verfasst von Huppi — So Apr 26, 2015 10:06 am


Fragen und Antworten • Description wird im Suchergebnis nicht sauber angezeigt

Date: 2015-04-26 15:11:54

Hallo erst einmal,

mir ist heute was aufgefallen, weil ich gerade anteste, ob für meinen Arbeitgeber sich Yacy als Firmensuchmaschine lohnen würde.

Nachdem ich drei URL\’s unter dem Experten Crawl Start eingegeben habe und diese auch sauber durchgelaufen sind, wollte ich mal antesten wie die Ergebnisse aussehen würden bei einem Suchbegriff.

Nachdem ich diesen Suchbegriff eingegeben habe, habe ich auch diverse Treffer gehabt.
Was mich aber wunderte war die Tatsache, das bei der Anzeige der Beschreibung / Description teilweise die CSS Daten der entsprechenden Internetseiten mit ausgegeben worden sind.

[[Beispiel Description eines Treffers:]{style=“font-weight: bold”}]{style=“text-decoration: underline”}
[#camera_wrap_199 .camera_pag_ul li img, #camera_wrap_199 .camera_thumbs_cont ul li img {height:75px;} #camera_wrap_199 .camera_caption { display: block; position: absolute; } #camera_wrap_199 .camera_caption div { background: 9); moz border radius: 1px 1px 1px 1px; webkit border radius: 1px 1px 1px 1px;border radius: 1px 1px 1px 1px;font size: 12px;font family:\‘Droid Sans\‘; } #camera_wrap_199 .camera_caption div div.slideshowck_description { font size: 10px; } #camera_wrap_201 .camera_pag_ul li img, #camera_wrap_201 .camera_thumbs_cont ul li img {height:75px;} #camera_wrap_201 .camera_caption { display: block; position: absolute; } #camera_wrap_201 .camera_caption div { background: 9); moz border radius: 1px 1px 1px 1px; webkit border radius: 1px 1px 1px 1px;border radius: 1px 1px 1px 1px;font size: 12px;font family:\‘Droid Sans\‘; } #camera_wrap_201 .camera_caption div div.slideshowck_description { font size: 10px; } @ webkit viewport { width: device width; } @ moz viewport { width: device width; } @ ms viewport { width: device width; } @ o viewport { width: device width; } \@viewport { width: device width; }]{style=“font-style: italic”} [Schweißroboter Systeme und Kabinen von AKON Robotics überzeugen durch ihre Leistungsfähigkeit]{style=“text-decoration: underline”}

Der [Kursive Teil]{style=“font-style: italic”} ist von den integrierten CSS Befehlen im Header Bereich und der [Unterstrichene Bereich]{style=“text-decoration: underline”} ist aus der Meta Description

Falls sich einer die Original Seite anschauen möchte, hier der entsprechende Link, wenn es erlaubt ist: http://www.akon-robotics.de/schweissroboter-systeme

Zum Einsatz kommt Yacy in der dev Version 1.839144 (signiert)

Gibt es eine Lösung um dies Problem zu beseitigen?

Edit: Hardcopy angehängt
yacy-description-fehler.png

Statistik: Verfasst von tbtip — So Apr 26, 2015 2:11 pm


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-26 15:50:56

No need to be sorry, I guess.

I just want to understand what\’s going on, so if you could answer my last questions, that I repeat below, I would appreciate:

\ However, they do uniquely identify a host within yacy network, right? So what I\'m trying to understand is what are those hosts trying to do, and this does not necessarily mean I\'m suspecting of someone\'s bad behaviour. I would just like to understand it, maybe know which yacy functionality from other peer results in those kind of connections. If I want to customize modsecurity, I have to make sure I know which are the good connections, which aren\'t. Just that.\

Statistik: Verfasst von oneaty — So Apr 26, 2015 2:50 pm


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-04-26 23:04:12

Hallo LA_FORGE,

nein,die Citatations und RWIs lassen sich nicht wieder rekonstruieren.
Aber lasse Deinen Solr-Index einfach im YaCy-Peer laufen - er lässt sich auch so druchsuchen!
Die RWIs werden, meines Wissens nach, nur noch für die Verteilung des Indexes gebraucht.
Die Citatations habe ich nie ganz verstanden: dort geht es um das Ranking über die Links von Seiten zueinander.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Apr 26, 2015 10:04 pm


English • Re: Incomplete Wiki !!

Date: 2015-04-27 12:32:34

\@Scarfmonster:

You are rigth! But I have forgotten to write, that the crawler ALWAYS crawl with depth 1 when I try to start it with post argument!
I had try with all value of &crawlingDepth= from 1 to 9... but nothing change!

Statistik: Verfasst von Slntswrd — Mo Apr 27, 2015 11:32 am


English • Re: Incomplete Wiki !!

Date: 2015-04-28 00:41:32

Could you maybe post an example url you are using to start the crawl?

Statistik: Verfasst von Scarfmonster — Mo Apr 27, 2015 11:41 pm


YaCy Coding & Architektur • Re: YaCy-app für Firefox OS

Date: 2015-04-28 10:11:16

Der Quellcode der Android-App befindet sich hier: https://gitlab.com/marc.nause/31c3-search Der Ort ändert sich eventuell noch, weil ich die App noch umbenennen möchte.

Von Firefox OS und JavaScript habe ich leider so gar keine Ahnung.

Statistik: Verfasst von Low012 — Di Apr 28, 2015 9:11 am


Solr Support • Re: Lucene geht auf Java 8

Date: 2015-04-28 10:16:19

Debian 8 (Jessie) ist ja mittlerweile veröffentlicht, aber Java 8 hat es leider nicht rein geschafft. Natürlich kann man es aber nachinstallieren. Java 8 hat ja schon ein paar nette neue Features für Entwickler (Lambda Expressions und Streams)...

Statistik: Verfasst von Low012 — Di Apr 28, 2015 9:16 am


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-28 13:07:48

Ja, die Trennung Yacy-Solr trägt, nach meiner mittlerweile rund 2-jährigen Erfahrung damit, sehr signifikant zur Steigerung der Stabilität von YaCy bei !

Die Default-Einstellung von 600 MB reicht nur für den Beginn mit einer neuen YaCy Instanz, und wirkt, wie etliche Beiträge im Forum zeigen, vielfach irreführend, weil er nahe zu legen scheint, dass YaCy damit über Monate Daten sammeln, und betrieben werden, kann. Ab einer gewissen Grösse des Index lässt sich YaCy-Solr damit jedoch nicht mehr sinnvoll betreiben. Solr wird mit gösser werdendem Indizes sehr ressourcenhungrig. Ein Restart von Solr kann beispielsweise, bei bei starker Fragmentierung, und mit einem Index von mehr als 20 Mio Docs, selbst auf einer hochgetakteten E3-Maschine mit RAID-6, mehr als ein bis zwei Stunde benötigen (lession learned: beim ReStart von YaCy-Solr bzw. Solr nicht verzweifeln und geduldig warten - in der Regel muss nicht neu installiert, sondern nur geduldig gewartet werden ;-), und zudem benötigen grössere Indices deutlich mehr RAM - ein max. Speicher (\‘Xmx\‘-Parameter) von 10 - 20 GB macht im produktiven Betrieb durchaus Sinn. Der Stabilität nützt das allerdings erst dann signifikant, wenn YaCy und Solr getrennt laufen.

Eine Aufteilung auf mehrere Solr-Nodes oder Sorl-Cores (via Sor-Cloud) wird im Sinne des Gesagten (erst dann) praktisch zu einem Muss, wenn Zeiten der Nichtverfügbarkeit nicht mehr tolerierbar sind.
Wegen der wahrscheinlich bevorstehenden Änderungen durch Solr 5.X, welche u.a. keine Servlet-Server mehr benötigt, scheint es mir allerdings überlegenswert, sich zur Einrichtung einer eigenen Solr-Cloud noch etwas Zeit zu lassen, bis die YaCy-Macher auch auf die version 5.X umgestellt haben - dafür sind u.a. auch noch Schema-Änderungen nötig. Ein separater, adäquat ausgestatteter und eingestellter Solr-Server kann (unter TomCat) durchaus auch mehrere Wochen stabil durchlaufen.

Statistik: Verfasst von Cajun — Di Apr 28, 2015 12:07 pm


Fragen und Antworten • Re: Privater Cluster

Date: 2015-04-28 14:02:12

In terms of stability, YaCy got connected to external solr instances only, might be an alternative or even better solution for you ... ?

By binding-in one (or more) external solr-instances into YaCy, you might run several YaCy instances (as frontends, having all of them connected to the same solr := data instance(s)), without struggles concerning redundant data input or storage.

Statistik: Verfasst von Cajun — Di Apr 28, 2015 1:02 pm


English • Re: Adopt English for forum language

Date: 2015-04-28 15:04:05

You can contact the owner of http://www.yacy-forum.org/ by sending him a private message there, his nick is \“am2605\“. Spam has decreased dramatically since a captcha was added.

Statistik: Verfasst von Low012 — Di Apr 28, 2015 2:04 pm


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-29 00:51:20

Sorry: Doch glatt vergessen:

[Ein dritter Punkt in der Installation geht auch nicht, weil er fehlt:]{style=“font-weight: bold”}

Die Installation von Tomcat6 per apt-get erfolgt bei mir aktuell mit einer Konfiguration, bei der per [Option -Xmx]{style=“font-weight: bold”} für die maximale Heap-Größe 128 MByte vorgegeben ist. Das geht faktisch nicht. Hier muss man unmittelbar nach der Installation nachbessern: [Datei

/etc/default/tomcat6

öffnen]{style=“font-weight: bold”} und in der entsprechenden Zeile muss [128m unbedingt vergrößert]{style=“font-weight: bold”} werden. Man fange mit 512m an. Dann läuft es erstmal.

Und dort kann man dann auch gleich noch [JAVA_HOME]{style=“font-weight: bold”} richtig vorgeben. Keine Ahnung, warum das Dienst-Management in der

/etc/init.d/tomcat6

unbedingt diese Umgebungsvariable benötigt. Möglicherweise ist das eine Kompatibilitätssache mit anderen Betriebssystemen, denn Linux bringt genügend Bordmittel mit, um in einem Script das zu ermitteln, ohne dass der Nutzer das auf diese Art vor gibt.

Beste Grüße!

PS: Seit über 2 Jahren warte ich auf den Tag, an dem man YaCy installiert und es einfach läuft und man mit einem vorgegebenen Speichervolumen freeworld unterstützt. Bis jetzt klappt das nicht. Zumindest bei mir. Irgendwann klemmt es und man wirft es verzweifelt weg, wenn man nicht die Zeit aufbringt, sich tiefer einzuarbeiten. Und zu experimentieren. Und auch dann wirft man die bisher angesammelte Datenbank weg, um wieder neu zu starten.
Ich weiß, dass in YaCy extrem viel Entwicklungsaufwand steckt. Aber mit einem Desktop-Prozessor der oberen Leistungskategorie sollte das System völlig ohne Wartungsaufwand auf Dauer (! nicht nur wenige Tage oder Wochen) stabil bleiben. Mich interessieren zwar die Grenzen und Konfigurationen, um auch auf Systemen geringerer Leistungskraft etwas zum Laufen zu bringen und zu halten. Aber dass man selbst mit aktueller Desktop-Standardtechnik Probleme bekommt, finde ich ärgerlich. Solr von YaCy getrennt zu betreiben mag eine Lösung sein. Aber warum muss man das durch Experimentieren über längere Zeit hinaus erforschen? Mit der gesammelten Erfahrung erscheint mir die langfristige stabile Nutzung durch Otto Normalverbraucher leider immer noch nicht möglich.
Gibt es andere Erfahrungen?

Statistik: Verfasst von fherb — Di Apr 28, 2015 11:51 pm


Fragen und Antworten • Re: solr-Cloud

Date: 2015-04-29 00:58:00

Hallo!

Für die getrennte Nutzung von YaCy und Solr nutze ich derzeit immer noch die Beschreibung von http://www.yacy-websuche.de/wiki/index.php/Dev:SolrCloud

In dieser Beschreibung gibt es 2 Fehler:

1)Simpel: unter \“Solr Installation\” ist die Anweisung \“cp slf4j-1.6.6/{jcl-over-slf4j-1.6.6.jar,slf...\” falsch. Sie muss richtig heißen:

Code:
cp slf4j-1.6.6/{jcl-over-slf4j-1.6.6.jar,log4j-over-slf4j-1.6.6.jar,slf4j-api-1.6.6.jar,slf4j-jdk14-1.6.6.jar} .



2) Meine Frage: Installiert soll werden solr-4.5.1 . Der aktuelle Downloadlink zu dieser Version muss anders lauten.

---> Aber: Ist die Version 4.5.1 wirklich noch sinnvoll/ideal? Cajun hat ja schon ein paar Hintergrundinfos gegeben.

Weiß jemand aus der Verfolgung der Release-Historie, welche Version für eine Solr-Cloud im Moment verwendet werden sollte? Ich denke, das muss nicht unbedingt identisch sein zu der Version, die in YaCy \“deep\” integriert ist. Oder doch?

Beste Grüße
Frank

Statistik: Verfasst von fherb — Di Apr 28, 2015 11:29 pm


Hilfe für Einsteiger und Anwender • Re: YaCy als lokale Suchseite für PDF incl. Vorschau?

Date: 2015-04-29 10:18:53

Hallo Orbiter,
super, dann werde ich mir das mal ansehen... Snippets sind dann quasi Textschnipsel, die mit angezeigt werden? Damit sollte tatsächlich eine Eingrenzung auf das richtige Dokument möglich sein.
Danke Dir!

Statistik: Verfasst von AndyMu — Mi Apr 29, 2015 9:18 am


Hilfe für Einsteiger und Anwender • search site: exampleURL.com SearchWord

Date: 2015-04-30 11:11:45

Hello colleagues
We would like to use the industry standard search technique for remotely searching a distant site

\ search site: exampleURL.com SearchWord\



How can we use YaCy to search in this manner - natively- from inside the environment, please?

We need this function.
We need to search remote sites comprehensively and then use the display & index function in heuristics to process what is found, please.

Trying it in one of our servers, it does not process.
How do we make this process, please?

Many thanks!

Statistik: Verfasst von xioc752 — Do Apr 30, 2015 10:11 am


Hilfe für Einsteiger und Anwender • Re: yacybot indexing my own data?

Date: 2015-04-30 12:38:26

Those hosts are communicating over a distributed hashtable algorithm. Out-of-the-box every installation of yacy participates in our global network \‘Freeworld\’ unless you configure another profile via the page http://localhost:8090/ConfigBasic.html
Since the traffic isn\’t encrypted at all, you can simply monitoring this traffic with Tools like TCPDump or Wireshark to understand what\’s going on.

Statistik: Verfasst von LA_FORGE — Do Apr 30, 2015 11:38 am


English • Re: Configure data path to an other drive

Date: 2015-04-30 20:07:00

wrecked hat geschrieben:\ Thanks for the tip, this has worked great so far (I\'m posting this for future reference):\ Code: : `sudo bashservice yacy stopcd /var/libcp -r yacy /media/big-disk/binchmod -R yacy:yacy /media/big-disk/bin/yacymv yacy yacy_oldln -s /media/big-disk/bin/yacy yacyservice yacy startexit` \


This doesn\’t work for me on mint. The link works, the permissions look good, yacy says that it starts and stops, but doesn\’t write anything in the /var/log, or change anything in the DATA path, or provide the admin console. I never see it in with the ps ax or top.

I created an empty directory on the link, and tried to start yacy. It made empty log and settings subdirectories and died without any errors or new logs anywhere i can see yet.

Statistik: Verfasst von ewfoij — Do Apr 30, 2015 7:07 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.10.1 Java 8u31

Date: 2015-04-30 23:22:06

Okay, I\’m trying again. I\’m running Mac OS X 10.10.3 Java 8u45

I am not a technical person, but I think I\’ve found a solution for Mac users. When you install Java 8 from Oracle, it does not install any command line tools. YaCy needs those. So, Mac users must (additionally?) install the Java Development Kit or JDK. (Think of it like the Xcode for Java).

https://java.com/en/download/faq/develop.xml

I now have both the Java Runtime Environment (JRE) and JDK running the same version (Java 8, Update 45). No need to restart. YaCy launched for me right away.

Statistik: Verfasst von nicolasd — Do Apr 30, 2015 10:22 pm


Fragen und Antworten • Re: solr-Cloud

Date: 2015-05-02 22:08:09

Das PS. erläutert einen Grund, weshalb YaCy der große Durchbruch verwehrt geblieben ist. Bei mir soll YaCy unbemerkt auf einem Pentium 4 Rechner nebenbei stabil laufen. Das geht faktisch leider nicht. Basteln ist immer mal wieder notwendig ...

Statistik: Verfasst von Huppi — Sa Mai 02, 2015 9:08 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2015-05-03 02:34:36

Ive looked trough yacy.info and here are the five most remote-linked engines.
If theres a same amount of peers, its sorted as \‘most results first\‘.
maybe this will change these days cause i dont think ive seen all in this database and i need most results to index it on spid8.pags.to ;) tested with very special keyword so this should be accourate (\‘gnusocial\‘)

48 peers - http://r.8.je/na3 (404 results)
46 peers - http://r.8.je/na4 (295 results)
44 peers - http://r.8.je/na5 (224 results) | http://r.8.je/na6 (182 results)
39 peers - http://r.8.je/na7 (227 results) | http://r.8.je/na8 (174 results)
38 peers - http://r.8.je/na9 (267 results) | http://r.8.je/naa (183 results)

feel free to search yourself too.

Statistik: Verfasst von HeathenMan — So Mai 03, 2015 1:34 am


English • Re: Where is the file that makes Table_API_p.html , please

Date: 2015-05-04 16:43:51

Hello + Thank you,
I have copied the indicated api.bheap file from the original machine into the Work folder of the 2nd and new machine.
I had tested the new machine with an RSS feed before doing this.

The new machine contains the segments and the data appears to be normally accessible.
Hence, the new machine contains the segments of the old machine...but not the entire DATA folder, as it was damaged.
However, the process scheduler shows an empty environment with no instructions.

It is the instructions we need, of course. There are hundreds of API based RSS type instructions, plus individual URLs that are needed to be transferred intact, please.

Both machines were off when the copy and insert too place.

This file comes from a previous machine that could not see the outside and is the subject of other tickets where we tried to make it see the outside, again, normally. Hence, it has not crawled for several months. Understandably, the current api.bheap file is identical in size to the one we saved when the problem began.
reference:
viewtopic.php?f=23&t=5471{.postlink-local}

To help you remember the situation, the original server still shows the following when the status URL is accessed (n.b., its Ubuntu and YaCy have been updated to the currently available versions as of today):

\ HTTP ERROR: 403\ Problem accessing /Status.html. Reason:\ proxy use not allowed (see System Administration -\> Advanced Settings -\> Proxy Access Settings -\> Transparent Proxy; switched off).\ Powered by Jetty://\




Thank you for your advice.

Statistik: Verfasst von xioc752 — Mo Mai 04, 2015 3:43 pm


Mitmachen • Re: (LinuxTag 2015) -> OpenTechSummit

Date: 2015-05-06 11:11:33

:mrgreen:
ich werde einen Vortrag über http://loklak.net halten...
:mrgreen:
ich werde einen Vortrag über http://loklak.net halten...
:mrgreen:
ich werde einen Vortrag über http://loklak.net halten...
p://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif “Mr. Green”)
ich werde einen Vortrag über http://loklak.net halten...

Statistik: Verfasst von Orbiter — Mi Mai 06, 2015 10:11 am


Fragen und Antworten • Re: Description wird im Suchergebnis nicht sauber angezeigt

Date: 2015-05-06 22:35:50

ich kann das problem bestätigen. gleicher anwendungsfall. wir haben eine Wordpress seite und wollen eine gute suchfunktion integrieren.

das erste problem ist dabei, dass die css styles mit ausgegeben werden.

das zweite problem ist, dass jede Seite als suchergebnis ausgegeben wird, wenn ich nach einem begriff suche, der in einem menu vorkommt. gibt es die Möglichkeit, menus als solche zu markieren? eigentlich sollte es ja klar sein, dass von einem link nicht der link-text sondern die verlinkte Seite gewertet wird.

hier ist die laufende Instanz:

http://go.lynxbroker.de:8090/yacysearch ... eanCount=0{.postlink}

gibt es eine gute Einführung in die optimierungsmöglichkeiten um yacy bzw solr auf die eigene Seite zu trainieren?


ich würde mich über antworten freuen!

Statistik: Verfasst von czarly — Mi Mai 06, 2015 9:35 pm


English • Re: YaCy Mac 1.82 won\’t launch on Mac OSX 10.0.1 Java 8u31

Date: 2015-05-08 14:11:07

Interesting enough 1.80 will launch fine on my 10.9.5 machine here.

even with java 8u45 1.82 complains of the unsupported major.minor version 51 error

Statistik: Verfasst von Strapples — Fr Mai 08, 2015 1:11 pm


English • Yacy wont index

Date: 2015-05-08 15:25:07

I do not know what is going on here either my install is borked or strappyskink.tumblr.com (ADULT WARNING) wont index. it was indexing fine until march 30th, then something happened...

I\’ve tried clean installing yacy 1.82 DOES NOT WORK on my machine see this thread - viewtopic.php?f=23&t=5493{.postlink-local}

Anyway I reinstalled 1.8 from a backup. i then cleared my index. and now it wont index at all.

if i load from backup and do a re-index it acts somewhat normal but does not really index new stuff, i want to start from scratch anyway.

Statistik: Verfasst von Strapples — Fr Mai 08, 2015 2:25 pm


English • Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-10 22:58:36

Hi there,

I used too run Yacy on a dedicated small A20 Olinuxino board. Now I start to run a more powerful server, and still intend to use some of its resources to contribute to the index. However, when running Yacy, all the RAM (4Gb) is used, whereas I set the limit of the JVM to the standard 600 Mb. I saw from \“pstree\” and \“htop\” that quite a number of java processes (~190 for instance) are running, which I guess explain that all the RAM is used. I had the same problem before, though I assumed this issue was related to the resources of the board.

Beside, the \“free\” command shows that quite a part of the RAM is used in cache (~1Gb). When stopping Yacy and clearing the cache, I get 3,4 Gb of free RAM, while when Yacy runs all the memory is eaten up (message of disabling DHT at less than 50 free mb of memory by Yacy).

I think the closest post on the topic is the following http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5266&p=30258&hilit=memory#p30258; it did not receive an answer at the time.

Did anyone encountered this kind of problems, and what would be the solution? I would like to limit the use of Yacy to, say, 1Gb in memory.

Thanks,

Statistik: Verfasst von layst — So Mai 10, 2015 9:58 pm


Hilfe für Einsteiger und Anwender • Re: Crawler

Date: 2015-05-17 08:09:02

In dieser Queue landen alle Crawls, die z.B. durch Suchanfragen getriggert wurden.
Wenn z.B. die Einstellung \” Suchergebnis: crawl Links aller angezeigten Suchergebnisse\” aktiviert ist, und landen diese Crawls der Ergebnisse in der Limitierter Crawler Queue?

Statistik: Verfasst von ScRe — So Mai 17, 2015 7:09 am


Hilfe für Einsteiger und Anwender • Re: Crawler

Date: 2015-05-18 14:50:28

der \‘Limitierte Crawler\’ ist offensichtlich eine Fehlübersetzung. Das heisst im Original \‘Limit Crawl\’ und meint \‘am Limit\‘. Limit meint hierbei die größte Tiefe im Crawlbaum, wenn ein Crawl mit Tiefenangabe limitiert wurde. Diese Queue sollte eigentlich nur dann gefüllt werden, wenn man remote indexing angeschaltet hat. Dann stehen alle URLs im limit Crawl für andere Peers zum Download zur Verfügung, die URLs von einer kleineren Crawl-Tiefe werden ausschliesslich vom Peer geladen, wo der Crawl gestartet wurde. Auf diese Art ist es möglich, den Doublettencheck vollständig durchzuführen, die \‘Limit Crawl\’ Queue ist das technische Mittel dazu.

Statistik: Verfasst von Orbiter — Mo Mai 18, 2015 1:50 pm


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-05-18 16:03:48

Vielen Dank. Die RWIs liegen unter

Code:
/DATA/INDEX/freeworld/SEGMENTS/default



oder? Wie fängt der Dateiname an?

Statistik: Verfasst von LA_FORGE — Mo Mai 18, 2015 3:03 pm


English • Save crawler config

Date: 2015-05-18 18:54:16

Is it possible to save the crawler configuration to file?
Ideally, the whole crawler config should be saved (domains, filters, ..), and thereof allow it to be restored into YaCy to start a new crawl session based on the saved crawler config.

Right now, when you start a crawler, its configuration is no longer accessible nor changeable.

Statistik: Verfasst von davide — Mo Mai 18, 2015 5:54 pm


English • Re: Save crawler config

Date: 2015-05-18 19:08:20

all what you want is possible!

- click on ‚Process Scheduler’
- all crawl start actions are listen, you can set a scheduler time there
- you can check the checkbox and start them again with „Execute Selected Actions”
- you can click on the clone button (document -> document) and the crawl details are written to the start servlet so you can edit and repeat them slightly differently
- you can copy the whole scheduler database to another peer, just copy DATA/WORK/api.bheap

Statistik: Verfasst von Orbiter — Mo Mai 18, 2015 6:08 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 19:10:00

My 2¢ in case you won\’t receive any acknowledgeable answer.

Statistik: Verfasst von davide — Mo Mai 18, 2015 6:10 pm


English • Re: Save crawler config

Date: 2015-05-18 19:22:47

Cool :)
It works like a sort of \“macro recorder\” for all the GET requests it receives by admin.

Statistik: Verfasst von davide — Mo Mai 18, 2015 6:22 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 21:54:09

Thank you for your suggestions.

I do not use any custom script to start yacy, and it does not feel yacy start several times (I assume some strange stuff would appear on my ports, and the log would tell me some things about it, or the new instances would crash maybe).

Your suggestion about config first surprised me, since I can not remember tinkering with the config. However, when I try a fresh Yacy install, only 60 processe show up in \“pstree\” (up to 85 if I display the web portal), for about 300 Mb. Hence I guess you \’ve got a point there: something must be wrong with my config.

So thanks again for your helpful reaction; I shall tell you more when further investigated.

Statistik: Verfasst von layst — Mo Mai 18, 2015 8:54 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 22:16:45

After a fresh install, my [pstree]{style=“font-style: italic”} for the whole VM looks like:

Code:
init-+     |-init-+-console-kit-dae---3*[{console-kit-dae}]     |      |-cron     |      |-dbus-daemon     |      |-ddclient - slee     |      |-exim4     |      |-java---81*[{java}]     |      |-polkitd---{polkitd}     |      |-postgres---5*[postgres]     |      |-rsyslogd---3*[{rsyslogd}]     |      |-saslauthd---saslauthd     |      |-sshd     |      |-udevd---2*[udevd]     |      |-upstart-socket-     |      |-upstart-udev-br     |      `-xinetd



The single java process is YaCy during crawling. The nesting of [init]{style=“font-style: italic”} is simply due to virtualization.
I\’d assume there are multiple instances of YaCy running concurrently in your computer. Maybe cronjob?

Statistik: Verfasst von davide — Mo Mai 18, 2015 9:16 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 22:22:14

My pstree looks much the same; when I talked about the multiple processes, I thought of the \‘81\’ number you show. My mistake it seems, is this second number the number of threads?

[EDIT]{style=“font-weight: bold”}:
\‘man pstree\’ says it all :
\“Child threads of a process are found under the parent process and are shown with the process name in curly braces, e.g.
icecast2---13*[{icecast2}]
\”

sorry for my lack of precision in terming the issue

Statistik: Verfasst von layst — Mo Mai 18, 2015 9:22 pm


English • Re: Save crawler config

Date: 2015-05-18 22:22:58

yes, not all, but most that you can use to manipulate the index, like deletion requests also. You can also use it to copy-paste those GET requests to use them externally from YaCy (i.e. with wget or curl) to start processes i.e. with a cronjob.

Statistik: Verfasst von Orbiter — Mo Mai 18, 2015 9:22 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 22:35:07

That\’s the number of spawned threads, see: http://man.cx/pstree .
However I\’m not sure on how to reduce YaCy RAM footprint.
BTW, how many documents are in your index?

Statistik: Verfasst von davide — Mo Mai 18, 2015 9:35 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-18 22:39:40

I think my index was at something like 10 millions documents, for ~22Gb. I am trying to restart it right now, but the log shows there were a number of... well I do not know how to term this then ... works unfinished? see there a typical line of the end of the log right now:

\ I 2015/05/18 22:35:30 MEMORY performed explicit GC, freed 1 KB (requested/available/average: 102400 / 95820 / 46 KB)\ E 2015/05/18 22:35:31 TABLE 0003.stack: not enough RAM (93MB) left for index, deleting allocated table space to enable index space allocation (needed: 100MB)\



So I will let yacy work tonight and see if I can do anything to limit the number of threads once it has started for good.

[EDIT]{style=“font-weight: bold”}
it has started, showing 110 threads, and a lot of memory used for cache

Statistik: Verfasst von layst — Mo Mai 18, 2015 9:39 pm


English • Language filter ineffective

Date: 2015-05-18 23:06:48

As shown in the screenshot, the language filter is ineffective.
In the screenshot, I specify to only retrieve English documents, but German results remain abundant. Maybe this is intended?

In case it may be useful, I wrote an excellent language detector in javascript able to recognize languages even for very short texts with just 5÷10 words. It is currently capable to distinguish and tell English, Spanish, French ,Italian, German and Russian.

Available here, from within a firefox add-on package of mine: https://addons.mozilla.org/en-US/firefo ... xt-reader/{.postlink}
Just to show the quality of the alghorithm, a video example of the recognition is here: https://vimeo.com/113796496


english_search.gif

Statistik: Verfasst von davide — Mo Mai 18, 2015 10:06 pm


English • Re: Language filter ineffective

Date: 2015-05-19 03:59:26

Since my above JS package isn\’t so straightforward, I can extract the relevant parts out of it and share them somewhere, if desired.
The parts would be dictionary files along with some functions grouped into one single file. The whole excerpt would weight a few dozen KB.

Statistik: Verfasst von davide — Di Mai 19, 2015 2:59 am


English • Questions on schema field: crawldepth_i

Date: 2015-05-19 11:05:16

I see the solr schema has a field named [crawldepth_i]{style=“font-style: italic”}.

Two questions arise:

  1. How is the depth measured? Since the crawler may find the same document referenced from many different paths, the depth at which the document is located is relative. Is the lowest known depth assigned to crawldepth_i?
  2. Since I\’m crawling a CMS where all the \“significant\” documents lie at the same depth, with the exception of a minority of \“insignificant\” node pages such as home pages or indexes, may I remove the crawldepth_i field from my index without compromising anything? Unchecking the box from /IndexSchema_p.html will take immediate effect?

Statistik: Verfasst von davide — Di Mai 19, 2015 10:05 am


English • Re: Questions on schema field: crawldepth_i

Date: 2015-05-19 14:35:47

to 1)
the crawldepth_i is the smallest possible number, the first depth where the document was recognized

to 2)
I believe this will cause an error, but I never tried to remove the field. Maybe it works.

Statistik: Verfasst von Orbiter — Di Mai 19, 2015 1:35 pm


English • Re: Language filter ineffective

Date: 2015-05-19 14:37:05

the language recognition is actually very fuzzy.

Statistik: Verfasst von Orbiter — Di Mai 19, 2015 1:37 pm


English • Re: Language filter ineffective

Date: 2015-05-19 16:29:55

Thanks Michael for answering.
As I see it, I think we can frankly agree that the current recognition method doesn\’t suit well the average user\’s needs. I understand that YaCy is predominantly a mono-language German project where many users and crawlers surf almost exclusively on German waters, and so it\’s difficult to realize when the language detector doesn\’t work. But here\’s my report: it doesn\’t work.
[Flashback: I already rose to the attention{.postlink} the problem of a language gap in the YaCy community.]{style=“font-style: italic”}

The reason I\’m taking the time to post on this forum is not to criticize anyone. It\’s for YaCy to improve.
Practically speaking, I won\’t be able to move my YaCy installation from testing to production without being able to rely on the results language. That\’s it, to filter off German results from the list, which accompany every query I run.

Moreover, I offer my excellent open source algorithm for language detection. It works really well, for short and long texts, and is easily extensible to newer languages. it is used by 1200 persons right now.
Since it\’s written in JS, it should be easily importable to YaCy with the addition of only a few files.

If necessary, I can provide for quick instructions on how to use it. The license is GPLv2, as specified in the page linked above.
As a summary: it\’s computationally fast; correctly detects 100% of the documents longer than 10 words; it doesn\’t rely on external services; it\’s about 50 KB of JS.

Statistik: Verfasst von davide — Di Mai 19, 2015 3:29 pm


English • Re: Language filter ineffective

Date: 2015-05-19 17:00:25

the language detection method has no relation to the language of the developers.
Language detection in javascript is unfortunately not applicable since any detection method would need to identify the language within the java code.
Anyway, where is it?

Statistik: Verfasst von Orbiter — Di Mai 19, 2015 4:00 pm


English • Re: Questions on schema field: crawldepth_i

Date: 2015-05-19 17:06:16

Thanks for answering.
As I understand it, the first time the crawler encounters a document doesn\’t necessarily correspond to the lowest depth at which such document may be found.
For example, if the crawler is instructed to start its scan from multiple starting URLs, when it descends both those URLs it may find a same document from both \“crawling paths\“, potentially at different depths. In other words, the crawler may encounter again an already-indexed document, but at a lower depth.

In this case, which depth is used, the one where the document was first encountered, or the lowest known?

Statistik: Verfasst von davide — Di Mai 19, 2015 4:06 pm


English • Re: Questions on schema field: crawldepth_i

Date: 2015-05-19 17:09:33

the crawler follows first the lowest depth. One depth is completed until the next is started. Therefore the crawldepth_i is actually always the lowest depth possible.
If the crawler encounters the same url at deeper depth, the depth is higher - and not crawled (its double then)

Statistik: Verfasst von Orbiter — Di Mai 19, 2015 4:09 pm


English • Re: Questions on schema field: crawldepth_i

Date: 2015-05-19 17:20:34

Perfect, that\’s really clear!

Statistik: Verfasst von davide — Di Mai 19, 2015 4:20 pm


YaCy Coding & Architektur • http://wrapper.tanukisoftware.com

Date: 2015-05-19 17:26:32

http://wrapper.tanukisoftware.com/doc/german/download.jsp

Das wäre doch eine tolle Möglichkeit YaCy als Dienst unter Windows laufen zu lassen!

Statistik: Verfasst von LA_FORGE — Di Mai 19, 2015 4:26 pm


Mitmachen • Suche Builds v1.6 - <1.68

Date: 2015-05-19 21:52:30

Hi,

hat jemand noch alte Builds v1.6 - <1.68 irgendwo gespeichert?


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Mai 19, 2015 8:52 pm


Mitmachen • Re: Suche Builds v1.6 - <1.68

Date: 2015-05-19 22:58:29

kann man an den entsprechenden Tags in git auschecken und re-builden.

Statistik: Verfasst von Orbiter — Di Mai 19, 2015 9:58 pm


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-05-19 23:05:28

jupp - der Pfad ist es wo wie Dateien beginnend mit text.index also die RWI-Daten liegen.

Statistik: Verfasst von sixcooler — Di Mai 19, 2015 10:05 pm


Mitmachen • Re: Suche Builds v1.6 - <1.68

Date: 2015-05-20 16:54:31

Danke.

Code:
92d9c56f017066c0ff91b58fe986



Diese 4 Builds bräuchte ich. Wie kann ich die aus dem Repository auschecken? Einen Account bei Github habe ich.

Statistik: Verfasst von LA_FORGE — Mi Mai 20, 2015 3:54 pm


YaCy Coding & Architektur • Re: http://wrapper.tanukisoftware.com

Date: 2015-05-20 23:26:33

Spannend. Das schaue ich mir mal an.

Statistik: Verfasst von Huppi — Mi Mai 20, 2015 10:26 pm


Mitmachen • Re: (LinuxTag 2015) -> OpenTechSummit 14. Mai Berlin

Date: 2015-05-20 23:30:07

Das muß eine tolle Veranstaltung gewesen sein. Ich war \“leider\” beruflich in Kanada und USA beruflich unterwegs.
Berichet Ihr noch ein bißchen über den OpenTechSummit?

Statistik: Verfasst von Huppi — Mi Mai 20, 2015 10:30 pm


English • Re: Language filter ineffective

Date: 2015-05-21 00:39:52

I have taken the time to extract the relevant data from the above-mentioned package and pack the files into a working example, here attached.
The example is self-explanatory.

Code:
apt-get install nodejstar -axf LanguageDetect.tar.gzcd ./scriptsnodejs languageDetectDemo.js



You\’ll notice the algorithm is very simple. The key is in [the sorting order of the vocabularies and their size]{style=“text-decoration: underline”}. Remember this when creating additional vocabularies:


[Edit:]{style=“font-weight: bold”} if you get a syntax error, nodejs v0.12{.postlink} is required.

Statistik: Verfasst von davide — Mi Mai 20, 2015 11:39 pm


YaCy Coding & Architektur • Re: http://wrapper.tanukisoftware.com

Date: 2015-05-21 02:12:55

??
ist doch bereits vorhanden (basierend auf Apache deamon / procrun)
siehe yacy\installYaCyWindowsService.bat
bzw. die zugehörigen libs in yacy\addon\windowsService

P.S. könnte ggf. jemand als Abfrage ins NSI Installerskript einbauen.

Statistik: Verfasst von reger — Do Mai 21, 2015 1:12 am


Fragen und Antworten • Re: Citations & RWIs

Date: 2015-05-21 16:58:27

Danke. Habe noch ein Backup eines alten Peers bei mir auf einer Platte gefunden, 8 x RAR-Parts á 20 GB :D
Wie kann ich auf Github gezielt nach der Build suchen, wo die Routine noch mit drine ist der den alten Index in die Solr-Instanz migriert? / Welche Schlagwörter kann ich zum Suchen danach verwenden?

Statistik: Verfasst von LA_FORGE — Do Mai 21, 2015 3:58 pm


Fragen und Antworten • Postprocessing limitieren?

Date: 2015-05-21 20:33:51

Hallo zusammen,

dass das Postprocessing sehr viele Ressourcen benötigt ist mir klar, aber kann man das irgendwie einschränken?
Wenn das Prostprocessing läuft, ist die Last auf der Platte relativ hoch, im Duschschnitt immer so 60-70MB/s:

Code:
[root@yaci ~]# iotop -oaTotal DISK READ :      68.12 M/s | Total DISK WRITE :       3.11 K/sActual DISK READ:      68.12 M/s | Actual DISK WRITE:       4.08 K/s  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND  677 be/6 root        803.94 M     64.00 K  0.00 % 96.40 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  680 be/6 root        604.03 M     60.00 K  0.02 % 96.31 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  681 be/6 root        703.51 M     76.00 K  0.00 % 96.14 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  683 be/6 root        894.52 M     44.00 K  0.00 % 95.99 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  682 be/6 root       1327.94 M     40.00 K  0.00 % 95.91 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  679 be/6 root       1220.15 M    228.00 K  0.00 % 95.90 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  678 be/6 root        610.57 M     56.00 K  0.00 % 95.82 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  676 be/6 root       1199.41 M    236.00 K  0.00 % 95.74 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 5136 be/6 root        475.80 M     12.00 K  0.00 % 41.28 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 5154 be/6 root        528.79 M      8.00 K  0.00 % 35.96 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 5153 be/6 root        259.07 M      8.00 K  0.00 % 14.87 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  661 be/6 root         20.34 M   1060.00 K  0.00 %  6.80 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 5151 be/6 root         70.36 M     20.00 K  0.00 %  2.61 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy28454 be/6 root       1964.00 K     36.00 K  0.00 %  1.75 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 7583 be/6 root         12.05 M      4.00 K  0.00 %  1.92 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  586 be/6 root        396.00 K      0.00 B  0.00 %  0.85 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 2745 be/6 root       1552.00 K     24.00 K  0.00 %  0.84 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy 7577 be/6 root       1328.00 K      0.00 B  0.00 %  0.69 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  674 be/6 root          6.00 M      0.00 B  0.00 %  0.39 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  487 be/6 root         88.00 K     52.00 K  0.00 %  0.36 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  668 be/6 root          5.87 M      0.00 B  0.00 %  0.29 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  669 be/6 root          4.00 M      0.00 B  0.00 %  0.25 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  672 be/6 root          6.93 M      0.00 B  0.00 %  0.25 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  671 be/6 root          5.92 M      0.00 B  0.00 %  0.24 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  670 be/6 root          4.00 M      0.00 B  0.00 %  0.15 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  479 be/6 root         11.22 M     24.00 K  0.00 %  0.12 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  673 be/6 root          3.99 M      0.00 B  0.00 %  0.09 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  675 be/6 root          2.00 M      0.00 B  0.00 %  0.08 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  568 be/6 root        692.00 K      0.00 B  0.00 %  0.07 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy  486 be/6 root          0.00 B     32.00 K  0.00 %  0.00 % java -Xms7000m -Xmx7000m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Dsolr.d~l-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy



Code:
[root@yaci ~]# toptop - 20:25:47 up 2 days, 21:13,  1 user,  load average: 9.24, 9.62, 10.15Tasks: 150 total,   2 running, 148 sleeping,   0 stopped,   0 zombie%Cpu(s):  0.0 us,  1.0 sy,  1.7 ni, 19.7 id, 77.6 wa,  0.0 hi,  0.0 si,  0.0 stKiB Mem :  8011104 total,   146216 free,  7559552 used,   305336 buff/cacheKiB Swap:  4095996 total,  3768508 free,   327488 used.   210424 avail Mem  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND  469 root      30  10 16.522g 6.959g   2884 S  20.6 91.1 256:43.41 java   75 root      20   0       0      0      0 S   1.7  0.0  96:09.48 kswapd0 7589 root      20   0  130024   1748   1124 R   0.3  0.0   0:00.06 top


Code:
[root@yaci ~]# cat /proc/cpuinfoprocessor       : 0vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 0siblings        : 2core id         : 0cpu cores       : 2apicid          : 0initial apicid  : 0fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 1vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 0siblings        : 2core id         : 1cpu cores       : 2apicid          : 1initial apicid  : 1fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 2vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 1siblings        : 2core id         : 0cpu cores       : 2apicid          : 2initial apicid  : 2fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 3vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 1siblings        : 2core id         : 1cpu cores       : 2apicid          : 3initial apicid  : 3fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 4vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 2siblings        : 2core id         : 0cpu cores       : 2apicid          : 4initial apicid  : 4fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 5vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 2siblings        : 2core id         : 1cpu cores       : 2apicid          : 5initial apicid  : 5fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 6vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 3siblings        : 2core id         : 0cpu cores       : 2apicid          : 6initial apicid  : 6fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:processor       : 7vendor_id       : GenuineIntelcpu family      : 6model           : 62model name      : Intel(R) Xeon(R) CPU E5-2609 v2 @ 2.50GHzstepping        : 4microcode       : 0x427cpu MHz         : 2500.000cache size      : 10240 KBphysical id     : 3siblings        : 2core id         : 1cpu cores       : 2apicid          : 7initial apicid  : 7fpu             : yesfpu_exception   : yescpuid level     : 13wp              : yesflags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes xsave avx hypervisor lahf_lm arat epb pln pts dthermbogomips        : 5000.00clflush size    : 64cache_alignment : 64address sizes   : 40 bits physical, 48 bits virtualpower management:



Jemand ne Idee, wie man das etwas \“drosseln\” kann?
Der Server läuft zwar stabil, aber durch die hohe Last, verzögern sich die Suchanfragen teils um 5-10 Sekunden.

Statistik: Verfasst von ScRe — Do Mai 21, 2015 7:33 pm


English • Re: Language filter ineffective

Date: 2015-05-23 00:41:19

I\’m particularly sensible to this improvement and I\’m on the pathway deciding whether to do a consistent hardware investment on YaCy.
I need results to be filtered by language not because of a mere \“personal taste\“, but because a parser program will elaborate the results and it needs to map English keywords.

The algorithm is likely very simple to convert to java, and is also especially effective.
If anything is wrong, please let me know.

Statistik: Verfasst von davide — Fr Mai 22, 2015 11:41 pm


Hilfe für Einsteiger und Anwender • Seeking tested proven config files, please

Date: 2015-05-23 08:11:40

HI
We are seeking tested, proven, recent config files for setting up a small but full p2p+dht non-public / private YaCy environment with multiple cloud based servers, please.

We need the config files please and some guidance (some advice, please, but not much), for the seed server and a generic set of configs for \‘new\’ member servers that get added, one by one.
Our goal is to set up the group and then have a module of a \‘new member\’ server - but an image which is empty of data - that can be added whenever needed. Ideally, please, just like in the public YaCy network, the \‘new\’ one will know where to register and join the non-public / private group by itself whenever we add a fresh copy of the master client server image in a cloud somewhere! :)
We cannot find clear and > recent < instructions with > example files for creating a non-public / private YaCy group that are \‘tested and proven\’ files for this, anywhere.
It is very frustrating. Maybe they exist, but where?
Theory is nice, and old examples from long ago, are nice for historians of code development, but in building something that works, it is better + Much Safer to start with something \‘fresh\’ that someone has actually done \‘recently,\’ please. Thanks for understanding. ;)
Summary:
We wish to make a fresh, new and self-contained environment of multiple p2p+dht YaCy servers which is not connected to the existing public YaCy or any other open environments, please. We are researching something and need a little order in how we do this, please. Thanks!

It will be in clouds on ubuntu.

Can someone help us please or PM me with guidance on this, please?
I ma very happy to do it and then clean it up and put it back UP as > \” [[recently tested and this worked]{style=“font-weight: bold”}]{style=“font-style: italic”} \” < of course! We got to get out of rough & ready beta / hobby thinking.

We will then import data we have already collected and the respective crawling instructions used in existing Robinson servers to each new one, and tear down the old Robinson servers.

Many thanks!
:D

Statistik: Verfasst von xioc752 — Sa Mai 23, 2015 7:11 am


Mitmachen • Re: (LinuxTag 2015) -> OpenTechSummit 14. Mai Berlin

Date: 2015-05-23 08:50:23

Hi Huppi,

der \‘OpenTechSummit\’ hatte einen etwas anderen Charakter als der bisherige \‘LinuxTag\‘. Vor allem war er kleiner, d.h. weniger Ausstellungsfläche und auch weniger kommerzielle Aussteller. Die Vortragsräume waren kleiner und mir fielen die vielen Kinder auf, für die es u.a. einen Löt-Workshop gab. Die Veranstaltung war gut besucht - darunter viele ausländische Besucher. Orbiter hat sein neues Projekt \‘loklak\’ (http://loklak.net) präsentiert und einen Vortrag dazu gehalten. Die Ausstellung dauerte nur einen Tag lang.

Wir waren zu viert am Yacy-Stand und das Interesse an Yacy war wieder groß. Etliche Interessenten kannten Yacy aus früheren eigenen Erfahrungen und waren erstaunt über die Weiterentwicklungen bei Yacy. Andere - meist jüngere Interessenten - kannten Yacy gar nicht und meinten, es mal ausprobieren zu wollen. Nebenher haben wir natürlich für den Berliner Yacy-Stammtisch kräftig die Werbetrommel gerührt.

Vielleicht sieht man sich mal wieder.

Gruß lux

Statistik: Verfasst von lux — Sa Mai 23, 2015 7:50 am


Hilfe für Einsteiger und Anwender • Port öffnen

Date: 2015-05-23 12:35:44

Hallo, sicher gibt es das schon, aber ich bin nicht sehr gut im suchen:

Ich suche eine Schritt für Schrittanleitung für das Öffnen des Ports mit Ubuntu und einem Ubee Router, so dass die Meldung

\“Ihr Peer ist dem Netzwerk noch nicht bekannt. Warten Sie noch ein wenig, dies geschieht automatisch.\”
und \“warning Ihr Peer kann nicht von außen erreicht werden...\”
(auch nach langer wartezeit)
nicht mehr erscheint, und/ - oder für das Umgehen oder Ausschalten der Firewall.

Diese Anleitung muss für einen ABSOLUTEN Laien verständlich sein. Ich habe es grade so geschafft mit dem Tutorial video YACY zu installieren. :ugeek:

Es wäre doch toll wenn das irgendwann mal alles richtig intuitiv geht?

Vielen Dank für einen Link/eine Antwort!!!

Statistik: Verfasst von MoritzFarol — Sa Mai 23, 2015 11:35 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-05-23 17:28:35

Hi,

ich vermisse die yacystats.de sehr. Jetzt wurde sogar die Domain abgeschaltet :-( Ich habe mir gedacht ich spiele mal etwas mit Piwik rum, habe es in alle möglichen html-Seiten von YaCy eingebaut, schade, dass es in der transferRWI.html und transferURL.html usw. nicht funzt, sonst hätte man mal alles analysieren können. Ich habe hier innerhalb von 2 Stunden

http://imgur.com/SLsI9gC

Zugriffe von über 2000 unterschiedlichen IP-Adressen auf meinen YaCy-Peer. Schade, dass Piwik nicht auf Layer 4 des OSI-Modells lauscht. Könnte man es evtl. anderweitig dazu überreden auch die transferRWI, transferURL, query und hello.html zu monitoren oder \“vor\” YaCy schalten?

VG

Stefan

Statistik: Verfasst von LA_FORGE — Sa Mai 23, 2015 4:28 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-05-23 21:55:05

http://www59.zippyshare.com/v/cHrhQdLM/file.html

\“OMG Sweetie, what have you done?!?! The printer just got jammed!\”

Statistik: Verfasst von LA_FORGE — Sa Mai 23, 2015 8:55 pm


English • Does Amazon block YaCy?

Date: 2015-05-24 02:45:21

It looks like Amazon is banning YaCy from its website.

Could you confirm this? Here\’s a test command to run on your computer and check for it:

Code:
# This should work (return any data):curl -A I_am_Firefox http://www.amazon.com/gp/product/B00M55C0NS/ref=s9_qpp_gw_p147_i3 [^]# This should be banned (no data returned):curl -A I_am_yacybot http://www.amazon.com/gp/product/B00M55C0NS/ref=s9_qpp_gw_p147_i3 [^]



I opened a whishlist tiket to allow users to change the user agent string for YaCy: http://mantis.tokeek.de/view.php?id=579

Statistik: Verfasst von davide — So Mai 24, 2015 1:45 am


English • Suspend crawler during a time-window every day

Date: 2015-05-24 04:02:33

Is it possible to configure the process scheduler to periodically pause the crawler(s) during a specific time-window, every day?
Looking at my /Table_API_p.html, I see listed in the table the entry for starting the crawler, as it was automatically recorded from my manual interactions onto /CrawlStartExpert.html. (thank you orbiter for teaching me this{.postlink} :) However there\’s no entry for stopping it, even if I did manually stop the crawler from /Crawler_p.html.

Also, I noticed that every time I stop the crawler, YaCy seizes a serious amount of upload bandwidth for several minutes while the number of entries in the local crawler queue gradually reduce from a few millions to zero, by which point the stopping procedure appears to be complete. So, by this, I\’m not even sure if stopping the crawler for two or three hours a day on a specific time-window would be effective at preserving the bandwidth for other purposes.
Maybe it is possible to just slow down the crawler periodically, without stopping it completely?

Statistik: Verfasst von davide — So Mai 24, 2015 3:02 am


English • \“Search again\” & API

Date: 2015-05-24 18:40:10

If I get this correctly, the \“search again\” button is intended to allow YaCy to better refine the search results during the time frame between the first query (\“search\“) and the second one (\“search again\“). Please correct me if I\’m wrong.

Hereof, I noticed that searches performed via the web panel return results in less time than those performed via API (yacysearch.json). Is this because YaCy allows more time to source results for API queries?

Also, how much delay is a \“good delay\” to have a degree of confidence over the results returned?

Statistik: Verfasst von davide — So Mai 24, 2015 5:40 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-24 18:59:11

I guess you are not receiving an \“authoritative\” answer because the problem is simply lack of ram.
10M records seem to commonly take 2÷4GB of ram, I guess most of them are for the reverse words index, which won\’t shrink in size by reducing the number of threads.

I\’m facing the same problem right now, and I\’m buying new hardware as a solution.
Alternatively, Linux has a (stable?) module to compress ram and/or swap pages.

Besides, have you checked your VM memory settings? Maybe the 600MB limit you mentioned is just the starting memory:

Code:
egrep 'Xmx|Xms' ./DATA/SETTINGS/yacy.conf

Statistik: Verfasst von davide — So Mai 24, 2015 5:59 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-05-24 21:50:29

ui, Piwik in der api, das ist was neues und interessant dass es so enorm viele IPs sind!

Es gibt aber einen Ersatz für yacystats, in jedem Peer die Zugriffsstatistik im Netzmonitor! Das speichert aber keine IP-Historien (das wollen wir ja auch nicht so), nur die Netzgröße im Verlauf der Zeit.

Statistik: Verfasst von Orbiter — So Mai 24, 2015 8:50 pm


Mitmachen • Re: (LinuxTag 2015) -> OpenTechSummit 14. Mai Berlin

Date: 2015-05-24 21:53:49

ja das war ein schönes Event, und so schnell vorbei..
Es gab auch ein Interview am YaCy Stand, hier isses:
iframe

Statistik: Verfasst von Orbiter — So Mai 24, 2015 8:53 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2015-05-25 00:39:44

This is an idea I was actually going to propose. Independently of how big is the \“muscle\“, the server will unavoidable hit its hardware limits sooner or later, unless the administrator undertakes the tedious task to periodically check memory / disk consumption and clear the index accordingly.

Has there been any progress with this, so far?

Statistik: Verfasst von davide — So Mai 24, 2015 11:39 pm


Fragen und Antworten • Re: Yacy Performance steigern

Date: 2015-05-25 00:44:25

[\@netsearch]{style=“font-weight: bold”}
Your hardware configuration is interesting. I\’m going to buy something similar next week (already have bought 12 HDD :)
My heuristically risen concern is: I no longer see your host among the YaCy network. Did you take it offline for some problem or defect you found in YaCy?

Statistik: Verfasst von davide — So Mai 24, 2015 11:44 pm


Hilfe für Einsteiger und Anwender • Export der indexierten Texte?

Date: 2015-05-25 14:27:03

Hallo,

spiele gerade etwas mit YaCy rum - sehr schön sieht das aus.
Versuche aber noch eine Funktion zu finden:
Eine Art Export der indexierten Texte.

Wenn ich Textanalyse über die indexierten Texte laufen lassen will o. Ä. - gibt es da etwas?
Das kommt ja aus dem Solr Index? Ich habe einen Dump erstellt - aber das sind eher Meta-Daten?

Danke schon mal
Bye, Chris

Statistik: Verfasst von Chris734 — Mo Mai 25, 2015 1:27 pm


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-25 14:51:27

Das würde mich auch interessieren - hast du das geschafft?

Statistik: Verfasst von Chris734 — Mo Mai 25, 2015 1:51 pm


English • Excessive IO load

Date: 2015-05-25 16:50:58

YaCy disk IO load is high while no particularly-intensive task is running.

Activity:


Features:


Is disk IO load dependent on the index size? Will this be a brake for single-machine scalability? What may be responsible for my high load?

atop.gif

Statistik: Verfasst von davide — Mo Mai 25, 2015 3:50 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-05-25 17:57:10

Da hast du Recht. Zum Glück gibt es in den Piwik-Einstellungen die Möglichkeit, die IPs zu anonymisieren, dass nur noch die ersten 2 Oktetts der Gesamtadresse angezeigt werden. Die IPs an sich interessieren mich auch nicht, nur das was sie machen und in welchem Umfang, woher sie kommen und die Diversität des gesamten Traffics.

Statistik: Verfasst von LA_FORGE — Mo Mai 25, 2015 4:57 pm


English • Re: Yacy grabbing all the RAM - too many JVM processes

Date: 2015-05-25 23:19:19

I do agree with you about the reverse words index cause, for some hints I came across when looking at the logs and trying to set proper settings to reduce the RAM footprint.

About the initial memory, I did set it to different values, but it does not have any impact on the RAM used for caching.

As for changing the hardware, I just upgraded my install. I intended to dedicate some of its resources to Yacy, but if I have to commit nearly all the RAM to this single process it might affect my other uses of the server. Hence at the moment I do not really know if I keep on going with Yacy.

I wish there was a way to free all this cached RAM, but I do not know the mechanics of the software and do not feel like I have enough time to learn it. Still, maybe storing the RWI in a file (or several) could offer a solution, even if it would be slower than caching? I guess that developpers have already thought about this problem and this type of solution, and have made a decision about it.

So I suspect there is indeed no easy solution within my reach, beside upgrading the hardware, which I won\’t do in a near future.

In any case, thank you for your concern.

Statistik: Verfasst von layst — Mo Mai 25, 2015 10:19 pm


English • Re: Does Amazon block YaCy?

Date: 2015-05-26 02:26:32

They are blocking yacy and it\’s their choice which we have to respect. You can change the user agent as long as you are not on the freeworld network. Changing it while on freeworld should not and probably will not be possible as this would be a terrible practice which would cause immense backslash against yacy.

Statistik: Verfasst von Scarfmonster — Di Mai 26, 2015 1:26 am


Fragen und Antworten • Crawl-Tiefe

Date: 2015-05-26 18:38:28

Hi,

was ist eigentlich der Unterschied zwischen einer Crawl-Tiefe von -1 und 1? Ich habe einen Crawl aus einer HTML-Datei mit 10000 URL gestartet (Advanced Crwler -> Crawl start from file) und als Crawl-Tiefe -1 gewählt, das läuft jetzt schon seit 2 Monaten.


VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Mai 26, 2015 5:38 pm


Presse • Re: Blog-Sammel-Thread

Date: 2015-05-27 13:08:34

Kommentar #5 zu [Spiegel Online] Vorratsdatenspeicherung: Jetzt amtlich - Regierung will an Ihren Computer{.postlink}:

\“dann sollen sie an den daten ersticken! ich werde mir wieder yacy auf meinem 247 rechner installieren. das ist ein offener webcrawler der ordentlich traffic macht - das ist meine art gegen die VDS vorzugehen, eine andere möglichkeit sehe ich nicht. oder hat irgendwer noch zweifel das demonstrieren gehen, petitionen zeichnen und wählen gehen wirkungslos sind?\”

und #10:

\“Das klingt gut, ging mir auch schon öfters durch den Kopf. Einfach soviel Datenmüll/Fehlinfo`s produzieren, das die ersticken. TOP!!!\”

Allerdings lassen sich YaCy-Request ja relativ einfach anhand des Useragent-Eintrags in HTTP-Header filtern.

Statistik: Verfasst von Low012 — Mi Mai 27, 2015 12:08 pm


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-27 16:05:32

Es gibt kein Tool in dem Sinne. Für Linux gibt es ein Skript, es liegt im /bin-Unterverzeichnis der YaCy-Distribution und heißt indexdump.sh

Da YaCy als Backend Solr/Lucene der Apache-Foundation nutzt, gibt es zahlreiche Anleitungen und Tools wie man mit den Daten jonglieren kann im Netz. Ich kopiere in so einem Fall einfach immer das komplette Unterverzeichnis /DATA/INDEX/freeworld/SEGMENTS/solr_4_10/collection1/ darin befinden sich alle Dateien der Datenbank.

Statistik: Verfasst von LA_FORGE — Mi Mai 27, 2015 3:05 pm


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-27 17:45:45

wahrscheinlich werde ich mich demnächst mal mit dem Dump-Thema beschäftigen

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 4:45 pm


Hilfe für Einsteiger und Anwender • Re: RSS URL Export

Date: 2015-05-27 23:44:13

ich muss zugeben dass ich nicht ganz verstanden habe was du genau machst :oops:
Was für eine RSS Tabelle? Wie exportierst du _was_? Bitte Links in die API angeben.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 10:44 pm


Mitmachen • Re: Suche Builds v1.6 - <1.68

Date: 2015-05-27 23:46:46

hier ist eine Beschreibung in stackoverflow http://stackoverflow.com/questions/7919 ... g-with-git{.postlink}
Geht offenbar so: git checkout tags/<tag_name>
.. also nicht die Build hashes, sondern die Tags benutzen. Ich habe in den letzten Releases immer Tags vergeben.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 10:46 pm


Fragen und Antworten • Re: Postprocessing limitieren?

Date: 2015-05-27 23:50:04

also das Postprocessing war eine Aktion die zum Thema \‘YaCy ist ein Suchmaschinenlabor\’ gehört und durch default-Einstellungen in den letzten Releases deaktiviert wurde. Das Postprocessing hat verschiedene Funktionen geliefert, darunter \‘echtes\’ (!!!ja!!!) Page Rank mit dem dazugehörigen Aufwand. Das ist aber wie gesagt nun deaktiviert.
Wenn du ein älteres Release bis heute migriert hast, ist es nicht deaktiv. Du kannst es aussschalten, indem du in /IndexSchema_p.html das Feld process_sxt deaktivierst.
Ich empfehle diese Vorgehensweise.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 10:50 pm


English • Re: Suspend crawler during a time-window every day

Date: 2015-05-28 00:05:13

there is no slow-down scheduler-option built-in, however, you can slow down using the PPM setting in /Crawler_p.html
This slow-down setting might be triggered using a cronjob; however, I never tried that. But that should work and serve your demand.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 11:05 pm


English • Re: \“Search again\” & API

Date: 2015-05-28 00:11:45

davide hat geschrieben:\ If I get this correctly, the \"search again\" button is intended to allow YaCy to better refine the search results during the time frame between the first query (\"search\") and the second one (\"search again\"). Please correct me if I\'m wrong.\


thats right. well its simple: when doing a search to other peers, there must be a time-out, waiting for more results. If that happens, the first result page is shown completely, but meanwhile more results may get in; that is not stopped when the first results are shown. Doing a second search will simply put you into a situation where more results have been collected meanwhile.

davide hat geschrieben:\ Hereof, I noticed that searches performed via the web panel return results in less time than those performed via API (yacysearch.json). Is this because YaCy allows more time to source results for API queries?\


There is actual no distinguishing between .html servlet results and .json or .rss results. So I have do explanation for your observatuion.

davide hat geschrieben:\ Also, how much delay is a \"good delay\" to have a degree of confidence over the results returned?\


This is open for research. I actually don\’t know. You can develop a \‘rule of thumb\’ for your own application. I experimented with time ranges from 3-10 seconds. Most important was obviously the waiting time, not the completeness of the result for the user. But that may be different for a different type of user.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 11:11 pm


Hilfe für Einsteiger und Anwender • Re: Export der indexierten Texte?

Date: 2015-05-28 00:14:06

einen Teil-Export bekommst du ja mit der Solr-Suche, z.B.
/solr/collection1/select?q=*:*&defType=edismax&start=0&rows=3
und in dem dort zurückgelieferten XML bekommst du im Feld text_t den Volltext. Das könntest du für eine Textanalyse benutzen.

Jetzt noch zum _kompletten_ Export: das gibts noch nicht, ich arbeite aber vermutlich demnächst daran.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 11:14 pm


Fragen und Antworten • Re: Crawl-Tiefe

Date: 2015-05-28 00:15:19

hm.. die Crawl-Tiefe sollte eigentlich nicht unter null sein, sonst kann sie nicht beendet werden.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 11:15 pm


Hilfe für Einsteiger und Anwender • Re: Port öffnen

Date: 2015-05-28 00:20:07

das Stichwort hier ist \“Port Forwarding\” und da habe ich für dich für den Ubee Router folgendes gefunden: http://portforward.com/english/routers/ ... tguide.htm{.postlink}
ggf. hilft dir das weiter. Du musst Port 8090 zu dem Server, der YaCy laufen hat, freischalten.

Statistik: Verfasst von Orbiter — Mi Mai 27, 2015 11:20 pm


Fragen und Antworten • Re: Crawl-Tiefe

Date: 2015-05-28 10:43:24

Thx. Ich hab das mit dem -1 auf der Seite ConfigHeuristics_p.html zum ersten mal gelsen. Könnte man das so implementieren, dass beim Crawl Start From File (enter a path within your local file system) wenn man an der Stelle als Tiefe -1 eingibt, dass dann wirklich nur der Inhalt des Dokuments geladen & indexiert wird, was man dort angibt? Momentan crawlt er bei mir schon über 4 Wochen.

Statistik: Verfasst von LA_FORGE — Do Mai 28, 2015 9:43 am


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-28 10:48:05

Genial! Es wäre super, wenn das mergen von Indexdaten möglich wäre, ohne dass der vorhandene Index überschrieben wird.

Statistik: Verfasst von LA_FORGE — Do Mai 28, 2015 9:48 am


Mitmachen • Re: Suche Builds v1.6 - <1.68

Date: 2015-05-28 11:29:04

Genial, vielen Dank!!

Statistik: Verfasst von LA_FORGE — Do Mai 28, 2015 10:29 am


Fragen und Antworten • Re: Crawl-Tiefe

Date: 2015-05-28 16:00:01

naja ist kein Wunder dass der nicht mehr aufgört zu crawlen: jedes mal, wenn einem Link gefolgt wird, wird die Tiefe um 1 verkleinert und schluss ist bei 0...

Das, was du willst kannst du haben indem du mit Tiefe 0 startest: das bedeutet, nur das Startdokument zu laden, sonst keins.

Statistik: Verfasst von Orbiter — Do Mai 28, 2015 3:00 pm


Hilfe für Einsteiger und Anwender • Index-Export bricht ab

Date: 2015-05-28 17:22:20

Hi,

ich habe bei mir noch einen alten Peer von 2012 gefunden, es waren 8 x RAR-Archive á 20 GB :D ich wollte daraus über die Seite IndexControlURLs_p.html den Index als HTML exportieren (URLs with title). Leider bricht es immer wieder ab, bevor alle URLs exportiert werden konnten. Ich habe dann den Peer von v1.2 über v1.3 - v1.7 letztendlich auf v1.8 hochgelevelt und mir ist aufgefallen, dass umso höher die Versionsnummer wird, umso mehr URLs können exportiert werden.

Leider bricht er immer noch bei 20 Mio. von 74 Mio. ab :-( Ich habe mal den Index mit der checkindex.sh überprüfen lassen, es ist alles in Ordnung. Kann es an einer zu langsamen Festplatte liegen? Leider habe ich momentan nur eine SATA-HDD im Einsatz, da ja die SAS-Platten

Bild

nach 140 TB I/O Traffic die Grätsche gemacht haben :-( Es war noch Garantie darauf aber ich habe jetzt 2 Refurbished-Platten bekommen denen traue ich aber nicht über den Weg, weil ich denke, dass die Ausfallwahrscheinlichkeit da mindestens doppelt so hoch wie bei neuen Platten ist.

VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Do Mai 28, 2015 4:22 pm


Hilfe für Einsteiger und Anwender • Re: Index-Export bricht ab

Date: 2015-05-28 21:10:32

Es gab in einem anderen Kontext (Postprocessing) auch einen Fall, wo das Iterieren durch große Indexmengen abgebrochen ist. Dazu gab es im September 2012 eine Verfahrensänderung die das verbessert bzw. behoben haben sollte. Ich arbeite momentan auch wieder am Export, insofern interessiert mich das auch dass das geht.

Du hast da ja eine ganz schön große Datenmenge gesammelt, so viel habe ich gar nicht :oops: vielleicht kann ich deine Daten zum Testen bekommen? ggf. könnten wir uns dazu ja treffen, so große Datenbrocken kann man ja nirgenswo hin laden so einfach.

Statistik: Verfasst von Orbiter — Do Mai 28, 2015 8:10 pm


Mitmachen • Index exportieren, komprimieren, sharen!

Date: 2015-05-28 21:21:33

Die Anfragen nach einem schönen Index Full Export häufen sich irgendwie gerade und ich will da auch was bauen. Wenn wir nun alle so schön einen full export machen können, können wir auch (über den Surrogat Import, so plane ich das nun) exportiere Indexe wieder konsolidieren.

Da fällt mir dann auch gleich ein, dass wir solche Daten dann einfach mal sharen sollten. Wie wärs wenn wir das mal ganz \‘konservativ\’ über torrents machen? (wer jetzt torrent liest und \‘illegal\’ denkt: nein - wir sind immer noch nur ganz legale Index sharer wie seit vielen Jahren - nur mal anders).

Oder hat jemand eine andere Idee fürs sharing? Ich gehe davon aus dass es \‘Spender\’ mit über 20GB große Dateien gibt.

Statistik: Verfasst von Orbiter — Do Mai 28, 2015 8:21 pm


Hilfe für Einsteiger und Anwender • Re: Export der indexierten Texte?

Date: 2015-05-29 02:47:49

Ahja, habe es gefunden - das sieht schon ganz gut aus, danke dir. :)

Statistik: Verfasst von Chris734 — Fr Mai 29, 2015 1:47 am


Hilfe für Einsteiger und Anwender • Über Updates auf Websites informieren

Date: 2015-05-29 03:17:38

Hallo,

hätte einige Website die ich gerne durchsuchen würde wie bei Themen-Suche/Portal-Suche:
http://www.yacy-websuche.de/wiki/index. ... emen-Suche{.postlink}
und ich würde die Infos über Updates benötigen (heute wurde an dieser Seite das geändert ... inkl. URL und evtl. Differenzen)
Habe gesehen, das unter http://localhost:8090/CrawlStartExpert.html sowas möglich sein könnte - stimmt das?

Danke schon mal
Chris

Statistik: Verfasst von Chris734 — Fr Mai 29, 2015 2:17 am


Mitmachen • Re: Index exportieren, komprimieren, sharen!

Date: 2015-05-29 09:19:40

Die Idee finde ich großartig! Auch die Art der Verteilung. Da bin ich sofort dabei! Einen der Spender schreibt gerade an diesen Post :-)

Statistik: Verfasst von LA_FORGE — Fr Mai 29, 2015 8:19 am


Fragen und Antworten • Re: Crawl-Tiefe

Date: 2015-05-29 09:20:28

thx

Statistik: Verfasst von LA_FORGE — Fr Mai 29, 2015 8:20 am


Hilfe für Einsteiger und Anwender • Re: Index-Export bricht ab

Date: 2015-05-29 13:26:51

Achso. Mir ist gerade aufgefallen, dass ein Teil der Daten noch im alten Indexformat sind und deshalb erst 10 Mio. in den Solr geschaufelt wurden, dann bricht es anscheinend doch nicht ab, es wird nur der Teil exportiert, der schon im Solr ist. Kannst du irgendwie die letzte Build/Version rausfinden wo die Routine noch mit drin ist, die den alten Index migriert?

Gerne kannst du meine Daten zum testen bekommen. Mein Hauptpeer hat schon 104 Mio. und diese Daten sind alle im Solr. Willst du diese Daten lieber haben?

Statistik: Verfasst von LA_FORGE — Fr Mai 29, 2015 12:26 pm


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-29 15:10:48

hab gerade eine erste Version hochgeladen (1.83.9231), die exportieren kann. Du findest die Funktion in \“Loaded URL Export\” ganz unten, ist per default an. Das macht nun einen Solr-Export und ohne Zeilenende innerhalb eines Dokuments, aber mit Zeilenende an jedem <doc>-Ende. Das hat den Vorteil dass man z.B. mit grep Dokumente aus einem Dump selektieren kann.

Ziel ist es, diese Dumps auch wieder über Surrogates einlesen zu können. Ich mache mich jetzt erst an den Import, ggf. muss ich dann die Dump-Funktion wieder anpassen. Aber du kannst ja schon mal schauen ob es so bei dir geht.

Statistik: Verfasst von Orbiter — Fr Mai 29, 2015 2:10 pm


Mitmachen • Re: Index exportieren, komprimieren, sharen!

Date: 2015-05-30 13:26:49

der Index Import geht jetzt, hab einmal erfolgreich getestet, das heisst nicht dass es immer geht :twisted:

wie geht! so:

[Um einen Solr Dump zu importieren, ihn einfach nach DATA/SURROGATES/in/ kopieren. Das wird dann automatisch reingesogen.]{style=“font-weight: bold”}

Importierte Dumps landen in DATA/SURROGATES/out/, wer das nicht will muss dort regelmäßig löschen.

Statistik: Verfasst von Orbiter — Sa Mai 30, 2015 12:26 pm


Hilfe für Einsteiger und Anwender • Re: Tool zum Datenbank auslesen

Date: 2015-05-30 13:40:30

gute Nachrichten: Import sollte nun gehen.
Dieser Topic ist irgendwie doppelt zu viewtopic.php?p=32049#p32049{.postlink-local} daher schliesse ich den topic hier nun. Bitte dort fortsetzen.

Statistik: Verfasst von Orbiter — Sa Mai 30, 2015 12:40 pm


Hilfe für Einsteiger und Anwender • Re: Export der indexierten Texte?

Date: 2015-05-30 13:41:45

import geht nun auch, siehe folgenden Topic: viewtopic.php?p=32049#p32049{.postlink-local}
Bitte dort weiter diskutieren, weil das hier doppelt ist schliesse ich den topic.

Statistik: Verfasst von Orbiter — Sa Mai 30, 2015 12:41 pm


YaCy Coding & Architektur • Re: Export der Metadaten

Date: 2015-05-30 13:42:45

das geht jetzt, bitte hier weiterlesen: viewtopic.php?p=32049#p32049{.postlink-local}

Statistik: Verfasst von Orbiter — Sa Mai 30, 2015 12:42 pm


Off-Topic • Gigantisches Botnet entdeckt

Date: 2015-05-31 15:53:11

Hi,

ich fragte mich dauernd, warum das YaCy-Webinterface manchmal über längeren Zeitraum nicht mehr reagiert. Ich habe sogar schon einen Bug eingestellt. Außerdem habe ich mich gefragt, woher die ganzen Verbindungen zu meinem YaCy kommen, da es innerhalb von 2 Stunden über 2000 unterschiedliche IP-Adressen sind, kann das nicht allein vom DHT kommen. Heute habe ich mal Wireshark angeschmissen und den Capture Filter auf den Port limitiert, wo YaCy läuft. Außerdem habe ich einen Display Filter gesetzt, der nur Pakete anzeigt, die einen bestimmten String enthalten. Und siehe da: Mein HostBrowser wird von automatisierten Queries heimgesucht und das exzessiv und im ganz großen Stil! Um die Crawler anderer Suchmaschinen handelt es sich nicht, das konnte ich ausschließen. Es ist definitiv ein Botnet. Wie wollen wir uns vor sowas schützen? Ich denke die Peers die dynamische IPs haben und die Peers die keinen festen DNS-Namen/DynDNS haben sind davon wenig bis überhaupt gar nicht betroffen.

VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — So Mai 31, 2015 2:53 pm


Hilfe für Einsteiger und Anwender • Re: Index-Export bricht ab

Date: 2015-05-31 21:00:46

Den Migrationscode habe ich entfernt in diesem Commit: https://github.com/yacy/yacy_search_ser ... f87663a040{.postlink}
D.h. die letzte Release-Version, wo die Migration noch drin ist, ist 1.6

Statistik: Verfasst von Orbiter — So Mai 31, 2015 8:00 pm


Hilfe für Einsteiger und Anwender • Re: RSS URL Export

Date: 2015-06-01 11:03:53

Hey,

ich meine folgende Tabelle: \“/Tables_p.html?table=rss&count=1000&search=\” .

Statistik: Verfasst von GEESUZ — Mo Jun 01, 2015 10:03 am


Mitmachen • Re: Index exportieren, komprimieren, sharen!

Date: 2015-06-01 18:34:51

Super klasse! Großartig gemacht! Vielen Dank!

Statistik: Verfasst von LA_FORGE — Mo Jun 01, 2015 5:34 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-01 18:41:27

Ich habe noch einen alten Peer bei mir gefunden von Ende 2012. Es sind 8 x RAR-Archive á 20 GB :D

Code:
Migrate URLdb to embedded Solr IndexConvert old meta data (urldb) index to embedded Solr fulltext index.    A low priority background job has been started which reads the old index, adds it to Solr and deletes the entry from the old index.    The default "slow migration" updates any entry in the old urldb index upon access (e.g. during search events).    If you feel that the not accessed entries are still relevant, with this migration all entries from the old urldb index will be migrated.    You may refresh this page to see how many entries in the old index are left for migration    Hint: this background task runs until all entries are migrated or YaCy is shutdown. The migration is not automatically restarted.65281515 entries in old index left to migrate.



Die Migration dauert noch sehr lange bis das durch ist :-( Ich will mehr Power!{.postlink} Kann man da was machen?

Statistik: Verfasst von LA_FORGE — Mo Jun 01, 2015 5:41 pm


Hilfe für Einsteiger und Anwender • Wie geht Yacy mit großen Dateien um beim Crawlen?

Date: 2015-06-01 22:30:03

Nach einem Crawl blieb nur noch ein Eintrag in der Loader Queue (watndat?) übrig:
http://www.eso.org/public/archives/imag ... iginal.zip{.postlink}
eine 39GB große Datei und es machte den Anschein als versuchte die Software die Datei runter zu laden (mit 1.2 MB/s), erst der ein Shutdown machte dem eine Ende. Ich dachte so große Dateien werden nicht runter geladen. In den Crawler Settings ist ein Maximum von 10485760 Bytes eingestellt. Bin jetzt etwas ratlos...
YaCy version 1.839201
Java version: 1.8.0_45 / Linux

Statistik: Verfasst von muixirt — Mo Jun 01, 2015 9:30 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-03 09:05:07

Mein Peer hat auch eine feste IP, ist aber anscheinend nicht betroffen. Ich habe aber auch Wireshark nicht bemüht, sondern nur auf http://localhost:8090/AccessTracker_p.html?page=0 nachgeschaut.

Statistik: Verfasst von Low012 — Mi Jun 03, 2015 8:05 am


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-03 15:48:14

Sei froh! Nachdem ich angefangen hatte eine Blacklist zu pflegen mit allen IP-Ranges von diesem Botnet und diese mit iptables zu sperren, habe ich ganz schnell wieder damit aufgehört, da es immer wieder neue Adressbereiche gab, worüber auf den HostBrowser systematisch zugegriffen wurde. Hätte man das zuende geführt, hätte das bestimmt 4 Wochen Zeit in Anspruch genommen :-( Ich habe jetzt alle IPv4-Adressen gesperrt die es gibt außer die IP-Ranges aller YaCys im freeworld. Das war zwar auch ne Menge Arbeit, aber seitdem ist Ruhe :D

Statistik: Verfasst von LA_FORGE — Mi Jun 03, 2015 2:48 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2015-06-05 11:35:14

wir brauchen eine englische Wiki-Seite um das ganze besser bewerben zu können. https://twitter.com/yacy_search/status/ ... 5136626688{.postlink}
Hab ausserdem heute Morgen eine Änderung hochgeladen mit einer Änderung des Servlets: der Export ist nun nicht mehr im IndexControlURLs_p.html sondern in einem neuen Servlet IndexExport_p.html und prominenter verlinkt im Hauptmenü.

Kann jemand helfen eine englische Wiki-Seite zu machen? Das hier wäre auch guter Stoff um wieder mal ein Tutorial-Video zu machen.

Statistik: Verfasst von Orbiter — Fr Jun 05, 2015 10:35 am


Fragen und Antworten • Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-06 00:30:42

Hallo,

ich habe heute auf Version 1.83.9250 aktualisiert (vorherige Version war mindestens zwei Wochen alt).

Seitdem habe ich auf meinem Server eine Load von 6-10 (vier Kerne), die fast ausschließlich von yacy stammt. Und auch nicht groß wait states, die sind konstant unter 2%. top zeigt fürs yacys Java-Prozess um die 300% CPU.

Dabei tut yacy eigentlich nichts. Das Log besteht fast ausschließlich aus pings, also z. B. \“I 2015/06/06 00:26:00 YACY hello/server: responded remote peer …\”

Was könnte das Problem sein?

Danke, zottel

Statistik: Verfasst von zottel — Fr Jun 05, 2015 11:30 pm


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-06 00:38:19

Hm. Ich habe yacy jetzt neu gestartet, und jetzt läuft er auf normalem Level. Beim Update hat er sich nicht korrekt selbst beendet, sondern wurde gekillt, aber die hohen Werte waren lange nachdem er die Datenbank wiederhergestellt hatte. Er schien völlig normal zu laufen und antwortete auch auf lokale Suchanfragen.

Jetzt sind die CPU-Werte wieder niedrig wie sonst, obwohl das Log jetzt voll ist mit DHT-Transfers.

Scheint also wieder zu gehen. Trotzdem seltsam.

Statistik: Verfasst von zottel — Fr Jun 05, 2015 11:38 pm


Fragen und Antworten • crash

Date: 2015-06-06 00:38:29

Mein yacy startet nicht mehr. Der VM stehen aktuell 16GB RAM, 500GB HDD und 4 Kerne zur Verfügung.
Ich habe mal probiert Xms auf 1000 und Xmx auf 4000 zu setzen, hilft aber nichts.

Code:
  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND 2310 yacy      30  10 2724128 1,057g  18880 S 321,0  6,7  10:41.67 java


Im Log finde ich diese Zeilen,
yacy geht anscheinend der Speicher aus.

Code:
W 2015/06/06 00:05:45 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 99290900 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 257335856 free at Sat Jun 06 00:05:45 CEST 2015net.yacy.cora.util.SpaceExceededException: 99290900 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 257335856 free at Sat Jun 06 00:05:45 CEST 2015        at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)        at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)        at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)        at net.yacy.kelondro.index.RowHandleMap.<init>(RowHandleMap.java:103)        at net.yacy.kelondro.blob.HeapReader.initIndexReadDump(HeapReader.java:179)        at net.yacy.kelondro.blob.HeapReader.<init>(HeapReader.java:91)        at net.yacy.kelondro.blob.HeapModifier.<init>(HeapModifier.java:58)        at net.yacy.kelondro.blob.ArrayStack.<init>(ArrayStack.java:209)        at net.yacy.kelondro.rwi.ReferenceContainerArray.<init>(ReferenceContainerArray.java:68)        at net.yacy.kelondro.rwi.IndexCell.<init>(IndexCell.java:99)        at net.yacy.search.index.Segment.connectCitation(Segment.java:188)        at net.yacy.search.Switchboard.<init>(Switchboard.java:541)        at net.yacy.yacy.startup(yacy.java:206)        at net.yacy.yacy.main(yacy.java:701)I 2015/06/06 00:05:45 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20150525201439348.blob, 1389 MB. Please wait.W 2015/06/06 00:05:53 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 36184700 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 144999320 free at Sat Jun 06 00:05:53 CEST 2015net.yacy.cora.util.SpaceExceededException: 36184700 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 144999320 free at Sat Jun 06 00:05:53 CEST 2015        at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)        at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)        at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)        at net.yacy.kelondro.index.RowHandleMap.putUnique(RowHandleMap.java:267)        at net.yacy.kelondro.index.RowHandleMap$initDataConsumer.call(RowHandleMap.java:471)        at net.yacy.kelondro.index.RowHandleMap$initDataConsumer.call(RowHandleMap.java:410)        at java.util.concurrent.FutureTask.run(FutureTask.java:262)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)        at java.lang.Thread.run(Thread.java:745)I 2015/06/06 00:07:16 MEMORY performed explicit GC, freed 3 KB (requested/available/average: 127444 / 112645 / 0 KB)I 2015/06/06 00:09:00 MEMORY performed explicit GC, freed 3 KB (requested/available/average: 127444 / 111015 / 3 KB)I 2015/06/06 00:10:20 MEMORY performed explicit GC, freed 6 KB (requested/available/average: 127444 / 109970 / 3 KB)I 2015/06/06 00:11:31 MEMORY performed explicit GC, freed 6 KB (requested/available/average: 127444 / 108808 / 4 KB)I 2015/06/06 00:13:16 MEMORY performed explicit GC, freed -1 KB (requested/available/average: 127444 / 107343 / 5 KB)I 2015/06/06 00:14:23 MEMORY performed explicit GC, freed 11 KB (requested/available/average: 127444 / 106426 / 4 KB)



Irgendeine Idee?

Statistik: Verfasst von ilikeu — Fr Jun 05, 2015 11:38 pm


Fragen und Antworten • Re-Load Failure Button Bug

Date: 2015-06-06 12:09:49

Hello Yacy team,

The Button \“Re-load load-failure docs (404s etc) in HostBrowser.html is very usefull.
But the function re-load only in the first sub-path.
I must navigate in the host, find error, and click the button for reload.
If i try re-load fail at root host, i recrawl just the first subpath.

Other request:
It\’s possible to had function, Re-load load-failure docs for ALL hosts in one clic.
Today i have 1280 hosts with for each erros, i must open each hosts -> click button etc.

Thx Team

Statistik: Verfasst von Guims — Sa Jun 06, 2015 11:09 am


Fragen und Antworten • Re: crash

Date: 2015-06-06 14:57:09

Mittlerweile habe ich paar Dinge heraus gefunden.

Meine Systempartition ist 10GB groß, daher habe ich den Symlink von DATA im yacydir auf /opt/yacy/ geändert und dort eine 2. Partition eingehangen die ich exklusiv für yacy nutze.
Gleichzeitig habe ich yacy aber über das debian Paketsystem installiert (Es wird nach /usr/share/yacy installiert). Änderungen habe ich in der Datei /etc/yacy/yacy.conf vorgenommen - im typischen Debian-Stil.
Das Startscript von yacy interessiert sich dafür aber nicht, sondern sucht die Xms und XMx Einstellungen der yacy.conf in DATA/SETTINGS/yacy.conf, in meinem Fall also /opt/yacy/DATA/SETTINGS/yacy.conf, der Symlink in etc zeigt allerdings auf yacy -> ../var/lib/yacy/SETTINGS.

Statistik: Verfasst von ilikeu — Sa Jun 06, 2015 1:57 pm


Suchmaschinen • Encrypted Search & URL transfer

Date: 2015-06-06 15:55:20

Soon some encrypted search and URL DB & transfer will be released. The infopage is already there.
any comments? or ideas, how to add some apis, Db.s or interaction pathes ?

https://sourceforge.net/p/spot-on/wiki/searchengine/

Bild
Bild

Statistik: Verfasst von cometogether — Sa Jun 06, 2015 2:55 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-06 21:25:58

Code:
I 2015/06/06 21:19:27 SERVER check for Session_90.141.170.48:54415#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.iwound.net%2Fexit.php%3Furl%3Dwww.liveoddset.com HTTP/1.1: 229158 ms alive, stopping threadI 2015/06/06 21:19:27 SERVER check for Session_96.249.254.173:61071#0_GET /HostBrowser.html?path=http%3A%2F%2Falltid-stickning.bloggagratis.se%2Fgilla%2F%3Furl%3Dhttps%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DoTfgehGY6F8 HTTP/1.1: 225262 ms alive, stopping threadI 2015/06/06 21:19:27 SERVER check for Session_95.69.250.25:40550#0_GET /HostBrowser.html?path=http%3A%2F%2Fblitco.net%2Findex.php%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F2054 HTTP/1.1: 221350 ms alive, stopping threadI 2015/06/06 21:19:27 SERVER check for Session_96.249.254.173:62862#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.gillettewy.gov%2Fredirect.aspx%3Furl%3Dhttps%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DoTfgehGY6F8 HTTP/1.1: 207561 ms alive, stopping threadI 2015/06/06 21:19:27 SERVER check for Session_84.120.26.96:54092#0_GET /HostBrowser.html?path=http%3A%2F%2Ftaylorknight.org%2Ftksforum%2Findex.php%3Ftopic%3D210318.0 HTTP/1.1: 199672 ms alive, stopping threadI 2015/06/06 21:19:27 SERVER check for Session_1.52.143.200:62743#0_GET /HostBrowser.html?path=http%3A%2F%2Fthesafariexperts.com%2F%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D139071 HTTP/1.1: 191755 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_84.120.26.96:55897#0_GET /HostBrowser.html?path=http%3A%2F%2Fdiendan.mu-br.com%2Fshowthread.php%3F2689-Create-paracervical-sedentary-lasix-back-sulfonamides%2Fpage297%26s%3Dff7dddf1203e2c184ec615b6cc5660c8 HTTP/1.1: 183819 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_189.61.165.102:58407#0_GET /HostBrowser.html?path=http%3A%2F%2Fgsffuta.org%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F2356 HTTP/1.0: 175798 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:51235#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fleggett%2Fbad-credit-apartments-in-leggett-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 165881 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_223.30.21.106:38255#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.epiplopaidiko.gr%2Findex.php%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F66665 HTTP/1.0: 161892 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_195.175.75.114:54583#0_GET /HostBrowser.html?path=http%3A%2F%2Fpfarmakis.gr%2F%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D2798 HTTP/1.0: 157900 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_107.172.14.62:49835#0_GET /HostBrowser.html?path=http%3A%2F%2Fblog.onlineshopping.social%2Fpost%2F105698449215%2Fto-find-selfhelp-products-visit-classifieds HTTP/1.0: 149868 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_90.141.170.48:57364#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.cocaineblunts.com%2Fblunts%2F%3Fp%3D3615 HTTP/1.1: 145809 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_27.254.59.41:57214#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.ilovejapan.co%2Floveletters%2F HTTP/1.1: 137738 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:54950#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fmoscow%2Fbad-credit-apartments-in-moscow-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 127698 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_1.52.143.200:64382#0_GET /HostBrowser.html?path=http%3A%2F%2Fbarat.pk%2Findex.php%3Fm%3Dmember_blog%26p%3Dview%26id%3D8530%26sid%3D207343 HTTP/1.1: 119544 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_37.59.77.39:56048#0_GET /HostBrowser.html?path=http%3A%2F%2Fnowinhistory.com%2F__media__%2Fjs%2Fnetsoltrademark.php%3Fd%3Dthebestbooters.com HTTP/1.0: 115445 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_117.242.168.94:49630#0_GET /HostBrowser.html?path=http%3A%2F%2F190.0.34.202%2Finc%2Fphpinfo.php%3Fa%255B%255D%3D%253Ca+href%253Dhttp%253A%252F%252Fwww.mumbaivipservice.com%252F%253EVIP+Escorts+Mumbai%253C%252Fa%253E HTTP/1.1: 103194 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_192.3.66.101:33932#0_GET /HostBrowser.html?path=http%3A%2F%2Fallageconditioning.com%2Ftop%2Findex.php%3Fa%3Dstats%26u%3Dbrodiewelton HTTP/1.0: 90859 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_185.28.193.95:33427#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.sunfrogshirts.com%2FPets%2FTALENT-MANAGER-50797839-Guys.html%3F9983 HTTP/1.1: 86763 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_82.159.220.10:49249#0_GET /HostBrowser.html?path=http%3A%2F%2Ftopsite.jeteve.com%2Findex.php%3Fa%3Dstats%26u%3Dhelenscheid5542 HTTP/1.0: 68548 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:61354#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Ffort-stockton%2Fbad-credit-apartments-in-fort-stockton-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 64417 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_77.68.40.96:53613#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.icecreamgames.org%2Fprofile%2F487700%2FNi8862.html HTTP/1.1: 60287 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_104.247.99.211:1302#0_GET /HostBrowser.html?path=http%3A%2F%2Fconstructoralacantera.com%2Findex.php%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F70230 HTTP/1.0: 56128 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_96.249.254.173:53906#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.draft.academichic.com%2F2010%2F10%2F05%2Fls-post%2F HTTP/1.1: 51945 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_94.23.176.173:49784#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.chindwintu-international.com%2F%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D32715 HTTP/1.1: 47796 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_107.150.43.99:49917#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.aliancafrancesa-fortaleza.com.br%2FSINCfile%2Fhotsale0604--3459.html HTTP/1.1: 39460 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_104.207.67.136:53127#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.grandsolarinc.com%2F%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D778191 HTTP/1.1: 35316 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_62.210.140.28:53429#0_GET /HostBrowser.html?path=http%3A%2F%2Fitalentos.com.br%2Fwiki%2Findex.php%3Ftitle%3DUsu%25C3%25A1rio%3ADominickHawks HTTP/1.1: 25279 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_62.210.10.184:55690#0_GET /HostBrowser.html?path=http%3A%2F%2F4allforum.com%2Faway.php%3Fto%3Dhttp%3A%2F%2Fwww.clubreseau.com HTTP/1.1: 21074 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_52.6.14.215:56831#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.arabportal.net%2Fredirect.php%3Furl%3Dhttp%3A%2F%2FDoleta.gov%2Fregions%2Freg05%2FPages%2Fexit.cfm%3Fvexit%3Dhttp%3A%2F%2Fwww.terapiozon.my.id%2Fterapi-ozon-dan-akupunktur-bagi-penderita-stroke%2F HTTP/1.1: 16879 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_31.220.6.9:56402#0_GET /HostBrowser.html?path=http%3A%2F%2Fv.gd%2FplhZEx HTTP/1.0: 12675 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_104.152.185.31:60447#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.brearleyandco.co.uk%2Farchives%2F321 HTTP/1.1: 8457 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:50554#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fwhitt%2Fbad-credit-apartments-in-whitt-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 4232 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER Closing main socket of thread 'Session_38.87.45.157:50554#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fwhitt%2Fbad-credit-apartments-in-whitt-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1'I 2015/06/06 21:19:28 SERVER check for Session_37.59.241.54:64823#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.mysecretconfessions.com%2Fmembers%2Fjorjatitheradg%2Fprofile%2F HTTP/1.1: 1627027 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:59681#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fmansfield%2Fbad-credit-apartments-in-mansfield-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1626470 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_1.52.143.200:62794#0_GET /HostBrowser.html?path=https%3A%2F%2Fwww.rebelmouse.com%2Ftrantronghuan108%2Fvietnamese-version-1124853244.html HTTP/1.1: 1625770 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_84.120.26.96:64852#0_GET /HostBrowser.html?path=http%3A%2F%2Fstefano.cm.nctu.edu.tw%2Fmediawiki%2Findex.php%2FI_Am_Needing_Computer_Cups_Now HTTP/1.1: 1620288 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:61349#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fkennedale%2Fbad-credit-apartments-in-kennedale-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1619632 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_5.69.149.147:56541#0_GET /HostBrowser.html?path=http%3A%2F%2Fbp7.org%2Fprimarkvouchers113738 HTTP/1.1: 1617719 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_61.19.42.68:57938#0_GET /HostBrowser.html?path=http%3A%2F%2Fwhereareyou.cz%2Findex.php%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F1731 HTTP/1.0: 1616370 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_90.141.170.48:63203#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.godfreyaziz.com%2F__media__%2Fjs%2Fnetsoltrademark.php%3Fd%3Dliveoddset.com HTTP/1.1: 1616263 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_203.76.147.66:40715#0_GET /HostBrowser.html?path=http%3A%2F%2Fwhereareyou.cz%2Findex.php%2Fcomponent%2Fk2%2Fitemlist%2Fuser%2F1731 HTTP/1.1: 1615372 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:63077#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fhurst%2Fbad-credit-apartments-in-hurst-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1612032 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_14.139.181.130:48578#0_GET /HostBrowser.html?path=https%3A%2F%2Finfoskupka.com%2Fredirect%2F%3Furl%3Dhttp%3A%2F%2Fvottle.com%2F HTTP/1.1: 1606501 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:64672#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fhaslet%2Fbad-credit-apartments-in-haslet-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1605596 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_188.212.21.178:59792#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.ajnok.com%2Findex.php%2Fcomponent%2Fk2%2Fauthor%2F103043 HTTP/1.0: 1601236 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_54.76.197.189:11677#0_GET /HostBrowser.html?path=http%3A%2F%2Fmarwendzc.com%2Findex.php%3Fa%3Dprofile%26u%3Dstanorton11 HTTP/1.1: 1600805 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_84.120.26.96:1337#0_GET /HostBrowser.html?path=http%3A%2F%2Fstefano.cm.nctu.edu.tw%2Fmediawiki%2Findex.php%2FNo_Standard_Program_Or_Document_Is_Required_To_Heal_Your_Computer HTTP/1.1: 1600041 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:49947#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fgrapevine%2Fbad-credit-apartments-in-grapevine-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1598135 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:51586#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Feuless%2Fbad-credit-apartments-in-euless-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1592437 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_182.93.221.247:41641#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.bluecoralbeachresort.com.ph%2F%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D111451 HTTP/1.1: 1588073 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:53380#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fcrowley%2Fbad-credit-apartments-in-crowley-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1586695 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_5.39.33.174:46494#0_GET /HostBrowser.html?path=https%3A%2F%2Fwww.rebelmouse.com%2Fbennielevisuud%2Fthe-ultimate-secret-of-skin-effects-flawless-effects-1153645393.html HTTP/1.0: 1581271 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_91.236.74.171:56630#0_GET /HostBrowser.html?path=http%3A%2F%2Fsociophobia.ru%2Fclick.php%3Fhttp%3A%2F%2Ffivebestessaywritingservices.blogspot.com%2F HTTP/1.1: 1581279 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_167.114.115.209:61181#0_GET /HostBrowser.html?path=http%3A%2F%2Fonsoru.net%2Fabout%2Fartists-2%2F HTTP/1.1: 1579863 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:55069#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fcolleyville%2Fbad-credit-apartments-in-colleyville-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1579442 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_84.120.26.96:2332#0_GET /HostBrowser.html?path=http%3A%2F%2Fitonv.lntu.edu.ua%2Fen%2Fnode%2F251360 HTTP/1.1: 1576961 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_163.177.41.35:59262#0_GET /HostBrowser.html?path=http%3A%2F%2Fpizzeria-tornado.com%2Findex.php%3Foption%3Dcom_k2%26view%3Ditemlist%26task%3Duser%26id%3D134131 HTTP/1.0: 1576007 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_90.141.170.48:64277#0_GET /HostBrowser.html?path=http%3A%2F%2Fwww.fchllc.biz%2F__media__%2Fjs%2Fnetsoltrademark.php%3Fd%3Dliveoddset.com HTTP/1.1: 1572076 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:56799#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Fbedford%2Fbad-credit-apartments-in-bedford-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1571429 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_176.9.149.76:43522#0_GET /HostBrowser.html?path=http%3A%2F%2Fbeautifulazn.com%2Fcgi-bin%2Fout.cgi%3Fid%3DHFyFmPxv%26url%3Dhttp%253A%2F%2Fgame-compass.com%2Fde%2Fgames%2Fmarvel-sturm-der-superhelden%2F HTTP/1.1: 1568887 ms alive, stopping threadI 2015/06/06 21:19:28 SERVER check for Session_38.87.45.157:58543#0_GET /HostBrowser.html?path=http%3A%2F%2Fnocreditcheckapartmentstexas.com%2Fno-credit-check-apartments%2Farlington%2Fbad-credit-apartments-in-arlington-tx-find-bad-credit-apartments-in-texas%2F HTTP/1.1: 1563180 ms alive, stopping thread



So sieht das dann aus, wenn der IndexBrowser mit DDoS-Attacken bombadiert wird :-( wie wollen wir \‘freeworld\’ davor schützen? Ich schätze die Größe des Botnet auf 12000 Rechner & mehr ein :-(

Statistik: Verfasst von LA_FORGE — Sa Jun 06, 2015 8:25 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-07 00:02:22

So, ich habe mich nun doch dazu entschieden eine Blacklist aller IP-Adressbereiche zu pflegen, die meinen IndexBrowser mit exzessiven Anfragen bombadieren:

http://pastebin.com/qXA4bxuq

Ich schätze mal, dass es max. 40% der Adressbereiche des Botnet sind :-( Ich hab seit 1994 mit dem Internet zu tun und befasse mich mit seit über 6 Jahren mit IT-Sicherheitsthemen. Ich pflege die Liste auf jeden Fall weiter. Zu dem \“Eigenschaften\” des Botnet: Bei den meisten IPs handelt es sich um gehackte Dedis :-( Folgende Provider/Hoster fallen besonders auf, weil extrem viele Rechner/Server in diesem Botnet auftauchen:

Buyproxies
Contabo GmbH
Solid Seo VPS
Hudson Valley Host

Statistik: Verfasst von LA_FORGE — Sa Jun 06, 2015 11:02 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2015-06-07 15:56:55

Ja klar!{.postlink}. Ich habe eine Kurzanleitung eingestellt.

\@anderes Thema: Ich suche noch Hilfe hierbei{.postlink}.

Statistik: Verfasst von LA_FORGE — So Jun 07, 2015 2:56 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-08 18:26:59

http://pastebin.com/xckFTDrX

So hier eine neue Liste der Adressbereiche. 800 sind es mittlerweile! Auch namhafte deutsche Hosting-Provider sind mit drin :-( Es nimmt einfach kein Ende wo die Zugriffe alle herkommen. Warum ich davon überzeugt bin dass es ein Botnet ist? Ganz einfach: Die Intensität der Zugriffe und das systematische harvesting des IndexBrowsers! Außerdem die IP-Adressbereiche, oft tauchen mehrere Bereiche aus unterschiedlichen Netzsegmenten eines Providers auf, die zu ein und derselben Firma gehören und wenn man die alle blockiert tauchen binnen wenigen Minuten wieder neue Netze auf :-( Ich habe

http://www20.zippyshare.com/v/IXpOhw1d/file.html

hier einen Wireshark-Dump hochgeladen, wenn sich das mal jemand aus \“wissenschaftlicher Sicht\” anschauen möchte. Ich habe nur den Traffic auf dem Port mitgeschnitten, wo YaCy läuft und einen Display-Filter

Code:
tcp matches "HostBrowser"



gesetzt, sonst wären es zu viele Daten!

Statistik: Verfasst von LA_FORGE — Mo Jun 08, 2015 5:26 pm


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-09 13:20:35

Leider bleibt das Problem doch bestehen.

Am Montag habe ich zum ersten mal wieder einen Blick auf den Server geworfen, und da war die Load bei 25-30, fast ausschließlich von yacy produziert.

Wenn ich yacy jetzt neu starte, ist die Load anfangs wie gewohnt, steigt aber stetig immer mehr an. selbst dann, wenn ich das Crawling stoppe. Dabei scheint yacy überhaupt nichts zu tun, in den Logs findet sich jedenfalls kein Hinweis, nicht einmal darauf, dass er Suchanfragen beantworten würde etc.

Die lokale Web-Oberfläche bleibt dabei ganz normal benutzbar und ist auch nicht langsamer als sonst. Anscheinend erhalte ich aber keine Remote-Ergebnisse mehr, nur solche von meiner eigenen Node. Im Log finde ich selectPeers-Einträge, dann \“I 2015/06/09 12:56:29 DHT preparing remote search: shortmem=false, indexingQueueSize=0, redundancy=2, minage=3, dhtPeers=31, robinsonpeers=16, health: load() > 2.0\“, danach meldet er nur noch, was er lokal gefunden hat und erwähnt die remote peers nicht mehr.

Es folgen noch diverse Einträge a la \“BOOKMARKS cannot get bookmark for url hash U6I5zA6riWWA\“, und das wars.

Load aktuell bei 7-11 nach ca. 4,5 h yacy-Betrieb.. Ohne yacy hat der Server eine Load von immer < 1, normalerweise um 0.2. Im Log (solange ich keine Suche durchführe) nichts außer \“YACY hello/server\“-Einträgen.

Was könnte das sein? Wonach könnte ich im Log suchen, was evtl. irgendwo weiter oben steht, was ich nicht gesehen habe?

Die Datenbank hat aktuell 65.45 GB, aber RAM Usage ist weit unter dem Maximum (2.25 GB von 7.71 GB).

Soweit ich weiß besteht das Problem erst seit meinem Update auf Version 1.839250 (mittlerweile 1.839254), allerdings war ich vorher 2 Wochen in Urlaub und weiß nicht, was yacy da getrieben hat. Vor dem Update war die Load bei ca. 10, in diesem Fall allerdings nicht wegen yacy, sondern wegen eines Apache-Prozesses. Nach dem Apache-Restart habe ich den Server insgesamt aktualisiert, also aktualisierte Debian-Packages eingespielt, inkl. yacy, und dann ging das Problem los.

Statistik: Verfasst von zottel — Di Jun 09, 2015 12:20 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-09 14:36:34

Code:
load average: 36.36, 862.23, 628.46



Und so sieht das dann aus, wenn man garnichts gegen die bösen Buben unternimmt...

Statistik: Verfasst von LA_FORGE — Di Jun 09, 2015 1:36 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-09 18:14:45

Ausgelöst durch zu viele

Code:
W 2015/06/09 18:07:17 StackTrace unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread        at java.lang.Thread.start0(Native Method)        at java.lang.Thread.start(Thread.java:714)        at net.yacy.server.serverCore.job(serverCore.java:396)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:165)



offene Jetty-Threads. Ich hab -Xms70g -Xmx70g gesetzt also am RAM soll es nicht mangeln :D

Statistik: Verfasst von LA_FORGE — Di Jun 09, 2015 5:14 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-09 18:44:56

Code:
18:40:08 up 138 days,  8:22,  5 users,  load average: 1826.16, 1609.20, 667.44



Schlimmer geht immer :D

Statistik: Verfasst von LA_FORGE — Di Jun 09, 2015 5:44 pm


Fragen und Antworten • Schedule RSS feed doesn\’t start

Date: 2015-06-09 20:59:47

Hello,

I have 350 RSS feed.
The schedule launch RSS feed importer at start of Yacy.
The date is not recalculte for \“Next Exec Date\”
The schedule can\’t launch again
No error in the Log.

I have export api.bheap an other yacy , No problem with schedule
I have reset config ... same problem
I have delete rss.bheap... same problem
I have check date system.. no problem
I have delete all schedule and add only one feed .. same error
i have no other tips to find the problem

Statistik: Verfasst von Guims — Di Jun 09, 2015 7:59 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-10 09:13:41

Du könntest HostBrowser.html und HostBrowser.class umbenennen in HostBrowser_p.html und HostBrowser_p.class. Dann kann man die Seite erst nach einem Login aufrufen. Vielleicht lässt dich das Botnet dann in Ruhe, aber wer weiß, wo es dann hin zieht...

Statistik: Verfasst von Low012 — Mi Jun 10, 2015 8:13 am


Hilfe für Einsteiger und Anwender • Re: Wie geht Yacy mit großen Dateien um beim Crawlen?

Date: 2015-06-10 09:21:00

Es gibt einen Eintrag im Bugtracker zu dem Thema: http://mantis.tokeek.de/view.php?id=526

Ich habe mal versucht nachzuvollziehen, was da genau passiert und eigentlich sollte der Download gar nicht erst gestartet werden, wenn YaCy erkennen kann, dass die Datei zu groß ist oder abbrechen, wenn die eingestellte Grenze erreicht wurde. Bei meinen Tests hat das auch geklappt. Wenn es aber bei dir und demjenigen, der den Bug eingestellt hat, nicht funktioniert, muss ich weiter testen.

Statistik: Verfasst von Low012 — Mi Jun 10, 2015 8:21 am


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-10 19:17:58

Alles klar. Vielen Dank.

\ W 2015/06/10 19:10:44 HTTPDFileHandler target file /mnt/1800gb/yacy/DATA/HTDOCS/index.php/HostBrowser.html does not exist\



:D Andere Dateinamen/Pfade werden vom Botnet auch schon durchprobiert, nur JavaScript versteht es nicht. Ich musste vor ein paar Jahren schonmal die DynDNS-Adresse wechseln wegen ähnlicher DDoS-Attacken, ich hoffe das bleibt mir dieses mal erspart.

Statistik: Verfasst von LA_FORGE — Mi Jun 10, 2015 6:17 pm


Hilfe für Einsteiger und Anwender • Ist Port 8090 zwingend?

Date: 2015-06-11 18:19:53

Hallo alle zusammen,

bitte nicht hauen, aber ich bin da mal ein Problem, das ich nicht lösen konnte. Auch die Suche ergab nichts, da mir vermutlich die richtige Frage fehlt. Daher versuche ich es heute mal auf diese Art.

Ich habe YaCy in einer DMZ auf einer virtuellen Maschine mit einer privaten IP-Adresse laufen. Die Suchmaschine findet alles im Internet was sie soll und indiziert auch fleißig diverse Webseiten und bringt sie nach einer Suche zur Anzeige. Die Suchmaschine ist von zwei Seiten mit DNS-Auflösung zu erreichen. Ein mal aus dem Intranet mit suche.home als auch über das Internet ganz normal mit xxx.dyndns.org. In beiden Fällen lässt sich die Suchmaschine so benutzen wie sie soll.

Aus dem Internet mit der DyDNS Adresse - Port 80 - ist ein Apache Proxy, der die Anfragen an die DMZ weiter an YaCy reicht und von da auf der privaten IP mit Port 8090 abholt.

Jetzt habe ich vermutlich zwei Probleme:

1. Im Systemstatus wird mir die öffentliche IP-Adresse mit dem Port 8090 angezeigt. Port 8090 ist aber gesperrt und auch die IP-Adresse Port 80 führt nur zu einer Dummy-Seite des Webservers, da ich mit mehreren Virtuellen Webadressen arbeite. Ich möchte auch keine weiteren Ports öffnen und per prerouting und Iptables ins System hinein lassen. Zudem ist die Hostadresse im Systemstatus mit []:8090 angegeben.

Frage: Woran muss ich schrauben, dass der Systemstatus die korrekten Anzeigen besitzt? Oder ist das für den Fall irrelevant, weil funktioniert ja? (Ihr Peer kann nicht von außen erreicht werden)

2. Ich würde ja gern einen Beitrag für die Suchmaschine liefern. Jedoch verwirrt mich das Pricipal, Senior, Junior ... bitte was?

Frage: Was muss ich sein/einstellen/sehen, damit das was indiziert wurde, auch für alle anderen verfügbar ist?

Ich denke das wars erst mal. Danke fürs erste.

McFilter

Statistik: Verfasst von McFilter — Do Jun 11, 2015 5:19 pm


Presse • Das könnte ein mächtiger Schub für YaCy werden

Date: 2015-06-11 21:27:03

Der Community-Cube

https://www.kickstarter.com/projects/co ... r-internet{.postlink}

Interessantes Projekt das recht schnell sein Ziel mit 50.000 Euro Finanzierung erreicht hat. Wenn das so reibungslos läuft und ein Hit wird, dürfte es mit der Suchmaschine hier ab gehen ;o)

Statistik: Verfasst von McFilter — Do Jun 11, 2015 8:27 pm


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-12 09:56:15

Ich habe yacy heute mal von 8:33 bis 9:11 laufen lassen und das komplette Log aus dieser Zeit durchgelesen, kann aber nichts finden, was auf einen Fehler hindeuten würde. In dieser Zeit stieg die durch yacy verursachte Load von ca. 0.5, nachdem er sich fertig initialisiert hatte, auf 4.

Meine Vermutung ist, dass die Tatsache, dass ich in der oben geschilderten Situation keine Antwort von anderen Peers mehr erhalten habe, wenn ich lokal eine Suche startete, daher kommt, dass yacy bei hoher Last selbst manche Prozesse deaktiviert?

Ich habe während der Zeit heute zweimal gesucht und jeweils auch Antworten von anderen Peers bekommen. Äußerlich läuft auch alles gut, nur die von yacy verursachte Load wird ständig größer und größer. Ca. 4 nach einer halben Stunde, ca. 10 nach 3 Stunden, über 25 nach ein paar Tagen – so kann ich meine Node nicht laufen lassen. :-/

Und es ist alles CPU, keine Speicherprobleme, wenig Platten-I/O.

Hat denn außer mir keiner diese Probleme mit dem aktuellen Debian-Package?

Statistik: Verfasst von zottel — Fr Jun 12, 2015 8:56 am


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-12 12:20:15

Ich bin jetzt zurück auf yacy 1.839201 (das war die letzte Version, die ich vor 9250 installiert hatte). Damit tritt das Problem nicht auf. Falls das hilft könnte ich testen, ab welcher Version das Problem auftritt.

Statistik: Verfasst von zottel — Fr Jun 12, 2015 11:20 am


English • Re: Language filter ineffective

Date: 2015-06-16 13:19:13

Any progress?


Language detection is a core feature for a search engine and in YacY it barely works. To my understanding, detection is currently based on date format recognition and <head> tag. We both already know this is fuzzy at best.

For as much as it\’s simple, the algorithm I implemented in JS for my TTS software works very well for all the six supported languages. I also provided you with a demonstrative package ready to download and run, so to rapidly taste its effectiveness with the bundled demo. I also know you have experience with JS so you can understand the code.

I submitted many patches to other FOSS projects in the past; its unfortunate Java is not in my cultural baggage yet. Can you at least tell me where in the priority list is a reimplementation of the language detector?

Statistik: Verfasst von davide — Di Jun 16, 2015 12:19 pm


English • Re: User poll: feasible, but missing feature?

Date: 2015-06-16 13:50:29

:arrow: Set max amount of documents per index and drop oldest documents upon crawl of new ones.

IIRC, there was a discussion upon how to sort this out, namely on how to determine which documents to drop: the ones with oldest [creation]{style=“font-style: italic”} date or with oldest [access]{style=“font-style: italic”} date. I would opt to drop the oldest created documents as that\’s an intuitive approach and won\’t cause bias on search results. It\’s just a mechanical behavior: [First In, First Out]{style=“font-style: italic”}.


--
May this wishlist thread rest in peace. Amen.

Statistik: Verfasst von davide — Di Jun 16, 2015 12:50 pm


Off-Topic • New hardware ready to YaCy!

Date: 2015-06-16 18:20:55

I\’m in the view of starting a small business and among the requirements there\’s a... programmable search engine w/ APIs :D
I previously relied upon Yahoo Boss API while experimenting with YaCy alongside for testing the grounds for a possible transition. Last month Yahoo triplicated its API pricing so it\’s become more important to properly test YaCy capabilities on suitable hardware and decide for a possible move.

For the sake of the hype, here\’s the hardware :mrgreen:

Bild

These are:


All will be assembled in a week when the Xeon\’s arrive.
The existing YaCy virtual machine (currently running on a smaller server) will run under OpenVZ and will be moved to this server soon as it\’s assembled.

The target documents count is 100M and the main sources for crawling will be Amazon, Newegg and Best Buy. The node publicly shares its indexes and supports the global community network 8-)

Statistik: Verfasst von davide — Di Jun 16, 2015 5:20 pm


Fragen und Antworten • Peer ist von aussen nicht erreichbar

Date: 2015-06-16 19:01:04

Hi,
ich hab das Problem das mein peer nicht von aussen für andere peers erreichbar ist.
Mein peer läuft auf 8091. Der Port ist von aussen erreichbar.
Der peer steht auf \“Suchportal für Ihre eigene Internetseiten\” und unter Netzwerkeigenschaften ist folgendes konfiguriert:
Index-Verteilung
aktiviert
aktiviert
Index-Empfang
verwerfe
allow

Sobald ich auf \“Gemeinschafts-basierte Web Suche\” stelle läuft alles.
Ich möchte aber nur meine Seite indexieren und das Ergebnis den anderen peers mitteilen. Eine Suche auf dem peer soll sich aber nur auf meine Seite beschränken.
Kann mir da jemand weiterhelfen?

Statistik: Verfasst von Eike — Di Jun 16, 2015 6:01 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-16 21:43:53

Code:
I 2015/06/16 08:38:24 migrateUrldbtoSolr 59966864 entries left (convert next chunk of 1000 entries)



Ich brauch MEHR POWER :D

Statistik: Verfasst von LA_FORGE — Di Jun 16, 2015 8:43 pm


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2015-06-16 23:15:20

Hallo Eike,

die Gemeinschafts-basierte Websuche passt schon. Die weitere Einstellung findest Du auf der Seite /ConfigNetwork_p.html. Wenn Du dort \“Robinson Modus\” | \“Öffentlicher Peer\” auswählst, dürfte das genau das sein, was Du suchst.

Statistik: Verfasst von Praetor — Di Jun 16, 2015 10:15 pm


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2015-06-17 10:18:15

Hi,

das werde ich mal probieren, aber dann sind die Erklärungen sehr missverständlich:

Peer-To-Peer-Modus
Sie können einstellen, ob Sie am globalen YaCy-Netzwerk teilnehmen wollen oder ob Sie einen eigenen separaten Such-Cluster, mit oder ohne Verbindung zum globalen Netz, haben möchten. [Sie können auch eine vollkommen unabhängige Instanz einer Suchmaschine, ohne jeglichen Datenaustausch zwischen Ihrem und anderen Peers, definieren. Dies nennen wir einen \‘Robinson\‘-Peer. ]{style=“font-weight: bold”}

Robinson Modus
Falls Ihr Peer im \‘Robinson Modus\’ läuft, so verwenden Sie YaCy als Suchmaschine für Ihr eigenes Suchportal, [ohne Datenaustausch mit anderen Peers. Es gibt keinen Index-Empfang von und keine Index-Verteilung zu anderen Peers.]{style=“font-weight: bold”} Im Fall eines Robinson-Clusters können Remotecrawl-Anfragen von Peers des selben Clusters akzeptiert werden

Statistik: Verfasst von Eike — Mi Jun 17, 2015 9:18 am


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-17 12:30:09

Hm. Mit 9201 war es zwar anders (keine hohe CPU-Last durch den Java-Prozess), aber auch nicht direkt besser; es traten nach kurzer Zeit extrem hohe Loads auf, die keine so recht erkennbare Ursache hatten (CPU-Last eigentlich gering, auch nicht groß Wait States).

Letztlich habe ich dann CPU Stalls in den Logs gefunden, auch dann, wenn yacy gar nicht lief. Das habe ich dem Hoster vorgelegt, der irgendwas an den Einstellungen der Virtualisierung geändert hat und meint, es sollte jetzt besser sein. Ich teste weiter, jetzt wieder mit der aktuellen Version. Mag sein, dass yacy an dem Problem gar nicht oder nur teilweise beteiligt war.

Statistik: Verfasst von zottel — Mi Jun 17, 2015 11:30 am


English • Dependable release cycle

Date: 2015-06-17 13:10:42

I\’m currently running the latest 1.839258 for my long-term stability test and I have to say it\’s a disaster. I had a look at the peers list from [Network.html]{style=“font-style: italic”} and checked for which release versions are deployed by users and get a picture of the distribution. As it stands, the most of the peers run some older development version (or \“unstable\“) of YaCy, a few tens run the latest one (9258), and very few peers run an old stable release.

With these numbers, you\’d think you could enable automatic updates for any newest dev version available and \“blend-in\” along with the other peers in the network which also run the latest release; this is to say, there would be enough eyeballs ready to spot bugs on such bleeding-edge releases that you could hide safely behind such a group of potential bug reporters and let bugs be identified and fixed in a matter of days, and then the fixes would quickly enter the next dev release and be automatically installed by the updater. This at least was my thought.

As it really stands, despite dozens of other users running my same version, I still had to report{.postlink} two severe major bugs which hamper the basic functioning of YaCy. The interesting fact is that despite all the bugs, defects, and possible improvements that I keep seeing around YacY, and all the many users which probably notice the same, only few people take their own time to report these on the bug tracker, thus making [mantis.tokeek.de]{style=“font-style: italic”} the lonely desert that it is.

As I understand, the best option for keeping a stable, long-term YaCy node seems to only install stable releases and avoid untested and neglected dev intermediate versions. I think that releases identified as stable would be free from such major oversights. The downside is of course that new features and many minor bugs affecting stable releases won\’t enter the next stable release until it\’s released, which could be several months.

I would like to understand what are your needs with YaCy, which deployment cycle have you chosen, and how much you are/will be dependable upon correct functioning of this engine.

Statistik: Verfasst von davide — Mi Jun 17, 2015 12:10 pm


English • Re: Settings & previous crawl data lost after power outage

Date: 2015-06-17 13:40:56

Were you using a journaled filesystem?

If so, that would be a bad prospective. Otherwise, the FS would be the culprit.

Statistik: Verfasst von davide — Mi Jun 17, 2015 12:40 pm


English • Removing duplicates from results using fuzzy_signature_uniqu

Date: 2015-06-17 14:21:10

I am having difficulty removing duplicates from results using the fuzzy_signature_unique_b attribute.
I have put fuzzy_signature_unique_b:true in the Filter Query and the duplicates still appear.
I further examined the metadata for the duplicates and found that even the fuzzy_signature_l was the same for multiple results, the fuzzy_signature_unique_b was set to true in all cases. I think that fuzzy_signature_unique_b should be set to true only for the first instance that fuzzy_signature_l was unique. On subsequent loads, the fuzzy_signature_unique_b value should be set to false.
Is my logic correct or am I misinterpreting something?
I am using YACY on an Intranet for a private search so I am unable to provide links though I would be able to provide more data.
I am new to YACY and am very pleased with the results with the exception of the duplicates.
Thank you in advance for any insight that you may provide.

Regards,
Jeff Gajda

Statistik: Verfasst von jtgajda — Mi Jun 17, 2015 1:21 pm


English • Proxy all crawler traffic

Date: 2015-06-17 14:28:35

Is it possible to canalize all crawler requests thru a proxy? If so, how?

It is a necessity for me to change YaCy UA, in a way or another. A proxy header rewrite is the easiest and most upgradable solution until your minds will be free from the UA dogma.
I\’m talking very pragmatically here, meanwhile measuring the benefits and savings of adopting YaCy over custom solutions, which I\’m progressively evaluating.

Statistik: Verfasst von davide — Mi Jun 17, 2015 1:28 pm


English • Re: Settings & previous crawl data lost after power outage

Date: 2015-06-17 15:51:07

I\’m running Yacy over Ubuntu 14.04, ext4 file system.


Is that a journaled one?

Statistik: Verfasst von oneaty — Mi Jun 17, 2015 2:51 pm


Hilfe für Einsteiger und Anwender • Re: Ist Port 8090 zwingend?

Date: 2015-06-17 16:01:31

Zur ersten Frage:

Ich habe eine ähnliche Konfiguration: Mein YaCy hängt hinter einer Lighttpd-Instanz, die Anfragen auf Port 80 und Port 443 auf die Entsprechenden Standard-Ports von YaCy weiter leitet. Bei mir ist es allerdings so, dass 8090 und 8443(?) noch von außen erreichbar sind. Langfristig würde ich das gerne abschalten. Zur Zeit scheitert das aber noch daran, dass Man YaCy nicht sagen kann, dass es nach außen hin (zu den anderen Peers) kommunizieren soll, dass die anderen Peers z.B. auf Port 80 kontaktieren sollen, obwohl YaCy auf Port 8090 lauscht.

Es gibt bereits entsprechende Properties für externe Ports, die in der yacy.config gesetzt werden können, sie werden aber zur Zeit nur benutzt und beachtet, wenn man UPnP aktiviert hat. Was jetzt noch getan werden müsste, ist YaCy so konfigurierbar zu machen, dass die Angaben für die externen Port nicht nur bei aktivem UPnP beachtete werden, sondern auch dann, wenn sich der Mensch, der eine YaCy-Installation betreut, sicher ist, dass der interne Port, aus welchem Grund auch immer, nicht gleich dem externen ist.

Ja, muss ich mal einbauen. Kann ja nicht so schwer sein und ich könnte es selbst auch gebrauchen. ;)
Zur zweiten Frage:

Senior = der Peer ist von außen auf dem Port, den er den anderen Peers mitteilt (Problem siehe oben), erreichbar
Junior = der Peer konnte andere kontaktieren, kann selbst aber von außen nicht erreicht werden
Virgin = der Peer kann keine anderen Peers erreichen und wurde selbst auch noch nicht erreicht
Principal = ein Senior, der die Liste der Peers, die er kennt, irgendwo öffentlich ablegt

Statistik: Verfasst von Low012 — Mi Jun 17, 2015 3:01 pm


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-17 18:56:32

Hallo,

es ist zwar nur eine Vermutung - aber ich hatte etwa gleiche Symptome welche ich endlich mit 1.83-9259 behoben habe.
Diese Version liegt leider bisher nur im Repository - und noch nicht als Tarball für ein automatisches Update vor.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jun 17, 2015 5:56 pm


Hilfe für Einsteiger und Anwender • Re: Ist Port 8090 zwingend?

Date: 2015-06-17 19:46:25

So, ich habe nochmal geschaut und habe in \$yacy_verzeichnis/defaults/yacy.init (Template für \$yacy_verzeichnis/DATA/SETTINGS/yacy.conf) das Folgende gefunden:

Code:
#sometimes you may want yacy to bind to another port, than the one reachable from outside.#then set bindPort to the port yacy should bind on, and port to the port, visible from outside#to run yacy on port 8090, reachable from port 80, set bindPort=8090, port=80 and use#iptables -t nat -A PREROUTING -p tcp -s 192.168.24.0/16 --dport 80 -j DNAT --to 192.168.24.1:8090#(of course you need to customize the ips)bindPort =



Ich habe meine Konfiguration dann auf die folgenden Werte geändert:

Code:
bindPort=8090port=80port.ssl=443



Leider wollte YaCy dann nicht mehr starten, weil Port 80 schon belegt war. Na klar, ich habe ja auch lighttpd auf Port 80 am Laufen.

Habe ich jetzt was falsch gemacht oder ist da was in YaCy kaputt?

Statistik: Verfasst von Low012 — Mi Jun 17, 2015 6:46 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-17 21:04:00

Notable effort Stefan for keep striving on YaCy for almost 5 years :D
Though I wonder: did you struck on any trouble with a corrupted or lost index? I see that, after the years, the Endeavour still has less than 100M documents. I wonder \‘cause I just bought some (more-modest-than-yours) hardware aimed at reaching 100M for my index, but I want to climb that in a few months, not years!

So, were there any problems which prevented the Endeavour to reach its 400M target?


[Clause: I haven\’t understood about 30% of this thread by Google translate.]{style=“color: #555555”}

Statistik: Verfasst von davide — Mi Jun 17, 2015 8:04 pm


English • Re: Proxy all crawler traffic

Date: 2015-06-18 02:11:25

Seems like YaCy does support proxy, thought I have not yet tried:

defaults/yacy.init

Code:
remoteProxyUse=falseremoteProxyUse4SSL=trueremoteProxyHost=192.168.2.2remoteProxyPort=4239remoteProxyUser=remoteProxyPwd=

Statistik: Verfasst von davide — Do Jun 18, 2015 1:11 am


English • What is stored in my hard drives?

Date: 2015-06-18 16:11:28

I deliberately blacklisted a few German (.de, .ch) hosts from \”[/CrawlResults.html?process=3]{style=“font-style: italic”}\” which resulted in my index size dropping from 4M to 3.9M, releasing about 1GB of hard disk space. These URLs were not fetched by my crawler, which has a whitelist filter to only allow 5 .com domains.

Now I wonder: what is stored in my hard disks? How many GB am I wasting for storing documents I don\’t want?
Since I drew up a table outlining the costs of progressive hardware upgrades, including hard drives purchases, storing documents I don\’t need is an extra parasitical cost.

Specifically, I need to know if there is a chance that the same happens the opposite way: that is, my documents being stored on others\’ computers. I don\’t trust others\’ equipment as much as I trust mine for protection against data loss. If my documents do end up on others\’ hard disks, will they still be preserved on my own disks? Or may they just be [moved]{style=“text-decoration: underline”} out of my server?

Statistik: Verfasst von davide — Do Jun 18, 2015 3:11 pm


Suchmaschinen • Re: Encrypted Search & URL transfer

Date: 2015-06-19 07:18:28

Vielen Dank für die Info, scheint ja schon seit einigen Tagen released zu sein:

https://sourceforge.net/projects/spot-o ... 015.06.17/{.postlink}

Mit der Ausgefeiltheit von YaCy wird man es nicht vergleichen können, aber es ist zumindest eine gute Idee, die Daten verschlüsselt zu übertragen und schön, dass es eine weitere p2p Websuche besteht. Werde es morgen bzw. am Wochenende mal testen können.

Da sowohl SQL als auch PostgreSQL wählbar zu sein scheint, welches ist besser zu empfehlen?
Und wie könnte man URL Bestände oder Suchergebnisse mit YaCy autauschen/verbinden?

Grüsse, Ribbon.

Statistik: Verfasst von ribbon — Fr Jun 19, 2015 6:18 am


Presse • Re: Das könnte ein mächtiger Schub für YaCy werden

Date: 2015-06-19 07:21:11

Hi, so richtig verstehe ich den Cube nicht, sind zwar ein paar Bildchen.. aber wieso sollten sich das soo viele Leute laden? Grüsse Ribbon.

Statistik: Verfasst von ribbon — Fr Jun 19, 2015 6:21 am


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-19 12:59:49

Nur so nebenbei: Ich glaube, wenn man mit YaCy grosse Mengen an Indexdaten erzeugen und bereitstellen will, ist es schlussendlich besser, wenn man mehrere kleine Peers betreibt anstatt eines riesigen. Andere Suchmaschinenbetreiber machen das ja auch so, soweit ich weiss.

Statistik: Verfasst von David — Fr Jun 19, 2015 11:59 am


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-19 13:33:08

We can continue in english, you*re welcome :-)

Yes, sometimes my Index was broken because of a power outage or a broken harddrive. The Pre-Solr-Time, as YaCy used it\’s own data(base)structure I often deleted the corrupted file. Since Solr found the way into YaCy I\’m using the checkindex.sh found in the bin-directory. I currently have over 200 million Documents but this Instance of Endeavour is currenty shutdown because I\’m currently migrating an old Index of a 2012 backup of Endeavour to the new Solr Index. When it\’s done, I think it\’s at the end of the year, I\’m exporting these documents with the great new feature{.postlink} developed by Orbiter and import it in the 200 million documents Instance of Endeavour. Since I got no software development skills at all, I\’m currently searching for help to boost the migration process as mentioned in the post above.

Greetings

Steve

Statistik: Verfasst von LA_FORGE — Fr Jun 19, 2015 12:33 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-06-19 13:40:39

David hat geschrieben:\ Nur so nebenbei: Ich glaube, wenn man mit YaCy grosse Mengen an Indexdaten erzeugen und bereitstellen will, ist es schlussendlich besser, wenn man mehrere kleine Peers betreibt anstatt eines riesigen. Andere Suchmaschinenbetreiber machen das ja auch so, soweit ich weiss.\



Genau, dafür haben wir freeworld. Ich hatte mal eine Zeitlang 4 YaCy\’s ohne lokalen Index laufen, die auf einen zentralen Solr zugegriffen haben. Dann hats mir irgendwann nach 140 TB I/O die Platten zerlegt :-( Aber Solr/Lucene ist dafür prädestiniert mit großen Datenmengen zu \“jonglieren\” und YaCy hat mittlerweile auch einen Reifegrad erreicht, dass auch Indexgrößen von >200 Mio. Dokumente kein Problem darstellen sollte, wenn genug RAM vorhanden ist :-)

Statistik: Verfasst von LA_FORGE — Fr Jun 19, 2015 12:40 pm


Hilfe für Einsteiger und Anwender • Re: Ist Port 8090 zwingend?

Date: 2015-06-20 18:18:43

Danke für den Input

ich habe das ganze in der Zwischenzeit etwas anders gelöst.
Auf dem Router der auch gleichzeitg Firewall und Webserver für mehrere Webseiten ist, habe ich dem Apache eine weitere Konfiguration \“spendiert\“. Er lauscht jetzt auch auf Port 8090, reicht aber alle Anfragen auf diesem Port per mod_proxy bzw. mod_proxy_http weiter an die in der DMZ liegenden Maschine. Auch die nackte IP-Adresse auf Port 8090 wird da hin weiter gereicht. Das Problem ist damit erst mal erledigt und gelöst. Direkter Zugriff mit einer Portweiterleitung gibt es nach wie vor nicht, so wie ich das wollte.

\@Low012, das mit der Konfiguration .. bin mir nicht sicher, aber ich glaube YaCy ist bisweilen etwas merkwürdig dokumentiert, so dass es zu missverständnissen kommt. Daher habe ich jede weitere Konfiguration dort erst mal gelassen. Kapzz ist sicher nix, nur etwas verbogen. Grade biegen (Backup Konfiguration einspielen) und weiter machen ,o)

Statistik: Verfasst von McFilter — Sa Jun 20, 2015 5:18 pm


Fragen und Antworten • searchtestmulti.sh

Date: 2015-06-21 22:40:14

Hi,

woher bekomme ich denn die Wortlisten die im Shellscript searchtestmulti.sh verwendet werden?

Code:
#!/usr/bin/env shcd "`dirname $0`"./searchtest.sh ../test/words/searchtest.words.aa &sleep 1./searchtest.sh ../test/words/searchtest.words.ab &sleep 1./searchtest.sh ../test/words/searchtest.words.ac &sleep 1./searchtest.sh ../test/words/searchtest.words.ad &sleep 1./searchtest.sh ../test/words/searchtest.words.ae &sleep 1./searchtest.sh ../test/words/searchtest.words.af &sleep 1./searchtest.sh ../test/words/searchtest.words.ag &sleep 1./searchtest.sh ../test/words/searchtest.words.ah &sleep 1./searchtest.sh ../test/words/searchtest.words.ai &sleep 1./searchtest.sh ../test/words/searchtest.words.aj &



Es geht nur bis aj aber ich hätte Interesse an Wortlisten bis zz :D

Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — So Jun 21, 2015 9:40 pm


Hilfe für Einsteiger und Anwender • Re: RSS URL Export

Date: 2015-06-22 10:41:44

\ Hey,\ \ ich meine folgende Tabelle: \"/Tables\_p.html?table=rss&count=1000&search=\" .\

Statistik: Verfasst von GEESUZ — Mo Jun 22, 2015 9:41 am


Hilfe für Einsteiger und Anwender • Ein paar kleine Fragen zu pdf und Lesezeichen

Date: 2015-06-22 12:22:27

Hallo YaCy-Forum,
vor ein zwei Jahren hatte ich YaCy bereits auf meinen Vserver installiert und ausprobiert. Vor ein paar Tagen bin ich rein zufällig wieder auf die Webseite gestoßen und hatte gleich darauf wieder eine Installation hinter mir :D
Nach dem studium des Wikis und ein paar Forumssuchen habe ich trotzdem noch ein paar verständniss Fragen die mir auf der Seele liegen. Zuerst habe ich häufig gehört und gelesen Yacy kann PDF-Dateien indexisieren und diese im Suchergebniss anzeigen bzw. werden diese Dateien geparst. Nun bedeutet dies doch eigentlich das ich kleine snippies der PDF-Dateien nach der Suche erhalte. Zumindest bekomme ich einen Auswahl an PDF-Dateien welche den Suchbegriff enthalten. Dies hatte ich bereits ausprobiert und eine Seite gecrawlt welche PDF-Dateien enthalten und nach einen bestimmen Satz gesucht. Trotzdem erhalte ich keine Suchergebnisse. Nur wenn ich direkt nach den Namen der Datei Suche erhalte ich brauchbare Anzeigen.

Eine zweite Funktion die füher einmal enthalten war, waren die Bookmarks. Welche anscheindet wieder herausgenommen wurden oder zumindest funktioniert der Import nicht richtig. Denn nach dem auffinden der Webseite in yacy durch einen speziellen Link kann ich keine Bookmarks importieren.

Das bringt mich schon zur dritten Frage. Der Import von RSS-Feeds funktioniert super aber gibt es eine Möglichkeit nur in Importierte RSS-Feeds oder Bookmarks zu suchen? Im Forum gibt es bereits eine solche Frage wobei die Antwort war das die RSS-Feeder in der HTML--Header gekennzeichnet sind. Können diese denn gefiltert werden?

Meine letzte Frage bezieht sich auf das Wiki?! Irre ich mich oder hat nicht irgendwo gestanden das yacy ein kleines internes Wiki hat? Falls das so sein sollte habe ich nichtmal anähernd etwas in dieser Richtung gefunden. Ein Blog beschäftigte sich zwar damit aber dieser ist von 2008 http://tinkr.de/blog/tracking-in-yacy-einbauen/.

Viele Grüße
Vertigo

Statistik: Verfasst von vertigo — Mo Jun 22, 2015 11:22 am


Off-Topic • Re: New hardware ready to YaCy!

Date: 2015-06-22 19:37:17

Great hardware! Carefully selected and wisely assembled! Welcome to the community :-)

Statistik: Verfasst von LA_FORGE — Mo Jun 22, 2015 6:37 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-22 19:38:52

Das Botnetz des Grauens{.postlink} - Ab Freitag im Kino :D

Statistik: Verfasst von LA_FORGE — Mo Jun 22, 2015 6:38 pm


Fragen und Antworten • Blacklist Import

Date: 2015-06-23 10:01:42

Hallo,
mein Problem ist das meine Yacy keine .xml Datei als Blacklist vom PC Importiert es kommt immer eine Fehlermeldung, währenddessen sie Blacklist von anderen Pers einliest.
Meine Frage: Kann ich die Blacklist also doe .xml Datei irgenwo in ein Verzeichnis von Yacy hineinkopiern? Ist das machbar?

Dann ist der Export der Blacklist per ,txt Datei auch nicht möglich
Ich verwende YaCy version 1.729000 moechte aber nur die verwenden.

Gruss Roland

Statistik: Verfasst von RoGott — Di Jun 23, 2015 9:01 am


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2015-06-23 10:07:55

David hat geschrieben:\ Es ist glaube ich keine schlechte Idee, wenn wir hier eine Liste mit Yacy-basierte Suchmaschinen führen, und etwas Werbung für sie machen.\ \ [I don\'t think it\'s a bad idea, if we maintain a list of yacy-based search engines, and promote them a little bit.]{style="font-style: italic"}\ \ \ \ \ \ \ \ [More: [viewtopic.php?f=15&t=2340](http://forum.yacy-websuche.de/viewtopic.php?f=15&t=2340){.postlink-local}]{style="font-weight: bold"}\



Ich habe noch eine Yacy Suchmaschine Onlin laufen auf

http://suche.9ge.de

Statistik: Verfasst von RoGott — Di Jun 23, 2015 9:07 am


Hilfe für Einsteiger und Anwender • Re: Ein paar kleine Fragen zu pdf und Lesezeichen

Date: 2015-06-23 12:35:57

Auf der System-Status-Seite schon mal rechts die beiden \“Surftips\” und \“Lokales Peer Wiki\” gesehen? Vermutlich ist es das was du suchst?

Zu den PDFs kann ich leider nix sagen.

Statistik: Verfasst von McFilter — Di Jun 23, 2015 11:35 am


English • Re: What is stored in my hard drives?

Date: 2015-06-23 19:23:24

davide hat geschrieben:\ How many GB am I wasting for storing documents I don\'t want?\ Since I drew up a table outlining the costs of progressive hardware upgrades, including hard drives purchases, storing documents I don\'t need is an extra parasitical cost.\



First question is answered by \“DTH\“. DHT reception can be disabled from [ConfigNetwork_p.html]{style=“font-style: italic”}.
Still I wonder if entries transmitted to other peers via DHT may result in such indexes being deleted from my local index and relied to other peers for custody.

Statistik: Verfasst von davide — Di Jun 23, 2015 6:23 pm


Hilfe für Einsteiger und Anwender • Re: Ein paar kleine Fragen zu pdf und Lesezeichen

Date: 2015-06-23 20:07:54

Hallo McFilter,
reinzufällig hatte es am nächsten Tag noch entdeckt. Hatte sich unter den Logo von Github versteckt und nur ein Pixel schaute unter diesen Link heraus. Was mir aber noch aufgefallen ist das die logischen Verknüpfungen fehlen oder?!
Also soweit ich gelesen habe fehlt das \“OR\” in der Suchabfrage, aber mir scheint auch das \“AND\” zu fehlen. Ein Beispiel wenn ich jetzt zwei Hosts in die Suchleiste schreibe \“site:xxx.de site:yyy.de\“. Dann findet Yacy keine Ergebnisse obwohl ich diese getrennt voneinander Suchen kann. Habe ich diese Feature nicht gefunden oder gibt es diese einfach nicht?

Bei meinen PDF-Problem hatte ich die Augen nochmal aufgemacht und im Wiki gelesen das die Libx noch installiert sein soll. Nur welche Libx ist genau gemeint?! Ich habe bisher kein Workaround gefunden wo dies erklärt ist.

VG
Vertigo

Statistik: Verfasst von vertigo — Di Jun 23, 2015 7:07 pm


English • Demote CMS template images

Date: 2015-06-24 17:50:16

Performing image searches, most of the returned results are images part of the website standard CMS template, such as company logo, navigation icons and banners.
These have no relation at all with the query, but they appear in every page of the entire website and thus are always picked up by YaCy and thrown into the search results.

I\’d like of this thread could be the incipit to start some thinkering on how to demote these images.

Statistik: Verfasst von davide — Mi Jun 24, 2015 4:50 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2015-06-25 20:31:51

Im Debian Jessie Backports-Repo gibt es mittlerweile Java 8u45. Habe es mal auf dem Laptop installiert und probiere es aus. Auf dem Server bin ich erstmal noch vorsichtig.

Statistik: Verfasst von Low012 — Do Jun 25, 2015 7:31 pm


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-26 09:42:27

Ah! Ich war bisher nur dazu gekommen, mit 1.839254 nochmal zu testen und hatte da noch die gleichen Probleme.

Vorhin habe ich jetzt auf 1.839263 aktualisiert, und alles ist wieder gut. Yay! :-)

Danke für den Fix.

Statistik: Verfasst von zottel — Fr Jun 26, 2015 8:42 am


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-26 10:51:04

so richtig ein Fix ist das ja nicht, denn er orientiert sich nicht an den Symptomen. Da ist halt nun eine Migration auf ein neues Solr drin, und die bisherige hätte angeblich einen Performance-Bug bei der Verwendung von Multi-Value Felder. Davon haben wir reichlich. Ich würde also hier hoffen wollen, dass der Solr-Upgrade geholfen hat.

Statistik: Verfasst von Orbiter — Fr Jun 26, 2015 9:51 am


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-06-26 10:59:12

Ich finde den IndexBrowser an sich ist eine tolle Funktion. Ich fände es schade, ihn wegen unbemannten, datenhungrigen Bots aufgeben zu müssen.

\@devs wollt ihr in die HostBrowser.html nicht einen Fatclient als Java-Applet einbauen? Daran beißen sich die Bots garantiert die Zähne aus :D

Statistik: Verfasst von LA_FORGE — Fr Jun 26, 2015 9:59 am


Fragen und Antworten • Re: Seit Update hohe Prozessorlast, obwohl yacy nichts tut?

Date: 2015-06-26 19:30:45

There is also a very English report about the issue which anyone in the world is free (as in freedom) to understand, since it\’s a little more globally intelligible than some random European language:

http://mantis.tokeek.de/view.php?id=588

Joke, with all my respect :D

Statistik: Verfasst von davide — Fr Jun 26, 2015 6:30 pm


Fragen und Antworten • yacy stabil wie nie

Date: 2015-06-26 23:14:49

Um hier auch mal Positives zu berichten:

Ich fand das ycay-Projekt immer toll, genau das, was wir brauchen, um von der Abhängigkeit von den großen Internet-Molochen loszukommen: Ein Index, der von der Community selbst erzeugt und gehostet wird.

Leider war es früher oft frustrierend, eine zumindest etwas größere Instanz auf einem VPS zu hosten. Je länger yacy lief, desto mehr Speicher verbrauchte es, wohl zusammenhängend auch mit der Größe der Datenbank (?). Ich hatte lange einen Cronjob laufen, der genau deshalb jeden Tag yacy neu startete – irgendwie auch nicht so richtig befriedigend.

Diese Probleme scheinen jetzt aber Geschichte zu sein, zumindest, wenn man genug RAM hat, den man yacy zur Verfügung stellen kann. Vielleicht waren meine früheren VPS zu klein, und mit mehr Speicher wäre es damals schon besser gewesen, vielleicht wurde im yacy-Code was verbessert, vielleicht stecken die Verbesserungen in SOLR – ich weiß es nicht.

Jedenfalls kann ich sagen: Seit etwa einem Dreivierteljahr oder Jahr läuft yacy bei mir super. Wochen am Stück ohne Notwendigkeit für einen Neustart. Und seit der neuen SOLR-Version, die die CPU-Probleme behoben hat, die ich kürzlich hatte, geht es noch viel besser: Selbst wenn der Crawler über 1500 PPM macht, bleibt die Load unter 2. Das ist der Wahnsinn, so gut lief das noch nie.

Und was den Speicher betrifft: Schon seit längerer Zeit sehe ich hier keine Probleme mehr. Mein yacy dürfte sich 7 GB RAM genehmigen, wenn er wollte, er nimmt aber nie mehr als 2,5 GB, und das stabil über Wochen, bei einer Datenbankgröße von derzeit 64GB – mehr als das doppelte des Maximums, das ich vorher erreicht hatte, bevor ich (allerdings auf einem kleineren VPS) wieder bei Null anfangen musste, weil yacy nach kurzer Zeit wegen Speicherproblemen den Geist aufgab oder gar nicht einmal mehr starten wollte.

Hiermit also ein riesiges Dankeschön an alle Entwickler, die dazu beigetragen haben, yacy zu dem zu machen, was es heute ist.

Und an alle, die schon lange überlegt haben, sich mal eine yacy-Instanz aufzusetzen, zu Hause oder auf einem Server: Tut es! Jetzt ist eine gute Zeit dafür! yacy lief nie so gut wie heute.

Statistik: Verfasst von zottel — Fr Jun 26, 2015 10:14 pm


English • Re: Yacy on Linux with multiple IPs configured

Date: 2015-06-29 12:18:03

I got the same question.

Statistik: Verfasst von Mellnik — Mo Jun 29, 2015 11:18 am


Hilfe für Einsteiger und Anwender • Crawler tut nichts

Date: 2015-06-29 12:40:50

In Crawler_p.html zeigt er die URL an die ich crawlen will aber er tut einfach nichts.
Bild

Load ist unter 1.0, RAM ist auch genug da.

Statistik: Verfasst von Mellnik — Mo Jun 29, 2015 11:40 am


Hilfe für Einsteiger und Anwender • Re: Crawler tut nichts

Date: 2015-06-29 13:12:22

Hallo,
also die Fehlermeldung sagt mir das es an Java liegt. Seltsamerweise bekommt Java keine Connection nach außen oder irre ich mich da? Woran das aber liegt kann ich dir leider nicht sagen.

VG
Vertigo

Statistik: Verfasst von vertigo — Mo Jun 29, 2015 12:12 pm


Hilfe für Einsteiger und Anwender • Re: Crawler tut nichts

Date: 2015-06-29 15:11:01

Hm ok, ich hab YaCy mal neugestartet. Das hat zwar geholfen aber ich kann ja nicht jedesmal neustarten ...

Statistik: Verfasst von Mellnik — Mo Jun 29, 2015 2:11 pm


English • Re: Yacy on Linux with multiple IPs configured

Date: 2015-06-30 08:22:32

http://www.canyouseeme.org/
is your friend

Greetings
lux

Statistik: Verfasst von lux — Di Jun 30, 2015 7:22 am


Solr Support • FieldCache is back

Date: 2015-06-30 19:32:57

Hallo,

bei mir fällt der FieldCache wieder mit eine üppigen größe auf - bei mir kommen da schnell mal ein paar GB zusammen!
Ich hab nachvollzogen das mit dem Update zu Solr 5.2 leider das purgen des FieldCache nicht mehr so machbar ist, weswegen Orbitter es auch entfernte.

http://lucene.apache.org/ sagt zu den Neuerungen von 5.2:

\ FieldCache is gone (moved to a dedicated UninvertingReader in the misc module). This means when you intend to sort on a field, you should index that field using doc values, which is much faster and less heap consuming than FieldCache.\



https://cwiki.apache.org/confluence/dis ... /DocValues{.postlink} beschreibt auch das mit den docValues.

\@Orbitter: ich denke das wir den Weg wohl gehen müssen - oder?
Wie stellt man es an das die Werte dann auch im ReIndex gegriffen werden?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jun 30, 2015 6:32 pm


Hilfe für Einsteiger und Anwender • Crawler und Solr getrennt: Solr-Cloud?

Date: 2015-07-01 00:51:31

Hallo!

Vor den Fragen die Ausgangssituation:

Ich bin dabei, zu einem bestimmten Wissensgebiet eine Suchmaschine aufzusetzen, die freeworld natürlich mit unterstütz. Wegen der unterschiedlichen Auslastungen und um die Response auf Suchanfragen zu optimieren, habe ich das System in mehrere System-Teilkomponenten auf verschiedene Rechner getrennt:

Crawling (2 Systeme)
Solr (1 System)
Suchoberfläche (1 System)

Die beiden Crawling-Systeme sollen gleichzeitig auf die Solr-Datenbank arbeiten. Obwohl die Crowlings bei der ersten vollständigen Erfassung der Quellen im Robinson-Modus arbeiten, um keine Rechenzeit zu vergeuden, sammeln sie durch eingeschalteten \“support peer-to-peer index transmission (DHT RWI index)\” die Informationen, um im nachfolgenen (dauerhaften Modus) die Informationen mit anderen Peers zu teilen. Robinson ist also nur temporär zu Beginn.

Beide Systeme arbeiten auf ein Solr auf einem separaten Rechner.

Um nun die Suche nicht von der Auslastung mit Crawls gar zu sehr abhängig zu machen, wird die Suchseite durch ein weiteres System bereit gestellt, dass auf Solr zugreift (nur lesend). Prinzipiell kenne ich die Infos auf den ganzen Yacy-Webseiten. Sie haben mir schließlich geholfen, die Teilsysteme zum Laufen zu bekommen. Einige Fragen bleiben trotzdem, bevor ich das als dauerhaftes Produktivsystem freigeben möchte:

Fragen:

1) Solr kann man, wie auf den Yacy-Webseiten beschrieben, als einzelnes System aufsetzen oder als Cloud. Wann benötigt man die Cloud-Variante? Schon, wenn ich wie hier mit zwei Crawlern auf eine Solr-Datenbank arbeite? Oder wann sonst? In meinem beschriebenen Fall?

2) Wenn ich einen Crawl auf der ersten Crawing-Maschine starte und einen Tag später (nachdem also schon ordentlich gecrawlt und indiziert wurde) auf dem zweiten System den gleichen Crawl einrichte, um ihn dort ab jetzt aller 6 Stunden auszuführen, dann wird dort offenbar noch mal in aller Tiefe ein Crawling ausgeführt. Ein Fehler? Ich hatte erwartet: Das erste System crawlt in die Tiefe, das zweite System beginnt auf der Startseite und geht nicht tiefer, da bereits alle Seiten vom anderen System in die Solr-Datenbank übertragen wurden. Mein Ziel: Auf dem ersten System erstmalig einen vollständigen Domain-Crawl. Das zweite System prüft nur noch die Startseite aller 6 Stunden und crawlt, was dort neu erscheint. -> Im Moment sieht es so aus, dass beide Systeme alles vollständig crawlen. Obwohl die Seiten bereits vom ersten System im Solr indiziert sind, macht das zweite Crawling-System ein weiteres vollständiges Crawling. Wie ist das richtig? Wie muss das sein? Was mache ich falsch?

3) Die beiden Crawl-Systeme arbeiten auf ein Solr, dass auf einem anderen System installiert ist. Fährt nun das Solr aus einem bestimmten Grund herunter, ist also für die Crawler nicht mehr erreichbar: Was passiert? Was machen die Crawler? Es sieht aus, dass sie nun auf eine lokale (die in YaCy eingebettete Solr-) Datenbank crawlen. Ist das so? Wie kann ich das organisieren, dass die Crawler ihre Information zurückhalten bzw. das Crawling stoppen, bis wieder das Solr am Netz ist? Oder übertragen sie später, wenn die entfernte SOlr-Datenbank wieder online ist, den Inhalt dort hin?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Di Jun 30, 2015 11:51 pm


Hilfe für Einsteiger und Anwender • Re: Crawler und Solr getrennt: Solr-Cloud?

Date: 2015-07-01 08:30:14

Hallo Frank,

das ist ja eine interessante Konstruktion. Eigentlich ganz nett durchgedacht, nicht ganz so wie ich das als ‚Standard’ bezeichnen würde aber sollte trotzdem gehen! Also:

1) weiss nicht. SolrCloud ist die Idee von Apache wie man mit Solr skaliert. Ich habe das mal als Auftragsarbeit in YaCy eingebaut. Theoretisch heisst das: so gut skalieren zu können wie man das eben mit Solr kann (unbegrenzt?). Erfahrungen habe ich dazu nur begrenzt. Eines ist sicher: der embedded Solr ist wegen fehledem http traffic sowieso besser als ein externer Solr und auch besser als eine Cloud mit X Shards. Wann X Shards dann doch besser ist und wie groß das X sein muss damit das zutrifft, weiss ich nicht… Das muss man mal durch Erfahrungswerte rausfinden.

2) die beiden YaCys wissen nicht voneinander wie ihre crawls ablaufen. YaCy hat einen Crawl Stack der unabhängig von Solr implementiert ist. Du musst das Problem durch eine Betriebsplanung lösen.

3) Wenn externe Solr nicht antworten merkt das YaCy nur dadurch, dass der http request, der von YaCy nach Solr geht blockiert, weil nichts antwortet. Nach einem Timeout (ich glaube 30 Sekunden) gibt es eine Exception. So weit ich mich erinnere wird das noch zwei mal wiederholt bis dann der Vorgang endgülig versagt. Dann gehen Daten verloren: indexing-push sind futsch und Suchanfragen haben leere Resultate. Den lokalen Solr kannst du übrigens ausschalten, das verhindert nicht die Anreicherung des DHT Indexes, das ist wieder eine weitere Datenstruktur (die du auch ausschalten kannst).

Statistik: Verfasst von Orbiter — Mi Jul 01, 2015 7:30 am


English • Re: Yacy on Linux with multiple IPs configured

Date: 2015-07-01 18:40:24

Hi,

browse to http://localhost:8090/Settings_p.html?page=ServerAccess

Put your DNS-Name (or the IP you wish to bind to) in the field staticIP and press the Submit-Button.

Greetings from germany

Steve

Statistik: Verfasst von LA_FORGE — Mi Jul 01, 2015 5:40 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2015-07-02 00:42:25

Danke \@LA_FORGE! Hab deine Anleitung schon letztens getwittert https://twitter.com/yacy_search/status/ ... 2931956736{.postlink}

Eine weitere Funktion habe ich eben eingecheckt: der Import kann nun auch lokal definierte Vokabularien nutzen, um mit diesen nachträglich Inhalte zu annotieren. Das ist wichtig weil importierte Dumps eben solche Vokabularien angeheftet haben können und bei einem Import zwar nützlich sein können, jedoch vom importierenden User nicht unbedingt gewollt sein können. Nun werden solche Navigationsmittel beim Import weggeworfen und durch eigene ersetzt. Das betrifft auch die Synonymdatenbank.

Statistik: Verfasst von Orbiter — Mi Jul 01, 2015 11:42 pm


Hilfe für Einsteiger und Anwender • Re: Crawler und Solr getrennt: Solr-Cloud?

Date: 2015-07-02 20:41:11

Hallo Orbiter!

Besten Dank für Deine ausführliche Antwort!

Da ist meine Konstruktion zwar zur Lastverteilung durchdacht, aber hat doch Nachteile. Das hab\’ ich fast vermutet, dass in dem System mehr Information steckt, als solr für sich genommen speichert.

Wenn ich jetzt lokal von beiden Systemen, die bisher auf das eine Solr gecrawlt haben, den gleichen Suchbegriff gebe, dann bekomme ich in der oberen Statuszeile, in der ich auch die Zahl der Seiten der Treffer angezeigt bekomme, eine unterschiedliche Anzahl von Treffern angezeigt. Obwohl es das gleiche Solr ist und ich eigentlich nichts in Schema, Ranking oder dergleichen von den Grundeinstellungen verändert habe. Das YaCy, was schon mehr gecrawlt hat, scheint auch mehr Treffer zu liefern.

Dann werde ich wohl doch eher von meiner komischen Konstruktion ablassen, Crawling, Datenbank und Such-Seiten-Frontend auf unterschiedliche Systeme zu verteilen.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Do Jul 02, 2015 7:41 pm


Hilfe für Einsteiger und Anwender • Re: Crawler und Solr getrennt: Solr-Cloud?

Date: 2015-07-02 21:28:35

ich würde das nicht als komische Konstruktion bezeichnen sondern als interessante Konstruktion. Die Unterschiede, die du feststellen kannst, könnten vom RWI-Index her rühren, der für das p2p gedacht ist. Der baut sich bei der Vetreilung im Index ja kontinuierlich ab, ohne das Suchresultate verloren gehen. Solr hat ja ‚nur’ für das p2p Netz die Metadaten-Datenbank abgelöst, bietet aber selber auch einen Suchindex. wir haben in einem p2p-Index also zwei Indexe. Das kann verwirren, kann aber auch nur eine Statusanzeigeproblematik sein.

Ich finde deine Konstuktion eigentlich schon recht ergonomisch, es verzichtet bei zwei YaCy Instanzen halt auf zwei Solr Indizes sondern hat nur eine. Das ist ja eine tolle Sache. Das es da nun schon mal irritationen geben kann würde ich einfach hinnehmen. Wichtig ist, zu wissen was du für Daten hast und was und wieviel verloren geht - eben nichts. Insgesamt finde ich nichts daran falsch was du da gemacht hast, es ist beobachtenswert.

Statistik: Verfasst von Orbiter — Do Jul 02, 2015 8:28 pm


Hilfe für Einsteiger und Anwender • How to use Mysql database

Date: 2015-07-03 09:17:39

Yacy can use Mysql database? If can how to do.When search left how to hidden.this can Registered member?

Statistik: Verfasst von renziyou — Fr Jul 03, 2015 8:17 am


Hilfe für Einsteiger und Anwender • HTTP ERROR 500

Date: 2015-07-04 04:29:47

HTTP ERROR 500

Problem accessing /ConfigBasic.html. Reason:

Server Error
Caused by:

javax.servlet.ServletException: /data/www/yacy/DATA/LOCALE/htroot/cn/ConfigBasic.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:831)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:800)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:497)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:313)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:626)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:546)
at java.lang.Thread.run(Thread.java:745)QQ截图20150704102414.png

Statistik: Verfasst von renziyou — Sa Jul 04, 2015 3:29 am


Hilfe für Einsteiger und Anwender • Re: How to use Mysql database

Date: 2015-07-04 18:31:20

No you cannot connect YaCy to a SQL Database. The only thing you can do is to import the content of a phpBB-Forum in your index.

Statistik: Verfasst von LA_FORGE — Sa Jul 04, 2015 5:31 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2015-07-04 18:33:28

What Version of YaCy do you use? Which Java Runtime Environment do you have?

Statistik: Verfasst von LA_FORGE — Sa Jul 04, 2015 5:33 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-07-05 12:43:39

LA\_FORGE hat geschrieben:\ Ich habe noch einen alten Peer bei mir gefunden von Ende 2012. Es sind 8 x RAR-Archive á 20 GB ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy")\ \ Code: : `Migrate URLdb to embedded Solr IndexConvert old meta data (urldb) index to embedded Solr fulltext index.    A low priority background job has been started which reads the old index, adds it to Solr and deletes the entry from the old index.    The default "slow migration" updates any entry in the old urldb index upon access (e.g. during search events).    If you feel that the not accessed entries are still relevant, with this migration all entries from the old urldb index will be migrated.    You may refresh this page to see how many entries in the old index are left for migration    Hint: this background task runs until all entries are migrated or YaCy is shutdown. The migration is not automatically restarted.65281515 entries in old index left to migrate.` \ \ Die Migration dauert noch sehr lange bis das durch ist ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") Ich will [mehr Power!](http://tinyurl.com/pzxnaoq){.postlink} Kann man da was machen?\



Code:
      t.setPriority(Thread.MIN_PRIORITY);            t.start();



Ist das die richtige Stelle die ich da im Code gefunden habe (migration.java)? Was muss ich danach machen? Reicht ein Neustart von YaCy oder muss ich die Klasse neu kompilieren?

Statistik: Verfasst von LA_FORGE — So Jul 05, 2015 11:43 am


YaCy Coding & Architektur • Mein erster Hack

Date: 2015-07-05 15:42:43

Hi,

da ich bei mir noch einen alten Peer gefunden habe, der als 8 x RAR-Archive á 20 GB gepackt war, wurde ich wieder auf die Methode migrateUrldbtoSolr aufmerksam. Leider wurde der alte Index nur sehr schleppend migriert, also habe ich mir die Klasse \‘migration\’ mal näher angesehen und dem ganzen mal MEHR POWER gegeben :D

\ I 2015/07/05 14:31:12 migrateUrldbtoSolr 51137343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:32:39 migrateUrldbtoSolr 51136343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:36:56 migrateUrldbtoSolr 51133343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:38:29 migrateUrldbtoSolr 51132343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:39:27 migrateUrldbtoSolr 51131343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:42:03 migrateUrldbtoSolr 51129343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:43:23 migrateUrldbtoSolr 51128343 entries left (convert next chunk of 1000 entries)\ I 2015/07/05 14:44:30 migrateUrldbtoSolr 51127343 entries left (convert next chunk of 1000 entries)\



Jetzt müsste es in 2 Monaten durch sein. Dann merge ich das ganze mit meinem \“Hauptpeer\“, der gerade etwas mehr als 200 Mio. Dokumente im Index hat :-)


VG

Stefan

Statistik: Verfasst von LA_FORGE — So Jul 05, 2015 2:42 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-05 17:11:32

So,

hier{.postlink} gibt es die aktuelle Version meiner Sperrliste. Es sind 4000 Netze mit kompromittierten Systemen. In zahlreichen Netzen liegt die Anzahl der kompromittierten Systeme im höheren 2-stelligen Bereich!

Statistik: Verfasst von LA_FORGE — So Jul 05, 2015 4:11 pm


Fragen und Antworten • Metatags auf Suchseiten anpassen

Date: 2015-07-05 21:02:58

Hallo,

wie kann man die Metatags z.B. Titel, Description und Keywords auf die index.html und die yacysearch.html optimal anpassen. Gibt es dazu eine Eingabemaske? Auf meiner http://www.thueringer-suche.de , die auf einen Onlineserver liegt, möchte ich diese speziell anpassen wollen.

Wer kann helfen Hinweise zugeben.
Gruß Roland

Statistik: Verfasst von RoGott — So Jul 05, 2015 8:02 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-07-05 23:21:54

Hallo LA_FORGE,

wenn Du Dir da sicher bust den rchtigen Thread am wickel zu haben - ändern, neu kompileiren und neu starten - gutes Gelingen!

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Jul 05, 2015 10:21 pm


Hilfe für Einsteiger und Anwender • where to start in YaCy ?

Date: 2015-07-06 05:36:15

where to start in YaCy ?
I\’m confused!
I did some simple research in YaCy, and did not have relevant results, those same sites appear to have seen the videos on youtube about YaCy. I ask, how do I change the location from country to search in YaCy, ie restringer research to a certain place in the world, such as China? How do I change the exact settings to perform research by country? Thank you in advance for the answers!

Statistik: Verfasst von masterbox10 — Mo Jul 06, 2015 4:36 am


English • where to start in YaCy?

Date: 2015-07-06 05:40:43

where to start in YaCy?
I\’m confused!
I did some simple research in YaCy, and did not have relevant results, those same sites appear to have seen the videos on youtube about YaCy. I ask, how do I change the location from country to search in YaCy, ie restringer research to a certain place in the world, such as China? How do I change the exact settings to perform research by country? Thank you in advance for the answers!

Statistik: Verfasst von masterbox10 — Mo Jul 06, 2015 4:40 am


Wunschliste • Network.html?page=1 show DHT Distance

Date: 2015-07-06 13:56:46

Hi,

In Kademlia-based DHT (e.g. EMule) an attribute \‘distance\’ is shown under DHT-Statistics. It would be very nice to have this at the YaCy Network.html?page=1 too.

More Info here{.postlink}

Greetings

Steve

Statistik: Verfasst von LA_FORGE — Mo Jul 06, 2015 12:56 pm


Wunschliste • Re: Network.html?page=1 show DHT Distance

Date: 2015-07-06 13:58:36

\ Kademlia uses a \"distance\" calculation between two nodes. This distance is computed as the exclusive or (XOR) of the two node IDs, taking the result as an integer number. Keys and Node IDs have the same format and length, so distance can be calculated among them in exactly the same way. The node ID is typically a large random number that is chosen with the goal of being unique for a particular node (see UUID). It can and does happen that geographically widely separated nodes---from Germany and Australia, for instance---can be \"neighbors\" if they have chosen similar random node IDs.\



Source: Wikipedia

Statistik: Verfasst von LA_FORGE — Mo Jul 06, 2015 12:58 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2015-07-06 14:04:51

YaCy 1.82 for GNU/Linux for centos

Statistik: Verfasst von renziyou — Mo Jul 06, 2015 1:04 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-07-06 21:30:58

Vielen Dank. Achso du meinst den Programm-Thread, ich war gerade etwas verpeilt und dachte an den Foren-Thread :D
Nach der Änderung läuft es konstant mit 1000 Pages/Min. In 2 Monaten ist es durch :-)

Code:
I 2015/07/05 20:07:02 migrateUrldbtoSolr some error while adding old data to new index, continue with next entry



Hehe, Ein Bißchen Schwund ist immer :-) Ich hab mir extra eine Screen{.postlink}-Session dafür gebaut, \‘watch\’ und \‘tail\’ haben den letzten Log-Eintrag immer direkt wieder verworfen nach dem 1. Eintrag angezeigt wurde, jetzt habe ich\’s so gemacht:

Code:
while true; do cat /mnt/1800gb/yacy/DATA/LOG/yacy00.log | grep "migrateUrldbtoSolr"; sleep 60; done



Außerdem noch eine weitere Screen-Session zum monitoren von Remote-Suchanfragen:

Code:
while true; do cat /mnt/1800gb/yacy/DATA/LOG/yacy00.log | grep "HASH"; sleep 8; done



Die Ausgabe sieht dann so aus:

Code:
I 2015/07/06 19:10:43 YACY EXIT HASH SEARCH: [rMb.........] - 70045 links found, 10 links selected, 0 index abstracts, 6270 millisecondsI 2015/07/06 19:34:15 YACY EXIT HASH SEARCH: [LEB.........] - 586 links found, 0 links selected, 0 index abstracts, 8103 millisecondsI 2015/07/06 19:38:50 YACY EXIT HASH SEARCH: [il2........., tzw.........] - 163751 links found, 10 links selected, 2360264 index abstracts, 14542 millisecondsI 2015/07/06 19:44:21 YACY EXIT HASH SEARCH: [CZ_........., NRM........., c76........., f9P.........] - 1631 links found, 10 links selected, 2460570 index abstracts, 15379 millisecondsI 2015/07/06 19:52:06 YACY EXIT HASH SEARCH: [EUX........., XTi.........] - 37 links found, 1 links selected, 999033 index abstracts, 10591 millisecondsI 2015/07/06 20:14:13 YACY EXIT HASH SEARCH: [nJU.........] - 153053 links found, 10 links selected, 0 index abstracts, 12321 millisecondsI 2015/07/06 20:23:08 YACY INIT HASH SEARCH (query-auto): [PDZ........., feA.........] - 10 linksI 2015/07/06 20:25:51 YACY EXIT HASH SEARCH: [Xop.........] - 150052 links found, 10 links selected, 0 index abstracts, 11257 milliseconds

Statistik: Verfasst von LA_FORGE — Mo Jul 06, 2015 8:30 pm


English • Re: User poll: feasible, but missing feature?

Date: 2015-07-07 04:40:35

1 The world is mobile today yacy need a mobile version using yacy on mobile its just a very bad experience.

2 Real improvements to memory usage yacy love eats a lot of memory and never give back to system make all experience slow

3 Image search It has room for muchhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh improvement here better search better results better thumbnails sometimes i dont have thumbs :D
4 Improvements to estability.

Thats is

Statistik: Verfasst von karol — Di Jul 07, 2015 3:40 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-07 18:39:06

Hallo liebes Yacy-Volk!

Wird an einer Neuauflage von yacystats noch gewerkelt?
Mir ist nämlich auch langweilig und habe ein wenig den Grips angeschmissen.

yacystats.de war letzte Woche dann wieder frei zur Neuregistrierung,
Leider hat sich die dann jemand geschnappt, der nur auf das Geld für die Domain aus ist und sie zum Verkauf anbietet. :-/
Nun habe ich mir gedacht, bevor er sich yacy-stats.de auch noch schnappt, mach ich dat ma... =)

Würde mich über Resonanz freuen.

Grüße
AkDk7

Statistik: Verfasst von AkDk7 — Di Jul 07, 2015 5:39 pm


Hilfe für Einsteiger und Anwender • \“Spezial\” Crawler

Date: 2015-07-08 12:39:45

Hey...

ich versuche gerade ein YaCy System im lokalen Firmenintranet auf zu setzen um eine alte Dokumentenablage zu indizieren. GGF wollen wir spaeter auch unkritische (aber massenhafte) Datenloggerdaten indizieren lassen und auf ein \“Datengrab\” laufen lassen.
Yacy koennte uns dann super dabei helfen dann doch recht fix gezielte Daten wieder raus zu finden...

Meine frage nun, bzw. mein Problem... diese Daten liegen eigentlich in Klartextdateien, aber die Dateierweiterungen sind z.B. \“msg\“. Kann man da moeglichst unkompliziert einen Textcrawler abaendern um ihn auch diese Dateiformate indizieren zu lassen?

Vorab schonmal danke fuer eure Gedankengaenge ;) csuno

Statistik: Verfasst von csuno — Mi Jul 08, 2015 11:39 am


Hilfe für Einsteiger und Anwender • Re: \“Spezial\” Crawler

Date: 2015-07-08 17:42:27

Hi, gute Idee, habs eingebaut in https://github.com/yacy/yacy_search_ser ... f536006533{.postlink}
Bin gespannt ob das geht, schreib doch mal.

Statistik: Verfasst von Orbiter — Mi Jul 08, 2015 4:42 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-08 18:30:13

AkDk7 hat geschrieben:\ Hallo liebes Yacy-Volk!\ \ Wird an einer Neuauflage von yacystats noch gewerkelt?\ Mir ist nämlich auch langweilig und habe ein wenig den Grips angeschmissen.\ \ yacystats.de war letzte Woche dann wieder frei zur Neuregistrierung,\ Leider hat sich die dann jemand geschnappt, der nur auf das Geld für die Domain aus ist und sie zum Verkauf anbietet. :-/\ Nun habe ich mir gedacht, bevor er sich yacy-stats.de auch noch schnappt, mach ich dat ma\... =)\ \ Würde mich über Resonanz freuen.\ \ Grüße\ AkDk7\



Hi,

fände es toll, wenn es in der Richtung wieder etwas geben würde. Die alte yacystats.de sah mal so aus:

Bild


VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mi Jul 08, 2015 5:30 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-08 20:16:58

Hi LA_FORGE.

Momentan speichere ich die Daten ausschließlich in rrd-Dateien ab.
Diese kann man natürlich auch entsprechend auslesen und die Daten anschließend verwerten.

Wäre natürlich auch toll gewesen, wenn man die yacystats-Seite hätte übernehmen können.

Ich werde die Tage mal schauen, sobald ich eine erste Version habe, schreibe ich Dich mal direkt an.

Gruß
AkDK7

Statistik: Verfasst von AkDk7 — Mi Jul 08, 2015 7:16 pm


English • Advanced Crawler

Date: 2015-07-09 06:26:54

I do not understand anything about advanced crawler. as using Advanced Crawler?

Statistik: Verfasst von masterbox10 — Do Jul 09, 2015 5:26 am


Hilfe für Einsteiger und Anwender • Re: \“Spezial\” Crawler

Date: 2015-07-09 13:54:25

Sieht gut aus.
Kann man da evtl. in Zukunft (FeatureRequest) was einbauen, dass man in gewissen Rahmen eigene Filetype/Extensions aufnehmen kann? Am besten natuerlich per Webadministration?

THX fuer die schnelle Umstezung!

Statistik: Verfasst von csuno — Do Jul 09, 2015 12:54 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-07-09 14:25:53

Hm.. Mist, zu früh gefreut, jetzt läuft es wieder nur mit 200 PPM :-( Ich hatte gestern Abend einen VMkernel-Panic :-( Bei der Gelegenheit habe ich gerade das Update auf ESXi 6.0 eingespielt. Im Code (migration.java) steht noch

Code:
     t.setPriority(Thread.MAX_PRIORITY);     t.start();



Wobei ich dazu sagen muss, dass ich vorher auch nicht neu kompiliert habe und trotzdem konstant 1000 ppm hatte. Gibt\’s irgend wo eine Anleitung in Textform wie ich das neu kompilieren kann?

Statistik: Verfasst von LA_FORGE — Do Jul 09, 2015 1:25 pm


English • Re: Advanced Crawler

Date: 2015-07-09 17:56:17

You can start a crawl with fine-tuned attributes at the advanced crawler page. You can also define a scheduled re-crawl cycle at this. Please be a littlebit more specific, which attribute/parameter at the page don\’t you understand?

Statistik: Verfasst von LA_FORGE — Do Jul 09, 2015 4:56 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-09 18:03:47

Hi,

alles klar, cool. Kommt man irgendwie noch an den Quellcode der alten Yacystats-Seite und könnte man evtl. davon profitieren? Macht der Betreiber & Entwickler (lulabad) nicht mehr mit bei YaCy?


VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Do Jul 09, 2015 5:03 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-09 18:04:32

Mööp{.postlink}

Statistik: Verfasst von LA_FORGE — Do Jul 09, 2015 5:04 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-09 18:13:37

Sehr gut. Damit kann man was anfangen ;)

Statistik: Verfasst von AkDk7 — Do Jul 09, 2015 5:13 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-10 14:13:38

LA\_FORGE hat geschrieben:\ \...\ So sieht das dann aus, wenn der IndexBrowser mit DDoS-Attacken bombadiert wird ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") wie wollen wir \'freeworld\' davor schützen? Ich schätze die Größe des Botnet auf 12000 Rechner & mehr ein ![:-(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad")\



Laut Doku bringt der Jetty HTTP Server einen DOS Filter mit, der möglicherweise (in Grenzen) helfen könnte:
http://www.eclipse.org/jetty/documentat ... ilter.html{.postlink}

\@Developer: Lässt sich dieser Filter evtl. aktivieren/konfigurieren?

Statistik: Verfasst von freak — Fr Jul 10, 2015 1:13 pm


Hilfe für Einsteiger und Anwender • Re: IP 6 Anbindung

Date: 2015-07-11 14:48:15

Habe es noch einmal ausprobiert
die Seite ist jetzt auch erreichbar http://stille1983.dynalias.com:8090/
habe es mit Djava.net.preferIPv6Stack=true probiert scheint aber auch nicht zu ändern
auf der Übersichtsseite wird angezeigt Peer kann von außen nicht erreicht werden , jemand eine Idee.

Statistik: Verfasst von STILLE1983 — Sa Jul 11, 2015 1:48 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2015-07-12 11:09:25

Code:
        commit{dir=/mnt/1800gb/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_40/collection1/data/index,segFN=segments_ztj7,generation=1671235,filenames=[_1su8w_nrm.cfe, _1t4ms_nrm.cfe, _1t53q_nrm.cfe, _1sxkv_4.del, segments_ztj7, _nn6o.prx, _1qhbu_nrm.cfe, _1su8w_nrm.cfs, _1t53o.si, _1t53q_nrm.cfs, _1qhbu_Lucene41_0.doc, _1qxic_Lucene41_0.pos, _1t50g.fnm, _1qhbu.si, _1t50g_Lucene41_0.doc, _1svzb_1.del, _1t4x8_Lucene41_0.pos, _nn6o.fnm, _1t2z8.si, _nn6o.tis, _1qxic.si, _1t4x8.fdx, _1t4mw.si, _1t4x8.fdt, _1su8w_Lucene41_0.pos, _nn6o.si, _1t520.fnm, _1t4ms_Lucene41_0.doc, _13gc1_27s.del, _1t53p_Lucene41_0.tip, _1t53q.fdt, _1t53p_Lucene41_0.tim, _1st2b_Lucene41_0.pos, _1t22s.fnm, _1t53q.fdx, _1o97o.si, _1t4x8_nrm.cfe, _1t4x8_nrm.cfs, _1l6fk_Lucene41_0.tip, _1l6fk_Lucene41_0.tim, _1rgxm.fnm, _nn6o.tii, _1t53p.fnm, _1px5p_9c.del, _1qxic_Lucene41_0.tim, _1rgxm_nrm.cfe, _1t18k.si, _1st2b_nrm.cfe, _1t3it_Lucene41_0.pos, _1qxic_Lucene41_0.tip, _1st2b_nrm.cfs, _1qxic.fdt, _1qxic.fdx, _1sxkv.fnm, _1t4xc.fnm, _1t22s_Lucene41_0.doc, _1t53q_Lucene41_0.pos, _1t18k.fnm, _1t53o_Lucene41_0.doc, _1svzb_Lucene41_0.doc, _1t50g_nrm.cfe, _13gc1.fdt, _1su8w_Lucene41_0.tim, _1st2b_Lucene41_0.tip, _1t50g_nrm.cfs, _1t2z8_Lucene41_0.doc, _1t4xc_Lucene41_0.doc, _1su8w_Lucene41_0.tip, _1st2b_Lucene41_0.tim, _1qhbu_nrm.cfs, _1rgxm.si, _1svzb_Lucene41_0.pos, _1svzb_nrm.cfs, _nn6o_upgraded.si, _1t53o_Lucene41_0.pos, _1t53p.fdx, _1l6fk.fnm, _1t53p.fdt, _1t4xc.fdt, _1sxkv_nrm.cfs, _1t3it_Lucene41_0.tim, _1t3it_nrm.cfe, _1t2z8_Lucene41_0.pos, _1t18k_5.del, _1sxkv_nrm.cfe, _1t4xc.fdx, _1t520_Lucene41_0.tim, _1sxkv_Lucene41_0.pos, _1t520_Lucene41_0.tip, _1t18k_nrm.cfs, _nn6o.frq, _1t22s_1.del, _1rgxm_nrm.cfs, _1t50g_Lucene41_0.tip, _1se38_Lucene41_0.tim, _1se38_Lucene41_0.tip, _1t18k_nrm.cfe, _1t3it_Lucene41_0.tip, _1t4ms.fdt, _1svzb_nrm.cfe, _1t4ms.fdx, _1t50g_Lucene41_0.tim, _13gc1.si, _13gc1.fnm, _nn6o.nrm, _1t53o.fnm, _1svzb_Lucene41_0.tim, _1t53p_nrm.cfe, _1svzb_Lucene41_0.tip, _1t53o_Lucene41_0.tim, _1t50g.si, _1t53o_Lucene41_0.tip, _1t520_Lucene41_0.pos, _1t53p_nrm.cfs, _1su8w_Lucene41_0.doc, _1sxkv_Lucene41_0.tip, _1t2z8_Lucene41_0.tim, _1px5p.fdx, _1sxkv_Lucene41_0.tim, _1st2b.fnm, _1t53p_Lucene41_0.doc, _1t2z8_Lucene41_0.tip, _1o97o_Lucene41_0.pos, _1t520.fdt, _1t4mw.fdx, _1t4x8_Lucene41_0.tim, _1t520.fdx, _1o97o.fnm, _1px5p.fdt, _1t3it_nrm.cfs, _1l6fk_Lucene41_0.doc, _1t22s.fdx, _1t2z8_nrm.cfe, _1t22s.fdt, _1t4mw.fdt, _1t4x8_Lucene41_0.tip, _1t4ms_nrm.cfs, _1t53p.si, _1se38_Lucene41_0.pos, _1t2z8_nrm.cfs, _1t50g_Lucene41_0.pos, _1svzb.fnm, _1t22s_Lucene41_0.tip, _1t4mw_Lucene41_0.doc, _1t3it.fdt, _1o97o_nrm.cfs, _1t22s_Lucene41_0.tim, _13gc1_nrm.cfs, _1px5p_Lucene41_0.doc, _1qxic.fnm, _1px5p_nrm.cfs, _1t3it.fdx, _1t4mw_nrm.cfs, _1rgxm_Lucene41_0.tim, _1t53q_Lucene41_0.doc, _1t18k_Lucene41_0.tim, _1t53o.fdt, _1o97o_Lucene41_0.tip, _1t4xc_Lucene41_0.tim, _13gc1_Lucene40_0.tip, _13gc1_Lucene40_0.tim, _1qhbu.fnm, _1o97o_Lucene41_0.tim, _1t4xc_Lucene41_0.tip, _1t18k_Lucene41_0.tip, _1o97o_v6.del, _1t53o.fdx, _1t4ms_Lucene41_0.pos, _1st2b.si, _1t3it_Lucene41_0.doc, _1o97o.fdt, _1o97o_nrm.cfe, _1rgxm_Lucene41_0.tip, _1su8w.fdx, _1qxic_Lucene41_0.doc, _1rgxm.fdx, _1su8w.fdt, _13gc1_nrm.cfe, _1rgxm.fdt, _13gc1_Lucene40_0.prx, _1l6fk_mi.del, _1t2z8.fdt, _1t4x8_Lucene41_0.doc, _1rgxm_9l.del, _nn6o.fdx, _1sxkv.si, _1rgxm_Lucene41_0.pos, _nn6o.fdt, _1svzb.si, _1t520_nrm.cfe, _1t2z8.fdx, _1t22s_Lucene41_0.pos, _1t4x8.si, _1t4xc.si, _1t4ms_Lucene41_0.tip, _1sxkv.fdt, _1px5p.si, _1t4ms_Lucene41_0.tim, _1t18k_Lucene41_0.pos, _1se38.si, _1sxkv.fdx, _1t53q.si, _1t4xc_Lucene41_0.pos, _1t520_nrm.cfs, _1t22s_nrm.cfs, _1t22s.si, _1t520.si, _1qxic_4x.del, _1t22s_nrm.cfe, _nn6o_333.del, _1qhbu_Lucene41_0.pos, _1se38.fdt, _1se38.fdx, _1t4x8.fnm, _1qhbu_d7.del, _1l6fk_Lucene41_0.pos, _1t53o_nrm.cfe, _13gc1_Lucene40_0.frq, _1qhbu_Lucene41_0.tip, _1su8w.si, _13gc1.fdx, _1t2z8.fnm, _1t18k.fdx, _1l6fk_nrm.cfe, _1t18k.fdt, _1t53o_nrm.cfs, _1t4mw.fnm, _1t4xc_nrm.cfs, _1t4mw_Lucene41_0.tip, _1su8w_1x.del, _1t4mw_Lucene41_0.tim, _1qxic_nrm.cfe, _1l6fk_nrm.cfs, _1px5p_Lucene41_0.tim, _1se38.fnm, _1px5p_Lucene41_0.tip, _1rgxm_Lucene41_0.doc, _1t53q_Lucene41_0.tip, _1qxic_nrm.cfs, _1t4ms.si, _1t53q_Lucene41_0.tim, _1qhbu_Lucene41_0.tim, _1t18k_Lucene41_0.doc, _1l6fk.si, _1px5p.fnm, _1o97o_Lucene41_0.doc, _1l6fk.fdt, _1sxkv_Lucene41_0.doc, _1l6fk.fdx, _1t50g.fdx, _1svzb.fdx, _1t50g.fdt, _1se38_nrm.cfs, _1se38_Lucene41_0.doc, _1o97o.fdx, _1svzb.fdt, _1se38_nrm.cfe, _1st2b_Lucene41_0.doc, _1t4ms.fnm, _1qhbu.fdx, _1t4mw_Lucene41_0.pos, _1su8w.fnm, _1st2b.fdt, _1t53q.fnm, _1qhbu.fdt, _1px5p_Lucene41_0.pos, _1st2b.fdx, _1t4xc_nrm.cfe, _1t53p_Lucene41_0.pos, _1se38_3l.del, _1t3it.fnm, _1px5p_nrm.cfe, _1t4mw_nrm.cfe, _1t520_Lucene41_0.doc, _1t3it.si]I 2015/07/12 11:01:45 org.apache.solr.core.SolrCore newest commit = 1671235[_1su8w_nrm.cfe, _1t4ms_nrm.cfe, _1t53q_nrm.cfe, _1sxkv_4.del, segments_ztj7, _nn6o.prx, _1qhbu_nrm.cfe, _1su8w_nrm.cfs, _1t53o.si, _1t53q_nrm.cfs, _1qhbu_Lucene41_0.doc, _1qxic_Lucene41_0.pos, _1t50g.fnm, _1qhbu.si, _1t50g_Lucene41_0.doc, _1svzb_1.del, _1t4x8_Lucene41_0.pos, _nn6o.fnm, _1t2z8.si, _nn6o.tis, _1qxic.si, _1t4x8.fdx, _1t4mw.si, _1t4x8.fdt, _1su8w_Lucene41_0.pos, _nn6o.si, _1t520.fnm, _1t4ms_Lucene41_0.doc, _13gc1_27s.del, _1t53p_Lucene41_0.tip, _1t53q.fdt, _1t53p_Lucene41_0.tim, _1st2b_Lucene41_0.pos, _1t22s.fnm, _1t53q.fdx, _1o97o.si, _1t4x8_nrm.cfe, _1t4x8_nrm.cfs, _1l6fk_Lucene41_0.tip, _1l6fk_Lucene41_0.tim, _1rgxm.fnm, _nn6o.tii, _1t53p.fnm, _1px5p_9c.del, _1qxic_Lucene41_0.tim, _1rgxm_nrm.cfe, _1t18k.si, _1st2b_nrm.cfe, _1t3it_Lucene41_0.pos, _1qxic_Lucene41_0.tip, _1st2b_nrm.cfs, _1qxic.fdt, _1qxic.fdx, _1sxkv.fnm, _1t4xc.fnm, _1t22s_Lucene41_0.doc, _1t53q_Lucene41_0.pos, _1t18k.fnm, _1t53o_Lucene41_0.doc, _1svzb_Lucene41_0.doc, _1t50g_nrm.cfe, _13gc1.fdt, _1su8w_Lucene41_0.tim, _1st2b_Lucene41_0.tip, _1t50g_nrm.cfs, _1t2z8_Lucene41_0.doc, _1t4xc_Lucene41_0.doc, _1su8w_Lucene41_0.tip, _1st2b_Lucene41_0.tim, _1qhbu_nrm.cfs, _1rgxm.si, _1svzb_Lucene41_0.pos, _1svzb_nrm.cfs, _nn6o_upgraded.si, _1t53o_Lucene41_0.pos, _1t53p.fdx, _1l6fk.fnm, _1t53p.fdt, _1t4xc.fdt, _1sxkv_nrm.cfs, _1t3it_Lucene41_0.tim, _1t3it_nrm.cfe, _1t2z8_Lucene41_0.pos, _1t18k_5.del, _1sxkv_nrm.cfe, _1t4xc.fdx, _1t520_Lucene41_0.tim, _1sxkv_Lucene41_0.pos, _1t520_Lucene41_0.tip, _1t18k_nrm.cfs, _nn6o.frq, _1t22s_1.del, _1rgxm_nrm.cfs, _1t50g_Lucene41_0.tip, _1se38_Lucene41_0.tim, _1se38_Lucene41_0.tip, _1t18k_nrm.cfe, _1t3it_Lucene41_0.tip, _1t4ms.fdt, _1svzb_nrm.cfe, _1t4ms.fdx, _1t50g_Lucene41_0.tim, _13gc1.si, _13gc1.fnm, _nn6o.nrm, _1t53o.fnm, _1svzb_Lucene41_0.tim, _1t53p_nrm.cfe, _1svzb_Lucene41_0.tip, _1t53o_Lucene41_0.tim, _1t50g.si, _1t53o_Lucene41_0.tip, _1t520_Lucene41_0.pos, _1t53p_nrm.cfs, _1su8w_Lucene41_0.doc, _1sxkv_Lucene41_0.tip, _1t2z8_Lucene41_0.tim, _1px5p.fdx, _1sxkv_Lucene41_0.tim, _1st2b.fnm, _1t53p_Lucene41_0.doc, _1t2z8_Lucene41_0.tip, _1o97o_Lucene41_0.pos, _1t520.fdt, _1t4mw.fdx, _1t4x8_Lucene41_0.tim, _1t520.fdx, _1o97o.fnm, _1px5p.fdt, _1t3it_nrm.cfs, _1l6fk_Lucene41_0.doc, _1t22s.fdx, _1t2z8_nrm.cfe, _1t22s.fdt, _1t4mw.fdt, _1t4x8_Lucene41_0.tip, _1t4ms_nrm.cfs, _1t53p.si, _1se38_Lucene41_0.pos, _1t2z8_nrm.cfs, _1t50g_Lucene41_0.pos, _1svzb.fnm, _1t22s_Lucene41_0.tip, _1t4mw_Lucene41_0.doc, _1t3it.fdt, _1o97o_nrm.cfs, _1t22s_Lucene41_0.tim, _13gc1_nrm.cfs, _1px5p_Lucene41_0.doc, _1qxic.fnm, _1px5p_nrm.cfs, _1t3it.fdx, _1t4mw_nrm.cfs, _1rgxm_Lucene41_0.tim, _1t53q_Lucene41_0.doc, _1t18k_Lucene41_0.tim, _1t53o.fdt, _1o97o_Lucene41_0.tip, _1t4xc_Lucene41_0.tim, _13gc1_Lucene40_0.tip, _13gc1_Lucene40_0.tim, _1qhbu.fnm, _1o97o_Lucene41_0.tim, _1t4xc_Lucene41_0.tip, _1t18k_Lucene41_0.tip, _1o97o_v6.del, _1t53o.fdx, _1t4ms_Lucene41_0.pos, _1st2b.si, _1t3it_Lucene41_0.doc, _1o97o.fdt, _1o97o_nrm.cfe, _1rgxm_Lucene41_0.tip, _1su8w.fdx, _1qxic_Lucene41_0.doc, _1rgxm.fdx, _1su8w.fdt, _13gc1_nrm.cfe, _1rgxm.fdt, _13gc1_Lucene40_0.prx, _1l6fk_mi.del, _1t2z8.fdt, _1t4x8_Lucene41_0.doc, _1rgxm_9l.del, _nn6o.fdx, _1sxkv.si, _1rgxm_Lucene41_0.pos, _nn6o.fdt, _1svzb.si, _1t520_nrm.cfe, _1t2z8.fdx, _1t22s_Lucene41_0.pos, _1t4x8.si, _1t4xc.si, _1t4ms_Lucene41_0.tip, _1sxkv.fdt, _1px5p.si, _1t4ms_Lucene41_0.tim, _1t18k_Lucene41_0.pos, _1se38.si, _1sxkv.fdx, _1t53q.si, _1t4xc_Lucene41_0.pos, _1t520_nrm.cfs, _1t22s_nrm.cfs, _1t22s.si, _1t520.si, _1qxic_4x.del, _1t22s_nrm.cfe, _nn6o_333.del, _1qhbu_Lucene41_0.pos, _1se38.fdt, _1se38.fdx, _1t4x8.fnm, _1qhbu_d7.del, _1l6fk_Lucene41_0.pos, _1t53o_nrm.cfe, _13gc1_Lucene40_0.frq, _1qhbu_Lucene41_0.tip, _1su8w.si, _13gc1.fdx, _1t2z8.fnm, _1t18k.fdx, _1l6fk_nrm.cfe, _1t18k.fdt, _1t53o_nrm.cfs, _1t4mw.fnm, _1t4xc_nrm.cfs, _1t4mw_Lucene41_0.tip, _1su8w_1x.del, _1t4mw_Lucene41_0.tim, _1qxic_nrm.cfe, _1l6fk_nrm.cfs, _1px5p_Lucene41_0.tim, _1se38.fnm, _1px5p_Lucene41_0.tip, _1rgxm_Lucene41_0.doc, _1t53q_Lucene41_0.tip, _1qxic_nrm.cfs, _1t4ms.si, _1t53q_Lucene41_0.tim, _1qhbu_Lucene41_0.tim, _1t18k_Lucene41_0.doc, _1l6fk.si, _1px5p.fnm, _1o97o_Lucene41_0.doc, _1l6fk.fdt, _1sxkv_Lucene41_0.doc, _1l6fk.fdx, _1t50g.fdx, _1svzb.fdx, _1t50g.fdt, _1se38_nrm.cfs, _1se38_Lucene41_0.doc, _1o97o.fdx, _1svzb.fdt, _1se38_nrm.cfe, _1st2b_Lucene41_0.doc, _1t4ms.fnm, _1qhbu.fdx, _1t4mw_Lucene41_0.pos, _1su8w.fnm, _1st2b.fdt, _1t53q.fnm, _1qhbu.fdt, _1px5p_Lucene41_0.pos, _1st2b.fdx, _1t4xc_nrm.cfe, _1t53p_Lucene41_0.pos, _1se38_3l.del, _1t3it.fnm, _1px5p_nrm.cfe, _1t4mw_nrm.cfe, _1t520_Lucene41_0.doc, _1t3it.si]



So, das musste einfach mal gesagt werden :D

Statistik: Verfasst von LA_FORGE — So Jul 12, 2015 10:09 am


Hilfe für Einsteiger und Anwender • Re: \“Spezial\” Crawler

Date: 2015-07-13 16:00:26

Also... nachdem ich das ganze jetzt merhfach erstmal nur mit einem Teildatenbestand probiert habe... kann ich folgendes zusammenfassen.
Der Parser finded scheinbar in den MSG Dateien Links (HTTP/MAILTO) und Nimmt diese als Eintrag in den Index auf. Die sind allerdings in den Suchergebnissen recht sinnlos, da sie (ich glaube immer) fehlerhaft sind.

Er benennt den Eintrag dann nach einem Teil (nach vorn bis zum ersten Slash) der URL die er in der MSG gefunden hatte und setzt auch den Link ungefaehr: \“originalquelle/gefundenerlink\“. Der natuerlich auch nicht funktionieren kann.

Muss man (du) da jetzt am Parser basteln, oder kann ich irgendwie einfach das Linkfinden deaktivieren?
Ich habe auch eine MSG prepariert um dir mal eine Beispieldatei zeigen zu koennen.
Wenn ich dir da dann etwas zu arbeiten kann/soll gib mir einfach kurz bescheid.

Hast du den Edit Teil meines letzten Posts gelesen?

Danke dir/euch fuer eure Arbeit! ;)

Statistik: Verfasst von csuno — Mo Jul 13, 2015 3:00 pm


Hilfe für Einsteiger und Anwender • Re: \“Spezial\” Crawler

Date: 2015-07-13 16:09:45

der msg Parser ist natürlich kein \‘echter\’ msg parser der die speziellen Eigenschaften des Dateityps berücksichtig. Ich weiss aber dass dieses psg-Format einfach ein ASCII-Dump des SMTP streams ist, und da ist einfach halt nach dem email-Header (der einem http header recht ähnlich ist) der Textteil in dem auch html sein kann, aber nicht muss. Deswegen sollte der html-Parser, den ich dafür deklariert habe auch ganz gut funktionieren.

Statistik: Verfasst von Orbiter — Mo Jul 13, 2015 3:09 pm


Hilfe für Einsteiger und Anwender • Re: Ein paar kleine Fragen zu pdf und Lesezeichen

Date: 2015-07-13 16:27:51

Hallo,
Ich hatte jetzt dein deb Datei auf ein Linux Mint installiert und das pdf-parsen funktioniert. Leider geht diese Funktion nicht mit mit dem geladenen Archiv. Falls noch jemand andere Lösungen per Rat hat wäre ich sehr dankbar.

Statistik: Verfasst von vertigo — Mo Jul 13, 2015 3:27 pm


Off-Topic • Linux: Brauche Hilfe beim bauen!

Date: 2015-07-13 18:51:40

Hi,

Code:
configure: error: Package requirements (libnetfilter_queue) were not met:No package 'libnetfilter_queue' foundConsider adjusting the PKG_CONFIG_PATH environment variable if youinstalled software in a non-standard prefix.Alternatively, you may set the environment variables libnetfilterqueue_CFLAGSand libnetfilterqueue_LIBS to avoid the need to call pkg-config.See the pkg-config man page for more details.



Die erforderliche Lib ist aber vorhanden:

Code:
stefan@nautilus:/> ls /usr/lib64/libnetfilter*/usr/lib64/libnetfilter_conntrack.so.3/usr/lib64/libnetfilter_conntrack.so.3.5.0/usr/lib64/libnetfilter_queue.so.1/usr/lib64/libnetfilter_queue.so.1.3.0



Wie teile ich dem Configure-Script mit, dass es dort nach der Lib suchen soll?

Statistik: Verfasst von LA_FORGE — Mo Jul 13, 2015 5:51 pm


Off-Topic • Re: Linux: Brauche Hilfe beim bauen!

Date: 2015-07-13 18:58:48

Hi.

Hast Du schon mal versucht die Variable zu setzen?
http://stackoverflow.com/questions/4959 ... lter-queue{.postlink}

Gruß
AkDk7

Statistik: Verfasst von AkDk7 — Mo Jul 13, 2015 5:58 pm


Off-Topic • Re: Linux: Brauche Hilfe beim bauen!

Date: 2015-07-13 19:44:18

Das hab ich gerade versucht, geht auch nicht :-( hab auch schon einen Symlink zu der Lib in /lib und /lib64 und /usr/lib erstellt aber das bringt auch nichts :-( Kann mir bitte jemand den Check nach der libnetfilter_queue aus dem Configure-Script rausnehmen?

http://www73.zippyshare.com/v/lBKmlhvD/file.html

Statistik: Verfasst von LA_FORGE — Mo Jul 13, 2015 6:44 pm


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-07-13 20:17:47

Hallo zusammen.

Nach einigen Stunden der intensiven Tastaturakrobatik kann ich die erste Version von yacy-stats.de veröffentlichen.
Aktuell findet ihr eine Übersicht der aktivien Peers, wie Sie auch auf yacystats.de zu sehen war.
Weitere Statistiken folgen natürlich. :-)

Die Daten bauen sich aktuell auf, alles älter als 17h existiert noch nicht.
Über Kritiken und Ideen freue ich mich jederzeit.

Grüße
AkDk7

Statistik: Verfasst von AkDk7 — Mo Jul 13, 2015 7:17 pm


Off-Topic • Re: Linux: Brauche Hilfe beim bauen!

Date: 2015-07-13 20:54:57

Habs hinbekommen aber jetzt kommt dafür

Code:
checking for QT4DBUS... noconfigure: error: Package requirements (QtDBus) were not met:No package 'QtDBus' foundConsider adjusting the PKG_CONFIG_PATH environment variable if youinstalled software in a non-standard prefix.Alternatively, you may set the environment variables QT4DBUS_CFLAGSand QT4DBUS_LIBS to avoid the need to call pkg-config.See the pkg-config man page for more details.



Diese Meldung :-( QtDBus ist aber installiert! Hilfe!

Statistik: Verfasst von LA_FORGE — Mo Jul 13, 2015 7:54 pm


Fragen und Antworten • DHT Verständnisfrage

Date: 2015-07-14 15:25:27

Hi,

ich habe eine Verständnisfrage zum DHT-Algorithmus beim Suchen in \‘freeworld\‘. Situation: 2 Peers auf der gleichen Maschine, beide im \‘freeworld\’ erreichbar, einer mit sehr großem Index, der andere mit einem sehr kleinen Index. Wenn ich nun auf dem Peer mit dem sehr kleinen Index eine Suche starte, wird dann erst mein Peer mit dem großen Index abgefragt weil er ja sich ja im gleichen Subnetz befindet und demnach von der Entfernung am \“nähesten\” ist, oder lässt sich das so nicht pauschalisieren?

VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Jul 14, 2015 2:25 pm


Fragen und Antworten • Re: DHT Verständnisfrage

Date: 2015-07-14 17:53:35

Nein so kann man das nicht pauschalisieren ich habe es gerade getestet. So wie ich nach 20 Suchanfragen sagen kann, wird der Peer mit dem großen Index gar nicht abgefragt :-( Ich kann ihn in der Liste auf der Seite Network.html?page=1&maxCount=1000 auch nicht finden :-( Rufe ich die gleiche Liste von einem anderen Rechner auf (ebenfalls im gleichen Subnetz) wird der Peer in dieser Liste aufgeführt.

Statistik: Verfasst von LA_FORGE — Di Jul 14, 2015 4:53 pm


Fragen und Antworten • Re: DHT Verständnisfrage

Date: 2015-07-15 07:38:47

Hallo LA_FORGE,

mir wurde es so erklärt: Jeder Peer hat in \‘freeworld\’ einen Hashwert, durch den er eindeutig identifizierbar ist. Die 16 Peers, deren Hashwerte den kleinsten Abstand voneinander haben, tauschen ihre Tabellen untereinander aus. Korrigiert mich bitte, wenn ich das falsch verstanden habe.

Gruß lux

Statistik: Verfasst von lux — Mi Jul 15, 2015 6:38 am


Fragen und Antworten • Re: DHT Verständnisfrage

Date: 2015-07-15 10:17:34

Vielen Dank, du hast es so erklärt, dass sogar ich es verstanden habe. Ich habe herausgefunden, dass 2 Peers auf dem gleichen Rechner (beide im freeworld erreichbar, offene Ports) sich nicht \“sehen\” können.

Läuft aber ein zweiter Peer auf einem anderen Rechner im gleichen Netz (z. B. 192.168..) können sie sich beide untereinander \“sehen\“, auch wenn beide im freeworld erreichbar sind. Und auf dem Peer mit dem kleinen Index habe ich es jetzt mal so eingestellt:

Bild

In der Hoffnung, dass mein Hauptpeer Endeavour auch abgefragt wird.

Statistik: Verfasst von LA_FORGE — Mi Jul 15, 2015 9:17 am


Fragen und Antworten • Re: DHT Verständnisfrage

Date: 2015-07-15 12:29:57

Code:
I 2015/07/15 12:16:49 YACY remote search: peer endeavour sent 0/0 referencesI 2015/07/15 12:16:49 YACY remote search: peer endeavour sent 1 topicsI 2015/07/15 12:14:17 YACY remote search: peer endeavour sent 10/5433 referencesI 2015/07/15 12:14:17 YACY remote search: peer endeavour sent 5 topics



Es geht :-) YEAH

Statistik: Verfasst von LA_FORGE — Mi Jul 15, 2015 11:29 am


Fragen und Antworten • Re: DHT Verständnisfrage

Date: 2015-07-15 15:40:27

Code:
I 2015/07/15 15:23:18 DHT selectPeers/extra: zrAqRMHKdgPs:endeavour, 77786140 URLs LARGE-SIZE NODE



Large-Size Node? Weil der Index so groß ist? :-)

Statistik: Verfasst von LA_FORGE — Mi Jul 15, 2015 2:40 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-16 12:45:58

\@freak Sehr gut. Vielen Dank! Gerade die Peers mit statischen IPs/DNS-Namen sind besonders gefährdet. Wir dürfen das nicht auf die leichte Schulter nehmen weil hier jemand im ganz großen Stil Data Mining betreibt und automatisiert die Daten des Index Browsers abgreift. DOS-Filter ist ein guter Lösungsansatz aber das Problem bei dem von mir entdeckten Botnet ist, dass die \“Mutationsrate\” sehr hoch ist und ständig neue Netze hinzukommen wenn man anfängt welche zu sperren :-( Was ich bisher herausfinden konnte ist, dass die Bots kein JavaScript & Java verstehen, ich fände es genial, wenn der IndexBrowser dahin umgebaut würde, dass es ein (rich) JavaApplet eingebettet in die HTML-Seite des IndexBrowsers ist. Nichts desto trotz brauchen wir auch einen Schutz auf Schicht 4 des OSI-Modells, da es schon des Öfteren vorgekommen ist, dass mein YaCy nicht mehr reagiert hat, weil hier zigtausende Verbindungen in der Minute gleichzeitig{.postlink} angekommen sind.

Statistik: Verfasst von LA_FORGE — Do Jul 16, 2015 11:45 am


Hilfe für Einsteiger und Anwender • Reason: scraper cannot load URL: java.io.IOException: REJECT

Date: 2015-07-17 17:04:16

Hi Guys

When I try to index a site I get this error:

Crawling of \“http://www.somesite.com/notice/product/available" failed. Reason: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY \‘HTTP/1.1 403 Forbidden\’ for URL \‘http://www.somesite.com/notice/product/available'$/
can this be fixed or does it mean this particular site cannot be indexed?

Statistik: Verfasst von Zoro — Fr Jul 17, 2015 4:04 pm


Hilfe für Einsteiger und Anwender • Re: Reason: scraper cannot load URL: java.io.IOException: RE

Date: 2015-07-18 00:34:41

I guess the host server reacts to your user agent string serving you an empty response page. YaCy UA string cannot be changed by user interface or config files :roll:
The other possibility is that the target resource doesn\’t exist for real.

By the way, I\’m also crawling a few e-commerce websites with a custom UA string; which one are you after?

Statistik: Verfasst von davide — Fr Jul 17, 2015 11:34 pm


Hilfe für Einsteiger und Anwender • Yacy neu starten

Date: 2015-07-18 10:20:45

Hallo

Mein Yacy-peer ist abgeschmiert. Der Yacy-Prozess läuft zwar noch aber der Webserver tut nicht mehr: \“HTTP error 500 ... (too many open files)\” oder so ähnlich.

Also habe ich den Yacy-Prozess gekillt (\’<YACY-HOME>/stopYACY.sh\’ ging nicht):
\$ kill <PID>

Danach habe ich Yacy neu gestartet, aber:
\$ \’<YACY-HOME>/startYACY.sh -d\’
...
W <DATUM> 09:57:42 org.eclipse.jetty.util.component.AbstractLifeCycle FAILED ssld:8093\@6c45d2{SSL-HTTP/1.1}{0.0.0.0:8093}: java.net.BindException: Address already in use
java.net.BindException: Address already in use
at sun.nio.ch.Net.bind0(Native Method)
at sun.nio.ch.Net.bind(Net.java:444)
at sun.nio.ch.Net.bind(Net.java:436)
at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:214)
at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
at org.eclipse.jetty.server.ServerConnector.open(ServerConnector.java:321)
at org.eclipse.jetty.server.AbstractNetworkConnector.doStart(AbstractNetworkConnector.java:80)
at org.eclipse.jetty.server.ServerConnector.doStart(ServerConnector.java:236)
at org.eclipse.jetty.util.component.AbstractLifeCycle.start(AbstractLifeCycle.java:68)
at org.eclipse.jetty.server.Server.doStart(Server.java:366)
at org.eclipse.jetty.util.component.AbstractLifeCycle.start(AbstractLifeCycle.java:68)
at net.yacy.http.Jetty9HttpServerImpl.startupServer(Jetty9HttpServerImpl.java:228)
at net.yacy.yacy.startup(yacy.java:301)
at net.yacy.yacy.main(yacy.java:701)
...
E <DATUM> 09:57:43 STARTUP Unexpected Error: java.net.BindException
java.net.BindException: Address already in use
at sun.nio.ch.Net.bind0(Native Method)
at sun.nio.ch.Net.bind(Net.java:444)
at sun.nio.ch.Net.bind(Net.java:436)
at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:214)
at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
at org.eclipse.jetty.server.ServerConnector.open(ServerConnector.java:321)
at org.eclipse.jetty.server.AbstractNetworkConnector.doStart(AbstractNetworkConnector.java:80)
at org.eclipse.jetty.server.ServerConnector.doStart(ServerConnector.java:236)
at org.eclipse.jetty.util.component.AbstractLifeCycle.start(AbstractLifeCycle.java:68)
at org.eclipse.jetty.server.Server.doStart(Server.java:366)
at org.eclipse.jetty.util.component.AbstractLifeCycle.start(AbstractLifeCycle.java:68)
at net.yacy.http.Jetty9HttpServerImpl.startupServer(Jetty9HttpServerImpl.java:228)
at net.yacy.yacy.startup(yacy.java:301)
at net.yacy.yacy.main(yacy.java:701)
I <DATUM> 09:57:43 ConcurrentLog terminating ConcurrentLog.Worker with 0 cached loglines.
I <DATUM> 09:57:43 ConcurrentLog shutdown of ConcurrentLog.Worker: terminated

Gibt es eine Möglichkeit - Yacy ohne es neu zu konfigurieren - wieder an den Start zu bringen?

Gruss lux

Statistik: Verfasst von lux — Sa Jul 18, 2015 9:20 am


Hilfe für Einsteiger und Anwender • Re: Yacy neu starten

Date: 2015-07-18 13:17:19

Hallo,

das sieht nicht so aus als hättets Du tatsächlich erfolgreich den Java-Prozess getötet.
Guck noch mal nach das der Prozess auch wirklich weg ist und kein Prozess den Port deines YaCy offen hat.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Jul 18, 2015 12:17 pm


Hilfe für Einsteiger und Anwender • Re: Yacy neu starten

Date: 2015-07-18 18:30:38

danke für die rasche Antwort.

Nein, an einem übriggebliebenen Java-Prozess scheint\’s nicht zu liegen. Ein
\$ ps -ef | grep java
zeigt an, dass kein Java mehr läuft

und

\$ sudo netstat -taupen |grep 8093 <-- mein SSL-Port
\$ sudo netstat -taupen |grep 8090
liefern keine Einträge.

Mit
\$ \’<YACY-HOME>/startYACY.sh -d\’
wird Yacy zwar gestartet, aber sobald jetty anläuft kommt die Fehlermeldung und Yacy bricht ab.

Selbst nach einem \‘reboot\’ und erneutem
\$ \’<YACY-HOME>/startYACY.sh -d\’
zeigt Yacy die gleiche Fehlermeldung und kommt nicht wieder auf die Beine.

Meine Version:
[snip]
>> YaCy started as daemon process. Administration at http://localhost:8093 <<
Asserts are enabled
[ YaCy v1.83, build 20150412 by Michael Christen / http://www.yacy.net ]
-------------------------------------------------------------------------------
STARTUP: Trying to load logging configuration from file <YACY-HOME>/DATA/LOG/yacy.logging
I <DATUM> 17:46:54 Domain Init local host address: fe80:0:0:0:x:x:x:x (local)
I <DATUM> 17:46:54 Domain Init local host address: fe80::x:x:x:x (local)
I <DATUM> 17:46:54 Domain Init local host address: 0::1 (local)
I <DATUM> 17:46:54 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)
I <DATUM> 17:46:54 Domain Init local host address: 127.0.0.1 (local)
I <DATUM> 17:46:54 Domain Init local host address: 192.168.x.x (local)
[snap]

Vermutlich gibt\’s keine einfache Lösung. Deshalb werde ich Yacy wieder neu konfigurieren und neu starten.
Oder gleich eine neuere Version ausprobieren.

Gruß
lux

Statistik: Verfasst von lux — Sa Jul 18, 2015 5:30 pm


English • Re: Demote CMS template images

Date: 2015-07-18 19:54:23

To keep things linked and ordered,
I also reported the request on Mantis, here: http://mantis.tokeek.de/view.php?id=595

As probably this forum is the most active and visited among the two, I\’ll also drop here a few examples of CMS images which should be demoted from search results for being irrelevant and computably too recurrent.

Statistik: Verfasst von davide — Sa Jul 18, 2015 6:54 pm


English • Index halved, 9M docs lost, 22,000 hours of post-process

Date: 2015-07-21 12:25:06

My index, previously 18M records and counting, dropped to 9M for no known reason.
Along with this, the post-process ETA raised from 0 minutes to 22,000 hours, and this figure has remained constant for days.
Disk activity is maxed out.

This has being going on for 3 days now, since I found my index halved.

The only particular actions I took back that day were:


[Last few logs:]{style=“text-decoration: underline”} (more logs here: https://pastebin.mozilla.org/8840113)

Code:
I 2015/07/21 11:44:29 REJECTED http://www.newegg.com/Product/Product.aspx?Item=9SIA3912D67427&SortField=0&SummaryType=0&PageSize=10&SelectedRating=-1&VideoOnlyMark=False&IsFeedbackTab=true - cannot load: load error - java.io.IOException: CRAWLER Redirect of URL=http://www.newegg.com/Product/ProductReview.aspx?Item=9SIA3912D67427&nm_mc=OTC-RSS to http://www.newegg.com/Product/Product.aspx?Item=9SIA3912D67427&SortField=0&SummaryType=0&PageSize=10&SelectedRating=-1&VideoOnlyMark=False&IsFeedbackTab=true#scrollFullInfo placed on crawler queue for double-checkI 2015/07/21 11:44:29 LOADER CRAWLER ..Redirecting request to: http://www.newegg.com/Product/Product.aspx?Item=9SIA3912D67427&SortField=0&SummaryType=0&PageSize=10&SelectedRating=-1&VideoOnlyMark=False&IsFeedbackTab=true#scrollFullInfoI 2015/07/21 11:44:29 LOADER CRAWLER Redirection detected ('HTTP/1.1 301 Moved Permanently') for URL http://www.newegg.com/Product/ProductReview.aspx?Item=9SIA3912D67427&nm_mc=OTC-RSSI 2015/07/21 11:44:28 HostQueue forcing crawl-delay of 245 milliseconds for www.amazon.com: minimumDelta = 500, flux = 0, host.average = 2171, robots.delay = 0, ((waitig = 1085) - (timeSinceLastAccess = 840)) = 245I 2015/07/21 11:44:28 REJECTED http://www.amazon.ca/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:28 REJECTED http://ad.doubleclick.net/jump/tigerdirect.com/ROS_160x600;sz=160x600;page=powerprotectionabr=!ie4;abr=!ie5;abr=!ie6;ord=273030400276? - denied by robots.txtI 2015/07/21 11:44:28 HostBalancer (re-)initialized the round-robin queue; 4 hosts.I 2015/07/21 11:44:28 REJECTED http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1816_88166_88166 - denied by document-attached noindexing ruleI 2015/07/21 11:44:28 SWITCHBOARD Not Condensed Resource 'http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1816_88166_88166': denied by document-attached noindexing ruleI 2015/07/21 11:44:28 SWITCHBOARD CRAWL: ADDED 725 LINKS FROM http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1816_88166_88166, STACKING TIME = 33, PARSING TIME = 58I 2015/07/21 11:44:28 REJECTED https://get.adobe.com/flashplayer - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:28 REJECTED http://www.amazon.com.br/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:28 REJECTED http://www.amazon.co.uk/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:28 HostQueue forcing crawl-delay of 357 milliseconds for www.tigerdirect.com: minimumDelta = 500, flux = 0, host.average = 2756, robots.delay = 0, ((waitig = 1378) - (timeSinceLastAccess = 1021)) = 357I 2015/07/21 11:44:28 REJECTED http://ad.doubleclick.net/adi/tigerdirect.com/ROS_160x600;sz=160x600;page=powerprotectionord=273030400276? - denied by robots.txtI 2015/07/21 11:44:28 HostBalancer (re-)initialized the round-robin queue; 4 hosts.I 2015/07/21 11:44:28 SWITCHBOARD Excluded 32 words in URL http://www.amazon.com/Pivotal-Living-Tracker-Generation-Black/dp/B00VMPVQDCI 2015/07/21 11:44:28 SWITCHBOARD CRAWL: ADDED 263 LINKS FROM http://www.amazon.com/Pivotal-Living-Tracker-Generation-Black/dp/B00VMPVQDC, STACKING TIME = 289, PARSING TIME = 59I 2015/07/21 11:44:28 REJECTED http://www.amazon.es/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:28 REJECTED http://www.amazon.com/s?ie=UTF8&bbn=6358552011&page=1&rh=n:6358551011,n:7141123011,n:7147443011,n:6358552011,p_n_size_three_browse-vebin:2205707011 - cannot load: load error - java.io.IOException: CRAWLER Redirect of URL=http://www.amazon.com/s?ie=UTF8&bbn=6358552011&page=1&rh=n:7141123011,n:7147443011,n:6358551011,n:6358552011,p_n_size_three_browse-vebin:2205707011 to http://www.amazon.com/s?ie=UTF8&bbn=6358552011&page=1&rh=n:6358551011,n:7141123011,n:7147443011,n:6358552011,p_n_size_three_browse-vebin:2205707011 placed on crawler queue for double-checkI 2015/07/21 11:44:28 LOADER CRAWLER ..Redirecting request to: http://www.amazon.com/s?ie=UTF8&bbn=6358552011&page=1&rh=n:6358551011,n:7141123011,n:7147443011,n:6358552011,p_n_size_three_browse-vebin:2205707011I 2015/07/21 11:44:28 LOADER CRAWLER Redirection detected ('HTTP/1.1 301 Moved Permanently') for URL http://www.amazon.com/s?ie=UTF8&bbn=6358552011&page=1&rh=n:7141123011,n:7147443011,n:6358551011,n:6358552011,p_n_size_three_browse-vebin:2205707011I 2015/07/21 11:44:27 HostQueue forcing crawl-delay of 943 milliseconds for www.newegg.com: minimumDelta = 500, flux = 0, host.average = 5728, robots.delay = 0, ((waitig = 2864) - (timeSinceLastAccess = 1921)) = 943I 2015/07/21 11:44:27 REJECTED http://ad.doubleclick.net/jump/tigerdirect.com/CAT_300x250;sz=300x250;page=powerprotection;ord=273030400276? - denied by robots.txtI 2015/07/21 11:44:27 HostBalancer (re-)initialized the round-robin queue; 4 hosts.I 2015/07/21 11:44:27 REJECTED http://ad.doubleclick.net/ad/tigerdirect.com/CAT_300x250;sz=300x250;abr=!ie4;abr=!ie5;abr=!ie6;page=powerprotection;ord=273030400276? - denied by robots.txtI 2015/07/21 11:44:27 HostBalancer (re-)initialized the round-robin queue; 4 hosts.I 2015/07/21 11:44:27 REJECTED http://www.amazon.com/gp/offer-listing/B00GXXJTAK - denied by robots.txtI 2015/07/21 11:44:27 HostQueue forcing crawl-delay of 5 milliseconds for www.amazon.com: minimumDelta = 500, flux = 0, host.average = 2183, robots.delay = 0, ((waitig = 1091) - (timeSinceLastAccess = 1086)) = 5I 2015/07/21 11:44:26 SWITCHBOARD *Indexed 39 words in URL http://ecx.images-amazon.com/images/I/41xh7RDhfQL._AA160_.jpg [2WNqyq0ARL5a] Description: 41xh7RDhfQL._AA160_.jpg MimeType: image/jpeg | Charset: UTF-8 | Size: 493 bytes | LinkStorageTime: 0 ms | indexStorageTime: 0 msI 2015/07/21 11:44:26 Fulltext indexing: 2WNqyq0ARL5a http://ecx.images-amazon.com/images/I/41xh7RDhfQL._AA160_.jpgI 2015/07/21 11:44:26 SWITCHBOARD Excluded 1 words in URL http://ecx.images-amazon.com/images/I/41xh7RDhfQL._AA160_.jpgI 2015/07/21 11:44:26 SWITCHBOARD CRAWL: ADDED 1 LINKS FROM http://ecx.images-amazon.com/images/I/41xh7RDhfQL._AA160_.jpg, STACKING TIME = 0, PARSING TIME = 2I 2015/07/21 11:44:26 HostQueue forcing crawl-delay of 1054 milliseconds for www.tigerdirect.com: minimumDelta = 500, flux = 0, host.average = 2756, robots.delay = 0, ((waitig = 1378) - (timeSinceLastAccess = 324)) = 1054I 2015/07/21 11:44:26 HostBalancer (re-)initialized the round-robin queue; 4 hosts.I 2015/07/21 11:44:26 REJECTED http://www.tigerdirect.com/cgi-bin/order.asp?EdpNo=8565377&QTY=1&ClickSource=SLC - denied by robots.txtI 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/masthead-nav-vert_v3a.png);height: - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/rightnav/liveHelpIcon160_off_v2.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.se/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/campaigns/homeautomation/HomeNav_ad3.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.be/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.twitter.com/tigerdirect - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.youtube.com/tigerdirectblog - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/Luggage.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/logos-mc.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/logos-visa.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.pt/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1354_88332_88332 - denied by document-attached noindexing ruleI 2015/07/21 11:44:26 REJECTED http://www.misco.co.uk/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 SWITCHBOARD Not Condensed Resource 'http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1354_88332_88332': denied by document-attached noindexing ruleI 2015/07/21 11:44:26 SWITCHBOARD CRAWL: ADDED 533 LINKS FROM http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1354_88332_88332, STACKING TIME = 19, PARSING TIME = 37I 2015/07/21 11:44:26 REJECTED http://www.misco.ie/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/button-slc-addtocart.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/trustwave_logo.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/favicon.ico - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-icon-new.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/deals-gifts-dealslasher.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED https://sealserver.trustkeeper.net/compliance/cert.php?code=ea97a8b6d8d755f41b78d04aa242d7f1&style=normal&size=105x54&language=en - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/tlc/BLUnavBanner.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.it/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.nl/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/gamingReloadedAccessories.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/gamingReloaded.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/Jewelry.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/systemax.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-link-arrow.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/shopGPS_nav.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED https://plus.google.com/114822625291786269495 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/campaigns/misc/pcComponentBundles.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.es/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.systemax.com/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://tigerdirect.applicantpro.com/pages/careershome/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://direct.digitallanding.com/?PromoID=5009008 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/skuimages/medium/CNET-H24-A393129.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/masthead-innercircle.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/footer/hp-supplies-medallion.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/logos-bbb-new.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/masthead/txtMobile.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/efitness.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED https://trustsealinfo.websecurity.norton.com/splash?form_file=fdf/splash.fdf&dn=www.tigerdirect.com&lang=en - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.bbb.org/south-east-florida/business-reviews/general-merchandise-retail-by-internet/tigerdirect-in-miami-fl-27000500 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.at/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead/masthead-bg_HPElite.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.de/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.facebook.com/TigerDirect - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://syx.client.shareholder.com/releases.cfm - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.fr/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/footer/seal.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/nav-email-group.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/shopToys2_nav.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.misco.ch/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/office-supplies.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/pixel-clear.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/shoplinks_v3.png);} - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/loading.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-sub-bg-left.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.tigerdirect.ca/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/wholesale_products.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:26 REJECTED http://www.newegg.com/Common/CommonReCaptchaValidate.aspx?referer=http://www.newegg.com/Product/Product.aspx?Item=15-124-116&nm_mc=OTC-RSS&cm_sp=OTC-RSS-_-Add-On%20Cards-_-Syba-_-15-124-116 - cannot load: load error - java.io.IOException: CRAWLER Redirect of URL=http://www.newegg.com/Product/Product.aspx?Item=15-124-116&nm_mc=OTC-RSS&cm_sp=OTC-RSS-_-Add-On Cards-_-Syba-_-15-124-116 to http://www.newegg.com/Common/CommonReCaptchaValidate.aspx?referer=http://www.newegg.com/Product/Product.aspx?Item=15-124-116&nm_mc=OTC-RSS&cm_sp=OTC-RSS-_-Add-On%20Cards-_-Syba-_-15-124-116 placed on crawler queue for double-checkI 2015/07/21 11:44:26 LOADER CRAWLER ..Redirecting request to: http://www.newegg.com/Common/CommonReCaptchaValidate.aspx?referer=http://www.newegg.com/Product/Product.aspx?Item=15-124-116&nm_mc=OTC-RSS&cm_sp=OTC-RSS-_-Add-On%20Cards-_-Syba-_-15-124-116I 2015/07/21 11:44:26 LOADER CRAWLER Redirection detected ('HTTP/1.1 302 Found') for URL http://www.newegg.com/Product/Product.aspx?Item=15-124-116&nm_mc=OTC-RSS&cm_sp=OTC-RSS-_-Add-On Cards-_-Syba-_-15-124-116I 2015/07/21 11:44:26 REJECTED http://www.amazon.com/gp/pdp/profile/A38NEDIGZZ2ZFT - no response body (http return code = 403)I 2015/07/21 11:44:25 HostQueue forcing crawl-delay of 752 milliseconds for www.tigerdirect.com: minimumDelta = 500, flux = 0, host.average = 2791, robots.delay = 0, ((waitig = 1395) - (timeSinceLastAccess = 643)) = 752I 2015/07/21 11:44:25 HostBalancer (re-)initialized the round-robin queue; 5 hosts.I 2015/07/21 11:44:25 SWITCHBOARD *Indexed 40 words in URL http://ecx.images-amazon.com/images/I/41TaBjzH0lL._AA160_.jpg [eFp32q0ARL5a] Description: 41TaBjzH0lL._AA160_.jpg MimeType: image/jpeg | Charset: UTF-8 | Size: 493 bytes | LinkStorageTime: 0 ms | indexStorageTime: 0 msI 2015/07/21 11:44:25 Fulltext indexing: eFp32q0ARL5a http://ecx.images-amazon.com/images/I/41TaBjzH0lL._AA160_.jpgI 2015/07/21 11:44:25 SWITCHBOARD Excluded 1 words in URL http://ecx.images-amazon.com/images/I/41TaBjzH0lL._AA160_.jpgI 2015/07/21 11:44:25 SWITCHBOARD CRAWL: ADDED 1 LINKS FROM http://ecx.images-amazon.com/images/I/41TaBjzH0lL._AA160_.jpg, STACKING TIME = 0, PARSING TIME = 2I 2015/07/21 11:44:25 HostQueue forcing crawl-delay of 286 milliseconds for www.newegg.com: minimumDelta = 500, flux = 0, host.average = 5728, robots.delay = 0, ((waitig = 2864) - (timeSinceLastAccess = 2578)) = 286I 2015/07/21 11:44:25 REJECTED http://ad.doubleclick.net/ad/tigerdirect.com/CAT_300x250;sz=300x250;page=powerprotection;ord=5337880253791? - denied by robots.txtI 2015/07/21 11:44:25 HostBalancer (re-)initialized the round-robin queue; 5 hosts.I 2015/07/21 11:44:25 HostQueue forcing crawl-delay of 278 milliseconds for ecx.images-amazon.com: minimumDelta = 500, flux = 0, host.average = 1259, robots.delay = 0, ((waitig = 629) - (timeSinceLastAccess = 351)) = 278I 2015/07/21 11:44:25 REJECTED http://www.amazon.com/gp/voting/cast/Reviews/2115/R29SZMPGJI5S48/Helpful/1?ie=UTF8&target=aHR0cDovL3d3dy5hbWF6b24uY29tL2dwL3Byb2R1Y3QvQjAwTTU1QzBOUw&token=3F8618568B7E7E8870C435B0E16257BD90C0B89A&voteAnchorName=R29SZMPGJI5S48.2115.Helpful.Reviews&voteSessi= - denied by robots.txtI 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/masthead-nav-vert_v3a.png);height: - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/rightnav/liveHelpIcon160_off_v2.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.se/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/campaigns/homeautomation/HomeNav_ad3.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.be/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.twitter.com/tigerdirect - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/skuimages/medium/Etilize-H24-A893447.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.youtube.com/tigerdirectblog - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/Luggage.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/logos-mc.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/logos-visa.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.pt/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.co.uk/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.ie/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/button-slc-addtocart.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/trustwave_logo.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/favicon.ico - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-icon-new.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/skuimages/medium/CNET-LBQ-103006876.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/deals-gifts-dealslasher.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/skuimages/medium/CNET-LBQ-103002576.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED https://sealserver.trustkeeper.net/compliance/cert.php?code=ea97a8b6d8d755f41b78d04aa242d7f1&style=normal&size=105x54&language=en - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/tlc/BLUnavBanner.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.it/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.nl/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/gamingReloadedAccessories.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/gamingReloaded.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/Jewelry.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/systemax.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-link-arrow.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/shopGPS_nav.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED https://plus.google.com/114822625291786269495 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/skuimages/medium/CNET-YYI1-BU3743.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/campaigns/misc/pcComponentBundles.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.es/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.systemax.com/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://tigerdirect.applicantpro.com/pages/careershome/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://direct.digitallanding.com/?PromoID=5009008 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/masthead-innercircle.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/footer/hp-supplies-medallion.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/logos-bbb-new.png - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1812_88548_88548 - denied by document-attached noindexing ruleI 2015/07/21 11:44:24 SWITCHBOARD Not Condensed Resource 'http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1812_88548_88548': denied by document-attached noindexing ruleI 2015/07/21 11:44:24 SWITCHBOARD CRAWL: ADDED 562 LINKS FROM http://www.tigerdirect.com/applications/category/guidedSearch.asp?CatId=20&sel=Detail;364_1812_88548_88548, STACKING TIME = 20, PARSING TIME = 44I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/masthead/txtMobile.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/efitness.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED https://trustsealinfo.websecurity.norton.com/splash?form_file=fdf/splash.fdf&dn=www.tigerdirect.com&lang=en - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.bbb.org/south-east-florida/business-reviews/general-merchandise-retail-by-internet/tigerdirect-in-miami-fl-27000500 - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.at/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.de/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.facebook.com/TigerDirect - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/skuimages/medium/CNET-LBQ-102972503.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://syx.client.shareholder.com/releases.cfm - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.fr/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/nav-email-group.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/footer/seal.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/shopToys2_nav.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead/masthead-bg_HPElite.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.misco.ch/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/office-supplies.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/pixel-clear.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/shoplinks_v3.png);} - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/loading.gif - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/mastNav-sub-bg-left.png) - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://www.tigerdirect.ca/ - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)I 2015/07/21 11:44:24 REJECTED http://images.highspeedbackbone.net/td/masthead_v2/promo/wholesale_products.jpg - url does not match must-match filter (\.(jpg|jpeg|gif|giff|png|tif|tiff)$)|(.*\bamazon.com(/.*)?)|(.*\bbestbuy.com(/.*)?)|(.*\bfutureshop.ca(/.*)?)|(.*\bnewegg.com(/.*)?)|(.*\btigerdirect.com(/.*)?)




overview.jpg

graph.jpg

atop.gif

Can you explain what I am facing? Reading on the forum, other members have experienced some kind index corruptions in the past. Is YaCy itself responsible for these data loss?
I can safely exclude hardware corruption: ECC ram, no UDMA CRC errors on disks nor other SMART errors, and overall proved HW stability.

Statistik: Verfasst von davide — Di Jul 21, 2015 11:25 am


Hilfe für Einsteiger und Anwender • Yacy 1.839276 - How to reindex?

Date: 2015-07-21 14:32:05

Hi,

I\’m currently running dev version 1.839276 and the release notes ask us to reindex everything:

\ Older indexes are migrated from 4\_10 to 5\_2. However, the new index\ structure is more efficient and we recommend to re-index everything.\ Please use the index export before you do the update to a large\ surrogate xml file. After the update, start with an empty index and then\ initialize this with your dump.\



I\’m not confident to do that.

Can someone be more specific on that procedure?

Thanks

Statistik: Verfasst von oneaty — Di Jul 21, 2015 1:32 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-21 14:37:54

Bild

So jetzt hatte ich die Nase voll und habe Snort mal wieder installiert & konfiguriert (hatte ich damals schon mal laufen). Wirklich neu entdeckt habe ich dieses Botnet also nicht, die IPs sind schon bei Spamhaus als Systeme registriert die Spam versenden. Interessant aber auch, dass sie im ganz großen Stil Datamining betreiben, sicher um EMail-Adressen zu ergattern... aber ich habe eine Vermutung wer dahinter steckt... die nächsten Sn0wd3n-Enthüllungen fördern es bestimmt zutage :D

Statistik: Verfasst von LA_FORGE — Di Jul 21, 2015 1:37 pm


Hilfe für Einsteiger und Anwender • Re: Yacy 1.839276 - How to reindex?

Date: 2015-07-21 17:54:06

Let me be more specific.

1) When you say

\ Please use the index export before you do the update to a large\ surrogate xml file\



which options should I use, Export URLs or Create Dump, in Index Export/Import menu entry? Should I stop Yacy before that?

2) When you say

\ we recommend to re-index everything\



how is the re-indexing done?

3) When you say

\ After the update, start with an empty index and then\ initialize this with your dump\



should I use Restore Dump in Index Export/Import menu entry?

Statistik: Verfasst von oneaty — Di Jul 21, 2015 4:54 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-21 20:15:32

Hast du die IP-Adressen mal mit den Exit Nodes des Tor-Netzwerks abgeglichen? Gibt es als CSV unter https://torstatus.blutmagie.de/ip_list_ ... st_ALL.csv{.postlink} (Achtung, groß!)

Statistik: Verfasst von gTSj — Di Jul 21, 2015 7:15 pm


Mitmachen • Re: SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2015-07-21 20:24:24

Irgendwelche Fortschritte? Kann ich helfen?
Über die Website und deren Konfiguration kann ich leider nichts im Netz finden. Ich hab tote Links gefunden, und hätte noch ein paar Verbesserungsvorschläge für die Website, die ich einbringen würde.

Statistik: Verfasst von gTSj — Di Jul 21, 2015 7:24 pm


English • index a value for image proximity to keywords

Date: 2015-07-22 12:24:57

Does the web indexer record any kind of value for how much an image appears far away from the keywords it get associated to?

The furthest the image from the text on the webpage, the less likely the image is relevant to those words.

Marry Christmas and happy new year.

Statistik: Verfasst von davide — Mi Jul 22, 2015 11:24 am


Off-Topic • Re: New hardware ready to YaCy!

Date: 2015-07-22 18:24:47

Today I stopped using YaCy.

After several unfulfilled bug reports and two data loss which corrupted a 210 GB index, I\’m glad I move away and repurpose my hardware for a custom crawler & indexer.
After all, today YaCy seems to be a glory of the past, mostly unmaintained, with bugs and plain missing features keeping it unsuitable for professional use, and probably it\’s remained nothing more than an exploit to fill up someone\’s resume to inflate wasted years.

For the smart one, wondering why after 11 years of development YaCy is a failure with less than 1000 users, here might lie some clues; maybe the unsuccess of YaCy was not caused by one user walking away, but by thousands of missed users sharing the same point of view as mine. But you demonstrated to not being able to interpret this. So, good luck, if possible at all.

Dependable release cycle{.postlink}
Proxy all crawler traffic{.postlink}
Language filter ineffective{.postlink}
Demote CMS template images{.postlink}
Does Amazon block YaCy?{.postlink}
Aggregate / Clear duplicate results{.postlink}
Index halved, 9M docs lost, 22,000 hours of post-process{.postlink}
Index a value for image proximity to keywords{.postlink}
Adopt English for forum language{.postlink}

Statistik: Verfasst von davide — Mi Jul 22, 2015 5:24 pm


Mitmachen • YaCy\@CCCamp15

Date: 2015-07-28 10:17:28

Fährt hier jemand zum Chaos Communication Camp 2015{.postlink}?
Ich werde da sein und mich wahrscheinlich dem Freifunk-Village anschliessen.
Der CCCamp15 Ticket Shop{.postlink} ist nur noch bis zum 31. offen, falls sich da jemand aus der YaCy Community kurzerhand entschliessen sollte dahin zu fahren würde ich mich freuen!

Natürlich gibts auch wieder eine YaCy Krempel-Suche fürs Camp, der Erzengel vom NOC hält für meinen Server schon ein Plätzchen frei...

Ich werde aber da auch Loklak{.postlink} ein bisschen promoten. Was das ganze mit YaCy zu tun hat schreibe ich noch hier...

Statistik: Verfasst von Orbiter — Di Jul 28, 2015 9:17 am


YaCy Coding & Architektur • Loklak & YaCy & Social Community Integration

Date: 2015-07-28 10:36:06

some months ago I started a new peer-to-peer project called loklak{.postlink} which is about collecting and searching tweets (as a start) from twitter. The architecture is done in such a way that it does not depend on a public API (it simply scrapes websites as all search engines does) and it is not supposed to be based only on twitter. Instead, it shall create a framework to collect status messages from any social media sites.

Several questions may come up why such a project should be done:
(1) what is the purpose of the collection of status messages outside their home platform?
(2) what is the connection to search engines in general and what is the use for YaCy?
(3) what should the free software community do with this?

There are philosophical and practical aspects on these questions. I tried to give the philosophical answer on question (1) at the fossasia conference in Singapure this year:
iframe
In short: we now have monopolies (Google, Twitter, Facebook, Instagram) and they will stay for a long time. A free alternative to these plattforms cannot keep up and get better, because they have too much data to make it possible to be as good as they are. The only way to become as good as they are is, to create a collection mechanism to get their data in a free-software environment. That means, we need a data-bootstrap-harvester and that could be made with loklak.

The answer to (2) is important for the YaCy community: search portals do not any more scrape data from web pages, they also should be able to get information from those large-scale social communities. We don\’t have such a scraping mechanism in YaCy to be able to to this. In this context, loklak can be seen as a \‘scraping-sister-project\’ which may be able to support YaCy to get into the social community data harvesting. I don\’t see that any other free software search engine has this capability. Using loklak as tool for YaCy will keep us up-to-date to the habits of the internet users to send their content not to web pages any more, but mostly to community message services like twitter and facebook.

The answer to (3) is important for all people who are looking for a free alternative to twitter: once there was identica, but this project is almost dead. An alternative to twitter needs a backend-server software which can organize such data, and loklak is such a server. Right now actually we are building a front-end on loklak which can be found currently on http://test.loklak.net which actually still uses twitter as authentication but will be able to work in its own someday.

tl;dr
I made a twitter-like infrastructure named \‘loklak\’ which may support YaCy to search within social community platforms. Facebook, Instagram may be added as well as data source.

Statistik: Verfasst von Orbiter — Di Jul 28, 2015 9:36 am


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-29 13:12:06

Vielen Dank! Ja, es sind auch zahlreiche Tor-Exit-Nodes sowie VPN-Provider mit dabei. Ich habe zusätzlich zum Snort, das leider nicht alle Netze der Schurken kennt (trotz Einbindung der Emerging Threads und anderer zusätzlicher Regelsätze), eine Sperrliste mit Netzen erstellt, die mittlerweile 6000 Netze{.postlink} enthält. Es macht keinen sinn einzelne IPs zu sperren, da in einem Netzbereich meistens mehrere Systeme kompromittiert sind (Die Anzahl dieser Systeme liegt meist im 2-stelligen Bereich) ich sperre dann lieber gleich /24 bzw. wenn das Netz noch größer ist gleich /16.

Statistik: Verfasst von LA_FORGE — Mi Jul 29, 2015 12:12 pm


Mitmachen • Re: SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2015-07-29 13:14:20

Die Idee begrüße ich sehr. Ich fände es gut, wenn wir einen Ansprechpartner im Projekt dafür hätten, der sich mit dieser Thematik & deren Implementierung befasst.

Statistik: Verfasst von LA_FORGE — Mi Jul 29, 2015 12:14 pm


Mitmachen • Re: SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2015-07-29 13:36:41

Ich habe schon des Öfteres Apache mit Zertifikaten gefüttert.
Das ist eine Arbeit von rund 15 Minuten.

Meine Zertifikate sind von Startssl.
Anfangs etwas undurchschaubar, aber wenn man es einmal raus hat, kein Problem.

Das Modul muss dann noch geladen werden.
# a2enmod ssl

Und der Port 443 als Listener neben dem Port 80 eingetragen werden.

Meine Config sieht z. B. so aus:

Code:
<VirtualHost ???IP???:443>...       SSLEngine On       SSLCipherSuite ECDHE-RSA-AES256-GCM-SHA384:HIGH:!RC4:!MD5:!aNULL:!EDH       SSLCertificateFile /path/to/certificate.crt       SSLCertificateKeyFile /path/to/keyfile.key       ProxyHTMLExtended On       ProxyPass / http://localhost:8090/       ProxyHTMLURLMap http://localhost:8090 /       <Location />               ProxyPassReverse /               RequestHeader    unset  Accept-Encoding       </Location>...</VirtualHost>




Ach so, haha... geht natürlich nur, wenn man den Kram zusätzlich noch über https aufrufen möchte.
Bei mir wäre das dann: https://yacy.msging.de

Aber der normale Aufruf, über Port 8090, bleibt unverschlüsselt ;)

Statistik: Verfasst von AkDk7 — Mi Jul 29, 2015 12:36 pm


YaCy Coding & Architektur • Re: Loklak & YaCy & Social Community Integration

Date: 2015-07-29 14:42:28

Wow I will be ready to test any Beta you care to Dream Up.

I have tried scrape Instagram with Yacy but I have too many URL\’s.

FaceBook has a few conditions https://www.facebook.com/apps/site_scraping_tos_terms.php.
There is a lot of Excuses to come up with like adding a random timer to the scraper.

Statistik: Verfasst von smokingwheels — Mi Jul 29, 2015 1:42 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-07-29 18:47:39

Gerade hat mein IDS auf folgendes angeschlagen:

Code:
ET WEB_SERVER DFind w00tw00t GET-Requests



Mir ist schon länger klar, dass die nicht nur über den Port den YaCy verwendet auf mein System zugreifen wollen. Bei der Größenordnung der Zugriffsversuche habe ich auch eine Vermutung wer diese ganzen Netze gekapert haben könnte... nur dass die Legislative die Gesetze macht muss noch lange nicht heissen dass ein Organ der Exekutive sich daran halten muss. Ich denke daran an das Organ, dass neben den Providern selbst direkten Zugriff auf die Internet-Backbones hat... war da nicht was in den News in den letzten Monaten? :P

Statistik: Verfasst von LA_FORGE — Mi Jul 29, 2015 5:47 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-07-31 17:54:49

Hi Biolizard89 and Orbiter,


Very, interesting, indeed. The very critical point in this research from my point of view is, to get the link betwen queries and their actual endpoints in the SERP - hope, you\’ve got the opportunities to go on and accomplish your work!

\@Orbiter - is there a way to get fully anonymized listings of queries accomplished in the yacy-network? And, to get them linked them with results choosen finally? As long as they do not leave the users terminal? What, if the users may deliberately decide to send these key-value pairs, anonymously and anonymized, to a central and open database server - open for researchers around the world?

I think, the idea behind is not only important, but also critical, challenging and a little bit to demanding, not to try to get it accomplished by some \‘crowd-intelliengce\’ approach ... don\’t you think so?


Best

Statistik: Verfasst von Cajun — Fr Jul 31, 2015 4:54 pm


English • Re: Language filter ineffective

Date: 2015-08-01 00:08:51

davide hat geschrieben:\ Any progress?\ \ \ Language detection is a core feature for a search engine and in YacY it barely works. To my understanding, detection is currently based on date format recognition and \ tag. We both already know this is fuzzy at best.\ \ For as much as it\'s simple, the algorithm I implemented in JS for my TTS software works very well for all the six supported languages. I also provided you with a demonstrative package ready to download and run, so to rapidly taste its effectiveness with the bundled demo. I also know you have experience with JS so you can understand the code.\ \ I submitted many patches to other FOSS projects in the past; its unfortunate Java is not in my cultural baggage yet. Can you at least tell me where in the priority list is a reimplementation of the language detector?\



I\’d also like to see a response on this.

Statistik: Verfasst von biolizard89 — Fr Jul 31, 2015 11:08 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-08-01 00:36:26

Hi Cajun,

Cajun hat geschrieben:\ Hi Biolizard89 and Orbiter,\ \ \ Very, interesting, indeed. The very critical point in this research from my point of view is, to get the link betwen queries and their actual endpoints in the SERP - hope, you\'ve got the opportunities to go on and accomplish your work!\



I\’m not certain what you mean by \“endpoints\” and \“SERP\” -- from context I infer that you\’re asking about detecting which result a user actually clicked on the results page? If so, I am doing some experiments on finding the best way to determine this. Ideally, it would be nice if YaCy included a callback mechanism for this, so that I could provide a REST interface that YaCy would call and provide me that info. I\’m not sure if YaCy is interested in providing such a mechanism. If not, it\’s probably possible to do this with Javascript via a Greasemonkey script, although I haven\’t fully looked into this yet. You are correct that this information is very useful.

Cajun hat geschrieben:\ \@Orbiter - is there a way to get fully anonymized listings of queries accomplished in the yacy-network? And, to get them linked them with results choosen finally? As long as they do not leave the users terminal? What, if the users may deliberately decide to send these key-value pairs, anonymously and anonymized, to a central and open database server - open for researchers around the world?\



I think the problem with anonymously providing that data to a central server is that users could mass-submit spam. In theory something like Hashcash would be able to make spam less easy, but I don\’t think it\’s sufficient, and it also gives an advantage to attackers that have lots of computing resources (e.g. either the NSA or a botnet operator). I am investigating the possibility of using the user\’s social graph to share this information, which would make spam much more difficult (a spammer would only affect his immediate friends, who would probably unfriend him/her). However, privacy is very tricky in such a system, and I don\’t have any great solutions at this point. It would be possible to store such data locally, and simply submit ranking algorithms to your friends, and they just return the fitness value, which preserves privacy much more. I think this may be sufficient to get \“good enough\” data, though it\’s certainly not as effective as what Google is doing (they have an inherent advantage here, since they don\’t have privacy constraints).

You might also look at Blippex, a (now defunct) search engine which tried to crowdsource data from its users. They had some interesting ideas with privacy, but their design required a central server (which you didn\’t have to trust entirely for privacy purposes).

Cajun hat geschrieben:\ I think, the idea behind is not only important, but also critical, challenging and a little bit to demanding, not to try to get it accomplished by some \'crowd-intelliengce\' approach \... don\'t you think so?\



Having users cooperate definitely improves the efficiency of the system. I\’d love to hear more ideas on this topic.

Statistik: Verfasst von biolizard89 — Fr Jul 31, 2015 11:36 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-08-01 00:36:57

there is a list of queries which had been made on the local YaCy in DATA/LOG - fully anonymized. It stores only the date and the request.
There is no such global list!

Statistik: Verfasst von Orbiter — Fr Jul 31, 2015 11:36 pm


English • Re: Language filter ineffective

Date: 2015-08-01 00:39:36

the language detection in YaCy was always fuzzy. Just recently I made experiments with language detection based on bayes filters in the loklak project. This works in many cases, but fails also quite often. This is just really a complex thing. I will try to add the loklak method to YaCy maybe, I already added the bayes classes but they will be used for something else first.

Statistik: Verfasst von Orbiter — Fr Jul 31, 2015 11:39 pm


English • Re: Language filter ineffective

Date: 2015-08-01 11:28:24

Orbiter hat geschrieben:\ the language detection in YaCy was always fuzzy. Just recently I made experiments with language detection based on bayes filters in the loklak project. This works in many cases, but fails also quite often. This is just really a complex thing. I will try to add the loklak method to YaCy maybe, I already added the bayes classes but they will be used for something else first.\



I think the concern here is that davide has offered to assist, and his offer has, as far as I can tell from this thread, been met with silence. \@Orbiter, is YaCy willing to look at davide\’s code?

Statistik: Verfasst von biolizard89 — Sa Aug 01, 2015 10:28 am


English • Re: Language filter ineffective

Date: 2015-08-01 22:06:28

biolizard89 hat geschrieben:\ I think the concern here is that davide has offered to assist, and his offer has, as far as I can tell from this thread, been met with silence. \@Orbiter, is YaCy willing to look at davide\'s code?\


You recommended davids code: did YOU actually test it?

Statistik: Verfasst von Orbiter — Sa Aug 01, 2015 9:06 pm


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-08-03 16:44:03

Hi biolizard89


I think, your concept of distributing ranking-algorithms, rather than exchanging data itselves (with all their privacy- and spam- concerns), might open a new door to look for alternative types of solutions aiming for the improvement of ranking-algorithms ... :?

Trying to bring things, thoughts, knowledge and discussion together:

A fully centralized approach is the domain of commercial SE\’s. It doesn\’t care much of privacy, but it supports best BIG-DATA anylytics in order to develop \‘most-optimal\’ rankings in terms of customer satisfaction and commercial interests.

A \‘cooperative approach\’ relying on centralized data, resulted in a crucial loss of privacy - or, in an increased risk of getting spammed and tampered with disinforming data, respectively. Obviously, we don\’t see any great solutions coming for that.

A \‘cooperative approach\‘, based on social graphs and using a restricted data exchange, might bring most of needs for privacy and data-secuity into balance. However, it is yet to be operationalized fully.

A pure algorithmic approach - this idea came up for me, when thinking about your concept of exchanging algorhithms - could provide all intelligence locally. It would not be restricted to influence processes at query-time, but it also might influence an (local?) index, by trying to avoid fetching and indexing false-positive hits. Ranking algoritms might be choosen explicitely by the user, or elected (or even trained) by the local search- & find- history. In such a scenario, the development focus shifted towards the competition of exchangeable \‘intelligent\’ algorithm plugins - avoiding to get stuck with ambiguities of clustering, disinformation, and privacy, which can be considered typical side-effects of centralized data-store analytics.

The approaches mentioned last, might make use of YaCy\’s query-log, and be realized on the browser\’s side by \“Greasemonkey\” (or sthg. similar, however, restricting it\’s use to firefox and chrome by now), and on some logic preserved by the server.


Did you miss some relevant views/issues/points within this try of a review?


Best Regards

Statistik: Verfasst von Cajun — Mo Aug 03, 2015 3:44 pm


English • Re: Language filter ineffective

Date: 2015-08-03 20:49:05

SOLR supports two implementations of language detection durig index time, controlled for by solrconfig.xml, see: https://cwiki.apache.org/confluence/display/solr/Detecting+Languages+During+Indexing. The better algo seems to achieve an accuracy of about 99.2% not for all, but for most languages.

(How) Could this approach be used as an alternative to the YaCy language filter?

Statistik: Verfasst von Cajun — Mo Aug 03, 2015 7:49 pm


English • Provide the -Xincgc option to Java a performance boost?

Date: 2015-08-05 09:12:49

From http://www.electricmonk.nl/log/2011/07/22/minecraft-server-optimization/

This enabled the concurrent incremental garbage collector, which basically means that Java won\’t pause for a couple of seconds to clean up old unused stuff (unloaded chunks). This reduces lag and choppiness in the loading of chunks/movement of mobs and destruction/placement of blocks.

Would this work for Yacy or does it already do it?
I am running a Debian Server with yacy and minecraft running.

Is this where I add the -Xincgc option to Java in the startYACY.sh?

#done
else
JAVA_ARGS=\“-Xincgc -Xmx600m -Xms180m \$JAVA_ARGS\“;
PORT=\“8090\”
fi

#echo \“JAVA_ARGS: \$JAVA_ARGS\”
#echo \“JAVA: \$JAVA\”

Statistik: Verfasst von smokingwheels — Mi Aug 05, 2015 8:12 am


English • Re: Provide the -Xincgc option to Java a performance boost?

Date: 2015-08-05 12:44:03

Just tried this in Windows and got heaps faster crawler ppm. Will have to do further testing once my minecraft server is maxed out with performance mods.

startYACY.bat

set javacmd=-Xmn600m -Xss1M -Xms1G -Xmx1G -XX:+UseLargePages -XX:+AggressiveOpts -XX:+UseFastAccessorMethods -XX:+OptimizeStringConcat -XX:+UseBiasedLocking -Xincgc -XX:MaxGCPauseMillis=10 -XX:SoftRefLRUPolicyMSPerMB=10000 -XX:+CMSParallelRemarkEnabled -XX:ParallelGCThreads=10 -Djava.net.preferIPv4Stack=true

There are 2 settings for one for java 7 and one for java 8.
Try at own risk..
See http://www.minecraftforum.net/forums/support/server-support/server-administration/1937726-java-7-8-command-line-options-for-minecraft

Statistik: Verfasst von smokingwheels — Mi Aug 05, 2015 11:44 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2015-08-05 21:53:58

https://sourceforge.net/projects/spot-on/files/

Hab mir letztes Wochenende mal diese weitere p2p Suchmaschine Spot-On angesehen, aber nur im SQL Modus, PostGreSQL scheint doch eine umfangreichere Installation zu sein (zumindest für mich und in der Kürze der Zeit). Die Suche und Daten werden verschlüsselt übertragen und der URL-Key wird über einen p2p Prozess sicher übertragen, jeder nimmt nach Start an einer default eingestellten URL-Community teil. Die Nutzer werden in dem URLs-Tab angezeigt oder der eigene Key manuell über das Tool \“Public Key Share\” in eine andere Community geteilt.

Die Importierung von URLs geht über den Crawler Pandamonium:
https://github.com/textbrowser/pandamonium/wiki
https://github.com/textbrowser/pandamonium/releases

Statistik: Verfasst von ribbon — Mi Aug 05, 2015 8:53 pm


Fragen und Antworten • Re: YaCy auf dem Chaos Communication Camp

Date: 2015-08-06 13:38:44

nach vier Jahren habe ich es auch geschafft, das Video von damals zu schneiden...
iframe
Nächste Woche gehts dann zum cccamp15{.postlink}

Statistik: Verfasst von Orbiter — Do Aug 06, 2015 12:38 pm


English • Re: Language filter ineffective

Date: 2015-08-06 22:52:03

Thats a good hint, thank you! Looks like that is easy to do. Let me see, but give me time, there is the cccamp15 and I doubt that there is time before the camp starts.

Statistik: Verfasst von Orbiter — Do Aug 06, 2015 9:52 pm


English • Re: Language filter ineffective

Date: 2015-08-09 11:08:52

Orbiter hat geschrieben:\ >
> > biolizard89 hat geschrieben:I think the concern here is that davide > has offered to assist, and his offer has, as far as I can tell from > this thread, been met with silence. \@Orbiter, is YaCy willing to > look at davide\'s code?\ > >


You recommended davids code: did YOU actually test it?



I am not clear on why you think I recommended davide\’s code. Look back through this thread; I never said that. I said something entirely different: davide expressed an interest in contributing, and his posts got near zero response. That discourages contribution, and is unfortunate.

Statistik: Verfasst von biolizard89 — So Aug 09, 2015 10:08 am


English • Re: Improving ranking using neural networks and genetic algo

Date: 2015-08-09 11:36:10

Cajun hat geschrieben:\ Hi biolizard89\ \ \ I think, your concept of distributing ranking-algorithms, rather than exchanging data itselves (with all their privacy- and spam- concerns), might open a new door to look for alternative types of solutions aiming for the improvement of ranking-algorithms \... ![:?](http://forum.yacy-websuche.de/images/smilies/icon_e_confused.gif "Confused")\ \ \ Trying to bring things, thoughts, knowledge and discussion together:\ \ A fully centralized approach is the domain of commercial SE\'s. It doesn\'t care much of privacy, but it supports best BIG-DATA anylytics in order to develop \'most-optimal\' rankings in terms of customer satisfaction and commercial interests.\ \ A \'cooperative approach\' relying on centralized data, resulted in a crucial loss of privacy - or, in an increased risk of getting spammed and tampered with disinforming data, respectively. Obviously, we don\'t see any great solutions coming for that.\ \ A \'cooperative approach\', based on social graphs and using a restricted data exchange, might bring most of needs for privacy and data-secuity into balance. However, it is yet to be operationalized fully.\ \ A pure algorithmic approach - this idea came up for me, when thinking about your concept of exchanging algorhithms - could provide all intelligence locally. It would not be restricted to influence processes at query-time, but it also might influence an (local?) index, by trying to avoid fetching and indexing false-positive hits. Ranking algoritms might be choosen explicitely by the user, or elected (or even trained) by the local search- & find- history. In such a scenario, the development focus shifted towards the competition of exchangeable \'intelligent\' algorithm plugins - avoiding to get stuck with ambiguities of clustering, disinformation, and privacy, which can be considered typical side-effects of centralized data-store analytics.\ \ The approaches mentioned last, might make use of YaCy\'s query-log, and be realized on the browser\'s side by \"Greasemonkey\" (or sthg. similar, however, restricting it\'s use to firefox and chrome by now), and on some logic preserved by the server.\ \ \ Did you miss some relevant views/issues/points within this try of a review?\ \ \ Best Regards\



This is an accurate summary, I think. Two additional things that I think are noteworthy.

(1) A somewhat large data set is necessary to avoid fitting the ranking algorithm to noise rather than signal (called \“overfitting\” in machine learning). If you have a small number of searches to train against, or a large number that are all similar in some (potentially non-obvious) way, then the algorithm you end up with is unlikely to perform well against different searches. In my initial experiment, I trained against the top 100 results from 300 Google searches (selected at random from the AOL dataset), using a genetic algorithm. The genetic algorithm took about 6 generations before it started overfitting. Changing various parameters of the genetic algorithm might improve this, but I suspect a larger sample size of training data would also be helpful. (To be fair, before it started overfitting, it had closed about a quarter of the gap between YaCy and DuckDuckGo, so it was still quite good for a first attempt.)

(2) However, the large data set doesn\’t have to be all on one user\’s computer. Based on a (relatively contrived) simulation I did where I divided the dataset into 8 parts, put each one on a separate node, and had the nodes exchange a linear combination of fitness values according to a simulated social graph, the genetic algorithm reached nearly the same fitness as the single-user version. It took about 4 times as many generations to do so, although the number of runs was small enough and the simulated social graph contrived enough that it\’s not at all clear whether a 4-fold increase will be representative of other cases. Even so, 4-fold increase in number of generations isn\’t a bad tradeoff for the better sample size and better privacy you get by exchanging only fitness values over a social graph.

Another thing that could be done on the single-user side, maybe, is some kind of custom link graph weighting based on the user\’s browsing habits. It\’s not particularly hard for a Greasemonkey script to keep track of which web pages a user visits, and that data could be combined with YaCy\’s link graph to estimate the user\’s likely interest in results. For example, a search result which has a large number of degree 2 or 3 link graph paths from domains that you visit, may be inferred to be more relevant to you than one that only has a small number of degree 5 or 6 link graph paths from domains that you visit. Graph theory is not really my thing, so I\’m not sure how well this would work, but I think it\’s a logical extension of how Google does some of its ranking. I might play around with it later to see how well it ends up working.

Statistik: Verfasst von biolizard89 — So Aug 09, 2015 10:36 am


Fragen und Antworten • Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-13 16:32:39

(YaCy version 1.839289)

Hallo!

[Ausgangslage:]{style=“text-decoration: underline”} Ich lasse mein YaCy über einen Remote-Proxy (privoxy) crawlen, damit keine Werbung indiziert wird.

[Problem: ]{style=“text-decoration: underline”} Ist der Proxy nicht erreichbar, verwirft der Crawler systematisch URLs aus der Warteschlange. Ich gehe davon aus, dass hier einfach das Timeout wirkt. Nun habe ich aber unter /Settings_p.html?page=crawler das Timeout auf 0 gestellt. Da steht, dass das Timeout dann unendlich ist. Dann dürften die URLs nicht verworfen werden, sondern müssten einfach warten, bis die Verbindung wieder da ist. Oder habe ich das falsch verstanden?

[Problematische Wirkung: ]{style=“text-decoration: underline”}Wenn ein Crawl in der Tiefe einer Domain unterbrochen wird und die Warteschlange sich leert, fehlen die URLs um vom bisheriegen Crawl-Zustand weiter zu gehen. Sprich: Der Crawl beendet sich. Ich müsste ihn, obwohl ich schon viele 100 Megabyte ercrawlt und indiziert habe, wieder von ganz oben suchen lassen. Sprich: Es geht von vorn los. Und das bei derzeit einigen 10 Startadressen, die als Crawls über Tage parallel laufen.

Wie kann man das Crawln zum automatischen Halt bringen, ohne dass URLs verworfen werden? Dafür ist doch eigentlich das Timeout=0 da. Oder? Gibt es da ein anderes Schalterchen?

Auch problematisch: Wenn ich mich nicht darauf verlassen kann, dass Crawls vollständig durchlaufen und bei zeitweisen Verbindungsproblemen warten, kann ich nie sicher sein, ein bestimmtes Ziel tatsächlich vollständig indiziert zu haben. Das gilt nicht nur auf den eingeschleiften Proxy bezogen, sondern auch auf die Internetverbindung und eventuelle Server-Down-Zustände der Zieldomains.

Gibt es Möglichkeiten, aus dieser Misere heraus zu kommen?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Do Aug 13, 2015 3:32 pm


Fragen und Antworten • Double-Check Rules wirksam bei externer solr-Datenbank?

Date: 2015-08-13 16:51:19

Nochmal Hallo!

Eine weitere Frage: Wenn YaCy seine Indizierungsergebnisse nicht in die integrierte, sondern ausschließlich in eine separat aufgesetzte solr-Datenbank schreibt, ist dann im Crawl-Auftrag der Parameter \“Double-Check Rules\” wirksam? Sprich: Holt sich YaCy die schon ercrawlten Seiten (URLs) aus der solr-Datenbank oder werden diese separat im YaCy-eigenen Datenbereich abgelegt. Insbesondere wenn ich \“citation aus\” und \“DHT RWI index\” ausgeschaltet habe? Bzw. mit 2 YaCys auf eine separat aufgesetzte solr-Datenbank schreibe? Kennen die dann über die solr-Datenbank untereinander die schon ercrawlten Seiten?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Do Aug 13, 2015 3:51 pm


Hilfe für Einsteiger und Anwender • warum findet search.yacy.de von mir indexiertes nicht

Date: 2015-08-14 15:57:07

Hallo,
also ich habe einen Senior-Peer in Gang gesetzt. Dann einige Sites die mich interessieren crawlen lassen.
Von meinem Peer aus finde ich nun auch Schlagworte aus diesen Seiten pronlemlos genauso wie schlagworte aus seiten, die ich nicht selbst haben indexieren lassen, soweit so gut und zufrieden.
Nun such ich mir aus der Liste aktiver Senior-Peers einen anderen Peer und versuche dort von mir indexierte Seiten finden zu lassen: Nichts, gleiches auch wenn ich über http://search.yacy.de suchen lasse. Verwunderung.

Ich bin davon ausgegangen, dass Seiten, die ich indexiere nicht nur von meinem Knoten gefunden werden, sondern auch z.B. über search.yacy.net.
Leider ist dem aber nicht so.
Woran kann das liegen?

Unter http://localhost:8090/Network.html kann ich sehen, dass mein Peer regelmäßig DHT-Ausgend mittels roter Linien anzeigt.
Ich versteh\’s nicht.

Schönen Tag
yacyuserproxy

Statistik: Verfasst von yacyuserproxy — Fr Aug 14, 2015 2:57 pm


Hilfe für Einsteiger und Anwender • Re: warum findet search.yacy.de von mir indexiertes nicht

Date: 2015-08-14 20:43:26

Hallo,
kann mir keiner auf die Sprünge helfen?
Schönen Abend

Statistik: Verfasst von yacyuserproxy — Fr Aug 14, 2015 7:43 pm


Fragen und Antworten • http://www.yacy-websearch.net...Dev:Solr aktualisieren

Date: 2015-08-14 22:19:12

Hallo wieder,

eine Bitte diesemal: Die Einrichtung eines externen solr wird auf der Seite http://www.yacy-websearch.net/wiki/index.php/Dev:Solr recht gut und ausreichend beschrieben. Im Prinzip funktioniert es auch noch so bis zur letzten solr-Version der 4er-Reihe. Wie ich gesehen habe, nutzt YaCy inzwischen eingebettet die Version 5.2. Man kann also den Inhalt der eingebetteten Version offenbar nicht so einfach mehr zu einem externen solr über das Dateisystem kopieren. (Oder doch?)

Wäre es möglich, diese Seite bei Gelegenheit mal zu aktualisieren? Denn 5.2 hat einen anderen Aufbau, sodass man die Installationsbeschreibung inzwischen nicht mehr so einfach wiederverwenden kann. Die solr-4...war gibt es zum Beispiel dort nicht mehr oder ist woanders.

Oder kann solr extern mit Version 4.10.x beliebig in der Zukunft für YaCy verwendet werden?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Fr Aug 14, 2015 9:19 pm


Fragen und Antworten • Re: Double-Check Rules wirksam bei externer solr-Datenbank?

Date: 2015-08-14 22:21:48

Hier ergibt sich gleich noch eine Frage:

Wenn YaCy beim Double-Check auch mit einem externen solr zusammenarbeitet: Wie verhält es sich dann, wenn man 2 oder mehr externe solr-Datenbanken angibt? Wird die Suchanfrage für den Check \“in Summe\” berücksichtigt? Also: liefert mindestens eine Datenbank zurück: \“Seite wurde schon indiziert\“, dann wird sie übersprungen?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Fr Aug 14, 2015 9:21 pm


Fragen und Antworten • Re: Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-14 23:25:35

Update:

Gerade eben wurden wieder ständig die URLs verworfen, statt sie über den Proxy (Privoxy) zu laden. Diesmal lief der Proxy und er hatte nichts zu tun bekommen.

Ich habe ledeglich die Seite \“/Settings_p.html?page=proxy\” aufgerufen und ohne Änderungen auf \“Submit\” gedrückt -> Sofort wurden die verbleibenden URLs in der Local Crawler Warteschlange wieder über den Proxy geladen und die Indizierung geht weiter.

Zumindest für paar Minuten. Jetzt steht das System wieder an der Stelle, wo es URLs verwirft, anstatt sie über den Proxy abzufragen. Der Proxy läuft übrigens auf dem gleichen System.

Ich habe die eben beschriebene \“Submit\“-Lösung nochmal probiert und es geht jetzt gar nichts mehr. Der Proxy läuft, aber die URLs werden von YaCy verworfen.

----> WAS ist eigentlich der No-Load-Crawler?? Da stand eine größere Zahl drin, die jetzt abgearbeitet wurde. Nachdem sie bei 0 angelangt ist, läuft der Crawl über den Proxy wieder! Inzwischen sammeln sich aber erneut \“No-Load-Crawls\“. Was hat es damit auf sich? Habe ich beim Crawlen jetzt Webseiten \“verloren\“?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Fr Aug 14, 2015 10:25 pm


Fragen und Antworten • Re: http://www.yacy-websearch.net...Dev:Solr aktualisieren

Date: 2015-08-14 23:33:42

Vielleicht wäre es dabei ganz praktisch, die Tomcat6-Installation auch über die Paketverwaltung apt-get zu demonstrieren. Das ist sicher spezieller. Aber wer nicht Debian oder Ubuntu benutzt, ist sicher in der Lage, die Beschreibung auf sein System umzudeuten oder unter Debian/Ubuntu auch eine eigene, speziellere Installation abzuleiten (z.B. mit Oracle Java).

Edit: Für die Standard-Tomcat Installation hab ich grad eine schöne Übersicht gefunden, wo sich die Konfigurationsverzeichnisse befinden: http://askubuntu.com/questions/135824/w ... -directory{.postlink}

Statistik: Verfasst von fherb — Fr Aug 14, 2015 10:33 pm


Fragen und Antworten • Re: Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-14 23:49:12

Mhm!?? Eigentlich arbeitet jetzt dauernd nur noch dieser No-Load-Crawler.

Dabei habe ich die selben reichlich 30 Crawls aus dem Process Scheduler gestartet, wir bei meinen vorherigen Läufen auch. Die Datenbank habe ich vorher gelöscht. Ich versteh\’ das nicht.

Gruß Frank

Statistik: Verfasst von fherb — Fr Aug 14, 2015 10:49 pm


Fragen und Antworten • Re: Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-15 00:47:21

... also ich verstehe das nicht.

--- Nebenbei: Ich beschreibe weiter unten mein eigentliches Einsetzungs-Szenario. Vielleict kann mir jemand grundsätzlich helfen. Es handelt sich inhaltlich, in der Anwendung, um eine eigene, ehrenamtliche Initiative. Das vollständige System wird nicht zum Geldverdienen existieren. Aber, wenn es läuft, wird es nicht nur mich erfreuen. ---

Mit der gleichen Prozess Scheduler-Liste habe ich in der embedded solr-Datenbank die letzten Tage systematisch Crawlen und indizieren können. Mach ich das nun mit der externen Datenbank, wird das ständig unterbrochen und der No-Load-Crawler wird in der Zeit ohne Input in die Datenbank abgearbeitet. Dieser Anteil ist zeitlich größer, als die Crawl-Tätigkeit. Deutlich größer.

Ich habe YaCy die letzten Monate und in Abständen auch die letzten 3 Jahre getestet und in der Doku und den Foren gelesen, um zu verstehen, was abläuft. Jetzt endlich möchte ich ein Produktiv-System aufsetzen. Und ich stehe auf einmal wieder vor offenen Fragen. Das ist nicht schön! Wenn mir jemand beschrieben kann, was da abläuft, wäre ich sehr dankbar.

Mein Ziel ist, ein sicher funktionierendes System für einen bestimmten (gesellschaftlich relevanten, nicht kommerziellen) Zweck zum Laufen zu bringen. Aus den bisherigen Erfahrungen mit YaCy habe ich mich entschieden, es folgendermaßen zusammenzusetzen:

* die solr-Datenbank läuft auf einem eigenen System, dass leistungsmäßig darauf angepasst ist (RAM, Prozessorkerne)
* die Datenbankinhalte kommen aus Crawls von vielen Domains, dort jedoch aus speziellen Bereichen (Unterverzeichnissen, untergeordneten Blogs)
* aus dem Grund verwende ich ein YaCy dazu, diese Inhalte einmalig in der vollständigen Tiefe zu ercrawlen
* ein zweites YaCy-System beobachtet den obersten Leven (meist eigent sich das rss-xml-File dazu) und ercrawlt alles Neues, um die Datenbank dauerhaft up-to-date zu halten
* ein drittes YaCy-System dient ausschließlich der Such in der solr-Datenbank
* nur dieses letzte YaCy-System wird in ein Frontend für den Nutzer integriert.
* für die Crawlings, wird ein Privoxy-System zwischengeschaltet, um indizierung von Werbung zu vermeiden (Das funktioniert prinzipiell ausgezeichnet, wie ich die letzten Tage sehen konnte.)

Mit dieser Anordnung kann ich die einzelnen Aufgaben sinnvoll und kostenspaarend auf passende Systeme verteilen. Wo aus Gründen der permanenten Verfügbarkeit notwendig bei einem Hoster, sonst sogar zu Hause bei glücklicherweise hoher Bandbreite. Ich denke, nach all den langen Tests und Versuchen mit YaCy, dass so eine Anordnung für ein öffentliches Produktivsystem vorteilhafter ist, alls sämtliche Funktionen in eine einzige YaCy-Installation zu konzentrieren.

Und trotzdem komme ich, jetzt, vor der tatsächlichen Implementierung eines Produktivsystems wieder an die Grenzen. Wer kann helfen? Ich weiß, es ist gerade Urlaubszeit. Und auch in meinem Arbeitszimmer herrschen trotz Lüften nachts endlich mal Temperaturen unter 35 Grad.

Beste Grüße
Frank

Beste Grüße, Frank.

Statistik: Verfasst von fherb — Fr Aug 14, 2015 11:47 pm


Fragen und Antworten • Re: Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-15 10:49:12

Hallo Frank,

leider gibt es meines Wissens nach noch keinen alive-check des Proxy - der die Crawls pausiert.
So cool ich Dein Vorhaben auch finde, fehlt mir gerade die Zeit das mal zu implementieren.

Wieso klappt der privoxy eigentlich zusammen?

Kannst Du nicht evtl auch mit YaCy-Filter den gleichen Effekt realisieren?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Aug 15, 2015 9:49 am


Hilfe für Einsteiger und Anwender • Re: warum findet search.yacy.de von mir indexiertes nicht

Date: 2015-08-15 11:03:03

Hi
ich habe auch schonmal so eine Erfahrung gemacht gehabt.
ich habe mit dem einfachen Crawler indexiert und jedesmal wurde der schon vorhandene index gelöscht, warum auch immer k.A.. Dann habe ich nur noch den Expertencrawler benutzt bis heute, nutze Yacy Version 1.72 mache keine Updates mehr. Da meine beiden Online auf einer IP mit Port 8090 und 8092 nebeneinander liegen.
Seid ich nur noch im Expertenmodus Urls eingebe habe ich Ruhe. Fahre Yac in Freeworld Robisonmodus ohne Zugriff von außen, denn dann ging sie auch in die Knie
Auch wenns mal habert, stoppe ich die Crawler und starte den Server neu.
Dann habe ich auch den Crawler auf 300 runtergestellt, dadurch brauche ich wenige Arbeitspeicher, kommt gut an. War ein Tip von Sixcooler, den ich mal gelesen habe.

Dann habe ich mir von Hand 230 Htmlseiten mit 10 Sek.Weiteleitung und speziellen Direktabfragen auf mein Thema http://www.thueringer-suche.de Kräuter Hunderassen Touristik Antike Freie Energie Naturheilkunde Mitteldeutscher Sprachraum, welcher sich bis Luxemburg und Holland bis Berlin erstrekt erweitert Yacy eingerichtet also alle 10 Sekunden eine andere yacy wird abgefragt, so bleiben diese in Bewegung. Yacy bedankt sich mit keinen Abstürzen oder einfrieren mehr, daür.

Die ander Yacy läuft über http://www.9ge.de und ist für alles Deutschsprachige eingestellt.
So habe beide yacy übr 1000 Direktabfragen pro Tag, das finde ich jedenfaals persönlich sehr gut.

Ich bin deshalb zu dieser Schlussfolgerung gekommen.
Wenn ich mich nicht körperlich bewege dann baue ich Power und Kraft ab, da mein Muskeln nicht bewegt werden, Schluss und Folgen ich werde lahmarschicht und müde, bewege ich mich aber mehr belibe ich Fit, diese habe ich eben auch bei meinen Yacys festgestellt, bleiben sie in Bewegung, bleiben sie dynamisch.

Auch läuft die ww.thueringer-suche.de diese Yacy noch unter meiner Naturheilkunde Webseite und wird dort gut abgefragt.

Vielleicht kannst Du ja was verwenden. Ich in kein Yacy Programmierer aber ich nutze sie jetzt mehr oder weniger seid 2009.

by
Nette Grüße

Statistik: Verfasst von RoGott — Sa Aug 15, 2015 10:03 am


Hilfe für Einsteiger und Anwender • Re: Yacy neu starten

Date: 2015-08-15 11:10:02

Hbe ich auch schon erlebt und habe sie immer wieder neugestartet und gekillt. Wenns nichts half, habe ich sie paar Tage gekillt liegen lassen, den Server mehrmals neugestartet. und noch 2 bis 3 Tage war sie wieder Online nach einem Neustart, weiß der Kuckuk warum das so lief. Aber ich habe sie auch geistig losgelassen und bin nicht eigenwillig hinter hergewesen. Nu geistig losgelassen. seitdem habe ich in dieser Beziehung Ruhe. Is jedenfals bei mir so gewesen.

MfG

Statistik: Verfasst von RoGott — Sa Aug 15, 2015 10:10 am


Fragen und Antworten • Re: Metatags auf Suchseiten anpassen

Date: 2015-08-15 11:16:11

Hi ich bin davon abgekommen, für michzu kompliziert undwill da nix kaputt machen.
Das kann man ja in der Webseite gut anpassen wo man Yacy per iframe inpasst.

Statistik: Verfasst von RoGott — Sa Aug 15, 2015 10:16 am


Fragen und Antworten • Re: Crawler verwirft Seiten, wenn Remote-Proxy offline

Date: 2015-08-15 13:56:58

Hallo sixcooler,

Danke für die Antwort!

YaCy-Filter würde theoretisch genau so gehen. Bei privoxy kann ich mir aber die Filter für alle gewünschten Sprachen aus Adblock Plus erzeugen lassen. Und da das Filter selbst sehr rechenintensiv ist, läuft privoxy auf einem anderen System. Das lastet YaCy mit 100% aus. Damit wird zwar das Crawling gebremst, aber YaCy an sich nicht. Und ich muss mich nicht um die Justierung des PPM des Crawlers kümmern. Den Wert stelle ich einfach hoch und das Privoxy-System bringt einfach immer 100%. Egal, wie umfangreich die aktuell gecrawlten Seiten sind.

Nicht Privoxy war ausgestiegen, wie ich später mitbekommen habe, sondern bei dem V-Server gab es ein Netzwerk-Problem, dass erst nach Stunden gelöst wurde.

Aber Danke: Wenn ich das weiß, dass es halt so ist, muss ich mir ein Script machen, dass den Proxy (und damit auch die Netzwerkverbindung) überwacht und gegebenenfalls das YaCy, dass die Crawlings macht, herunterfährt.

Viele Grüße
Frank

Statistik: Verfasst von fherb — Sa Aug 15, 2015 12:56 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-08-15 16:39:06

Code:
[2731916.446297] TCP: TCP: Possible SYN flooding on port 6070. Sending cookies.  Check SNMP counters.



Hrm... wie kann ich mich davor schützen? Ich habe Snort vor die YaCy Kiste geschaltet und so ziemlich alle Regelsätze aktiviert die es gibt. Snort meldet auch zu allen möglichen gefährlichen Aktivitäten was im Log und blockiert fleißig IPs, nur nicht zu SYN floods :-(

Statistik: Verfasst von LA_FORGE — Sa Aug 15, 2015 3:39 pm


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-08-15 16:43:36

\ alert tcp any any -\> \$HOME\_NET 8090 (flags: S; msg:\"Possible TCP DoS\"; flow: stateless; detection\_filter: track by\_src, count 70, seconds 10;)\



So sollte es gehen :-)

Statistik: Verfasst von LA_FORGE — Sa Aug 15, 2015 3:43 pm


English • yacysearch.json filtering

Date: 2015-08-16 11:31:50

I use yacysearch.json to get search results. But I need to replace \“navigation\” array on response, because it eats a lot of memory on my application (it crashes with OutOfMemoryError while loopj library parses json response).

How can I do this?

Statistik: Verfasst von IOZhik — So Aug 16, 2015 10:31 am


English • yacy-forum.org

Date: 2015-08-18 01:31:29

Hi All,

For quite a few years I have owned yacy-forum.org and the domain is again due for renewal.

I haven\’t been active in the forum or YaCy for some time now and I think it would be a good time for me to hand this over to somebody who can use it.

Ideally, I think I\’d like Michael to take it over, and it would probably make more sense to redirect the domain to here.

If Michael can Direct Message me here I can discuss this further with him?

Regards,
Andrew.

Statistik: Verfasst von am2605 — Di Aug 18, 2015 12:31 am


Mitmachen • Re: YaCy\@CCCamp15

Date: 2015-08-19 13:45:49

So viel Nerds auf einen Haufen machen mir immer Angst ;o)

Ich kenne zwar viel, aber viel halt auch nur oberflächlich. Und englisch ist auch nicht so mein Ding. Ich kann dafür andere Sachen ganz gut. ;o)
Viel Spaß da.

Statistik: Verfasst von McFilter — Mi Aug 19, 2015 12:45 pm


Fragen und Antworten • Re: Yacy indiziert, auch wenn nicht erlaubt

Date: 2015-08-28 17:26:28

Hi Frank,

die Bildersuche wird oft missverstanden. In der Bildersuchergebisanzeige landen Bilder aus zwei quellen:
-individuell geladene image-urls
-links die in html eingebettet sind.

wurden die Bilder aus zweiter Variante bei einer Bildersuche angezeigt, so wurden sie zur Snippetgenerierung auch geladen und dann ist es ökonomisch und korrekt sie als individuelle Indexeinträge ebenfalls zu speichern. Das hat dann nichts mehr mit deinen Crawleinstellungen zu tun. Ich verstehe dass dies aus User-Sicht nicht gleich offensichtlich ist, aber effizient ist es auf jeden Fall. Wenn du das nicht willst, dann willst du sicherlich auch nicht dass YaCy die Bilder läd, dann kannst du die Bildersuche abstellen.

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 4:26 pm


YaCy Coding & Architektur • Re: French Translation update

Date: 2015-08-28 17:32:39

Hi luc
thank you for your update, but using email for such things is not so good.
To use git, first clone the repository into your own github accout, then clone that locally on your computer and push the changes to your own repository clone. from there, you can send a merge request to the main repository. thats the standard process :)

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 4:32 pm


Hilfe für Einsteiger und Anwender • Re: file:// links in der Suche nicht zu öffnen

Date: 2015-08-28 18:25:05

ja da gabs sowas, kann aber jetzt schlecht nachgucken weil ich bis Montag keinen Rechnerzugang habe, bin auf Reise.…
Allerdings ist der Knackpunkt bei der Intranetsuche ja, dass du keine Kopie des Dokumentes öffnest sondern das Original, so dass du es auch bearbeiten und speichern kannst. Deswegen sind da solche passenden Plugins besser.

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:25 pm


Presse • Re: Das könnte ein mächtiger Schub für YaCy werden

Date: 2015-08-28 18:29:58

Ich hatte übrigens noch keinen direkten Kontakt zu den Leuten nach dem erfolgreichen Ende der Kampagne. Ich würde ja erwarten dass man nach so einem Funding auch mal Kontakt zu den Projekten aufnimmt, aber da kam noch nichts...

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:29 pm


Fragen und Antworten • Re: Bilder Preview (ViewImage.png)

Date: 2015-08-28 18:31:52

oh, danke für den Hinweis! Ich gucke mal wenn ich wieder vom Urlaub zurück bin!

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:31 pm


English • Re: yacysearch.json filtering

Date: 2015-08-28 18:34:35

there is a nav property in the search url. you can set this to none or empty value then you should not get the navigation values any more

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:34 pm


English • Re: yacy-forum.org

Date: 2015-08-28 18:36:19

Hi Andrew, thank you I will mail you on monday, i hope that is not too late

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:36 pm


Fragen und Antworten • Re: Webgraph - Nutzen (plus \“citation reference\“)

Date: 2015-08-28 18:44:36

Es gibt keinen direkten Nutzen innerhalb von YaCy dafür und der Index wird auch nicht per default geschrieben. Der webgraph war eine SEO Auftragsarbeit :) ...es gibt da auch so ein Gerücht, YaCy sei unter SEO-Leuten ein Geheimtipp. Warum das so ist kann ich hier leider nicht erklären. Ich finde aber dass wir die SEO-Leute nicht als \‘Gegner\’ ansehen sollten sondern mehr die Zusammenarbeit suchen sollten. Wir können dabei nur lernen und ggf. sogar mehr über ein besseres Ranking lernen.

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:44 pm


Fragen und Antworten • Re: Double-Check Rules wirksam bei externer solr-Datenbank?

Date: 2015-08-28 18:49:53

ja, ein externer Solr wird für den double-check gefragt und verhält sich auch sonst identisch. auch bei mehreren externen!

Statistik: Verfasst von Orbiter — Fr Aug 28, 2015 5:49 pm


Fragen und Antworten • Re: Bilder Preview (ViewImage.png)

Date: 2015-08-28 19:52:07

Hallo Orbiter,

vielen Dank für die Antwort :)
Mittlerweile habe ich Zugriff auf Previewbilder :o
ABER, nur dann wenn ich vorher eine passwortgeschützte Seite aufrufe und mich als Admin einlogge. Wenn ich
nach einem Admin-Login eine Bildersuche durchführe sind die Bilder alle da :shock:

Einem nichtauthentifizierten Remote-User fehlen anscheinend Zugriffsrechte :? .

Vielleicht hilft Dir das ein bischen weiter :roll:

Gruß Alex

Statistik: Verfasst von Crystalgazer — Fr Aug 28, 2015 6:52 pm


YaCy Coding & Architektur • Re: French Translation update

Date: 2015-08-30 11:29:37

Ok thank you for clarifying this.
I am experienced with SVN and CSV but not so much with git. I will continue translation the week coming and try the way you say.

Statistik: Verfasst von luc — So Aug 30, 2015 10:29 am


Fragen und Antworten • Re: MediaWiki-Surrogat-Import Problem

Date: 2015-08-31 13:25:52

der out-ordner war zwischenzeitlich deaktiviert, in der aktuellen dev-Version ist der wieder vorhanden.

Statistik: Verfasst von Orbiter — Mo Aug 31, 2015 12:25 pm


Fragen und Antworten • Re: http://www.yacy-websearch.net...Dev:Solr aktualisieren

Date: 2015-08-31 13:27:22

ja die solr-version ab 5 hat einen leicht anderen Aufbau. Auch die Code-Migration war nicht so einfach. Wir haben das aber nun drin. Die Doku müsste geupdated werden...

Statistik: Verfasst von Orbiter — Mo Aug 31, 2015 12:27 pm


Fragen und Antworten • Re: Yacy indiziert, auch wenn nicht erlaubt

Date: 2015-08-31 17:39:15

Danke!

Dann habe ich das wirklich missverstanden. Aber so langsam steige ich dahinter. Zumal ich die letzten Tage einfach mal etwas experimentiert habe, laufen nun die Fakten zusammen und ich verstehe, was passiert. Und was nicht.

Für alle, die mit Ähnlichem zu tun haben:
Habe inzwischen mal versucht, einen Workarround zu schaffen, um in Dokumenten verlinkte Bilder, die \“wahrscheinlich\” nur Icons, Thumbnails usw. sind, nicht mit den Dokumenten zu indizieren: In einem vorgeschalteten Privoxy lösche ich alle Bildlinks, deren Breite oder Höhe mit unter 200 Pixeln angegeben wird. Da die Bilder ja selbst nicht geladen werden, wirkt das leider nur, wenn die Größen im html drin stehen. Außerdem schmeiße ich alle Bilder-Links mit .*facebook.* .*twitter.* usw raus. Das hat schon gut geholfen. Und bei der Aktion werden dann auch gleich noch die ganzen normalen Links in Social Medien \“vom Punkt gefressen\“. :D
Viele Grüße!

Statistik: Verfasst von fherb — Mo Aug 31, 2015 4:39 pm


Fragen und Antworten • Re: Webgraph - Nutzen (plus \“citation reference\“)

Date: 2015-08-31 17:44:52

Alles klar. Wird also bei der YaCy-Suche nicht mit ausgewertet. Man müsste also Solr über eine eigene Engine/Frontend abfragen, um die gesammelten Ergebnisse nutzen zu können. Ok. Muss in meinem Falle nicht sein. Dann lüfte ich gleich mal meine Festplatte. 8-)

Danke und viele Grüße
Frank

Statistik: Verfasst von fherb — Mo Aug 31, 2015 4:44 pm


Fragen und Antworten • Re: http://www.yacy-websearch.net...Dev:Solr aktualisieren

Date: 2015-08-31 17:50:25

Ok. Wenn mal Zeit für Euch sein sollte.

Ich hab inzwischen gelernt, wie ich die Daten über DATA/SURROGATE/in/ von einem zum anderen System bringe. Und wenn Webgraph für mich sowieso keinen Nutzen hat, ist das auch ausreichend. Da kann ich mit der 4er Version von Solr also weiter arbeiten.

Beste Grüße!

Statistik: Verfasst von fherb — Mo Aug 31, 2015 4:50 pm


Fragen und Antworten • Re: Webgraph - Nutzen (plus \“citation reference\“)

Date: 2015-08-31 17:50:37

Also es gibt schon eine Nutzungsmöglichkeit, und zwar beim Postprocessing kann man damit den Page Rank ausrechnen. Das wird aber aus zweierlei Gründen nicht benötigt weil zum einen das Postprocessing deaktiviert ist und zum anderen der Linkgraph diese Aufgabe übernimmt. Das ist eine homebrew-Datenstruktur die wesentlich effizienter war für den Page Rank als der Solr Index.

Aber wie du schon schreibst: man könnte ein Suchinterface auf der Solr API machen, müsste man aber eine Anwendung für finden.

Statistik: Verfasst von Orbiter — Mo Aug 31, 2015 4:50 pm


Fragen und Antworten • Re: Double-Check Rules wirksam bei externer solr-Datenbank?

Date: 2015-08-31 17:53:17

Das ist prima! Bestens! Da steht meiner Konfiguration ja nichts mehr im Wege!

Viele Grüße!

Statistik: Verfasst von fherb — Mo Aug 31, 2015 4:53 pm


Fragen und Antworten • Re: Webgraph - Nutzen (plus \“citation reference\“)

Date: 2015-08-31 18:08:40

Dann liegt der Linkgraph also immer lokal in dem YaCy, mit dem Seiten gecrawlt wurden, wenn ich das richtig verstehe. Für das Ranking scheint das in meinem Fall doch nicht so wesentlich zu sein, wie ich inzwischen festgestellt habe. Da ist das eher unkritisch, wenn die Suche das nicht berücksichtigen kann sondern mit den Solr-Daten auskommen muss.

Du merkst schon: Ich guck immer wieder auf die Nutzung mit verteilten Systemen. Ursprünglich war das ein Ansatz um die \“Hänger\“, die ich beim Crawlen mit YaCy hatte, abzufangen. Da geht dann zumindest noch die Suche in der Datenbank. Aber irgendwie ist YaCy inzwischen stabiler geworden. Entweder Ihr habt Schuld ;) oder/und (ich tippe auf UND) meine Konfiguration: Um dem eingebetteten Solr mehr RAM und Rechenzeit zu geben, bin ich gut gefahren, unter PerformanceQueues_p.html den Mindestspeicher für Local Crawl auf z.B. 200MByte zu setzen. Wird der Heap knapp, stoppt das Crawling rechtzeitig und es verbleibt genügend Speicher, damit das Indizieren und Schreiben in die Datenbank klappt. Wenn der Speicher dann wieder frei wird, gehts weiter mit Crawling. Damit läuft YaCy jetzt auch auf einem RasPi ohne Probleme. (Wenngleich es dort nach meinen Experimenten nichts bringt: Auf Suchanfragen antwortet der zu langsam. Ist eher nur als Extremtest zu gebrauchen.)

Viele Grüße!

Statistik: Verfasst von fherb — Mo Aug 31, 2015 5:08 pm


Fragen und Antworten • Re: MediaWiki-Surrogat-Import Problem

Date: 2015-09-01 15:10:55

Mittlerweile habe ich mich hier auf die Version dev 1.839250 eingeschossen.

Die Problematik mit dem fehlenden Surrogates\Out Verzeichnis ist mir bei den Versuchen mit höheren Versionen als 1.89000 auch aufgefallen. Ein manuelles Anlegen des Surrogates\Out Verzeichnisses brachte aber auch nicht den gewünschten Erfolg.

Mit keiner Version (außer der 1.89000) die ich bisher getestet habe, ist mir ein Mediawiki Import gelungen. :( .
Im Übrigen auch nicht unter Linux!.
Als Workaround habe ich nun unter der 1.839250 die Mediawikidaten der 1.89000 über die Surrogates Importfunktion eingelesen.

Zumindest der Import über diesen Weg funzt gut :) . Schöner wäre es natürlich wenn es eine Lösung für das direkte Importieren innerhalb der 1.839250 geben würde...

Gruß Alex

Statistik: Verfasst von Crystalgazer — Di Sep 01, 2015 2:10 pm


YaCy Coding & Architektur • WebRTC for YaCy: p2p in browser plug-in

Date: 2015-09-02 13:06:18

Some time ago I had a discussion with mozillians about the development of a P2P protocol for a distributed search engine based on WebRTC{.postlink}. Just recently I discovered the project SchoolNinja{.postlink} which is an attempt to implement p2p search with WebRTC. I also got into contact with \@juretriglav{.postlink}: https://twitter.com/juretriglav/status/ ... 4413039616{.postlink}

WebRTC would bring p2p into the browser while users are still forced to \‘install something\’ which was a big problem for the growth of YaCy. It looks like that WebRTC works only as browser plug-in, not as embedded JavaScript, as far as I understand. However, it would be good to get the foot on the ground of that technology to explore it\’s capabilities.

What do you think? Would you like to have a YaCy Plug-in with p2p activity in your browser? What would you expect what it does?

Statistik: Verfasst von Orbiter — Mi Sep 02, 2015 12:06 pm


English • Re: yacy-forum.org

Date: 2015-09-03 01:39:09

Orbiter hat geschrieben:\ Hi Andrew, thank you I will mail you on monday, i hope that is not too late\



Thanks Orbiter. I\’ll wait to hear from you. We still have around a month. :)
Regards,
Andrew.

Statistik: Verfasst von am2605 — Do Sep 03, 2015 12:39 am


YaCy Coding & Architektur • Re: French Translation update

Date: 2015-09-04 14:09:55

Hello, so I continued updating french locale for non administrative pages and created a Pull Request this time : https://github.com/yacy/yacy_search_server/pull/12
I hope I did the rigth way.Thank you for your help.

Statistik: Verfasst von luc — Fr Sep 04, 2015 1:09 pm


YaCy Coding & Architektur • Translator refactoring

Date: 2015-09-07 21:01:46

Hello, last weeks I began working on french translation files and to my opinion there is a big issue in the Translator system that could be quite easily improved : the fact that keys in \‘.lng\’ locale files are processed as regular expressions. For a non developer and indeed for everyone its quite annoying and error prone : each time a label to translate contains one of the characters used to build regular expressions (like (, {, *...) it have to be escaped or strange behavior may occur during translator processing. Looking deeply at locale files, it seems that true regular expressions are not used.
So I plan to replace regular expression processing in Translator class by simple string search/replace and to remove escape chars in locale files. I will validate this by generating translated files and making diff with old files.
Do you agree with the idea? Or maybe I missed something?

Statistik: Verfasst von luc — Mo Sep 07, 2015 8:01 pm


Solr Support • Re: Too many open files

Date: 2015-09-14 10:54:02

Es gibt aber anscheinend noch andere Hürden.
[โปรโมชั่น คาสิโน]{style=“color: #E1EBF2”}{.postlink}

Statistik: Verfasst von najatuw4646 — Mo Sep 14, 2015 9:54 am


English • Search for videos

Date: 2015-09-17 22:58:01

Hi,

Can i use Yacy for finding specific videos? I installed YaCy on my PC and let it crawl some interesesting Youtube videos. When i search for them afterwards to see if it works it can\’t find any videos..

Something i need to do to make it work?

Have been testing YaCy now for 3 days and i must say it is very hard to use and to understand how everything works.

Statistik: Verfasst von bellie — Do Sep 17, 2015 9:58 pm


YaCy Coding & Architektur • Re: French Translation update

Date: 2015-09-18 11:35:38

as you may have seen, I pulled your changes some time ago. Thank you very much!

Statistik: Verfasst von Orbiter — Fr Sep 18, 2015 10:35 am


YaCy Coding & Architecture • Using WARC as import option & YaCy2 architecture

Date: 2015-09-18 12:02:31

In the conext of a YaCy re-design towards a YaCy2{.postlink} I plan to rip YaCy apart into stand-alone modules, make room for funded (and commercially usable) plug-in parts and then pack the resulting modules again together to different appliances. This could lead to a \‘new\’ YaCy which is compatible to the old network but is composed by the new modules. A target is also to create professional appliance packages which can consist of parts which are not applicable for p2p search but necessary for customers.
Bild
One of the tasks to create that architecture is the identification of standards which the modules of YaCy2 should support. I identified that WARC is really amazing and important and would fit into the YaCys user demand to collect large amounts of web data. WARC is the file standard of the internet archive http://archive.org
There are a lot of interesting applications available to create and process WARC:


I also like to idea that in a YaCy2 architecture we should be able to share on two levels: additionally to p2p index sharing we could do a WARC sharing as well. I consider to add a bittorrent tracker for that together with a WARC archive management to the list of modules which could be glued together to YaCy2.

What do you think? Please try the wget command above and maybe start to collect WARC archives which we can share to bootstrap a huge YaCy2 index when software modules are ready!

Statistik: Verfasst von Orbiter — Fr Sep 18, 2015 11:02 am


Fragen und Antworten • Re: Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Date: 2015-09-18 12:13:24

Du kannst mit den Mitteln die du beschreibst ja schon die Bilder identifizieren die du löschen willst, also mit einem entsprechenden Solr-Query. Dann ist es auch einfach die aus YaCy zu löschen, indem du in /IndexDeletion_p.html im Feld \“Delete by Solr Query\” den Query-Term eingibst.

Statistik: Verfasst von Orbiter — Fr Sep 18, 2015 11:13 am


English • Re: Search for videos

Date: 2015-09-18 12:17:10

When YaCy was created the was no youtube (creepy!) .. I admit that I never tried to crawl youtube. YaCy can identify links to video files and it provides a search option for this (you must switch on \“Video\” in /ConfigSearchPage_p.html ) but this is most probably not the right way to catch links to youtube. Please give this a try, however I consider this a problem to be solved as \‘community portal scraping\’ which is implemented in loklak.org for tweets. We would need something similar for yourtube, I guess.

Statistik: Verfasst von Orbiter — Fr Sep 18, 2015 11:17 am


YaCy Coding & Architecture • Re: French Translation update

Date: 2015-09-18 14:05:41

Yes I saw you pulled it, it is encouraging to continue the work. Hope you will soon have time to take a look at my next request (https://github.com/yacy/yacy_search_server/pull/14). Of course only an advice on it would be welcome.

Statistik: Verfasst von luc — Fr Sep 18, 2015 1:05 pm


Mitmachen • Re: Yacy und Flashcache

Date: 2015-09-18 14:33:27

Can\’t understand the whole machine translation, but here\’s my experience with flashcache.

The hardware configuration at the time I tested flashcache was:


Yacy searches were too slow, with disks overloaded by the amount of I/O ops, so I thought of setting up flashcache.
Unfortunately, I was virtualizing Yacy under Openvz on kernel 3.6.32; flashcache was incompatible with that, so I had to move to KVM instead and upgrade the kernel.
After that, I bought a cheap Kingspec SSD, 64GB, and configured flashcache to cache the raid 1 (/dev/md0) in writethrough mode toward the SSD.

It worked very well on its first days, with read speeds in the magnitude of 100s MB, but after less than two weeks of intense abuse on this overloaded server, the SSD looked like damaged, with write performance dropped down to 300÷500 ĸB/s. The write speed on the SSD were so low that the md0 device would have been faster without the flashcache writethrough. And so I took off the SSD and stopped using flashcache.

I then found out that, apparently, all Kingspec SSDs models don\’t support the trim command and thus lose write performance as soon as all the memory locations are occupied. Any subsequent write on the SSD must then be preceded by an erase to prepare the memory for writing, and this kills the performance. Once a Kingspec is full, its write performance is not recoverable.

Also, flashcache didn\’t support trim at the time I tested it, so even a branded SSD ([is Kingspec a brand?]{style=“font-style: italic”}) with trim support would have dropped its performance, unless a regular trim was scheduled to run at boot.

After all, flashcache looked quite nonfunctional to me.

Statistik: Verfasst von davide — Fr Sep 18, 2015 1:33 pm


English • Re: Search for videos

Date: 2015-09-18 21:34:59

Hi,

I am sorry. Maybe i didn\’t express myself very well. I will try to make it easier:

Please tell me how to make anything appear on the video result page.
Bild
As you see in the screenshot i always get a empty page. No matter what i crawl or search.…

Please give me a example url i can crawl so i can make a video appear in YaCy.

Thank you

Statistik: Verfasst von bellie — Fr Sep 18, 2015 8:34 pm


Fragen und Antworten • Re: Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Date: 2015-09-19 17:27:55

Danke für die Antwort!

Ich werd\’ mir jetzt wohl doch mal das dicke Solr-Buch anschaffen. Ganz ohne Datenbankzugriffe kommt man nicht aus, wenn man eigene Ansprüche umsetzen will. :) Einen beschränkten Workaround hab ich mir mit Privoxy gemacht: Bevor der Crawler und Indexer die Seiten bekommt, entferne ich einfach mal alle Links auf GIFs und PNGs. Was vorher schon weg ist, braucht man später nicht wieder zu entfernen. :)

Statistik: Verfasst von fherb — Sa Sep 19, 2015 4:27 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-09-20 20:55:55

Sounds good!

Since 2014, I\’m automatically recording nearly all the pages I visit with the shelve{.postlink} firefox add-on , and I\’m planning to convert the data to WARC files using Wget and then build my private waybackmachine{.postlink} with openwayback{.postlink}. Of course, I will use YaCy as search engine.

Statistik: Verfasst von David — So Sep 20, 2015 7:55 pm


English • YaCy at libraries?

Date: 2015-09-20 22:29:04

Dear all,

A while ago, a Swedish government investigator proposed to construct a public service search engine in Sweden as part of a new government media strategy. The reason is that there is fear Google and other similar search engines bias information in favour of specific commercial parties, and hopefully also a critical analysis of how centralized search engines intransparently can affect social values and bias stereotypes (although I am personally unconvinced that this latter reason is at the heart of the proposal).

I\’m now looking for people who\’d be able to collaborate in Sweden for running a few YaCy pilots at libraries in different cities. This could have the advantage of pre-empting any proposal to build a new search engine from scratch (which would be prohibitively expensive, and also probably not work out well), and would also ensure the involvement of more libraries - including at the local level - in new digital tools.

There are a few libraries in Sweden who could conceivably be interested in such a pilot, I have understood. My background is not, however, technical and I\’m not a YaCy developer or even a YaCy server provider. I\’m wondering if there are any Swedes around, or failing that, Danes or Norwegians, and if they would be inclined to donate their time, name and expertise to such a project in further contacts with municipalities?

For many libraries in Sweden, initiating IT projects is quite cumbersome because they need to involve public administrations outside the libraries. In many cases IT is entirely integrated over the entire municipality. For this project to work, we\’d have to be able to provide information on how to deal with YaCy in such a system (my local municipality is, for instance, unable to participate because of a Citrix-system which makes it complicated for the library to initiate even simple projects on its own).

If this sounds interesting, drop me a line. I don\’t have much more planned out at the moment. I also have no financial resources for this project (yet).

Statistik: Verfasst von teirdes — So Sep 20, 2015 9:29 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-09-21 09:18:40

At Common Crawl they also use WARC format to store very huge crawl archives on Amazon WS : http://commoncrawl.org/the-data/get-started/. Maybe their data could also be a source to feed some YaCy nodes?

Statistik: Verfasst von luc — Mo Sep 21, 2015 8:18 am


Fragen und Antworten • Indexed vs. Crawled

Date: 2015-09-22 00:18:40

Hallo!

Eventuell (, wenn ich das jetzt nicht alles falsch sehen), wären auf /Crawler_p.html eigentlich einige Änderung der Bezeichnung notwendig (oder auch mehr inhaltlich):

Grundsätzlich stört mich ein wenig, dass auf der Seite in der Darstellung nicht klar ersichtlich ist: Welche/wie viel Seiten werden ercrawlt und welche/wie viel indiziert: Also vor allem in den angezeigten Werten. Im Prinzip sind zwar die Überschriften zu den Werten klar. Aber nach meiner Beobachtung eben auch nicht:

1) Prinzipiell erscheinen unter \“Running Crawls\” nicht alle Seiten, die geladen werden, sondern nur die, die indiziert werden. Das ist natürlich an der Stelle auch sehr nützlich. Mich interessieren ja die Links auf die Indizierung der Seiten, die indiziert werden. Damit ist aber die Überschrift \“Crawled Pages\” falsch.

2) Das Gleiche unter \“Fortschritt\”: Es werden nach meiner Beobachtung auch weitere Seiten im Hintergrund gecrawlt (was man u.a. in den abgelehnten URLs sieht), die zwar auf Links ausgewertet werden, aber nicht indiziert werden (was ich unter crawling verstehe). Unter Fortschritt werden aber offenbar nur die indizierten Seiten angezeigt. In Verbindung mit dem Datentraffic halte ich das aber nicht für richtig: Denn wenn ich den Regex für\’s Indizieren sehr stark einschränke, aber alle Pages einer Domain ercrawle, dann kann ich unter Umständen erreichen, dass hier nur \“5 Seiten pro Minute\” angezeigt werden, wärendessen aber im Hintergrund 100 Seiten pro Minute herunter geladen werden.

Oder täusche ich mich?

Wenn nicht, ist das in gewisser Weise gefährlich: Ercrawle ich eine einzige Domain mit sehr speziellen Indizierungsregeln, kann ich hier nämlich nicht mit der Wahl der Geschwindigkeit einstellen, wie stark ich den Server der Domain mit dem Crawling belaste. Ich kann nur einstellen, wie viele Seiten ich im Mittel indiziere. Sind das durch entsprechend sinnvoll gesetze Regex-Ausdrücke aber nur ein paar Prozent der Links, die der Crawler auf den Seiten findet, dann belastet er den Server mehr, als vorgesehen.

Man kann das auch sehr schön am Traffic sehen: Obwohl minutenlang unter Fortschritt 0 Crawler PPM angezeigt werden, vergrößert sich der Daten-Traffic. Das sind dann alles Seiten, die nur auf Links ausgewertete werden, die ich aber explizit mit einem Regex nicht zur Indizierung vorgesehen habe. Wenn das aber so ist, bedeutet das, dass der Regelkreis für die PPM voll aufdreht, weil er als Istgröße die indizierten Seitenzahlen erhält. Oder? Oder regelt er im Hintergrund auf den tatsächlichen Traffic?

Ich hab ein wenig Angst, dass mir mal ein Betreiber einer Site auf\’s Dach steigt, weil ich seinen Server über Tage zu sehr belaste. Ich hab extra grundsätzlich nur 30 Seiten/Minute eingestellt. Wenn ich aber nur 10% der Seiten im Mittel indiziere, können das auch 300 Seiten pro Minute im Crawling sein. Oder?

Wunsch: Vielleicht wäre eine zukünftige Alternative, den Regelkreis auf MByte/Minute (also den Traffic) zu normieren. Alternativ auf maximalen Traffic pro Domain oder auf den gesamten Traffic.

Viele Grüße
Frank

PS: Gerade hab ich ein wenig weiter überlegt: Wenn ein 0-8-15-Nutzer unter Freewolrd Crawls startet und sich wenig Gedanken macht, kann der Crawl auch schon mal durch erlaubte ?-URLs tagelang im Kreise laufen. Insbesondere bei Foren, wo oft zu einer Seite unzählige ?-Links laufen, da jeder Kommentar damit adressiert wird. Vielleicht habt ihr abgesichert, dass dann die Crawl-PPM nicht zu hoch werden. Vielleicht aber auch nicht.

Statistik: Verfasst von fherb — Mo Sep 21, 2015 11:18 pm


English • Typo error on http://yacy.net/fr/Philosophie.html

Date: 2015-09-23 02:06:04

Hi,

I noted a typo error:

\“La société de l\‘information du 21ème siècle repose sur la [[[[librerté]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“text-decoration: underline”}]{style=“font-weight: bold”} d\‘accès à toutes les informations publiques.\”

Statistik: Verfasst von Theoask — Mi Sep 23, 2015 1:06 am


English • Multi-threaded access to SOLR index and RAID1 load balancing

Date: 2015-09-24 02:25:13

We can expect that a consistent portion of the major high-end YaCy nodes out there with large indexes store their laboriously-crawled data into some sort of redundant RAID, to prevent data corruption worth months of crawling.

In my particular node, I have a medium-sized index with 21M records making up for 220GB of storage, mirrored on a two-disks software RAID1 driven by Linux md driver.
The md RAID1 driver is capable of splitting concurrent read requests across its component devices, thus increasing the read speed almost proportionally to the number of devices.
To take this advantage, however, md needs the requests to come from different threads. If this is the case, the amount of IOPS across the mirror can increase to appreciable values even for mechanical disks, maybe high enough for YaCy to provide responsive local results in a \“realtime\” delay.

However, running a YaCy search query on the local index does not appear to distribute the load across the RAID devices; one of the two disks receives 10 times more read requests than the other, as reported by `atop`. For this, it appears that YaCy (SOLR) performs most of the intensive index reads from a single thread, and doesn\’t take advantage of the full hardware potential, which could be multiple times higher on large RAID setups.

If this is correct, how could the issue be worked around?

Statistik: Verfasst von davide — Do Sep 24, 2015 1:25 am


YaCy Coding & Architecture • Re: French Translation update

Date: 2015-09-24 18:40:36

No problem, it think it was not so much work compared to translating or updating a full locale file. That\’s why I did the refactoring to help myself and anyone maintaining locale files as I feel it is very important to have a translated UI to enlarge YaCy users population.

Statistik: Verfasst von luc — Do Sep 24, 2015 5:40 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-09-24 18:51:34

To eventually build an index upon theses commoncrawl datasets I suppose it would require some Hadoop programming skills to run the jobs on Amazon EC2 or another cloud. It would certainly take some time but seems very interesting... despite the fact that these data are stored on a commercial and centralized cloud system.

Statistik: Verfasst von luc — Do Sep 24, 2015 5:51 pm


English • Re: Search for videos

Date: 2015-09-25 08:52:01

I tried indexing my own site which has also MP4 video files on it. These video files can easily be downloaded by a visitor. Still YaCy can\’t find them......

The searching of videos isn\’t important. I posted that question more to see if there is any support community. :oops:

I know enough. Going to use Sphider Plus instead.

Statistik: Verfasst von bellie — Fr Sep 25, 2015 7:52 am


English • Re: Search for videos

Date: 2015-09-25 10:54:41

No, [that]{style=“font-style: italic”} looks ridiculous, and is based upon the brainless mysql. To begin with, the Sphider FAQ itself reveals what kind of crashes are commonly encountered because of the underlying mysql defects.

For crawling a single website, you might have better luck with Open Search Server. Its indexer isn\’t as well context-aware as Yacy\’s though as it can only perform AND or OR queries, while Yacy ranks documents upon dozens of scores. Also, OSS consumes much more RAM, and AFAIK there are no proven OSS installations with indexes as large as the ones found in medium-size Yacy peers.

BTW, with the current Yacy version 1.839328 video search seems broken.

Statistik: Verfasst von davide — Fr Sep 25, 2015 9:54 am


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 17:20:58

Have you tried pushing yacy into realtime
Experment with http://www.thegeekstuff.com/2013/08/nic ... -examples/{.postlink}
Create a syacy.sh to launch YACY
I think it puts it at a lower Priority than you set so just increase or decrease until desire level is found.
nice -10 .…

Statistik: Verfasst von smokingwheels — Fr Sep 25, 2015 4:20 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 17:36:50

Priority level is likely entirely unrelated to the amount of IO threads.

Statistik: Verfasst von davide — Fr Sep 25, 2015 4:36 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 18:30:34

PM the server address I will give you a bit of a load test please...

Statistik: Verfasst von smokingwheels — Fr Sep 25, 2015 5:30 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 18:45:53

No problem, here\’s a temporary address – will become public in a minute – tts.hwcharts.com:8090 .

Do to it whatever you desire, make it collapse if needed, so we can understand weaknesses.

Statistik: Verfasst von davide — Fr Sep 25, 2015 5:45 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 19:01:47

Nevermind, the server is offline for bugs in KVM.
I have no time for this now.

BTW, a moment ago it was online, and yacy refused connections from external IPs, only 192.* and 127.* were allowed.

Statistik: Verfasst von davide — Fr Sep 25, 2015 6:01 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 20:50:57

Try this...
nano crontab
*/1 * * * * apt-get update
*/whatever you think is a random number 1-59 * * * * apt-get update



ctrl x
Y
#acdc \@smokingwheels

Statistik: Verfasst von smokingwheels — Fr Sep 25, 2015 7:50 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 20:52:01

OK, I upgraded KVM and the VMs are up.

Still my question remains: does Yacy perform multi-threaded reads? Does it take advantage of software RAID?
Why is Flashcache so dear to some user (Botec{.postlink}, apparently), to even deserve a space in the documentation{.postlink}, if Yacy apparently isn\’t even able to properly use RAID?

Statistik: Verfasst von davide — Fr Sep 25, 2015 7:47 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-25 20:56:02

davide hat geschrieben:\ OK, I upgraded KVM and the VMs are up.\ \ Still my question remains: does Yacy perform multi-threaded reads? Does it take advantage of software RAID?\ Why is Flashcache so dear to some user ([Botec](http://www.yacy-websuche.de/wiki/index.php?title=Yacy_und_Flashcache&action=history){.postlink}, apparently), to even deserve [a space in the documentation](http://www.yacy-websuche.de/wiki/index.php/Yacy_und_Flashcache){.postlink}, if Yacy apparently isn\'t even able to properly use RAID?\



Hey my Dad was a Z80 programmer and found mistakes with rodney zakx..

[When he found a new error he used to be like a little kid and pensel it in and tell me about it]{style=“font-weight: bold”}

Statistik: Verfasst von smokingwheels — Fr Sep 25, 2015 7:56 pm


YaCy Coding & Architecture • Multi-threaded access to SOLR index and RAID1 load balancing

Date: 2015-09-25 21:06:06

[Note:]{style=“font-weight: bold”} this is an intentional double post of viewtopic.php?f=23&t=5683{.postlink-local} . That thread took an inappropriate shape and is best to close it.

We can expect that a consistent portion of the major high-end YaCy nodes out there with large indexes store their laboriously-crawled data into some sort of redundant RAID, to prevent data corruption worth months of crawling.

In my particular node, I have a medium-sized index with 21M records making up for 220GB of storage, mirrored on a two-disks software RAID1 driven by Linux md driver.
The md RAID1 driver is capable of splitting concurrent read requests across its component devices, thus increasing the read speed almost proportionally to the number of devices.
To take this advantage, however, md needs the requests to come from different threads. If this is the case, the amount of IOPS across the mirror can increase to appreciable values even for mechanical disks, maybe high enough for YaCy to provide responsive local results in a \“realtime\” delay.

However, running a YaCy search query on the local index does not appear to distribute the load across the RAID devices; one of the two disks receives 10 times more read requests than the other, as reported by `atop`. For this, it appears that YaCy (SOLR) performs most of the intensive index reads from a single thread, and doesn\’t take advantage of the full hardware potential, which could be multiple times higher on large RAID setups.

If this is correct, how could the issue be worked around?

Statistik: Verfasst von davide — Fr Sep 25, 2015 8:06 pm


Fragen und Antworten • Inhalt von Datenbanken übertragen

Date: 2015-09-25 22:54:37

Sorry, wenn ich schon wieder nerve. ;)
Scenario: Auf einem YaCy crawle ich. Auf einem Zweiten ist das Suchinterface. Vom ersten YaCy übertrage ich die SOLR-Datenbank mit der Export-Funktion und lege sie im Zweitem im Ordner /SURROGATES/in ab. Dann wurschtelt der Prozessor eine Weile und ich kann im Zielsystem sehen, wie die Zahl der Datenbankeinträge steigt. In meinem aktuellen Fall bleibt die Anzeige aber bei ca. einem Drittel der Dokumentenzahl gegenüber dem Quellsystem stehen und das System arbeitet noch eine Weile. Wenn fertig habe ich im Quellsystem 24734 Datensätze und im Zielsystem nur 7912. Das Solr-Schema ist auf beiden Systemen absolut identisch. Wie kommt das?

Gibt es Datensätze, die beim Crawlen erstellt werden, aber beim Export->Surrogates-Import nicht mit übertragen werden?

Viele Grüße
Frank

Statistik: Verfasst von fherb — Fr Sep 25, 2015 9:54 pm


Fragen und Antworten • Re: Inhalt von Datenbanken übertragen

Date: 2015-09-25 23:10:58

Sorry, Sorry. Ich war zu ungedultig! Nach um die 15 Minuten erholte sich die angezeigte Zahl der indizierten Artikel auf einmal! Schlagartig war es die richtige Größenordnung um die 24000.

Statistik: Verfasst von fherb — Fr Sep 25, 2015 10:10 pm


English • Re: Translation (suggestion for the developers)

Date: 2015-09-25 23:33:37

Hi guys,

I\’m trying translate yacy to Brazilian Portuguese language. I\’ve already done 20 % of translation.

Is there any web site or tool to share my translation for other people improve it?

Statistik: Verfasst von wendelrj — Fr Sep 25, 2015 10:33 pm


English • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-27 00:11:39

[I don\’t know if I am doing that right, but this forum had two more postings which I just deleted because I believe their content was too emotional. One poster requested to continue in another thread which is now here: viewtopic.php?f=8&t=5684{.postlink-local}]{style=“font-style: italic”}

Statistik: Verfasst von Orbiter — Sa Sep 26, 2015 11:11 pm


YaCy Coding & Architecture • Re: Multi-threaded access to SOLR index and RAID1 load balan

Date: 2015-09-27 00:25:33

davide hat geschrieben:\ However, running a YaCy search query on the local index does not appear to distribute the load across the RAID devices; one of the two disks receives 10 times more read requests than the other, as reported by \`atop\`. For this, it appears that YaCy (SOLR) performs most of the intensive index reads from a single thread, and doesn\'t take advantage of the full hardware potential, which could be multiple times higher on large RAID setups.\


I don\’t know if RAID1 does load balancing and wikipedia says{.postlink}: \“Actual read throughput of most RAID 1 implementations is slower than the fastest drive.\”
Your question has also a second component \“it appears that YaCy (SOLR) performs most of the intensive index reads from a single thread\”: this is a correct observation. The write operations in the yacy-integrated solr is single-thread only on purpose.
Reason: solr provides concurrent multi-instance queries with several threads using a solr shard option, called a \“solr cloud\“. This requires that you set up several solr servers and configure them to opperate as solr cloud. Then you can assign this cloud to YaCy as external solr - the solr cloud appears to be a single instance for YaCy. As the operator of the solr cloud, you can place their database files on different discs. This sounds like a complex solution, but it is also the most appropriate one because it is a bad idea to do concurrent write/read operations on a single disc.

Statistik: Verfasst von Orbiter — Sa Sep 26, 2015 11:25 pm


Fragen und Antworten • Wert \‘pending in collecton\’

Date: 2015-09-27 13:22:46

Hi :)
Aus welcher Datei kommt der Wert für \‘pending in collection\‘?

Leider habe ich im Ordner \‘DATA/INDEX/webportal/QUEUES\’ keine Datei/Queue finden können, die vom Namen her den Rückschluss auf diesen Wert zulässt.
Oder kommt dieser Wert direkt aus dem Solr?

Statistik: Verfasst von freak — So Sep 27, 2015 12:22 pm


English • Re: Search for videos

Date: 2015-09-28 14:33:39

Try a search smokingwheels site:youtube.com
You have to index each video URL.Thats what I did.

Yacy can quirey loklak.org as an RSS feed so you can get them that way.

Let me know how you go.

Statistik: Verfasst von smokingwheels — Mo Sep 28, 2015 1:33 pm


Panorama • E-Mail Client with Forward Secrecy

Date: 2015-10-02 09:39:28

First E-Mail Client with Forward Secrecy (either symmetric or asymmetric encryption) released

http://spot-on.sourceforge.net/email.html

Bild

Statistik: Verfasst von cometogether — Fr Okt 02, 2015 8:39 am


Mitmachen • Re: Import von Lesezeichen

Date: 2015-10-04 18:59:48

Ich habe im Wiki eine Seite zum Importieren von Lesezeichen angelegt: http://www.yacy-websuche.de/wiki/index.php/De:Bookmarks

Statistik: Verfasst von Uhura — So Okt 04, 2015 5:59 pm


English • Slow 2 X AMD Opteron 2373 Quadcore 2,1Ghz 64GB server

Date: 2015-10-06 16:53:32

Hi.

I am running a server with 2 X AMD Opteron 2373 Quadcore 2,1Ghz (8 cores in total) and 64 GB of ram mostly dedicated to Yacy (16GB of ram for yacy) and I have been doing a few tweaks here and there to try and get it up to speed with no luck.
OS : Ubuntu 14.04 Server

Main issue right now is that I a only getting ~500 ppm whilst my CPU;s are almost maxed out, that can\’t be right?

Anyone out there with some suggestions of where things might have gone wrong?

Statistik: Verfasst von usern — Di Okt 06, 2015 3:53 pm


YaCy Coding & Architecture • Extend Image preview formats support

Date: 2015-10-06 21:10:54

Hi everyone, currently, file formats support is quite limited in YaCy Images search results preview.
As far as I know, on current github version only major formats are correctly displayed : png, jpeg, bmp, ico plus gif and svg unscaled (if anyone is interested I started a test file to check it : https://github.com/luccioman/yacy_search_server/tree/master/test/viewImageTest).
Don\’t you think it would be interesting to have some more image formats rendered in thumb preview, such as JPeg2000 or Tiff as they are not so uncommon?

As Java SE JDK doesn\’t support theses formats, additional libraries such as https://github.com/haraldk/TwelveMonkeys could be used.
A small refactoring would be necessary on ViewImage.java : javax.imageio.ImageIO.read(URL) would be used instead of java.awt.Toolkit .createImage(URL). This way using JDK SPI system of ImageIO, future new image formats could be easily added with no more refactoring needed on ViewImage.

Do you think it is a good idea? I am ready to implement and test this but if anyone is already on this subject I let this to you.

Another point of view could be to stop rendering image previews with YaCy ViewImage class and rely solely on browser rendering with its eventual plugins... Maybe a configuration option could let user switch between the 2 rendering systems? Maybe someone have other suggestions?

Statistik: Verfasst von luc — Di Okt 06, 2015 8:10 pm


English • Re: Slow 2 X AMD Opteron 2373 Quadcore 2,1Ghz 64GB server

Date: 2015-10-07 10:50:06

Maybe the garbage collector?
The intro documentation for SOLR recommends to never exceed 16GB of RAM per single SOLR instance, to avoid GC maxing out the CPU. Try to reduce the VM RAM to something lower.

For comparison, during crawling I have a constant load factor of 2 on a xeon L5410 with 4GB for the VM.

Statistik: Verfasst von davide — Mi Okt 07, 2015 9:50 am


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-07 12:19:07

luc hat geschrieben:\ Do you think it is a good idea? I am ready to implement and test this but if anyone is already on this subject I let this to you.\


Thats a very good idea: I had a look at the formats which TwelveMonkeys supports and I found a lot of document types which are usually stored in file systems. Because YaCy also indexes intranets/file systems, this would be of great use.

luc hat geschrieben:\ Another point of view could be to stop rendering image previews with YaCy ViewImage class and rely solely on browser rendering with its eventual plugins\... Maybe a configuration option could let user switch between the 2 rendering systems? Maybe someone have other suggestions?\


I tested this already in the context of https://github.com/yacy/yacy_webclient_bootstrap which is rendering the image results with the browser. This is actually much better if the images are not too big (which is the common case) but it would not work with the file formats not appropriate for the browser. Maybe we can mix up the display using rendering in the browser or with viewImages as it is appropriate for the corresponding file format/size!

Statistik: Verfasst von Orbiter — Mi Okt 07, 2015 11:19 am


English • Re: Slow 2 X AMD Opteron 2373 Quadcore 2,1Ghz 64GB server

Date: 2015-10-07 18:12:03

I guess a daily mean of 180 PPM, peaking at 500 with load of 6 on 4 cores.
Running at 200 PPM the load is about 2÷2,5, with most of it being disk IO latency (CPU wait time).

[EDIT:]{style=“font-weight: bold”} BTW, I would try to further lower your VM memory, maybe to 4 GB, just to have a valid comparison and see if the load decreases. In case, you might consider using a different java VM with better CG.

Also, check what makes up the load. It might just be IO latency.

Statistik: Verfasst von davide — Mi Okt 07, 2015 5:12 pm


English • Re: Slow 2 X AMD Opteron 2373 Quadcore 2,1Ghz 64GB server

Date: 2015-10-07 18:17:10

Thank you for your answer.

I lowered yacys memory to 10000 instead of 16000MB and noticed that I am running low on disk so I am setting up another disk in the server, nothing to do with the high CPU though.
Gonna have to post back once I am up and running.

Wow, a load of only 2, what kind of PPM are you getting in the long run?

BTW : I am running Yacy directly on the server, not in a VM.

Statistik: Verfasst von usern — Mi Okt 07, 2015 5:03 pm


English • Re: Slow 2 X AMD Opteron 2373 Quadcore 2,1Ghz 64GB server

Date: 2015-10-08 03:55:07

May help not to sure because I had a system under 50% CPU load and the crawler would pause all the time.
I had to fight with the settings below to get them to survive a restart.
Editing yacy.config and the web interface.

Go to /PerformanceQueues_p.html

Local Crawl milliseconds milliseconds kbytes load

Try increasing the load setting to see if this stabeizes the ppm.
For a single CPU core in Debian mine is set at 6.
My P4 HT 3 is set at 32.

You could change the milliseconds but you may loose your reputation for being a well behaved robot...
You could setup a few remote VM\’s and enable remote crawl but then everybody can use them.

Statistik: Verfasst von smokingwheels — Do Okt 08, 2015 2:55 am


English • Block unwanted Traffic (Hosts File)

Date: 2015-10-08 04:17:41

I run this everywhere, Debian as well.

See
# This MVPS HOSTS file is a free download from: #
# http://winhelp2002.mvps.org/hosts.htm #
# #

This is just the start of the list

0.0.0.0 fr.a2dfp.net
0.0.0.0 m.fr.a2dfp.net
0.0.0.0 mfr.a2dfp.net
0.0.0.0 ad.a8.net
0.0.0.0 asy.a8ww.net
0.0.0.0 static.a-ads.com
0.0.0.0 atlas.aamedia.ro
............................…

Statistik: Verfasst von smokingwheels — Do Okt 08, 2015 3:17 am


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-08 12:21:35

I hadn\’t initially thought to file system indexing use case : in fact it especially make sense in this context.
As soon I have time I will first try playing with TwelveMonkeys library and add some performance and non-regression tests.

Statistik: Verfasst von luc — Do Okt 08, 2015 11:21 am


English • Re: Translation (suggestion for the developers)

Date: 2015-10-08 19:35:42

Hey wendelrj,

sorry for my late answer, yes your work is very welcome!
To submit your work, please fork the yacy repository from https://github.com/yacy/yacy_search_server to your own repository, then push your changes into that and then open a merge request. I will then post our request for help on the \@yacy_search twitter account and everyone can use+enhance your work.

Statistik: Verfasst von Orbiter — Do Okt 08, 2015 6:35 pm


Hilfe für Einsteiger und Anwender • Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-09 22:51:05

Hallo und guten Tag, wer kann mir bitte helfen? Habe die Dateien tar.gz von der Yacy Seite für Linux Mint heruntergeladen. Die Dateien werden auch durch den Manager entpackt aber was muss ich dann machen? Ich finde keinen Icon für Yacy auf dem Schreibtisch um den anklicken zu können. Vor vielen Monaten lief Yacy bei mir schon einmal auf Linux sehr gut. Aber ich war der Meinung dass ich da andere Dateien bekam, die sofort Yacy öffneten. Aber das habe ich leider vergessen.

Statistik: Verfasst von 1hartmann — Fr Okt 09, 2015 9:51 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-10 00:00:07

es gibt im YaCy-Verzeichnis ein Startscript namens startYACY.sh
Ob diese Datei in einem Linux-GUI anklickbar ist oder nicht hängt vo, OS und der GUI der OS ab. Ob das in Linux Mint geht weiss ich nicht.
Du musst ein Terminal öffnen, mit \‘cd\’ in das YaCy-Verzeichnis wechseln und mit
./startYACY.sh
YaCy starten, wenn sich keine andere Möglichkeit bietet.

Statistik: Verfasst von Orbiter — Fr Okt 09, 2015 11:00 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-10 23:54:47

Danke Orbiter, aber leider funktioniert das nicht. Ich habe natürlich schon gewusst dass es in der Datei tar.gz von YaCy eine Datei start.sh gibt, aber wenn ich diese anklicke öffnet sich nur ein Beschreibungsblatt und da stehen soviele kyrilische Zeichen drauf. Mit denen kann ich nichts anfangen. Dann habe ich das Terminal geöffnet und \‘cd\’ eingegeben und auch cd ohne diese Angabestrichel. Da passiert garnichts. Und wenn ich ./startYACY.sh eingebe kommt immer: Datei oder Verzeichnis nicht gefunden. Ich bin echt am verzweifeln, ich bekomme seit vielen Monaten die Dateien mit tar.gz und tar.bz2 nicht geöffnet und ausführbar. Habe schon soviel gegoogelt und Anwendungen und Vorschläge ausprobiert.…und nichts hat geholfen.

Statistik: Verfasst von 1hartmann — Sa Okt 10, 2015 10:54 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-11 10:19:25

Hi Hartmann,

ich bin kein Linux-Mint Nutzer, aber vllt helfen Dir diese Angaben weiter:
Öffne ein Terminalfenster und probiere diese Befehle aus (ohne das Dollarzeichen).
\$ mlocate startYACY.sh
oder
\$ find /usr -iname \”*startYACY*\” -ls

Beide Befehlen sollten Dir den Pfad zu dem Verzeichnis geben, in dem sich \‘startYACY.sh\’ befindet. Wechsele in dieses Verzeichnis mit
\$ cd <PFAD-ZU-STARTYACY.SH>

In diesem Verzeichnis führst Du dann den Befehl
\$ ./startYACY.sh
aus.

Ich hoffe es klappt dann.

Viele Grüße
lux

Statistik: Verfasst von lux — So Okt 11, 2015 9:19 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-11 11:38:49

Also, the \“no such file or directory\” might refer to the java runtime, in which case you could:

Code:
apt-get install openjdk-7-jreorsudo apt-get install openjdk-7-jre

Statistik: Verfasst von davide — So Okt 11, 2015 10:38 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-11 16:43:10

Ich danke Euch für die Bemühungen. Aber wo das Verzeichnis der Entpackung ist...das wusste ich schon immer. Meine Frage war wie ich diese tar.gz Dateien richtig entpacke. Irgendwie und wo muss ich einen Gedankenfehler machen. Entpacken kann ich über den Manager diese Dateien, aber ich weiss dann nicht weiter. Es entsteht kein Icon wie bei Windows wo ich einfach draufklicken kann und es öffnet sich das Programm. Funktioniert bei vielen Dateien in Linux aber auch. Dann habe ich alles Vorgeschlagene von Euch ins Terminal eingegeben und schaut das Ergebnis im Anhang. Nichts passiert.

Statistik: Verfasst von 1hartmann — So Okt 11, 2015 3:43 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-11 18:08:53

Error YaCy 1.pngError Yacy 2.pngError yacy 3.png

Habe alles versucht bis jetzt mit mehreren Befehlen über die Pakete, aber nichts hat geholfen. Schaut bitte hier die neuen Snaps.

Statistik: Verfasst von 1hartmann — So Okt 11, 2015 5:08 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2015-10-11 20:09:27

another encrypted search engine (gui) based on the spot-on search kernel.

http://goldbug.sourceforge.net/

Bild

Statistik: Verfasst von cometogether — So Okt 11, 2015 7:09 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-11 21:32:18

Given your setup, to start Yacy you just need to enter:

Code:
cd /home/peter/Downloads/yacy./startYACY.sh



In case it bothers with some \“java not found\“, then:

Code:
apt-get install openjdk-7-jre


and repeat ①.

In Windows this would be a matter of 1 click, in case you are pondering.

Statistik: Verfasst von davide — So Okt 11, 2015 8:32 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 00:27:21

Hello Davide, thanks for the reply. But I can not speak English. Can you German? Because you can give technical answers me? but I do not come on. It always come these messages. But it comes at no Yacy.

hallo davide, danke für die antwort. Aber ich kann kein Englisch. Kannst Du Deutsch? Weil Du mir technische Antworten geben kannst? aber ich komme nicht weiter. Es kommen immer diese Meldungen. Aber es geht kein Yacy auf.

Statistik: Verfasst von 1hartmann — So Okt 11, 2015 11:27 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 01:22:08

Hi, ein tar.gz - File entpackst du mit

tar xfz <filename>

genau wie hier im Tutorial:
https://youtu.be/iqJuf_EA1UE?t=71

Statistik: Verfasst von Orbiter — Mo Okt 12, 2015 12:22 am


Off-Topic • Re: Gigantisches Botnet entdeckt

Date: 2015-10-12 07:47:12

LA\_FORGE hat geschrieben:\ Vielen Dank! Ja, es sind auch zahlreiche Tor-Exit-Nodes sowie VPN-Provider mit dabei. Ich habe zusätzlich zum Snort, das leider nicht alle Netze der Schurken kennt (trotz Einbindung der Emerging Threads und anderer zusätzlicher Regelsätze), eine Sperrliste mit Netzen erstellt, die mittlerweile [6000 Netze](http://pastebin.com/ZnvvnPX5){.postlink} enthält. Es macht keinen sinn einzelne IPs zu sperren, da in einem Netzbereich meistens mehrere Systeme kompromittiert sind (Die Anzahl dieser Systeme liegt meist im 2-stelligen Bereich) ich sperre dann lieber gleich /24 bzw. wenn das Netz noch größer ist gleich /16.\






Ich kann Dich gut verstehen
Ich stimme mit dieser Ansicht.

Statistik: Verfasst von maxiglaessel — Mo Okt 12, 2015 6:47 am


Suchmaschinen • Re: Ich war bei Google... (\“intimate and exclusive event\“)

Date: 2015-10-12 07:49:53

Orbiter hat geschrieben:\ fand ich total plausibel. Da haben wir tatsächlich nochmal in der Bar drüber gesprochen. Das ist zum Teil eine Methode um Resourcen besser zu nutzen denn man braucht ja keine Extra-RAID Rechner und dann habe ich nochmal spezielle Eigenschaften des IO beim Indexieren angesprochen (sequentielles Schreiben ohne interrupt dazwischen) aber der Google-Mitarbeiter hatte entweder davon keine Ahnung oder wollte nix sagen.\ \ Ach ja und dann haben wir über die Unmengen von Videos gesprochen die nur ein mal angeguckt werden (vom Uploader ![:?](http://forum.yacy-websuche.de/images/smilies/icon_e_confused.gif "Confused") ): es gibt keine Bestrebungen solche sachen irgendwann zu löschen weil es eh niemand anguckt: \"Speicher ist soo billig\" sagte er.\



Ja,klar. Ich finde, es ist sehr gut und bedeutet.

Statistik: Verfasst von maxiglaessel — Mo Okt 12, 2015 6:49 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2015-10-12 07:52:40

Das sieht sehr gut aus. Eine neue und gute Suchmaschine!

Statistik: Verfasst von maxiglaessel — Mo Okt 12, 2015 6:52 am


Off-Topic • Re: yacystats Neuauflage?

Date: 2015-10-12 07:55:52

Das sieht sehr gut aus. Ich finde, einen Versuch ist es wert. Daher es ist sehr toll.

Statistik: Verfasst von maxiglaessel — Mo Okt 12, 2015 6:55 am


Hilfe für Einsteiger und Anwender • Re: file:// links in der Suche nicht zu öffnen

Date: 2015-10-12 07:57:57

Orbiter hat geschrieben:\ ja da gabs sowas, kann aber jetzt schlecht nachgucken weil ich bis Montag keinen Rechnerzugang habe, bin auf Reise\....\ Allerdings ist der Knackpunkt bei der Intranetsuche ja, dass du keine Kopie des Dokumentes öffnest sondern das Original, so dass du es auch bearbeiten und speichern kannst. Deswegen sind da solche passenden Plugins besser.\



Ja, klar. Ich denke, ich weiß die Gründe.
So super.

Statistik: Verfasst von maxiglaessel — Mo Okt 12, 2015 6:57 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 18:45:43

Danke für die Antwort Orbiter, aber das Video läuft viel zu schnell, er spricht viel zu schnell. Ich kann das nicht verstehen weil ich kein Englisch bringe. Mit 60 Jahren habe ich auch keine grosse Lust noch Englisch zu lernen. Kannst Du mir das bitte vielleicht einmal aufschreiben wie ich einzeln vorgehen muss? Denn Du siehst ja dass ich eingeben kann an Befehlen was ich will, es wird nicht entpackt oder die Dateien nicht gefunden. Und wenn ich ins Terminal Deinen Befehl:
tar xfz <yacy_v1.82_20150121_9000.tar.gz> eingebe passiert garnichts. Ausserdem fehlt mir noch das Paket: open jkd-7-headless. Wie kann ich das runterladen?
Das was mich verwundert ist dass ich früher das Yacy schon mal in Linux drauf hatte und da ging es ganz einfach. Aber ich hatte es nicht über die Originalseite gezogen sondern über eine Fremdquelle. Und das war eine Datei die nicht tar.gz war sondern wenn ich draufgeklickt hatte war yacy sofort geöffnet. ich musste dann nur noch den Port freigeben. leider weiss ich nicht mehr was das für eine Art Datei war und wo ich diese gefunden hatte.

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 5:45 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 18:48:00

Hier noch ein Snap

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 5:48 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 23:04:56

So noch einmal Danke für Eure Bemühungen. Yacy konnte ich in der Zwischenzeit installieren und hat sich geöffnet. Nun kommt leider das nächste Problem, es wird eine Autofizierung verlangt. Aber ich wollte mich eigentlich anmelden. Wenn ich diese Autofizierung wieder abbrechen muss, dann ist yacy wieder weg. Also muss ich wieder localhost:8090 eingeben und es ist wieder da. Aber ich finde nichts zum Anmelden.

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 10:04 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-12 23:15:33

Hier noch ein Dateianhang.

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 10:15 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-13 00:20:25

Und hier die Meldung des Admin: Das YaCy Zugriff auf Administratoren beschränkt. Wenn Sie das Passwort nicht kennen, können Sie es mit Hilfe ändern <YaCy-home> /bin/passwd.sh <new-password

Wie kann ich das machen?

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 11:20 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-13 00:21:30

Also ich habe alle Browser ausprobiert, es wird überall ein Serverpasswort verlangt.

Statistik: Verfasst von 1hartmann — Mo Okt 12, 2015 11:21 pm


Off-Topic • Re: Java Tutorials

Date: 2015-10-13 09:36:53

Ansonsten ist http://www.javavideokurs.de auch ganz gut aufgebaut. Das fehlt hier in der Liste! ;)

Statistik: Verfasst von Majora — Di Okt 13, 2015 8:36 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-13 09:38:54

1hartmann hat geschrieben:\ Und hier die Meldung des Admin: Das YaCy Zugriff auf Administratoren beschränkt. Wenn Sie das Passwort nicht kennen, können Sie es mit Hilfe ändern \ /bin/passwd.sh \



Halle 1hartmann,

öffne das Terminal und geh zu Deinem YaCy-Verzeichnis, bei Dir wahrscheinlich:

Code:
cd /home/peter/Downloads/yacy


Dann wechsle in das Unterverzeichnis bin:

Code:
cd bin


Dort rufst Du dann das Programm \“passwd\” auf, mit dem Du das Password für den Benutzer \“admin\” anpassen kannst. Angenommen, Du willst das Password auf \“geheim\” ändern, dann mußt Du jetzt einfach eingeben:

Code:
./passwd.sh geheim



Danach kannst Du Dich im Browser als Benutzer \“admin\” mit dem Password \“geheim\” einloggen.

Später kannst Du das Password dann bequem über das Admin-Interface im Browser ändern. Das Programm \“passwd\” brauchst Du nur beim ersten Mal oder wenn Du das Password vergessen hast.

Statistik: Verfasst von Parus — Di Okt 13, 2015 8:38 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-13 20:51:45

Danke Dir. Aber es funktioniert nicht. Entweder verstehe ich Deine Anleitung falsch oder.…aber siehe die Snaps. Also ich bin in den Ordner \“bin\” und da ist dann auch das Modul \“passwd.sh\“. Also wenn ich auf Terminal ausführen klicke oder Ausführen selbst...dann passiert garnichts. Wenn ich aber auf \“Anzeigen\” klicke geht eine Datei auf, in der ich etwas ändern könnte. Ausserdem verlangt der Admin von YaCy auch noch einen Benutzernamen. Nur ein Passwort reicht ja nicht.

Statistik: Verfasst von 1hartmann — Di Okt 13, 2015 7:51 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-13 22:10:45

Hallo,

nehmen wir als Ausgangspunkt das Terminal wie in Deinem Bildanhang \“yacy passwd1.png\“.
Dort gibst Du jetzt

Code:
./passwd.sh NeuesPassword


ein und drückst die \“Enter\“-Taste
Danach erhälst Du die Meldung, dass das Password für den Benutzer \“admin\” auf \“NeuesPassword\” geändert wurde.
Dann kannst Du Dich im Browser im Backend als \“admin\” mit \“NeuesPassword\” einloggen.

Statistik: Verfasst von Parus — Di Okt 13, 2015 9:10 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-14 00:07:07

Auch das funktionippelt nicht. Schauen Du Anhang.

Statistik: Verfasst von 1hartmann — Di Okt 13, 2015 11:07 pm


English • Proxy affects appearance of websites

Date: 2015-10-14 06:37:57

I have a strange problem when using Yacy as a proxy.
Some web pages doesn\’t load correctly or they load but several pictures are missing.

I attached an example of http://www.dx.com/ below

Anyone lese experiencing this? Is there a solution?

Bild

Statistik: Verfasst von TheSilencer — Mi Okt 14, 2015 5:37 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-14 22:21:50

Hallo? Hat denn keiner mehr einen Einfall?

Statistik: Verfasst von 1hartmann — Mi Okt 14, 2015 9:21 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-14 23:34:27

Du hast vergessen, vorher in das yacy/bin-Verzeichnis zu wechseln:

Code:
cd ~cd Schreibtisch/yacy/bin


Danach kannst Du dann passwd.sh (wie oben beschrieben) aufrufen.

Statistik: Verfasst von Praetor — Mi Okt 14, 2015 10:34 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-15 00:54:27

Danke, Danke und nochmals Danke. :D Vor allem für Deine und Eure Geduld. Jetzt funktioniert es. aber ich habe die Ahnung dass ich beim Einstellen von YaCy hin und wieder Eure Hilfe benötige. Aber ich schaue mir auch Videos dazu an. Meine erste Frage wäre wie ich herausfinden kann dass mein Yacy überhaupt sendet und meine Daten oder Webseiten von anderen yacy Usern empfangen werden können.

Statistik: Verfasst von 1hartmann — Mi Okt 14, 2015 11:54 pm


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-15 11:06:37

Hello, I just created a Pull Request (https://github.com/yacy/yacy_search_server/pull/18).
For now I only added Tiff format support with twelvemonkeys library and didn\’t use twelve monkeys jpeg, ico and bmp formats plugins as I was not convinced by performance tests.
More automated tests and eventually more file formats support to come next weeks. Feedback is welcome.

Statistik: Verfasst von luc — Do Okt 15, 2015 10:06 am


Hilfe für Einsteiger und Anwender • YaCy IP verschleiern

Date: 2015-10-15 16:49:39

Hall wer kann mir bitte sagen wie ich bei YaCy meine IP verschleiern kann und mit welchem Programm? Danke.

Statistik: Verfasst von 1hartmann — Do Okt 15, 2015 3:49 pm


Hilfe für Einsteiger und Anwender • Re: YaCy IP verschleiern

Date: 2015-10-15 21:15:50

theoretisch sollte das mit dem Torproxy gehen. Du gibst in YaCy den torproxy als externen proxy an und dann fragt YaCy beim Crawlen nur tor

Statistik: Verfasst von Orbiter — Do Okt 15, 2015 8:15 pm


English • Has anyone crawled a Wix.com with sucess

Date: 2015-10-16 10:09:06

I have been trying to crawl http://www.justiceparty.com.au and can only seem to receive 1 URL even though there are more pages.
Yahoo has the links.
Google does not.
Msn Does not.

Even tried http://www.justiceparty.com.au/#!domest ... form/i8yml{.postlink}
Yacy may have been blocked but the robots.txt does no say that.

Statistik: Verfasst von smokingwheels — Fr Okt 16, 2015 9:09 am


Off-Topic • Postprocess: nine days and counting

Date: 2015-10-16 13:39:18

Nine days ago Yacy automatically paused a crawler for lack of disk space, and consequently started post-processing. Since then it has not yet finished, running 247.

It perpetually flips from a short phase of CPU burst to a much longer phase of hard disk burst: from all cores at 100% to a full queue of small hard disk read ops.
The index size is moderate with 24M records over 250GB. OS files cache is 12GB. JVM heap 4GB.
May I do something to speed it up?


[Side consideration:]{style=“font-weight: bold”}
Standing solely from the observed behavior, it appears that the post-processing algorithms perform something like a one-to-every comparison between indexed records, in a way similar to:

Code:
for record_a in index; do    for record_b in index; do        one-to-every comparison    donedone



If this is actually the case, then the post-process reads over and over the whole index file; since only a fraction of the index fits in the OS cache, this causes a massive amount of small, random, inefficient read ops. Given this hypothesis true, would it be feasible to improve the algorithm by either:

  1. Keep it read the whole index file over and over, as it currently does, but performing sequential reads rather than random ones. Rationale: reading the whole index file sequentially from head to tail is faster than reading it randomly with \“partial field reads\“;
  2. Perform the comparison in large batches rather than with individual records, so avoid the one-to-every check and instead perform a many-to-every check. Consideration: a large batch might consist of anything between 1 MB to 10 GB of indexed records, enough to entirely fit them within available RAM, so to perform multiple comparisons at a time against each record read from disk.

Statistik: Verfasst von davide — Fr Okt 16, 2015 12:39 pm


Off-Topic • Re: Postprocess: nine days and counting

Date: 2015-10-16 14:34:11

Postprocessing is deactivated by default at least since one year. This process may be interesting to generate SEO data but not for standard YaCy operations.
If your postprocessing is still active, deactivate it by going to /IndexSchema_p.html and then deactivate the field process_sxt

Statistik: Verfasst von Orbiter — Fr Okt 16, 2015 1:34 pm


Off-Topic • Re: Postprocess: nine days and counting

Date: 2015-10-16 16:41:33

Very good then.
I disabled [process_sxt]{style=“font-style: italic”} from the schema and reindexed.
Without post-processing, will Yacy be able to filter duplicate results from search results?

Statistik: Verfasst von davide — Fr Okt 16, 2015 3:41 pm


Hilfe für Einsteiger und Anwender • Re: YaCy IP verschleiern

Date: 2015-10-16 18:25:27

Aber ich habe gelesen dass auch Thor schon von den Amis überwacht wird, oder?

Statistik: Verfasst von 1hartmann — Fr Okt 16, 2015 5:25 pm


Hilfe für Einsteiger und Anwender • Re: YaCy IP verschleiern

Date: 2015-10-16 18:34:19

Und wie und wo wird das dann in YaCy gemacht?

Statistik: Verfasst von 1hartmann — Fr Okt 16, 2015 5:34 pm


Fragen und Antworten • Kleine Frage zu analyzers in schema.xml

Date: 2015-10-16 20:34:35

Hallo,

Prinzipiell wäre es eine schöne Sache. Nach ersten Fehlermeldungen bin ich mir aber nicht sicher, ob es das eingebettete Solr wirklich kann (oder ich mache einfach nur paar Fehler dabei):

Kann man beim in YaCy eingebetteten Solr die Datentypen der schema.xml um weitere/andere Analyzer-\“Factories\” erweitern?
Wenn prinzipiell ja: Gehen alle unter solr5 bekannten Factories oder ist nur ein Teil verfügbar?
Kann man eigene Factories als Plugin, wie unter solr üblich zufügen?
Wenn ja: Wo müssen die jar-Files hin bzw. kann man in der schema.xml dazu einfach die passenden Ordner angeben?

Ich befürchte, dass das deep-embedded solr da Einschränkungen hat. In dem Fall würde ich auf ein externes Solr ausweichen. Muss ich das?

Beste Grüße
Frank

Statistik: Verfasst von fherb — Fr Okt 16, 2015 7:34 pm


Fragen und Antworten • Re: Kleine Frage zu analyzers in schema.xml

Date: 2015-10-16 20:57:22

Hallo Frank,

es sollte durchaus gehen das schema zu erweitern.
Nur muss man drauf achten das bei jedem Start von YaCy das schema.xml aus den defaults in die collection überschrieben wird.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Okt 16, 2015 7:57 pm


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-16 23:41:05

Great work, I just tested this and it looks like its working fine. I found a glitch when I tried to open an image preview which does not work with tiff files, but it might also be a problem with the browser. I believe the enlarged version of the thumbnail does not go through YaCy but is rendered by the browser directly, so this problem is not related to your changes but it could be fixed using your new code to transfer a re-rendered image to the enlarged view. But that is an add-on work, not a bug.
Thank you!

Statistik: Verfasst von Orbiter — Fr Okt 16, 2015 10:41 pm


YaCy Coding & Architecture • Commit 136e8f6 and 1-char queries

Date: 2015-10-17 01:18:24

Thanks Orbiter for your continued efforts.

I was having a glimpse at the latest commits and I found a dubious one: commit c737ff2{.postlink} (source/net/yacy/search/query/QueryGoal.java @ line 187) shows that, by now, if queries are composed of both multiple-chars strings and 1-char strings, then all 1-char strings are stripped off the query.
I never learned java and I don\’t know Yacy, so pardon me. But is this new algorithm going to be unconditionally applied to every query, or is it somewhat more selective / specific? In the first case, it would no longer be possible to search for, eg, \”[Pentium 4]{style=“font-style: italic”}\” or \”[OS X]{style=“font-style: italic”}\” or \”[The incredibles 4]{style=“font-style: italic”}\“.

Statistik: Verfasst von davide — Sa Okt 17, 2015 12:18 am


YaCy Coding & Architecture • Re: Commit 136e8f6 and 1-char queries

Date: 2015-10-17 10:49:36

That change was made by me because one of my customers are running YaCy in their intranet for file search and they had truble finding files by their file name using an exact copy of the file name. The problem is, that the file indexing stripes aways \‘rubbish\’ from file names (i.e. single numeric characters) and it was not possible to find the same files again with a copy of the file name.

davide hat geschrieben:\ more selective / specific? In the first case, it would no longer be possible to search for, eg, \"[Pentium 4]{style="font-style: italic"}\" or \"[OS X]{style="font-style: italic"}\" or \"[The incredibles 4]{style="font-style: italic"}\".\


No, this is actually [less]{style=“font-style: italic”} selective, you would be able to find \”[The incredibles 4]{style=“font-style: italic”}\” but also \”[The incredibles 3]{style=“font-style: italic”}\“, \”[The incredibles 2]{style=“font-style: italic”}\” and \”[The incredibles]{style=“font-style: italic”}\” by just searching for \”[The incredibles 4]{style=“font-style: italic”}\“. This change applies a special way of fuzzyness and I believe a wanted one.

Statistik: Verfasst von Orbiter — Sa Okt 17, 2015 9:49 am


YaCy Coding & Architecture • Re: Commit 136e8f6 and 1-char queries

Date: 2015-10-17 11:23:05

Thanks for pointing out that this behavior is not all due to commit 136e8f6, as the indexer itself already stripes 1-char elements, too. Still, the overall behavior is that Yacy yields irrelevant results for those queries where a 1-char element is indispensable to the meaning of the query.
Whoever would expect to receive relevant results by searching for queries like those reported below would not get relevant results.

Examples:

Statistik: Verfasst von davide — Sa Okt 17, 2015 10:23 am


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-17 13:06:35

Ok, thank you for testing. Examples tiff images I found with YaCy search displayed correctly in full size on my computer with firefox. I thougth full size preview also passed in YaCy ViewImage servlet. I will extend tests next week and see.

Statistik: Verfasst von luc — Sa Okt 17, 2015 12:06 pm


Hilfe für Einsteiger und Anwender • Yacy läuft aber verlangt PW fürs Crawlen

Date: 2015-10-17 14:36:20

Hallo mein Yacy läuft (Systemstatus und Peer to Peer Netzwerk), aber immer wenn ich auf \“Webseiten laden mit Crawler\” gehe kommt immer der Admin und verlangt ein PW. Das hat immer funktioniert, denn ich hatte das PW gespeichert. Jetzt macht er es nicht mehr. Konnte bis zum Runterfahren des Rechners immer noch Webseiten eingeben. Nach dem Hochfahren kommt immer diese Meldung. Ich habe dann übers Terminal noch einmal
cd bin und dann ./passwd.sh NeuesPasswd eingegeben, aber er lässt mich nicht mehr rein. Habe gestern abend vor dem Runterfahren die Cookies gelöscht, somit aller Wahrscheinlichkeit damit auch den Befehl. aber den habe ich ja heute neu eingegeben. Und es läuft ja. Anhängend die Fehlermeldung.

Statistik: Verfasst von 1hartmann — Sa Okt 17, 2015 1:36 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-10-19 12:02:11

For a YaCy2 architecture I would suggest to implement a \‘closed-group\’ torrent-based file sharing infrastructure for such files.
[gclub online ผ่านเว็บ]{style=“color: #E1EBF2”}{.postlink}

Statistik: Verfasst von najatuw4646 — Mo Okt 19, 2015 11:02 am


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-10-21 03:06:14

Modular is fine, already a idea of a framework or handcrafted ... or do you mean realy stand-alone (communicating over a file system ;-( )?

Orbiter hat geschrieben:\ I identified that WARC is really amazing and important\


I don\’t get the discussion about WARC, is it about the idea to distribute (sell ;-) ) a index w/o crawling. Does that work for us?
Or is it just .… basically to have a module to write the crawler cache in a different (reuseable) format .…

Statistik: Verfasst von reger — Mi Okt 21, 2015 2:06 am


English • yacysearch.json: wait for local results

Date: 2015-10-22 17:29:03

Global searches made thru yacysearch.json return results too fast, so fast that results from the local index aren\’t parsed in time to get included in the returned results set.
The data contained in my local index, specifically crawled for from chosen sites, constitutes the most pertinent pool of results I want to retrieve when searching. On the other hand, results retrieved via p2p are not as context-specific as those in my own index, thus less relevant to my queries. Most often, the results I receive are sourced solely from p2p, due to unpredictable timeout to query my hard disks.

The server load is not constant over time, so I cannot simply re-run the query after a defined timeout to allow enough time for local results to be collected from my hard disks. Besides, the disks serving Yacy may vary in number and quality (IOps) over time.

What would be needed is an adjustable setting —possibly an additional query parameter— to specifically ask Yacy to wait for local results while performing a global query.

Statistik: Verfasst von davide — Do Okt 22, 2015 4:29 pm


English • yacysearch.json drops well-ranked results

Date: 2015-10-22 19:45:48

The following query

Code:
query #1/yacysearch.json?query=logitech+mx+revolution&resource=local&maximumRecords=100


returns relevant results, which I assume are those results with a low \”[ranking]{style=“font-style: italic”}\” numeric property. Correct me if I\’m wrong.

Code:
query #2/yacysearch.json?query=logitech+mx+revolution&resource=local&maximumRecords=10


Running the same query with a reduced [maximumRecords]{style=“font-style: italic”} parameter (query #2) doesn\’t return the top 10 results with lowest [ranking]{style=“font-style: italic”}, as I would expect, instead it apparently returns a random subset of 10 unsorted results with casual [ranking]{style=“font-style: italic”} values, and does not include the most relevant (lowest [ranking]{style=“font-style: italic”}) results returned by query #1. All the results with low [ranking]{style=“font-style: italic”} which are returned by #1 are in my local index, and thus can be retrieved repeatedly and are always accessible to my queries.

Thus, I believe that to get relevant results (low [ranking]{style=“font-style: italic”} value) I need to specify a high [maximumRecords]{style=“font-style: italic”} parameter, independently from how many results I actually need.

Correct?

Statistik: Verfasst von davide — Do Okt 22, 2015 6:45 pm


YaCy Coding & Architecture • Re: WebRTC for YaCy: p2p in browser plug-in

Date: 2015-10-23 00:37:26

To my mind, such a plug-in should have p2p search capabilities, relying on YaCy peers network, but should stay as minimalist and efficient as possible as it would \‘only\’ be a browser plug-in. It should be able to store only data in volatile memory if user want so, relying only on DHT index at browser startup.

Statistik: Verfasst von luc — Do Okt 22, 2015 11:37 pm


YaCy Coding & Architecture • Spreading YaCy on web servers

Date: 2015-10-23 01:01:58

Imagine a world where each Apache HTTP server instance would also act as a YaCy peer, providing fresh index of its own domain but also parts of the distributed index...
As Apache HTTP Servers are very widespread, don\’t you think it would really be a BIG step forward for decentralized index and search? Reliability and responsiness of YaCy network could be greatly improved... Even if it would be one little percent of all Apache HTTP servers.
This idea is now far from reality. A first step would maybe to implement an Apache module (http://httpd.apache.org/docs/2.4/mod/) able to act as a YaCy peer? And maybe to formalize YaCy protocol to make it easier for anyone or any company to implement its own YaCy peer software, or at least to provide a minimal YaCy core module (YaCy 2 architecture?)?

Statistik: Verfasst von luc — Fr Okt 23, 2015 12:01 am


YaCy Coding & Architecture • No \“ranking\” if contentdom=image

Date: 2015-10-23 01:58:35

Queries issued to yacysearch.json don\’t return a [ranking]{style=“font-style: italic”} parameter, making it impossible to discern relevant from irrelevant results.
However, yacysearch.html looks capable of sorting relevant images on top of the results page, so this indicates YaCy has and uses a ranking score for images, but doesn\’t expose such score to API.

Then, how can I fetch the [ranking]{style=“font-style: italic”} score for images returned from API?
For meticulousness\’ sake, I\’d like to point it out that without a [ranking]{style=“font-style: italic”} attribute, the image search API is unusable.

Statistik: Verfasst von davide — Fr Okt 23, 2015 12:58 am


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-10-23 16:21:38

Hello, I fixed full size preview of TIFF images, and some other little issues : https://github.com/yacy/yacy_search_server/pull/21.
Notes :
- Konqueror web browser has built-in support for Tiff images
- Tiff rendering based on twelve monkeys library works well but doesn\’t support some Tiff features like CCITT T.4 compression or exotic pixels bits depths : you can easily check it with new ViewImageTest class and for example test suite from libtiff (http://www.remotesensing.org/libtiff/images.html

Next week planned works :
- rendering of large image files, at least to ensure no OutOfMemoryError can occur.
- add a generic system to rely on browser rendering when image format is not supported by YaCy, as it is done today, but only for gif and svg

Statistik: Verfasst von luc — Fr Okt 23, 2015 3:21 pm


Panorama • yacy.net für http://refugeehackathon.de/ vorgeschlagen

Date: 2015-10-25 11:44:32

Hallo,

habe [yacy.net]{style=“font-style: italic”} für http://refugeehackathon.de/ vorgeschlagen. Evtl. ist das Kommentar{.postlink} noch nicht freigeschaltet.

Gruss, Gustav

Statistik: Verfasst von flegno — So Okt 25, 2015 11:44 am


Off-Topic • Re: Postprocess: nine days and counting

Date: 2015-10-25 18:11:20

Without post-processing, will Yacy be able to filter duplicate results from search results?

Statistik: Verfasst von davide — So Okt 25, 2015 6:11 pm


English • Only get 20 results from API

Date: 2015-10-26 00:54:07

I created an account from [ConfigAccounts_p.html]{style=“font-style: italic”} with the permission [Extended Search right]{style=“font-style: italic”}.
Whatever I search with the following query, always returns exactly 20 results:

Code:
# examplecurl "http://yacy_username:password@192.168.1.109:8090/yacysearch.json?query=my+url-encoded+query&maximumRecords=200&resource=local"



How can I get more results?

Statistik: Verfasst von davide — Mo Okt 26, 2015 12:54 am


Panorama • Mozilla fördert Open-Source-Projekte!

Date: 2015-10-26 12:49:22

Hallöchen zusammen!

Ich bin gerade auf folgenden Artikel beim Linux-Magazin gestoßen:

[[Mozilla unterstützt Community mit einer Million Dollar{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Hier die Mozilla-Seite:

[[Mozilla Open Source Support{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Da frage ich mich nun, ob das nicht etwas für YaCy wäre? Leider ist mein Englisch nicht so gut, um da richtig durchzublicken, aber vielleicht kann ja jemand von euch da mal rein sehen! Auf jeden Fall klingt das mal ganz interessant. :mrgreen:

Statistik: Verfasst von TmoWizard — Mo Okt 26, 2015 12:49 pm


YaCy Coding & Architecture • Apply proximity score to words in title

Date: 2015-10-26 16:34:24

Have you considered applying a proximity score to words contained in page titles?
Currently, the only ranking role played by the page title is thru \”[Appearance In Title]{style=“font-style: italic”}\” from RankingRWI_p.html; this is triggered even if only one single word of the query matches the title. That\’s unreasonable, folks.

Example query:


Sounds weird, doesn\’t? But that\’s exactly what happens.

Statistik: Verfasst von davide — Mo Okt 26, 2015 4:34 pm


English • Help me understand what is \“startRecord=n\”

Date: 2015-10-26 18:22:37

As per the API documentation{.postlink}, [yacysearch.json]{style=“font-style: italic”} offers a parameter named [startRecord]{style=“font-style: italic”}. I don\’t understand what it is.

Here I run a couple of queries to try understand.
For each query, my \“test.sh\” script sorts the returned results according to their \”[ranking]{style=“font-style: italic”}\” attribute.

Code:
## Query 1  (startRecord=1)$ ./test.sh→ Search for: http://192.168.1.109:8090/yacysearch.json?query=sandisk+8GB+class+6&maximumRecords=20&startRecord=1&resource=globalrank: 37064.0          title: Amazon.com: Abacus24-7 32GB microSD Card [micro SD Memory Card, SDHC, ...rank: 33613.0          title: Amazon.com: SanDisk 16GB Class 4 Micro SDHC Memory Card, ...rank: 31904.0          title: Patriot LX Series 64GB Class 10 Secure Digital Extended Capacity ...rank: 30433.0          title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 29763.0          title: Patriot LX 8GB Secure Digital High-Capacity (SDHC) Flash Card ...rank: 29464.0          title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 12893.0          title: Install Windows 7 From USBrank: 3.8766465        title: Sandisk 8GB CLASS 10 Ultra SD SDHC HD Video Memory ...rank: 3.3861828        title: Amazon.com: SanDisk 8GB Class 4 SDHC Flash Memory ...rank: 2.2084477        title: SanDisk Speicherkarten Testrank: 2.1804197        title: Sandisk 8gb Class 4 Sdhc Card At Tigerdirect.Comrank: 2.1804197        title: Sandisk 8gb Class 4 Sdhc Card At Tigerdirect.Comrank: 2.1608243        title: snake._V192250075_.gif%5C%22rank: 2.1536863        title: snake._V192250075_.gif%5C%22rank: 2.1536863        title: snake._V192250075_.gif%5C%22rank: 2.0419774        title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 1.0398948        title: Amazon.in: Buy Sandisk 8GB MicroSDHC Class 4 Memory Card Online ...rank: 1.0165591        title: SanDisk Ultra microSDHC 8GB Class 10 Speicherkarte ...rank: 0.8894893        title: Amazon.com: SanDisk Ultra 8GB SDHC Class 6 Flash Memory Card ...rank: 0.7335783        title: SanDisk Ultra® microSDHC™/microSDXC™ UHS-I Card


Code:
## Query 2  (startRecord=21)$ ./test.sh→ Search for: http://192.168.1.109:8090/yacysearch.json?query=sandisk+8GB+class+6&maximumRecords=20&startRecord=21&resource=globalrank: 32193.0            title: Amazon.com: Fujifilm 8 GB SDHC Class 4 Flash Memory ...rank: 29178.0            title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 29162.0            title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 29122.0            title: Sandisk SDSDB008GB35 SDHC Card - 8GB, Class 4 ...rank: 25956.0            title: Single review: Lowepro Edit 130 (Black) Video Bag ...rank: 25542.0            title: Single review: Patriot Signature Series 8GB Micro SDHC ...rank: 24128.0            title: Electronics, Digital Cameras, Digital Camera Accessories, ...rank: 23488.0            title: Secure Digital High Capacity Memory Cards, SDHC Cards,...rank: 22843.0            title: SanDisk 8GB SDHC Extreme® III - 20MB/sec, ...rank: 22795.0            title: SanDisk Micro SDHC at TigerDirect.comrank: 22583.0            title: Secure Digital High Capacity Memory Cards, SDHC ...rank: 22574.0            title: Secure Digital High Capacity Memory Cards, SDHC ...rank: 22463.0            title: Ingram Micro Flash Memory at TigerDirect.comrank: 22289.0            title: Transcend Flash Memory between $0.00 and ...rank: 22259.0            title: Coupons, Promo & Discount Codes | TigerDirect.comrank: 22109.0            title: Computer Hardware, Flash Memory & Readers, ...rank: 1.8434802          title: SANDISK Carte SDHC 8GB Sandisk Class 4...rank: 1.0277683          title: Sandisk Ultra 8GB Class 10 UHS I SDHC ...rank: 0.0042389673       title: •• Tematy - Google, Microsoft, notebooki...rank: 0.0014782711       title: Index of Deutsches Forum (German)



As you see, the two queries return different results with different rankings; however, I don\’t understand why part of the results returned by the second query have a higher rank than some results of the first query.

Shouldn\’t the second query return results with a lower ranking score? Is the ranking computed independently for each batch of results? Is it logically correct to merge together multiple batches of results and reorder them according to their rank? This implies the rank scores are absolute rather than relative to their own batch.

Statistik: Verfasst von davide — Mo Okt 26, 2015 6:22 pm


YaCy Coding & Architecture • Re: Spreading YaCy on web servers

Date: 2015-10-26 19:42:31

I continue thinking on the idea of moving the indexing effort to each web server : for a web server, without going as far as being a YaCy node, it would be really helpful if it exposed its own index in a standard way. Then any YaCy node or any software or people could get it (fully or parts) and use it without having to recrawl the entire web server exposed content. Does anyone has information on such an eventual existing standard : url, index format...?

Statistik: Verfasst von luc — Mo Okt 26, 2015 7:42 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-26 22:01:00

Hallöchen zusammen,

leider habe ich diesen Thread jetzt erst entdeckt! Folgendes:

\@1hartmann:

Deiner bisherigen Verwirrung nach scheinst Du ziemlich neu bei Linux zu sein und ich nehme deinem Vorgehen und deiner Unwissenheit nach an, daß Du wohl aus der Windows-Ecke kommst!

Hier also ein paar Punkte zum merken:

[[1. Auch unter Linux kann man eine Datei entpacken, wenn man sie im Datei-Explorer (bei mir nennt sich der Dolphin, da ich KDE als GUI verwende) mit der rechten Maustaste anklickt und den entsprechenden Menüpunkt wählt.]{style=“font-style: italic”}]{style=“font-weight: bold”}

[[2. Ebenfalls in den Dateimanagern gibt es oft beim Klick auf einen Ordner den Menüpunkt \“Terminal von hier öffnen\“, bei mir unter \“Aktionen\” zu finden]{style=“font-style: italic”}]{style=“font-weight: bold”}

Wenn Du YaCy [(also das entsprechende *.tar.gz wie unter Punkt 1. beschrieben entpackt)]{style=“font-style: italic”} mit der rechten Maustaste anklickst, dann kannst Du über das entsprechende Menü direkt eine \“Konsole\” in diesem Verzeichnis/Ordner öffnen! Dort startest YaCy einfach mit dem Befehl \“./startYACY.sh\” und schon läuft es! Allerdings wird auf diese Weise YaCy nicht mit dem Rechner neu gestartet, Du müßtest YacY folglich jedesmal auf diese Weise starten, wenn Du den Rechner neu startest!

[[3. Du verwendest Mint, dann bist Du sowieso auf dem Holzweg!]{style=“font-style: italic”}]{style=“font-weight: bold”}

Mint basiert auf Debian bzw. [[*buntu]{style=“font-style: italic”}]{style=“font-weight: bold”}, folglich kannst Du auch die entsprechenden Pakete und die Ubuntu-Wiki verwenden. Lies dir also mal den folgenden Artikel durch, vor allem den Bereich [[\“Fremdquelle\“]{style=“font-style: italic”}]{style=“font-weight: bold”}:

[[ubuntuusers-Wiki: YaCy{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Das funktioniert auch bei Mint, Du benötigst diese *.tar.gz also gar nicht! Du bindest einfach die entsprechende Paketquelle ein und installierst YaCy über den Paketmanager deiner Wahl, z. B. Softwarecenter!

Alles weitere entnimmst Du dem Artikel, das ist eigentlich nicht schwer. Wenn Du mehr Hilfe benötigst, dann wird dir auch gerne hier im Forum geholfen und Du kannst dich in der [[YaCy-Wiki{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} erkundigen.

Grüße mit Kubuntu und YaCy aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Okt 26, 2015 10:01 pm


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2015-10-26 23:54:36

Das war sehr nett von Dir, TomWizard und vielen Dank für die ausführliche Beschreibung,

ein User vor Dir gab mir den ähnlichen Rat wie Du. Das hat dann auch gleich funktioniert. YaCy läuft jetzt schon seit 14 Tagen sehr gut. Bitte beantworte mir zu Yacy noch ein paar Fragen:

Wo kann ich meine gesamten, eingestellten Links, Webseiten oder Crawls finden. Wenn ich Webseiten mit Crawler einstelle so sehe ich meistens nur bis 11 Stück. Und manches Mal sind auch einfach welche verschwunden und dann stehen als Beispiel mal, nur 7 oder 8 da. Aber ich habe mindestens ein paar hundert eingestellt. Wo kann ich diese finden damit ich Webseiten nicht doppelt crawlen lasse?

Mein Rechner hat 8 GB, wo kann ich ersehen wieviel Yacy zieht und wie kann ich das minimieren oder wieder erhöhen?

Danke Euch

Statistik: Verfasst von 1hartmann — Mo Okt 26, 2015 11:54 pm


Off-Topic • Re: Urlaub

Date: 2015-10-27 17:04:29

Falls sich jemand wudert warum gerade nicht so viel kommt von mir: bin wieder auf Reise, diesmal in Malaysia
Jalan Alor 2.jpg
Batu Caves Murugan.jpg

Statistik: Verfasst von Orbiter — Di Okt 27, 2015 5:04 pm


Off-Topic • Re: Urlaub

Date: 2015-10-28 10:24:02

Na denn mal viel Spaß und einen schönen Urlaub!

Statistik: Verfasst von TmoWizard — Mi Okt 28, 2015 10:24 am


Off-Topic • Re: Urlaub

Date: 2015-10-29 09:30:45

Wenn das obere ein Suchbild ist, dann habe ich die Lösung! :D
Viel Spaß, das sieht echt schön aus. Vielleicht sollte ich Europa doch mal wider irgendwann verlassen. Wo bekommt man nochmal einen Reisepass her? ;)

Statistik: Verfasst von Low012 — Do Okt 29, 2015 9:30 am


English • Re: Language filter ineffective

Date: 2015-10-29 14:43:49

I created a JS fIddle with my language detector.
Now you can test it directly on the browser:

https://jsfiddle.net/DavideBaldini/uu7upmeu/4/

Statistik: Verfasst von davide — Do Okt 29, 2015 2:43 pm


Hilfe für Einsteiger und Anwender • Crawlen um RSS-Feeds von URLs zu bekommen

Date: 2015-10-29 16:17:23

Hey liebe Community,
ich habe ein Frage zum crawlen mit Yacy. Ich nutze die Anwendung um aus diversen Onlinequellen die jeweiligen RSS-Links automatisch zu beziehen. Dies ist mit den gegebenen Funktionen von Yacy ohne Probleme möglich. Allerdings sind mir in letzter Zeit häufiger URL-Seiten aufgefallen, die nicht vollständig durchsucht worden sind.
Diese Seiten haben RSS-Feeds, welche nicht vom Yacy-Crawler gefunden wurden.

Z.B. \” http://www.noticiasdenavarra.com \“, diese Seite besitzt einige RSS-Feedlinks, die in einer Tabelle aufgelistet stehen (\” http://www.noticiasdenavarra.com/corpor ... n-por-rss/{.postlink} \“). Die hier verlinkten Feeds haben auch alle den gleichen Stamm \“z.B. http://www.noticiasdenavarra.com/rss/ribera.xml\“. Ich habe bereits einige verschiedene Einstellungsvarianten beim Expertencrawling probiert, aber leider ohne den gewünschten Erfolg. Ich habe verschieden Crawling Tiefen probiert und auch die robots.txt berücksichtigt, hier stehen keine Einschränkungen für diesen Fall.

Könnt ihr mir weiter Helfen und mögliche Fehlerquellen bei mir benennen. Oder gibt es da technische Einschränkungen weshalb manche Seiten nicht voll funktionieren?

Das ähnliche Problem habe ich auch mit einer Menge von Blogspot-Seiten. Ich habe eine Liste mit mehreren Blogspot-Auftritten in Yacy crawlen lassen und wollte dann die Feedlinks exportieren. Alle dieser Blogspot-Seiten besitzen mindestens einen RSS-Feed, aber Yacy fand lediglich bei einem Viertel welche. Auch hier kann die robots.txt als Fehlerquelle ausgeschlossen werden.

Ich bin mit meinem Latein am Ende.… Vielen Dank

lg max

Statistik: Verfasst von maaax89 — Do Okt 29, 2015 4:17 pm


YaCy Coding & Architecture • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2015-11-01 16:08:13

http://www.cs.stir.ac.uk/courses/ITNP99 ... addadZ.pdf{.postlink}

Habe ich gerade gefufnden. Evtl. hilfreiches Dokument zu dieser Thematik. Wäre auch eine Implementierung über UDP für die YaCy <=> YaCy Kommunikation denkbar oder ist der Aufwand dafür zu hoch?

Statistik: Verfasst von LA_FORGE — So Nov 01, 2015 4:08 pm


Off-Topic • Re: Urlaub

Date: 2015-11-02 07:02:08

Cool, einen schönen Urlaub!
Die Landschaft ist sehr schön und gut.

Statistik: Verfasst von DemetriaS — Mo Nov 02, 2015 7:02 am


Off-Topic • Re: Postprocess: nine days and counting

Date: 2015-11-02 07:05:25

Sorry, I have not encountered this problem.

Statistik: Verfasst von DemetriaS — Mo Nov 02, 2015 7:05 am


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2015-11-02 07:10:17

[youtube]https://www.youtube.com/watch?v=nWIy6pFTM94[/youtube]

Statistik: Verfasst von DemetriaS — Mo Nov 02, 2015 7:10 am


Off-Topic • Re: Wieso ist es so faszinierend?

Date: 2015-11-02 07:12:04

Oh, auch mich. Ich finde, YaCy ist sehr sehr sher faszinierend.

Statistik: Verfasst von DemetriaS — Mo Nov 02, 2015 7:12 am


Off-Topic • Re: New hardware ready to YaCy!

Date: 2015-11-02 07:13:15

Good info.
Thanks for your sharing.

Statistik: Verfasst von DemetriaS — Mo Nov 02, 2015 7:13 am


Mitmachen • Last words before I go to Skynet

Date: 2015-11-03 09:11:38

Bin diese Woche in San Francisco um am Google Summer of Code Mentor Summit{.postlink} teilzunehmen. Ich war ja Mentor beim GSoC für Loklak{.postlink} und einige Mentoren dürfen auf dem Google Campus ihre Projekte vorstellen. Auch wenn es da um loklak.org und loklak.net geht überlege ich wie weit ich da U-Boot für YaCy spielen darf, vielleicht lasse ich ein par Yacy-Kulis herumliegen?

Ich überlege auch in die DNA-Lounge{.postlink} zu gehen, das ist ein Club von Jamie Zawinski{.postlink}, der neben XEmacs, Teilen vom Netscape Navigator auch XScreenSaver entwickelt hat.

Ausserdem habe ich vor beim Internet Archive Friday Lunch{.postlink} aufzuschlagen und dort \‘wichtige Dinge\’ zu tun, ich hoffe das wird was (siehe: WARC und YaCy2).

Was habt ihr für Tipps, was soll ich sonst noch in San Francisco machen?

Statistik: Verfasst von Orbiter — Di Nov 03, 2015 9:11 am


Mitmachen • Re: Last words before I go to Skynet

Date: 2015-11-03 20:00:52

oh well, there was a misunderstanding.. no I don\’t quit working for YaCy! This visit at the Google campus is related to my FOSSASIA talk about loklak{.postlink} and the GSoC project to create more code around that. I\’ll be back.{.postlink}

Statistik: Verfasst von Orbiter — Di Nov 03, 2015 8:00 pm


Fragen und Antworten • Heuristik ( Lade externe Suchergebnisse)

Date: 2015-11-06 12:27:02

Hallo zusammen,

ich tu mich schwer mit der Heuristik-Funktion \“Lade externe Suchergebnisse von den gelisteten aktiven OpenSearch Systemen\“.

Ich habe mal testweise alle gelisteten OpenSearch Engines angeclickt, sehe aber irgendwie keine Treffer die bei einem Suchbegriff von
einer der angehakten OpenSearch Engines kommen.

Mein Ziel wäre es (sofern das überhaupt geht) eine Suche nach einem Produktnamen zu starten und dann z.B aktuell eingestellte Produkte von
ebay als Suchtreffer angezeigt zu bekommen.

Experimentiert habe ich bereits etwas.
Ich habe versucht die Ebay Suche einzutragen über: \“http://shop.ebay.de/?_nkw={searchTerms}". Das funzt aber leider nicht :( .

Kann mir jemand helfen oder hat mir jemand ein funktionierendes Beispiel für die Einbindung einer externen OpenSearch kompatiblen Suchmaschine.

Danke und Gruß :)
Alex

Statistik: Verfasst von Crystalgazer — Fr Nov 06, 2015 12:27 pm


Mitmachen • Re: Last words before I go to Skynet

Date: 2015-11-07 13:36:57

I decorated a server
InternetArchive YaCy Sticker.jpg

Statistik: Verfasst von Orbiter — Sa Nov 07, 2015 1:36 pm


YaCy Coding & Architecture • Re: Spreading YaCy on web servers

Date: 2015-11-16 09:34:05

It seems this post doesn\’t interest much people... Anyway, reconsidering what I said, I think now that developing a Apache http module would not be the most releveant idea. But I still think what would really make sense would be to be able to deploy YaCy as a standard war in any J2EE compliant server (Tomcat, JBoss...). For any organization already having applications deployed on this kind of server it would really be helpful if they wish to expose some website content on YaCy network. Is it this way YaCy pro section proceed? I don\’t find any document on the wiki or in the build.xml to help building a standard war...

Statistik: Verfasst von luc — Mo Nov 16, 2015 9:34 am


Off-Topic • WebSphere Online Training

Date: 2015-11-16 13:52:09

RCP Technologies, would like to help you with the best IBM WebSphere training in Hyderabad{.postlink}, which is hard to find these days. Our positive courses will help you to facilitate some enterprise messaging techniques and also help in the proficient implementation of the newer version of mobile strategies. All these are now available after going through online courses only. Websphere Training In Hyderabad.

websphere online training{.postlink}, All the reputed experts and institutional trainers are well experienced and also trained in offering you with the most classified group of training packages, like you have always wanted. These packages will help both the novices and experts to know more about the right steps to follow and understand; whichever suits their style the most.

Statistik: Verfasst von ssslokesh005 — Mo Nov 16, 2015 1:52 pm


Mitmachen • Re: YaCy\@CCCamp15

Date: 2015-11-16 16:27:27

Dank des Chaosradios weiß ich jetzt, was ich verpasst habe: http://chaosradio.ccc.de/cr215.html

Ich habe auch mal angefangen, mir die Videos der Vorträge anzusehen (jedenfalls eine kleine Auswahl) und da sind auch ein paar sehr interessante Sachen dabei: https://media.ccc.de/c/camp2015

Statistik: Verfasst von Low012 — Mo Nov 16, 2015 4:27 pm


YaCy Coding & Architecture • Re: Extend Image preview formats support

Date: 2015-11-20 20:05:21

Hello, it has been a while since last post... but image processing is not so easy, and when you think you improved something, you might easily have broken something else.
But I have done my best on time available, passed many tests, and have some code to share with you : .https://github.com/yacy/yacy_search_server/pull/26.
There is still much to be done on the subject, and I will share with you once I have something tested and working!

Statistik: Verfasst von luc — Fr Nov 20, 2015 8:05 pm


YaCy Coding & Architecture • Re: Spreading YaCy on web servers

Date: 2015-11-22 01:07:50

I think too, a standard war distribution would be a nice option
and tackled it once in a while.
But as it includes major rewirte of existing features, I\’m not sure if it is worse while the effort.
The development is likely only feasible as separate branch with not much chance to be joined together later, splitting possibly the available development resources.

luc hat geschrieben:\ I don\'t find any document on the wiki or in the build.xml to help building a standard war\...\


Simply, because there is no way easy way of getting this done (at least I don\’t see it).

I probably would join the club to make it work, once a starter skeleton is defined. But I see other things which would benefit the main target/user group more.
But still, for spreading YaCy it would be a nice/additional option and imho, the way to go (compared to httpd module).

Statistik: Verfasst von reger — So Nov 22, 2015 1:07 am


Mitmachen • webtorrent & webRTC

Date: 2015-11-24 05:36:30

https://webtorrent.io/ https://de.wikipedia.org/wiki/WebRTC

webtorrent verwendet WebRTC. erstellt ein peer in einem firefox. könnte für eine YaCy Peer verwendet werden?

Statistik: Verfasst von dorkmo — Di Nov 24, 2015 5:36 am


English • Re: Language filter ineffective

Date: 2015-11-25 00:30:21

davide hat geschrieben:\ I created a JS fIddle with my language detector.\ Now you can test it directly on the browser:\ \ \



Hi,

Any idea how well your code performs in terms of accuracy compared to the two methods supported by Solr?

Statistik: Verfasst von biolizard89 — Mi Nov 25, 2015 12:30 am


English • Re: Language filter ineffective

Date: 2015-11-25 01:03:07

biolizard89 hat geschrieben:\ Hi,\ \ Any idea how well your code performs in terms of accuracy compared to the two methods supported by Solr?\



I have no comparison figure; my implementation works quite well however: on medium to long phrases the accuracy is virtually 100%, while short phrases (3 words or less) have approx. a 50% accuracy. FWIW, I never had it miss on a phrase longer than 5 words.

Statistik: Verfasst von davide — Mi Nov 25, 2015 1:03 am


YaCy Coding & Architecture • Re: \“Mentor\” und \“Mentee\” Peers für Junior Upgrades zum Serv

Date: 2015-11-25 01:08:31

I\’m not sure if this has been suggested elsewhere, but why not just use Tor hidden services for peer communication? It gives you NAT punching that works quite well, and as a free bonus you get location anonymity.

Statistik: Verfasst von biolizard89 — Mi Nov 25, 2015 1:08 am


Mitmachen • Re: SSL/TLS-Verschlüsselung auf den Seiten von yacy

Date: 2015-11-25 02:00:57

Is there any progress on this front? It\’s a bit unfortunate that the only way to get YaCy over HTTPS is to clone the GitHub repo. Also I\’m sure that the forum users who use Tor wish that the exit relays couldn\’t see their login details.

If there\’s no progress, may I ask what the bottleneck is? Developer time? Money?

Cheers.

Statistik: Verfasst von biolizard89 — Mi Nov 25, 2015 2:00 am


Fragen und Antworten • What does verify=true do?

Date: 2015-11-25 03:51:54

I\’m trying to figure out exactly what verify=true does. I\’ve looked through the wiki but haven\’t found any detailed documentation. Is anyone able to explain precisely what YaCy checks in the downloaded page when verify=true is set?

For example, is it checking that one of the search terms appears somewhere in the text of the page? All of the search terms? Does it recalculate the Solr entry for the page? Does it recalculate the outgoing link graph for the page?

Thanks.

Statistik: Verfasst von biolizard89 — Mi Nov 25, 2015 3:51 am


Fragen und Antworten • Privacy of Searches/Crawls

Date: 2015-11-26 22:24:55

The only privacy information I can find on the wiki relates to protecting the content of dynamic pages crawled with the proxy. I\’m much more interested in privacy analysis of what queries users search for, and what URL\’s users crawl. Is there any such analysis publicly available?

Thanks.

Statistik: Verfasst von biolizard89 — Do Nov 26, 2015 10:24 pm


English • can i add synonyms?

Date: 2015-11-27 17:39:42

can I add my files with synonyms for other languages as \“YaCy\addon\synonyms\openthesaurus_de_yacy\” ?

Statistik: Verfasst von Sergey — Fr Nov 27, 2015 5:39 pm


English • New YaCy Version?

Date: 2015-11-29 21:51:28

http://latest.yacy.net/update/ used to have new versions of YaCy but there\’s been nothing new added there since October 1st, 2015.

[Is there a new secret URL where updates are posted?]{style=“font-weight: bold”}

Somewhat related, if you go to http://latest.yacy.net/ then you will find a secret presentation which lays out their total plan for world domination using something code-named \“Kaskelix\“.

Statistik: Verfasst von oyvinds — So Nov 29, 2015 9:51 pm


English • Re: New YaCy Version?

Date: 2015-11-30 08:18:17

Hello oyvinds,

if You would like to have the latest delvelopment code, which is quite stable most times you can get it from https://github.com/yacy/yacy_search_server

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Nov 30, 2015 8:18 am


English • Re: New YaCy Version?

Date: 2015-11-30 16:20:47

oyvinds hat geschrieben:\ http://latest.yacy.net/update/ used to have new versions of YaCy but there\'s been nothing new added there since October 1st, 2015.\


Hi oyvinds, you are right, there is a lack of updates recently. I just deployed the latest dev compile to the update directory.

oyvinds hat geschrieben:\ Somewhat related, if you go to then you will find a secret presentation which lays out their total plan for world domination using something code-named \"Kaskelix\".\


Oh, I actually did not know that latest.yacy.net points to kaskelix.org which is the domain where this content should be. \“Kaskelix\” is the name of the YaCy mascot. This domain hosts some slides about ideas for future developments of YaCy into a larger infrastructure, also known as \‘YaCy2\‘.

Statistik: Verfasst von Orbiter — Mo Nov 30, 2015 4:20 pm


English • Re: can i add synonyms?

Date: 2015-11-30 17:02:36

yes, if you have a synonym file, please do so. Please follow the syntax that you see in the other files.

Statistik: Verfasst von Orbiter — Mo Nov 30, 2015 5:02 pm


English • Re: can i add synonyms?

Date: 2015-11-30 19:44:22

I put the file with the same syntax, but not sure if it will work. in admin panel there is a tab \“upload dictionary\“, but on the page only stated \“activation\” German dictionary. tried to add the file to GitHub for the new version, it might be useful : yacy_search_server/addon/synonyms/thesaurus_ru_yacy

Statistik: Verfasst von Sergey — Mo Nov 30, 2015 7:44 pm


Mitmachen • Öffentliche YaCy-Suche mit SSL/TLS-Verschlüsselung?

Date: 2015-11-30 20:09:43

Bei Digitalcourage überarbeiten wir derzeit wieder unsere Tipps zur digitalen Selbstverteidigung{.postlink}. Wir empfehlen YaCy schon länger, würden unseren (teils nichttechnischen) Leser.innen aber gern auch einen Link zu einem öffentlichen Knoten anbieten, über den sie YaCy ausprobieren können, ohne gleich die Software zu installieren. Leider konnten wir keinen öffentlichen Knoten finden, der über HTTPS erreichbar ist. Lässt sich das schnell nachrüsten, z.B. für http://yacy.info? Die Demo-Suche search.yacy.net scheint schon seit Monaten offline zu sein. Vielleicht wäre ein Zertifikat von https://letsencrypt.org/ das Richtige?

Statistik: Verfasst von digitalcourage — Mo Nov 30, 2015 8:09 pm


Mitmachen • Re: Öffentliche YaCy-Suche mit SSL/TLS-Verschlüsselung?

Date: 2015-12-01 17:29:39

Hallo,

super dass du uns direkt dazu ansprichst. Ja die Demo-Suche ist ein wenig unter die Räder geraten aber ich baue das wieder auf. Ich schaue mal ob ich das mit dem Zertifikat hinbekomme, melde mich dazu wieder...

Statistik: Verfasst von Orbiter — Di Dez 01, 2015 5:29 pm


YaCy Coding & Architecture • Re: No \“ranking\” if contentdom=image

Date: 2015-12-02 13:21:17

Not that I seriously plan to deploy Yacy and switch from my Yandex API.

... But after a month the lead dev has ignored such a core question?
It gets disrespectful.

Statistik: Verfasst von davide — Mi Dez 02, 2015 1:21 pm


YaCy Coding & Architecture • Re: Spreading YaCy on web servers

Date: 2015-12-04 02:32:03

For sure it would not be a good idea to start splitting resources...
And another bad news for this idea : it appears even Solr deployment as a standard war is no more supported since Solr 5.0 (see https://cwiki.apache.org/confluence/dis ... +on+Tomcat{.postlink})

Statistik: Verfasst von luc — Fr Dez 04, 2015 2:32 am


English • Re: can i add synonyms?

Date: 2015-12-04 11:07:40

tried under windows, everything works. switched to debian and hooked up via LVM. the index now runs twice as fast and now free space for the database anymore, but i can\’t activate the dictionary of synonyms

Statistik: Verfasst von Sergey — Fr Dez 04, 2015 11:07 am


Hilfe für Einsteiger und Anwender • api.bheap damaged - refuses to be copied / downloaded

Date: 2015-12-04 16:44:17

what to do if the api.bheap refuses to be copied in making a backup of the DATA folder to move it to a new computer?
Even my hand, manually, it refuses to be moved / downloaded
Permission problem?
This is in a cloud computer

Properties :
Group yacy [265]
Owner : yacy [264]

Permissions Octal : 0660

Many thanks!

Statistik: Verfasst von xioc752 — Fr Dez 04, 2015 4:44 pm


Hilfe für Einsteiger und Anwender • Proxy als Adblocker

Date: 2015-12-05 13:06:42

Guten Tag zusammen,

seit mehr als einem Jahr nutze ich auf meiner Server sowohl YACY als auch Squid3. YACY als SuMa und Squid3 filtert die Werbung aus dem Traffic anhand der https://easylist-downloads.adblockplus.org/easylist.txt heraus.
(Anleitung dazu auf SemperVideo: https://www.youtube.com/watch?v=CDmHxhhXZrc)

Meine Idee ist jetzt folgende:
* YACY zusätzlich als Proxy-Server nutzen (das funktioniert soweit schon ohne Probleme);
* Eine Blacklist anlegen die nur Proxy-Traffic filtert (auch das funktioniert bei manuellen Einträgen);
* Was aber zur Zeit noch nicht funktioniert, ist der Import der https://easylist-downloads.adblockplus.org/easylist.txt in die Blacklist. Es werden nur die ersten ca. 10 Zeilen übernommen, die nur aus Kommentaren bestehen.

Wenn man YACY beibringen könnte mit der easylist.txt sauber zu arbeiten, dann wäre es eine eierlegende Wohlmilchsau für viele Netzwerke. (SuMa + Zentraler Proxy-Adblocker)

Bzw. Mache ich etwas falsch beim Importieren der easylist.txt?

Würde mich über eine Antwort/Feedback zur Idee freuen.

Gruß
dS810

Statistik: Verfasst von ds810 — Sa Dez 05, 2015 1:06 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-12-05 13:30:48

To extend the idea of a modular architecture based on standards, dont\’t you think integrating Apache Nutch web crawler (https://nutch.apache.org/) Apache Tika parsers (https://tika.apache.org/) would be a good point? Eventual parts of Yacy crawling or parsing system not already in theses libraries could be contributed to these projects... It would allow even more code review and testing on such core components.

Statistik: Verfasst von luc — Sa Dez 05, 2015 1:30 pm


Hilfe für Einsteiger und Anwender • Re: Proxy als Adblocker

Date: 2015-12-05 14:26:27

Hallo,

die Idee diese Liste zu nutzen ist schon cool - nur scheint sie mir nicht in der gleichen Syntax verfasst zu sein.
Da müsste man mal was bauen um sie zu konvertieren.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Dez 05, 2015 2:26 pm


Hilfe für Einsteiger und Anwender • Re: Proxy als Adblocker

Date: 2015-12-05 14:30:30

Meinst du, dass man in der Datei erst den Regex in eine andere Form bringen müsste? Hm... Ist so ein Konverter direkt in YACY denkbar?

Statistik: Verfasst von ds810 — Sa Dez 05, 2015 2:30 pm


Hilfe für Einsteiger und Anwender • Re: YaCy IP verschleiern

Date: 2015-12-06 06:34:21

1hartmann hat geschrieben:\ Hall wer kann mir bitte sagen wie ich bei YaCy meine IP verschleiern kann und mit welchem Programm? Danke.\



Orbiter\’s suggestion of using Tor as an upstream proxy will fit your literally stated goal of hiding your IP. However, my understanding is that YaCy doesn\’t play well with some of Tor\’s features for preventing identity correlation attacks (e.g. stream isolation). Doing this properly would most likely require passing SOCKS authentication to Tor, which isn\’t really feasible right now since I don\’t think YaCy supports upstream SOCKS. Also, you\’ll need to make sure that YaCy isn\’t listening for incoming connections, since those will bypass Tor. If you want to accept incoming connections to YaCy while hiding your IP, you could use a Tor hidden service, but I don\’t think a stock YaCy client can connect to Tor hidden services.

It would be awesome to see more development on making YaCy more anonymous. I get the impression that the YaCy devs would like to see this happen, but they have limited resources and this isn\’t a top priority for them. (Orbiter is welcome to correct me if I\’m mistaken.)

Cheers.

Statistik: Verfasst von biolizard89 — So Dez 06, 2015 6:34 am


Hilfe für Einsteiger und Anwender • Re: Crawlen um RSS-Feeds von URLs zu bekommen

Date: 2015-12-06 06:45:11

maaax89 hat geschrieben:\ Hey liebe Community,\ ich habe ein Frage zum crawlen mit Yacy. Ich nutze die Anwendung um aus diversen Onlinequellen die jeweiligen RSS-Links automatisch zu beziehen. Dies ist mit den gegebenen Funktionen von Yacy ohne Probleme möglich. Allerdings sind mir in letzter Zeit häufiger URL-Seiten aufgefallen, die nicht vollständig durchsucht worden sind.\ Diese Seiten haben RSS-Feeds, welche nicht vom Yacy-Crawler gefunden wurden.\ \ Z.B. \" \", diese Seite besitzt einige RSS-Feedlinks, die in einer Tabelle aufgelistet stehen (\" [http://www.noticiasdenavarra.com/corpor \... n-por-rss/](http://www.noticiasdenavarra.com/corporativos/suscripcion-por-rss/){.postlink} \"). Die hier verlinkten Feeds haben auch alle den gleichen Stamm \"z.B. \". Ich habe bereits einige verschiedene Einstellungsvarianten beim Expertencrawling probiert, aber leider ohne den gewünschten Erfolg. Ich habe verschieden Crawling Tiefen probiert und auch die robots.txt berücksichtigt, hier stehen keine Einschränkungen für diesen Fall.\ \ Könnt ihr mir weiter Helfen und mögliche Fehlerquellen bei mir benennen. Oder gibt es da technische Einschränkungen weshalb manche Seiten nicht voll funktionieren?\ \ Das ähnliche Problem habe ich auch mit einer Menge von Blogspot-Seiten. Ich habe eine Liste mit mehreren Blogspot-Auftritten in Yacy crawlen lassen und wollte dann die Feedlinks exportieren. Alle dieser Blogspot-Seiten besitzen mindestens einen RSS-Feed, aber Yacy fand lediglich bei einem Viertel welche. Auch hier kann die robots.txt als Fehlerquelle ausgeschlossen werden.\ \ Ich bin mit meinem Latein am Ende\.... Vielen Dank\ \ lg max\



Interestingly, when I visit http://www.noticiasdenavarra.com/ in TorBrowser, I do get an option to \“Subscribe to this page\“, but clicking it returns me to the home page rather than taking me to an RSS feed. So, I conclude that either the website is broken and YaCy is working as intended, or TorBrowser has a bug in handling RSS feeds as well. (Hard to be sure which is the case.)

Cheers.

Statistik: Verfasst von biolizard89 — So Dez 06, 2015 6:45 am


Hilfe für Einsteiger und Anwender • Re: api.bheap damaged - refuses to be copied / downloaded

Date: 2015-12-06 06:47:40

xioc752 hat geschrieben:\ what to do if the api.bheap refuses to be copied in making a backup of the DATA folder to move it to a new computer?\ Even my hand, manually, it refuses to be moved / downloaded\ Permission problem?\ This is in a cloud computer\ \ Properties :\ Group yacy \[265\]\ Owner : yacy \[264\]\ \ Permissions Octal : 0660\ \ Many thanks!\



I\’ve encountered numerous issues in copying the DATA folder (usually involving the new YaCy installation crashing on boot). You might have better luck exporting and importing the index (I think YaCy supports this now). Of course, this doesn\’t copy the crawl schedule, etc.

Statistik: Verfasst von biolizard89 — So Dez 06, 2015 6:47 am


Hilfe für Einsteiger und Anwender • Re: api.bheap damaged - refuses to be copied / downloaded

Date: 2015-12-06 07:28:20

Thank you
...you wrote

\ exporting and importing the index (I think YaCy supports this now)\


Please explain the process.
Are you referring to the index folder in the data folder or something else, please?
Thanks

biolizard89 hat geschrieben:\ >
> > xioc752 hat geschrieben:what to do if the api.bheap refuses to be > copied in making a backup of the DATA folder to move it to a new > computer?\ > Even my hand, manually, it refuses to be moved / downloaded\ > Permission problem?\ > This is in a cloud computer\ > \ > Properties :\ > Group yacy \[265\]\ > Owner : yacy \[264\]\ > \ > Permissions Octal : 0660\ > \ > Many thanks!\ > >



I\’ve encountered numerous issues in copying the DATA folder (usually involving the new YaCy installation crashing on boot). You might have better luck exporting and importing the index (I think YaCy supports this now). Of course, this doesn\’t copy the crawl schedule, etc.

Statistik: Verfasst von xioc752 — So Dez 06, 2015 7:28 am


Fragen und Antworten • YaCy hört nicht auf Port 8090

Date: 2015-12-06 14:44:58

Hallo zusammen.

Ich versuche, YaCy auf einem Raspi zu installieren und zum Laufen zu bringen. Als Basis habbich die neueste Version von Raspbian vom November installiert.

YaCy kann ich starten und es \“macht\” dann auch was. Zumindest zeigt mir top an, dass ein Java-Prozess nach einem startYaCy.sh den Prozessor beschäftigt. Das Problem, was ich habe ist, dass das WebGUI auf Port 8090 nicht erreichbar ist. Weder von localhost, noch von aussen.

Hier mal ein Mitschnitt von der Konsole:

venty\@hotdog:~/yacy \$ ./startYACY.sh
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** © by Michael Peter Christen, usage granted under the GPL Version 2 ****
**** USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/ ****
** LOG of YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log) **
** STOP YaCy: execute stopYACY.sh and wait some seconds **
** GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de **
*******************************************************************************
>> YaCy started as daemon process. Administration at http://localhost:8090 <<

venty\@hotdog:~/yacy \$ tail -f DATA/LOG/yacy00.log
I 2015/12/06 13:29:36 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)
I 2015/12/06 13:29:36 Domain Init local host address: 127.0.0.1 (local)
I 2015/12/06 13:29:36 Domain Init local host address: fe80:0:0:0:24b:5bfc:8a9e:b148 (local)
I 2015/12/06 13:29:36 Domain Init local host address: fe80::24b:5bfc:8a9e:b148 (local)
I 2015/12/06 13:29:36 Domain Init local host address: 2001:1620:f00:8250:ba27:ebff:fe69:a351 (public)
I 2015/12/06 13:29:36 Domain Init local host address: 127.0.1.1 (local)
I 2015/12/06 13:29:36 Domain Init local host address: 192.168.200.94 (local)
I 2015/12/06 13:29:41 Domain Init local host address: 169.254.185.103 (local)
I 2015/12/06 13:29:41 Domain Init local host address: fe80:0:0:0:ba27:ebff:fe69:a351 (local)
I 2015/12/06 13:29:41 Domain Init local host address: fe80::ba27:ebff:fe69:a351 (local)
I 2015/12/06 13:29:45 UPNP no device found
I 2015/12/06 13:29:52 Word hashCache.size = 20000
I 2015/12/06 13:29:52 SWITCHBOARD Initializing Segment \‘/home/venty/yacy/DATA/INDEX/freeworld/SEGMENTS.
I 2015/12/06 13:30:00 org.apache.solr.core.ConfigSolr Loading container configuration from /home/venty/yacy/defaults/solr/solr.xml
I 2015/12/06 13:30:13 org.apache.solr.update.UpdateShardHandler Creating UpdateShardHandler HTTP client with params: socketTimeout=0&connTimeout=0&retry=false
I 2015/12/06 13:30:13 org.apache.solr.logging.LogWatcher SLF4J impl is org.slf4j.impl.JDK14LoggerFactory
I 2015/12/06 13:30:13 org.apache.solr.logging.LogWatcher Registering Log Listener [JUL (org.slf4j.impl.JDK14LoggerFactory)]
I 2015/12/06 13:30:22 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabled
I 2015/12/06 13:30:22 org.apache.solr.update.SolrIndexConfig IndexWriter infoStream solr logging is enabled


So wie ich die Logeinträge verstehe, sollte der doch auf allen möglichen IPs (v4 und v6) hören.
Jedoch bekomm ich da samt und sonders nur ein \“Connection Refused\“. Firewall ist AFAIK keine am Laufen. Mindestens zeigt iptables -L nix an.

Was kann ich tun, damit YaCy sich ein bisschen für die Aussenwelt öffnet?

Statistik: Verfasst von Venty — So Dez 06, 2015 2:44 pm


Hilfe für Einsteiger und Anwender • Re: Proxy als Adblocker

Date: 2015-12-06 14:48:56

Hallo zusammen,

wie kann ich diese Meldung durch etwas anderes ersetzen?

Code:
HTTP ERROR: 403Problem accessing /iframe/banerator-728x90-top-1.html. Reason:    URL '195.82.146.52' blocked by yacy proxy (blacklisted)



Ich will keinen Hinweis auf den geblockten Inhalt anzeigen lassen...

Danke im Voraus!!!

Statistik: Verfasst von ds810 — So Dez 06, 2015 2:48 pm


Hilfe für Einsteiger und Anwender • Re: api.bheap damaged - refuses to be copied / downloaded

Date: 2015-12-06 19:42:20

xioc752 hat geschrieben:\ Thank you\ \...you wrote\ >
> > exporting and importing the index (I think YaCy supports this now)\ > >


Please explain the process.
Are you referring to the index folder in the data folder or something else, please?
Thanks



Looks like instructions are at http://www.yacy-websearch.net/wiki/inde ... ndexExpImp{.postlink}

Statistik: Verfasst von biolizard89 — So Dez 06, 2015 7:42 pm


Fragen und Antworten • Re: YaCy hört nicht auf Port 8090

Date: 2015-12-07 18:49:05

Hmm, fährt denn \‘Jetty\’ hoch - das ist der Webserver in Yacy? Was steht dazu in der Logdatei?
Gruß lux

Statistik: Verfasst von lux — Mo Dez 07, 2015 6:49 pm


Fragen und Antworten • Re: YaCy hört nicht auf Port 8090

Date: 2015-12-07 21:54:59

Hi lux.

Ich fürchte nicht. In der Logdatei steht nichts davon. Lediglich in der endlosen Kommandozeile um java steht etwas dazu, aber es ist kein eigener Task. Bin allerdings auch nicht so vertraut mit Java. Ich paste mal:

---->8----
venty\@hotdog:~/yacy \$ ps aux | grep jetty
venty 2465 99.5 15.6 371852 77492 pts/0 SNl 21:45 1:17 /usr/bin/java -Xms90m -Xmx200m -server -Djava.awt.headless=true -Dfile.encoding=UTF-8 -classpath .:htroot:lib/J7Zip-modified.jar:lib/apache-mime4j-0.6.jar:lib/bcmail-jdk15-1.46.jar:lib/bcprov-jdk15-1.46.jar:lib/chardet.jar:lib/commons-codec-1.9.jar:lib/commons-compress-1.8.1.jar:lib/commons-fileupload-1.3.1.jar:lib/commons-io-2.3.jar:lib/commons-jxpath-1.3.jar:lib/commons-lang-2.6.jar:lib/commons-logging-1.2.jar:lib/fontbox-1.8.8.jar:lib/geronimo-stax-api_1.0_spec-1.0.1.jar:lib/guava-18.0.jar:lib/htmllexer.jar:lib/httpclient-4.3.6.jar:lib/httpcore-4.3.3.jar:lib/httpmime-4.3.6.jar:lib/icu4j-core.jar:lib/jakarta-oro-2.0.8.jar:lib/jaudiotagger-2.0.4-20111207.115108-15.jar:lib/javax.servlet-api-3.1.0.jar:lib/jcifs-1.3.17.jar:lib/jcl-over-slf4j-1.7.9.jar:lib/jempbox-1.8.8.jar:lib/jetty-client-9.2.6.v20141205.jar:lib/jetty-continuation-9.2.6.v20141205.jar:lib/jetty-deploy-9.2.6.v20141205.jar:lib/jetty-http-9.2.6.v20141205.jar:lib/jetty-io-9.2.6.v20141205.jar:lib/jetty-jmx-9.2.6.v20141205.jar:lib/jetty-proxy-9.2.6.v20141205.jar:lib/jetty-security-9.2.6.v20141205.jar:lib/jetty-server-9.2.6.v20141205.jar:lib/jetty-servlet-9.2.6.v20141205.jar:lib/jetty-servlets-9.2.6.v20141205.jar:lib/jetty-util-9.2.6.v20141205.jar:lib/jetty-webapp-9.2.6.v20141205.jar:lib/jetty-xml-9.2.6.v20141205.jar:lib/jsch-0.1.51.jar:lib/json-simple-1.1.1.jar:lib/jsoup-1.8.1.jar:lib/log4j-over-slf4j-1.7.9.jar:lib/lucene-analyzers-common-4.10.3.jar:lib/lucene-analyzers-phonetic-4.10.3.jar:lib/lucene-classification-4.10.3.jar:lib/lucene-codecs-4.10.3.jar:lib/lucene-core-4.10.3.jar:lib/lucene-facet-4.10.3.jar:lib/lucene-grouping-4.10.3.jar:lib/lucene-highlighter-4.10.3.jar:lib/lucene-join-4.10.3.jar:lib/lucene-memory-4.10.3.jar:lib/lucene-misc-4.10.3.jar:lib/lucene-queries-4.10.3.jar:lib/lucene-queryparser-4.10.3.jar:lib/lucene-spatial-4.10.3.jar:lib/lucene-suggest-4.10.3.jar:lib/metadata-extractor-2.7.0.jar:lib/noggit-0.5.jar:lib/org.restlet.jar:lib/pdfbox-1.8.8.jar:lib/poi-3.10.1.jar:lib/poi-scratchpad-3.10.1.jar:lib/slf4j-api-1.7.9.jar:lib/slf4j-jdk14-1.7.9.jar:lib/solr-core-4.10.3.jar:lib/solr-solrj-4.10.3.jar:lib/spatial4j-0.4.1.jar:lib/webcat-0.1-swf.jar:lib/weupnp-0.1.2.jar:lib/wstx-asl-3.2.9.jar:lib/xercesImpl.jar:lib/xml-apis.jar:lib/xmpcore-5.1.2.jar:lib/yacycore.jar:lib/zookeeper-3.4.6.jar: net.yacy.yacy
---->8----

Allerdings hab ich auch noch festgestellt, dass YaCy auf dem Raspi 1 nach ein paar Minuten jeweils crasht. Ich glaube, das bringt nichts, wenn ich da weiterhin versuch auf der Plattform das zum Laufen zu bringen. Muss mir da wohl was anderes überlegen.

Hier noch die Ausgabe von ./startYACY.sh -d:

----8<----
venty\@hotdog:~/yacy \$ ./startYACY.sh -d
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** © by Michael Peter Christen, usage granted under the GPL Version 2 ****
**** USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/ ****
** LOG of YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log) **
** STOP YaCy: execute stopYACY.sh and wait some seconds **
** GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de **
*******************************************************************************
>> YaCy started as daemon process. Administration at http://localhost:8090 <<
Asserts are enabled
WARNING: the file /home/venty/yacy/DATA/yacy.running exists, this usually means that a YaCy instance is still running. If you want to restart YaCy, try first ./stopYACY.sh, then ./startYACY.sh. If ./stopYACY.sh fails, try ./killYACY.sh
INFO: delete old yacy.running file; likely previous YaCy session was not orderly shutdown!
[ YaCy v1.82, build 20150121 by Michael Christen / www.yacy.net{.postlink} ]
-------------------------------------------------------------------------------
STARTUP: Trying to load logging configuration from file /home/venty/yacy/DATA/LOG/yacy.logging
I 2015/12/07 20:51:19 Domain Init local host address: 0::1 (local)
I 2015/12/07 20:51:20 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)
I 2015/12/07 20:51:20 Domain Init local host address: 127.0.0.1 (local)
I 2015/12/07 20:51:20 Domain Init local host address: fe80:0:0:0:24b:5bfc:8a9e:b148 (local)
I 2015/12/07 20:51:20 Domain Init local host address: fe80::24b:5bfc:8a9e:b148 (local)
I 2015/12/07 20:51:20 Domain Init local host address: 2001:1620:f00:8250:ba27:ebff:fe69:a351 (public)
I 2015/12/07 20:51:20 Domain Init local host address: 127.0.1.1 (local)
I 2015/12/07 20:51:20 Domain Init local host address: 192.168.200.94 (local)
I 2015/12/07 20:51:24 Domain Init local host address: 169.254.185.103 (local)
I 2015/12/07 20:51:24 Domain Init local host address: fe80:0:0:0:ba27:ebff:fe69:a351 (local)
I 2015/12/07 20:51:24 Domain Init local host address: fe80::ba27:ebff:fe69:a351 (local)
#
# A fatal error has been detected by the Java Runtime Environment:
#
# Internal Error (cppInterpreter_arm.S:2625), pid=2536, tid=2684744800
# fatal error: *** Unimplemented opcode: 232 = <unknown>

#
# JRE version: OpenJDK Runtime Environment (7.0_91-b02) (build 1.7.0_91-b02)
# Java VM: OpenJDK Zero VM (24.91-b01 mixed mode linux-arm )
# Derivative: IcedTea 2.6.3
# Distribution: Raspbian GNU/Linux 8.0 (jessie), package 7u91-2.6.3-1~deb8u1+rpi1
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try \“ulimit -c unlimited\” before starting Java again
#
# An error report file with more information is saved as:
# /home/venty/yacy/hs_err_pid2536.log
/home/venty/yacy/hs_err_pid2536.logr]
#
# If you would like to submit a bug report, please include
# instructions on how to reproduce the bug and visit:
# http://icedtea.classpath.org/bugzilla
#
Aborted
---->8-----

Ich versuchs bei Gelegenheit auf einer anderen, etwas stärkeren Plattform. Trotzdem danke einstweilen!

Statistik: Verfasst von Venty — Mo Dez 07, 2015 9:54 pm


Fragen und Antworten • Re: YaCy hört nicht auf Port 8090

Date: 2015-12-07 22:26:47

Hallo,

soll das auf einem ARM-System laufen?
Wenn ja dann musst Du bitte in der startYACY.sh das \‘-server\’ entfernen.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Dez 07, 2015 10:26 pm


Fragen und Antworten • Re: YaCy hört nicht auf Port 8090

Date: 2015-12-08 10:04:50

Achso, ja. Der Raspberry Pi laeuft mit einer ARM CPU. Werd ich probieren und melde mich dann nochmal. Vielen Dank vorerst!

Statistik: Verfasst von Venty — Di Dez 08, 2015 10:04 am


Fragen und Antworten • Re: YaCy hört nicht auf Port 8090

Date: 2015-12-08 16:44:11

Problem geloest!

Die Anleitung auf http://www.yacy-websearch.net/wiki/index.php/De:Raspberry_Pi sagt, dass man YaCy auch mit openjdk (icedtea) betreiben koenne. Tja, dem ist mindestens mit der Latest-Version nicht mehr so, darum auch der Crash. Jetty, der Webserver, wird dadurch gar nicht erst gestartet, da das Ganze schon vorher mit der von mir oben gepasteten Fehlermeldung abschmiert.

Ich hab nun also von Oracle das JRE 1.8.0_irgendwas installiert. Damit laeuft YaCy jetzt auf dem Raspberry Pi 1, der Webserver startet und ich kann auf Port 8090 aufs WebGUI zugreifen.
Dann mal gucken, was man damit so alles machen kann. =:o)

Aber Java... *grummel*

Statistik: Verfasst von Venty — Di Dez 08, 2015 4:44 pm


Fragen und Antworten • Fulltext indexing

Date: 2015-12-08 18:43:19

Hi,

Code:
I 2015/12/08 18:36:45 Fulltext indexing: QV8K5QIB7PmZ http://www.artflavours.com/I 2015/12/08 18:36:45 Fulltext indexing: QBU9LC0bSEVA http://annotate.de/text/VomittingI 2015/12/08 18:36:45 Fulltext indexing: Rin9TWgO-grB http://www.tu-ilmenau.de/en/kontrast/phys/gremien/I 2015/12/08 18:36:45 Fulltext indexing: R1WeWWgO-grB http://www.tu-ilmenau.de/en/kontrast/phys/fachgebiete/



woher kommt das? Ich habe bei meinem Hauptpeer den Crawler & Remote-Crawler auf \‘Pause\’ stehen, aber trotzdem \‘Fulltext indexing\’ im Log gefunden.


Viele Grüße

Stefan

Statistik: Verfasst von LA_FORGE — Di Dez 08, 2015 6:43 pm


Fragen und Antworten • Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-09 20:33:54

Guten Tag zusammen,

ist es vorgesehen http://search.yacy.net/ wieder online zu schalten? Ich will die Seite als Standard-SuMa verwenden. Bisher habe ich über ein free-dyndns-dienst auf die eigene Yacy-Instanz zugreifen können, doch vor kurzen wurde bei uns im Betrieb der Zugriff auf dynamische IPs durch die zentrale IT gesperrt...

Wie schon gefragt, geht die SuMa in naher Zukunft wieder online?

Gruß
dS810

Statistik: Verfasst von ds810 — Mi Dez 09, 2015 8:33 pm


Fragen und Antworten • Re: Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-11 16:00:36

Hi,

eine Mischung aus excessiven Reisen, totaler Konzentration auf loklak.org und anderen Dingen in Kombination mit zu viel lazyness und einer Irritation was auf search.yacy.net denn nun eigentlich schief läuft hat dazu geführt dass search.yacy.net \‘ein bisschen\’ offline war. Hab das nun wieder in den Griff bekommen, das ganze ist wieder online. (hab dabei auch gelernt wie man nginx NICHT konfigurieren sollte... :oops: )

Auch wenn ich immer betone dass wir ja keinen Suchdienst machen sollen weil wir ja wollen dass Leute ihren eigenen Suchdienst machen können ist diese Demo-Suche da, weil halt viele Leute danach fragen. Ist aber eben nur eine Demo-Suche auf einem Server der noch andere Dinge macht. Wenn aber uns auf diesem Ding so eine riesen Scheisse passieren sollte wie gerade metager{.postlink}, dann könnte es sein dass ich http://search.yacy.net auch einfach ganz abschalte. Diesen gerichts-Wahnsinn gebe ich mir nicht. So weit sind wir aber nicht...

Statistik: Verfasst von Orbiter — Fr Dez 11, 2015 4:00 pm


Fragen und Antworten • Re: Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-11 16:13:13

Hey Orbiter,

danke für die Aktivierung!

Ich habe mir gerade den Artikel durchgelesen... Das ist ja eine Kacke... Werde das Thema mit Interesse weiter verfolgen.

PS: Noch eine Frage: Demo0 tauscht die die Inhalte schon mit den anderen Peers aus, oder? Denn die Treffer sind alle etwas älter...

Gruß
dS810

Statistik: Verfasst von ds810 — Fr Dez 11, 2015 4:13 pm


Fragen und Antworten • Re: Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-11 16:53:13

ja, du siehst diesen Effekt weil der Peer irgendein Solr Problem hat und keine Updates schreibt. Ich untersuche das und versuche herauszufinden ob das nur der eine Peer hat.

Statistik: Verfasst von Orbiter — Fr Dez 11, 2015 4:53 pm


Fragen und Antworten • Re: Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-11 19:13:19

demo0 seht keine Peers mehr :/

(siehe Screenshot)

Statistik: Verfasst von ds810 — Fr Dez 11, 2015 7:13 pm


Fragen und Antworten • Re: Fulltext indexing

Date: 2015-12-12 15:34:53

Hello,
Sorry to answer in English... When you perform search queries in P2P mode, by default search results coming from remote nodes are added to your local index. And this gives you these messages.
It is possible to modify this behavior in /ConfigPortal.html (Administration > Portal Configuration) with checkbox \“Index remote results\“, even if it is not recommended (indexing remote results enable your peer to reuse it for you or for incoming queries).

Statistik: Verfasst von luc — Sa Dez 12, 2015 3:34 pm


Fragen und Antworten • Re: What does verify=true do?

Date: 2015-12-12 16:30:21

Are you talking about \“verify\” parameter used in yacysearch?
As far as I know, it is rather related to the cache strategy used to load text snippets coming with search results.
\“verify=true\” is equals to \“verify=ifexist\“. You will find the description and other available values in Portal Configuration page \“/ConfigPortal.html\” : \“Snippet Fetch Strategy & Link Verification\” section.

Statistik: Verfasst von luc — Sa Dez 12, 2015 4:30 pm


Fragen und Antworten • Re: What does verify=true do?

Date: 2015-12-13 00:30:31

From a brief glance at the source code, looks like this is related: https://github.com/yacy/yacy_search_ser ... java#L1473{.postlink} . I don\’t fully understand what this code is doing, but it looks like all it can do is choose whether to delete a result; it doesn\’t have any influence on ranking. This leads to a question: what happens if a remote node provides incorrect score/ranking data? Is there any way for a local YaCy node to notice this and correct it?

Statistik: Verfasst von biolizard89 — So Dez 13, 2015 12:30 am


Fragen und Antworten • Re: Fulltext indexing

Date: 2015-12-13 14:49:47

Thank you very much!

>>> Sorry to answer in English...

You\’re welcome :-)

Statistik: Verfasst von LA_FORGE — So Dez 13, 2015 2:49 pm


Fragen und Antworten • Re: Wird \‘search.yacy.net\’ wieder reanimiert?

Date: 2015-12-13 14:55:03

Vielen Dank für die Reaktivierung von search.yacy.net!

Falls das Gerichtsurteil negativ für uns ausfällt, kann search.yacy.net gerne auf meinen Hauptpeer \‘endeavour\’ weitergeleitet werden, der sich in der Schweiz befindet :-P Ich garantiere 98% Uptime im Jahr und könnte auch den Ansturm verkraften, genug Reserven sind vorhanden :-)

Statistik: Verfasst von LA_FORGE — So Dez 13, 2015 2:55 pm


Fragen und Antworten • Re: What does verify=true do?

Date: 2015-12-13 19:56:31

Before displaying a search result, coming from either local/remote Solr or DHT, a post-ranking operation is applied :
https://github.com/yacy/yacy_search_ser ... java#L1412{.postlink}
For now I personally don\’t know if this function is able to compensate any eventual incorrect remote score, being incorrect by processing error or intentionally...

Statistik: Verfasst von luc — So Dez 13, 2015 7:56 pm


Fragen und Antworten • \‘search.yacy.net\’ verliert Kontakt zu anderen Peers

Date: 2015-12-13 20:59:27

Ich stelle ḿehrmals am Tag fest [(wie jetzt eben auch)]{style=“font-style: italic”}, dass \‘search.yacy.net\’ die Verbindung zu anderen Peers verliert [(siehe Screenshot)]{style=“font-style: italic”}.

http://search.yacy.net/Network.html

Bild

Bei mir beobachte ich das gleiche Verhalten, und zwar erst nach der Upgrade auf die Version 1.83009565. Vorher ist mir dieses Phänomen nicht aufgefallen. Bei mir hilft nur noch ein Restart von YACY.

Gruß
dS810

Statistik: Verfasst von ds810 — So Dez 13, 2015 8:59 pm


Mitmachen • YaCy funding and development policy

Date: 2015-12-13 21:53:25

Hi everyone,
I\’ve been using YaCy for some months now, and contributed as far as I could in my free time. I really enjoy having this alternative as a search engine, and to my mind it is really important to keep it alive and make as simple to use as possible.
Looking deep inside the code, I have seen it is already a big piece of work!
So I was wondering about current development and funding model... Is it currently only the work of volunteers? Do some people get rewarded for their work on YaCy?
I guess Orbiter or other developers get involved full time on YaCy at some times (but not now?)... To my mind, there is much to do to improve reliability, performance, ease of use and installations for new comers... So there is already enough work for full time developers not to wait an eventual YaCy2 architecture. Is it planned to launch funding campaigns? What do you think about crowdfunding? Has it already been used to fund YaCy?
I am an experienced Java/J2EE developer and would find it great to have the opportunity to work full time on YaCy, at least for some months. But it requires some time and some funding. Does YaCy team would support an individual crowdfunding campaign?
That\’s all for my questions... :) I posted here in English because it seems to be the most appropriate place in the forum... and my German is too poor.
Thanks for any feedback.

Statistik: Verfasst von luc — So Dez 13, 2015 9:53 pm


YaCy Coding & Architecture • mailto link handling

Date: 2015-12-15 22:42:40

In 2009 scaping of mailto uri\’s has been stopped
https://github.com/yacy/yacy_search_ser ... e9e254125a{.postlink}

Is there a today still valid reason for not scaping mailto\’s ?

Except the some URL generation bug some time prior to 2009 with the mailto scheme.

Statistik: Verfasst von reger — Di Dez 15, 2015 10:42 pm


YaCy Coding & Architecture • Re: WebRTC for YaCy: p2p in browser plug-in

Date: 2015-12-17 02:11:41

Apparently the current trend now tends to be developing full javascript apps. We are no more speaking of simple browser plug-ins.
By the way, it could be interesting to see how much of YaCy core components could be directly run with projects such as http://www.teavm.org/ or http://wiki.apidesign.org/wiki/Bck2Brwsr... Yes I am saying to try running some YaCy bytecode directly in a browser :?

Statistik: Verfasst von luc — Do Dez 17, 2015 2:11 am


YaCy Coding & Architecture • Search or transfer

Date: 2015-12-17 20:39:28

During search events we collect metadata from dht queries as well as solrdocuments from solr direct queries.
As \@luc pointed out (see http://mantis.tokeek.de/view.php?id=626) we transfer documents \“to big to store\” during search.
Should we not considere to tackle this at the root and in view of search performance go back and exchange search results with exactly whats needed for it (standardized search interface) and maybe enhance/expand the dht transfer part to solrdocs, but go away from solr direct queries / returns of a remote peer index assumed to be similar to the local sorl index?

P.S. We basically have everything under the hood, from rwi query, opensearch query, sru query, solr query ...... but each used differently.

Statistik: Verfasst von reger — Do Dez 17, 2015 8:39 pm


YaCy Coding & Architecture • Re: Search or transfer

Date: 2015-12-18 10:38:15

One point however : aren\’t direct remote solr queries still useful when your peer is member of a Solr Cluster?
Concerning very large inbouds and outbounds link lists embedded in solr documents : should not they be only stored and retrieved from webgraph collection?

Statistik: Verfasst von luc — Fr Dez 18, 2015 10:38 am


YaCy Coding & Architecture • Re: Search or transfer

Date: 2015-12-18 14:07:56

To my mind, it also sounded interesting to have someday a user interface allowing to dispatch to remote peers a custom solr query built by the user (maybe it is already possible using the API?)

Statistik: Verfasst von luc — Fr Dez 18, 2015 2:07 pm


Mitmachen • Re: YaCy funding and development policy

Date: 2015-12-19 11:05:05

Hi luc,
when I started YaCy it was work I did in my free time. During these years I already worked as freelance consultant and YaCy was developed while I was sitting in a train or in hotel rooms or (much worse) when I was home and did not share my time with my family. In the most recent years I was able to sell consultancy for YaCy to \‘selected\’ customers (yes I \‘unselected\’ not a few job offerings from the dark side). Many professional enhancements (like solr integration, GSA protocol support, very rich metadata format, dump creation, front-end enhancements) came from customer requests.

What I have painted in the YaCy2 graphics is a model to have opportunities to intensivate such professional enhancements. I would love to enhance YaCy with or without funding from companies, but it is necessary to have a good choice how to earn money to fund the family. I have two children and as they grow older their demand for funding rises. Therefore it would be a good thing to grow into commercial applications with YaCy, because it could open up opportunities to have funding from commercial parterns. Thats what is reflected in the YaCy2 architecture. It even contains research opportunities, so partners could be universities as well.

If you want to join professional work with YaCy I don\’t stand in your way. When YaCyPi made a kickstarter campaign, I was advertising it. Today I know that YaCyPi was crap and nobody cared about it, but I have seen harm for the YaCy project (somebody approached me and sayd: \“I wanted to support you, so I bought the YaCyPi, but it never worked\“.) Finding a commercial partner is really hard work. And you are on your own, finding a project. You must create a \‘product\’ which suites you, like: providing support where you deliver consultantcy in a specified time range. You must ask yourself what you can do and create a contract which describes how your customer and you promise to deliver.

So if you want to start a crowdfunding campaign for _you_, just go for it. Because I want to learn from the past, I would like to support this only if the campaign gives transparency how you campaign is related to the whole project. For me, a crowdfunding campaign does not work right now. What would be your idea, what do you want to sell?

Statistik: Verfasst von Orbiter — Sa Dez 19, 2015 11:05 am


Mitmachen • Re: YaCy funding and development policy

Date: 2015-12-20 12:57:09

Hi Orbiter,
thank you for such a complete and honest answer. You are right, launching a successfull professionnal project with YaCy will need much thinking and preparation. I think for now I still lack some experience both as a user and in overall code architecture. But there are already many points I would be interested to improve. I feel it very important to make YaCy project alive, and lack of time is sometimes quite frustrating (but it\’s also vital not to forget life outside computers).

Currently I am trying to switch from a job in an engineering society, and to work on projects which reflect more what I believe in. Finding a company or organization somehow involved in free software and ready to invest some time on YaCy would be great. I am also not fully convinced with crowdfunding systems.

By the way, to my mind the most important for now would be to enhance YaCy newcomers experience : translation, community support, up to date wiki, system integration, reduce visual bugs, timezone problems, processing on low grade systems... Not impossible with some volunteers work, but I think some of these tasks are not the most interesting even if they require some time investment.

If I finally would be to start a crowdfunding campain it would be of course with your agreement, and with participation of anyone interested in YaCy team. I understand your disappointment with a project such as YaCyPi.

For now I hope to find enough time to continue improving YaCy the best I can, and I am already grateful you made it exists!

Statistik: Verfasst von luc — So Dez 20, 2015 12:57 pm


Fragen und Antworten • Re: \‘search.yacy.net\’ verliert Kontakt zu anderen Peers

Date: 2015-12-21 17:39:21

Ich finde es schade, dass dieser Fehler hier keine Beachtung findet...

Statistik: Verfasst von ds810 — Mo Dez 21, 2015 5:39 pm


YaCy Coding & Architecture • Re: mailto link handling

Date: 2015-12-23 11:08:14

I think at that time I just wanted to make sure that we don’t support spammers. Furthermore we don’t have any use of mail addresses.
What would you do with them?

Statistik: Verfasst von Orbiter — Mi Dez 23, 2015 11:08 am


YaCy Coding & Architecture • Re: mailto link handling

Date: 2015-12-23 11:09:52

Oh the change was made by lotus — however he did right since all what was left was simply protocols that we used for scraping.

Statistik: Verfasst von Orbiter — Mi Dez 23, 2015 11:09 am


English • Re: java.io.IOException error

Date: 2015-12-23 18:05:42

Orbiter hat geschrieben:\ please upgrade to yacy\_v1.81\_20141017\_9106 which includes the fix.\


That is funny, because I\’m running yacy_v1.82_20150121_9000 and get exactly the same kind of problem:

Code:
Crawling of "http://www.infowars.com" failed. Reason: scraper cannot load URL: java.io.IOException: Client can't execute: http://www.infowars.com duration=3001/

Statistik: Verfasst von ariyaci — Mi Dez 23, 2015 6:05 pm


YaCy Coding & Architecture • Re: mailto link handling

Date: 2015-12-23 22:12:55

Orbiter hat geschrieben:\ What would you do with them?\



Make it possible to use it for webgraph / citation index.

I thought about the spammer etc. point also and I\’m 6040 to keep the mailto handling.

But above is just a weak idea.… so if your concerns are stronger we can exclude the mailto handling, but I\’ll then really exclude everything related from code.
Concern y/n ?

Statistik: Verfasst von reger — Mi Dez 23, 2015 10:12 pm


Suchmaschinen • Pandamonium Webcrawler Release

Date: 2015-12-26 05:09:38

Pandamonium Webcrawler Release:

Pandamonium-Webcrawler_WIN_Qt551_2015.12.17.zip

https://sourceforge.net/projects/goldbu ... ebcrawler/{.postlink}
https://de.wikibooks.org/wiki/Goldbug#W ... -Datenbank{.postlink}

Bild

Statistik: Verfasst von cometogether — Sa Dez 26, 2015 5:09 am


Fragen und Antworten • Raspberry pi2 und yacy

Date: 2015-12-26 19:39:40

Nabend an alle. Ich habe mir mal jetzt raspberry pi2 Gekauft. Mit einer 32 GB Speicher mircoKarte Karte 16 GB Swap.

Wenn ich yacy Gestaret habe, ca nach 3-7 Std komme ich im web config Menu von yacy nicht mehr rein.
Was könnte ich da denn machen. Oder öndern .

http://p2p-network-search.de/ -> Home http://ww1net.de

Statistik: Verfasst von ww1com — Sa Dez 26, 2015 7:39 pm


YaCy Coding & Architecture • Re: Using WARC as import option & YaCy2 architecture

Date: 2015-12-27 20:01:50

I worked with a commercial partner who selected YaCy over Nutch as crawler because they considered Nutch as old and badly maintained already some years ago. Since then I worked with these partners to enhance the YaCy crawler even further. Because of this experience, turning to Nutch would be a huge step back.

Apache Tika is a component for Solr which bundles a set of parsers and unifies their metadata structure into a common metadata structure. The same does YaCy and YaCy uses a superset of parsers which are in Tika. Furthermore, the metadata structure in YaCy is much much richer than that which is used in Tika. That means: Tika is great, but already subsumed with the functions in YaCy.

What is great about Nutch and Tika is the \‘thinking in modules\‘. Thats exactly what the idea with the YaCy2 components is.

reger hat geschrieben:\ I don\'t get the discussion about WARC, is it about the idea to distribute (sell ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink") ) a index w/o crawling.\


WARC is a great format and there are already a lot of tools for it, so it\’s just a good choice. This is not about \‘selling\’ data. The word \‘distribution\’ considers the usability for the (YaCy!) community.

reger hat geschrieben:\ Or is it just \.... basically to have a module to write the crawler cache in a different (reuseable) format \....\


That as well!

Statistik: Verfasst von Orbiter — So Dez 27, 2015 8:01 pm


Fragen und Antworten • Re: Raspberry pi2 und yacy

Date: 2015-12-31 12:54:49

Ich vermute, dass es mit den Zugriffen auf die SD-Karte liegen könnte.

Als ich mein PI2 noch im Einsatz hatte, lagerte ich die YACY-Daten auf deine angeschlossene USB-Platte. Mit so einem Setup hatte ich keine Probleme. Evtl. würde auch ein USB-Stick dafür reichen.

Gruß
dS810

Statistik: Verfasst von ds810 — Do Dez 31, 2015 12:54 pm


Mitmachen • Re: Ausgesetzte bounties

Date: 2015-12-31 14:15:27

HI!
ja alter thread aber ! :)
Habe bei einem anderen Projekt gesehen das Bounties recht kuhl mit GitHub über https://www.bountysource.com gefunden wurden vlt wäre das auch eine überlegenswerte Option für yacy ?

Statistik: Verfasst von Velociraptor — Do Dez 31, 2015 2:15 pm


Hilfe für Einsteiger und Anwender • Anzahl an Dokumente erhöht sich nicht.

Date: 2016-01-05 13:15:22

Hallo liebe Yacy-Gemeinde,

ich habe mir seit gestern yacy auf meinem Server laufen (Seniormodus) und angefangen verschiedenste Seiten zu crawlen.
Zunächst steigt die Anzahl an Dokumenten rasch an und nach ca 4 Stunden ist eine Zahl von 30.833 erreicht.
Seitdem hat sich die Zahl nicht mehr verändert bzw erhöht ( seit mittlerweile 14 Stunden ), obwohl ich fleißig weitercrawle und neue Crawler starte.
Der Crawler PPM liegt bei ca 100.

Ist irgendwo ein Limit an Dokumenten in den Einstellungen?

Vielen Dank.

Statistik: Verfasst von thinkingeye — Di Jan 05, 2016 1:15 pm


Fragen und Antworten • Platte voll != Platte voll

Date: 2016-01-05 23:34:24

Hi,

Code:
W 2016/01/05 23:23:16 RESOURCE OBSERVER Volume /mnt/1800gb/yacy2/DATA: used space (1183373 MB) is too high (> 1048576 MB)



Ich hab aber noch 512 GB frei auf dem Volume. Ist das ein Bug? v1.829000


VG

Stefan

Statistik: Verfasst von LA_FORGE — Di Jan 05, 2016 11:34 pm


Fragen und Antworten • Re: Raspberry pi2 und yacy

Date: 2016-01-06 01:31:27

Hatte ich schon vorgehabt. Auf einer USB Festplatte zu speichern. usb 2 x 250 einemal daten von yacy und versuche eine swap festplatte zu installieren. mal sehen ob es dann geht.

Aber Danke für die Antwort.

P.s werde mich dann nochmal melden wenn ich das alles neu eingerichtet habe.
:D

Statistik: Verfasst von ww1com — Mi Jan 06, 2016 1:31 am


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2016-01-06 02:19:03

Hallo Orbiter

Orbiter hat geschrieben:\ Hi,\ die Meldung \"proxy use not allowed\" ist wahrscheinlich falsch. Wir haben ja im Januar auf Jetty umgestellt und das hat zwar geklappt und die meisten Probleme sind behoben, so eine Meldung soll es aber nicht geben.\



Leider doch... Habe gerade Urlaub und wollte Yacy auf einem fast neuen Rechner installieren, es taucht wie schon erwähnt

Code:
HTTP ERROR: 403Problem accessing /. Reason:    proxy use not allowed (see Advanced Settings -> HTTP Networking -> Transparent Proxy; switched off).Powered by Jetty://



auf.
Yacy ist lokal erreichbar, über einen DNS-Dienst jedoch erscheint die Fehlermeldung.

Der Rechner ist ein Win7 64 Bit mit 32 GB Ram, Yacy wurde eben von http://yacy.net runtergeladen (installiert ist demnach 1.829000), die Eingangskonfiguration ist:
- Deutsch
- Suchportal für eigene Seiten
- Peername vergeben (aquayacy)
Punkt 4 meint er: Ihr Peer kann nicht von außen erreicht werden
(*hmmmm*)

Die Firewall im Router hat die Regel

Code:
OwnCloud    TCP    80    Allow Inbound

Code:
Aquayacy    TCP    8090    Allow Inbound


gesetzt,
IP-Passthrough im Router leitet den Verkehr auf den Rechner weiter auf dem Yacy läuft.

Auf dem Rechner mit Yacy läuft noch XAMPP Owncloud auf Port 80 für Testzwecke. Dieser ist mit der öffentlichen IP-Adresse erreichbar und auch per DNS-Dienst, sofern die 8090 rausgenommen wird.

Testweise habe ich in Yacy folgendes gemacht:

System-Administration -> Erweiterte Einstellungen ->
- Remote Proxy (Nutze Remote Proxy) de-selektiert (die dort hinterlegte IP ergibt keinen Sinn, 192.168.2.2, mein Netzwerk ist auf 192.168.1.x beschränkt), gespeichert, Yacy neu gestartet, keine Änderung, die Fehlermeldung kommt immer noch
- durchsichtige Proxy-Unterstützung von \“on\” auf \“off\” geändert, gespeichert, Yacy neu gestartet, keine Änderung, die Fehlermeldung kommt immer noch...

Mehr habe ich an/in Yacy noch nicht geändert.…


Vielen Dank für Deine Hilfe im voraus.

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — Mi Jan 06, 2016 2:19 am


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-06 10:38:37

Guten Morgen, oder so! :D

LA\_FORGE hat geschrieben:\ Hi,\ \ Code: : `W 2016/01/05 23:23:16 RESOURCE OBSERVER Volume /mnt/1800gb/yacy2/DATA: used space (1183373 MB) is too high (> 1048576 MB)` \ \ Ich hab aber noch 512 GB frei auf dem Volume. Ist das ein Bug? v1.82/9000\



Nanu, das ist ja gerade mal etwas über [[1]{style=“font-style: italic”}]{style=“font-weight: bold”} GB! Mein YaCy benötigt derzeit ~[[4,43]{style=“font-style: italic”}]{style=“font-weight: bold”} GB auf der Platte, absolut kein Problem. Könnte das an deiner veralteten Version liegen? Hier läuft [(unter Kubuntu 14.04.3)]{style=“font-style: italic”} YaCy Version [[1.839616]{style=“font-style: italic”}]{style=“font-weight: bold”} aus der Quelle [[\“deb http://debian.yacy.net ./\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, müßte also relativ aktuell sein.


Grüße aus Augsburg

Mike, TmoWizard

Edit: Was ist denn mit der Uhrzeit hier im Forum los? Dein Beitrag ist [[\“Beitrag von LA_FORGE » Mi Jan 06, 2016 12:34 am\“]{style=“font-style: italic”}]{style=“font-weight: bold”} und meine Antwort darauf [[\“Beitrag von TmoWizard » Mi Jan 06, 2016 11:38 am\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, also eine Stunde früher! Außerdem ist es jetzt erst [[\“10:43 Uhr am\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, da stimmt also etwas ganz und gar nicht. :shock:

Statistik: Verfasst von TmoWizard — Mi Jan 06, 2016 10:38 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2016-01-06 12:00:13

Hallo \@1hartmann,

verzeih bitte diese ziemlich verspätete Antwort! Ich hatte sehr viel zu tun und bekomme aus mir nicht bekannten Gründen auch nicht immer Antwort hier vom Forum. :(

Ich als Anfänger und einfacher Nutzer bei YaCy kann dir nur folgendes beantworten:

1hartmann hat geschrieben:\ Wo kann ich diese finden damit ich Webseiten nicht doppelt crawlen lasse?\



YaCy crawlt nichts doppelt! Wenn eine Seite im Index ist, dann wird ein erneutes Crawlen abgebrochen bzw. es werden nur neuere Inhalte gecrawlt.

1hartmann hat geschrieben:\ Mein Rechner hat 8 GB, wo kann ich ersehen wieviel Yacy zieht und wie kann ich das minimieren oder wieder erhöhen?\



Minimieren oder erhöhen habe ich keinen Plan und halte ich auch für nicht notwendig. YaCy läuft hier seit keine Ahnung wie lange einfach im Hintergrund mit und benötigt [[bei mir]{style=“font-style: italic”}]{style=“font-weight: bold”} dabei nicht einmal [[500]{style=“font-style: italic”}]{style=“font-weight: bold”} MB RAM. Einsehen kannst Du das hier:

http://localhost:8090/Status.html?noforward=

Wobei Du natürlich den Port nehmen mußt, welchen Du eingestellt hast. Ich habe das auf [[8090]{style=“font-style: italic”}]{style=“font-weight: bold”} belassen, da ich diesen Port nicht anderweitig verwende. Diese Statusmeldung bekommst Du auch, wenn Du in YaCy selbst beim Punkt [[\“Überwachung\“]{style=“font-style: italic”}]{style=“font-weight: bold”} auf [[\“Systemstatus\“]{style=“font-style: italic”}]{style=“font-weight: bold”} gehst.

Dort siehst Du übrigens auch, welche Version von YaCy Du verwendest. Bei mir ist das [[1.839616]{style=“font-style: italic”}]{style=“font-weight: bold”}, also wesentlich neuer, wie [[hier auf der Startseite von YaCy{.postlink}]{style=“font-weight: bold”} (1.829000)]{style=“font-style: italic”} angeboten wird!

Nochmal zum RAM: Ich habe ja hier nur diesen einen Rechner, mit dem ich auch ... naja ... \“arbeite\“. Das Ding hat 6 GB RAM und hier läuft außer YaCy noch einiges anders im Hintergrund, unter Anderem [[BOINC{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}. Auf einem alten Sempron möchte ich das nicht unbedingt probieren, hier mit meinem Athlon II X2 ist das aber kein Problem. Da macht meine [[Browsersuite SeaMonkey{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} wesentlich mehr Ärger, was bei Anzahl der installierten Add-ons allerdings nicht verwunderlich ist!

YaCy [[\“sollte\“]{style=“font-style: italic”}]{style=“font-weight: bold”} eigentlich ganz dezent im Hintergrund arbeiten und selbst Games nicht beeinflussen. Ich spiele hier zwischendurch [[\“Champions of Regnum\”{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} in höchster Qualität und konnte bisher absolut keine negative Beeinflussung durch YaCy feststellen, wobei bei mir allerdings auch die bei weitem für meine Zwecke übertriebene Grafikkarte eine Rolle spielt. :mrgreen:

An der Standardeinstellung von YaCy würde ich hier auf keinen Fall Änderungen vornehmen, das kann unter Umständen ganz böse enden. Ich habe dort mal mit den Werten gespielt, danach war mein komplettes System nicht mehr zu gebrauchen und es dauerte ewig, bis ich wieder vernünftig arbeiten konnte! Bild

Viele Grüße nun aus Augsburg

Ein gutes neues Jahr im übrigen!

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Mi Jan 06, 2016 12:00 pm


Hilfe für Einsteiger und Anwender • Re: Anzahl an Dokumente erhöht sich nicht.

Date: 2016-01-06 12:25:04

Hallöchen \@thinkingeye,

von diesem Problem höre bzw. lese ich heute zum ersten mal! Ich mußte vor Kurzem wegen einem groben Fehler meinerseits YaCy komplett neu installieren [(irgendwann im November [2015]{style=“font-weight: bold”})]{style=“font-style: italic”}, inzwischen habe ich selbst [(Principal Peer!)]{style=“font-style: italic”} aber wieder [[2.211.679]{style=“font-style: italic”}]{style=“font-weight: bold”} Dokumente in meinem Index.

Mir ist es absolut unbekannt, daß es hier außer durch den eigenen Rechner [(RAM und Festplatte)]{style=“font-style: italic”} irgend eine Beschränkung geben soll. Das wäre bei einer Suchmaschine ja auch völliger Unfug, da sie dadurch komplett nutzlos werden würde! Hast Du irgendwie mit den Einstellungen gespielt? Da kann man so einiges falsch machen, YaCy sagt dann irgendwann [[\“Tschüß, das war\’s!\“]{style=“font-style: italic”}]{style=“font-weight: bold”} und verweigert jegliche weitere Mitarbeit!

Statistik: Verfasst von TmoWizard — Mi Jan 06, 2016 12:25 pm


Fragen und Antworten • Re: Raspberry pi2 und yacy

Date: 2016-01-06 13:04:22

ww1com hat geschrieben:\ Hatte ich schon vorgehabt. Auf einer USB Festplatte zu speichern. usb 2 x 250 einemal daten von yacy und versuche eine swap festplatte zu installieren. mal sehen ob es dann geht.\ \ Aber Danke für die Antwort.\ \ P.s werde mich dann nochmal melden wenn ich das alles neu eingerichtet habe.\ ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy")\



webmin System Information
System Hostname yacy.ww1net.de (192.168.0.18)
Betriebssystem Debian Linux 8.0
Webmin Version 1.780
Zeit auf System Wed Jan 6 12:01:37 2016
Kernel und CPU Linux 4.1.13-v7+ auf armv7l
Platten Temperaturen sda: 39℃
Systemlaufzeit 0 Stunden, 7 Minuten
Laufende Prozesse 110
CPU-Last im Durchschnitt 0.38 (1 Minute) 0.31 (5 Minuten) 0.14 (15 Minuten)
CPU-Last 0% Benutzer, 0% Kernel, 3% IO, 97% Leerlauf
Realer Speicher 110.84 MB benutzt, 973.46 MB total
Virtueller Speicher 0 bytes benutzt, 130 GB total
Lokaler Festplattenspeicher 26.41 GB benutzt, 258.58 GB total
Paket-Updates Alle installierten Pakete sind aktuell


Jetzt teste ich es mal so kopiere jetzt erst mal yacy auf die festplatte

Kann mir mal einter Bitte helfen

root\@yacy:/usb-yacy# ./startYACY.sh
bash: ./startYACY.sh: Keine Berechtigung
root\@yacy:/usb-yacy#

P.s Jetzt komme ich nicht weiter.

Statistik: Verfasst von ww1com — Mi Jan 06, 2016 1:04 pm


Hilfe für Einsteiger und Anwender • Re: Anzahl an Dokumente erhöht sich nicht.

Date: 2016-01-06 21:42:28

Hallo TmoWizard,

vielen Dank für deine Antwort.
Ich habe nun, nachdem sich die Webpräsenz gar nicht mehr anzeigen lies (auch nach deaktivierter Firewall), yacy einfach noch einmal komplett neu installiert.

Meines Erachtens habe ich nicht an solchen grundlegenden Einstellungen, sondern eher nur am Aussehen, herumgespielt.
Ich lasse nun die meisten Werte auf default und schreibe mir sämtliche Änderungen, die ich in den Einstellungen vornehme auf.
Bin gespannt, ob sich diese Beobachtung in den nächsten Tagen wiederholt.

Fesplatte hatte gerade einmal knapp 7 von 300 GB belegt gehabt und der Ram war auf default (max 600MB) eingestellt (verfüge über 2GB).

Liebe Grüße

Statistik: Verfasst von thinkingeye — Mi Jan 06, 2016 9:42 pm


Fragen und Antworten • Re: HTTP ERROR: 403 - proxy use not allowed

Date: 2016-01-07 01:35:36

Hallo zusammen

Ok, warum es nicht ging weiss ich nicht. Nach zwei Deinstallationen und einer sauberen Neuinstallation läuft es jetzt ohne den 403-Fehler :D
Edit: Sorry, vielleicht doch.… Bei der Erstinstallation lief Yacy auf IPv6. Jetzt, mit der letzten Installation läuft Yacy mit IPv4. Selbst eingestellt hatte ich in diese Richtung aber nichts.

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — Do Jan 07, 2016 1:35 am


Hilfe für Einsteiger und Anwender • Re: Finde entpackte tar.gz Dateien Yacy Linux Mint nicht

Date: 2016-01-07 14:25:29

TmoWizard hat geschrieben:\ >
> > 1hartmann hat geschrieben:Wo kann ich diese finden damit ich > Webseiten nicht doppelt crawlen lasse?\ > >


YaCy crawlt nichts doppelt! Wenn eine Seite im Index ist, dann wird ein erneutes Crawlen abgebrochen bzw. es werden nur neuere Inhalte gecrawlt.


Das stimmt für die Default-Einstellung beim Crawl Start. Im Experten Crawl Start kann man das ändern und wählen ob man immer überschreiben will (das wäre dann doppelt crawlen) oder ob man das nie will (dann werden alte Seiten nicht refresht) oder ob man das mit einer Proxy-TTL regel will (das ist default, lädt neu wenn eine threashold-Zeit seit dem letzten Crawlen überschritten wurde)

Statistik: Verfasst von Orbiter — Do Jan 07, 2016 2:25 pm


Fragen und Antworten • Re: Raspberry pi2 und yacy

Date: 2016-01-07 14:37:50

Habs hin bekomme

((geschlossen))

Statistik: Verfasst von ww1com — Do Jan 07, 2016 2:37 pm


Mitmachen • Chemnitzer Linuxtage 19./20. März - Helfer gesucht!

Date: 2016-01-08 03:37:00

Am 19. und 20. März sind wieder die Chemnitzer Linuxtage{.postlink} und Frank \@Frank_gamefreak{.postlink} wird einen YaCy-Stand dort organisieren.
Es können dort drei Helfer mitmachen, weil ich aber dieses Jahr genau zur gleichen Zeit recht wahrscheinlich zur FOSSASIA in Singapur{.postlink} gehe, kann ich nicht nach Chemnitz kommen. Wir brauchen noch einen, ggf. sogar zwei weitere Helfer.

Das ist eine sehr gute Gelegenheit sich gegenseitig kennen zu lernen und in die Open-Source Community reinzuschnuppern. Und ausserdem darf man als Standhelfer beim legendären Gelage abends teilnehmen.

So sah das die letzten Jahre aus:
2015 - viewtopic.php?f=15&t=5164{.postlink-local}
2011 - viewtopic.php?f=15&t=3095{.postlink-local}

Bitte meldet euch bei Frank per twitter oder bei mir per PM, wenn ihr Standhelfer sein wollt. Jede® YaCy Neuling ist auch willkommen!

Statistik: Verfasst von Orbiter — Fr Jan 08, 2016 3:37 am


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-10 13:42:14

Vielen Dank. Ja, ich sollte wirklich mal auf eine neuere Build upgraden.

\@Zeit:

Ich nutze für die Zeitsynchronisation folgendes Skript, was ich per crontab eingebunden habe:

Code:
#! /bin/shnetdate udp ntp1.ptb.denetdate udp ntp2.ptb.dehwclock -uw

Statistik: Verfasst von LA_FORGE — So Jan 10, 2016 1:42 pm


Hilfe für Einsteiger und Anwender • Blacklist woher bekomme ich eine? Land AUT

Date: 2016-01-11 14:27:21

Ich suchte bereits vergebens nach Blacklists und kenn mich kaum aus wie ich am einfachsten und günstigstem weg eine bekomme, Yaci ist sonst ziemlich unbrauchbar da immer wieder Porn im Index landet von anderen Peers oder woher auch immer und ich hab keine lust das die Cobra bei mir einfällt.

Yaci läuft bei mir im Senior Status und hab auch ein gutes System, aber ich brauch eine Blacklist die sich möglichst auch öfters aktualisiert.

Ich liebe das Projekt und es hilft mir sehr!
Würde mich sehr freuen über HIlfe!


Mfg

Nachtrag Was bedeutes der \“ROTE STERN\” habe ich etwas falsch gemacht? Forumsregeln verletzt?

Statistik: Verfasst von blackflag — Mo Jan 11, 2016 2:27 pm


Fragen und Antworten • Nach Update auf version 1,82 alle Daten weg

Date: 2016-01-11 14:28:54

Hallo
wer kann helfen?
Ich habe von Version 1.72 auf 1,82 das Update gemacht, nun sind 6 Millionen Dokumente weg (?) es werden nun ca. 172000 neu eingelesene Doku. nur noch angezeigt
Was kann hier passiert sein?

Gruss Roland

Statistik: Verfasst von RoGott — Mo Jan 11, 2016 2:28 pm


Hilfe für Einsteiger und Anwender • Re: Blacklist woher bekomme ich eine? Land AUT

Date: 2016-01-11 22:13:45

Hallo,

viele Peers stellen Ihre Blacklisten zur Verfügung - einfach mal unter /BlacklistImpExp_p.html etwas stöbern gehen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 11, 2016 10:13 pm


English • Image preview copyright issues

Date: 2016-01-12 00:55:33

Hi everyone, oyvinds reported an issue with image search results preview in http://mantis.tokeek.de/view.php?id=627#c1187. As that mantis is not directly related to image search I continue here the discussion.
I would resume this way : oyvinds reports two use cases where he would like full size images preview to work :
- running your own YaCy node and performing search requests from your own devices (tablet, smartphone, laptop...) without logging in
- using your own node to demontrate YaCy use from someone else computer, without need for log in

Currently it is true that full size image preview with YaCy is only available from local host or after authentication with admin account. However it is justified that one doesn\’t want to use admin login every time he wants to only perform images search, especially from someone else computer.
I suggest a first fix would be to allow full size image preview for non admin user accounts (created in /ConfigAccounts_p.html). Should we use already existing \“Extended Search right\” or create a new one such as \“Full size image preview\“?
Doing so, in the two use cases described above, there is no more admin password sent over network, or eventually stored in a untrusted computer.

Beyond that, do you think we should also make it possible for non authenticated users to display full size image previews in YaCy? If your node is publicly accessible, it may be considered as copyright infringement, depending on the country you are located (see for example https://en.wikipedia.org/wiki/Copyright ... nline_link{.postlink} or https://cliffordmillerlaw.wordpress.com ... ringement/{.postlink}).
I suggest to keep default behavior (display only thumbnails for non authenticated users), but to allow finer configuration, choosing between :
- only providing image links
- links + thumbnails
- links + thumbnails + full size
Thus it would be the responsibility of a YaCy peer to adjust this config.

Feedback and suggestions are welcome, especially if someone is well informed on such legal issues.

Statistik: Verfasst von luc — Di Jan 12, 2016 12:55 am


Hilfe für Einsteiger und Anwender • Re: Blacklist woher bekomme ich eine? Land AUT

Date: 2016-01-12 10:31:52

Hab ich, da sehe ich bei keinem eine vernünftige.

Statistik: Verfasst von blackflag — Di Jan 12, 2016 10:31 am


Hilfe für Einsteiger und Anwender • weniger als 50 MB DHT-Empfang deaktiviert

Date: 2016-01-12 13:40:40

Hallo,

ich habe Yacy frisch auf einem Debina-System aufgesetzt, entsprechend http://www.yacy-websuche.de/wiki/index. ... ianInstall{.postlink}. Entsprechend den Defaults läuft der Server mit \“-Xmx120m -Xms120m\“. Das Betriebssystem hat 2,5 GB frei, YaCy selbst meldet:

Speicherverbrauch
RAM benutzt:91,28 MB
RAM maximal:107 MB

Dennoch bekomme ich die Meldung:

Es steht weniger als 50 MB Arbeitsspeicher zur Verfügung. DHT Empfang wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.

Was läuft da schief und wie behebe ich es?

Schönen Gruß
H. Goebel

Statistik: Verfasst von htgoebel — Di Jan 12, 2016 1:40 pm


Hilfe für Einsteiger und Anwender • Re: weniger als 50 MB DHT-Empfang deaktiviert

Date: 2016-01-12 19:32:45

Hallo,

im Debian Paket ist aktuell 120m die Vorgabe? - ich dachte das seien 600m?
Versuche es mal mit 600Mbyte unter /Performance_p.html
Bei Vorgabe von 120m für den Heapspeicher ist man schnell an dem Punkt wo keine 50m mehr frei sind - denn das besagt die Meldung.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jan 12, 2016 7:32 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-13 14:23:47

In der 1.839644 ist der \“Fehler\” anscheinend immer noch drin:

Code:
W 2016/01/13 14:19:39 RESOURCE OBSERVER Volume /mnt/3200gb/yacy2/DATA: used space (1171423 MB) is too high (> 1048576 MB)



Obwohl ich

Code:
root@endeavour:/# df -hFilesystem      Size  Used Avail Use% Mounted on/dev/sda1        95G   28G   63G  31% /udev             10M     0   10M   0% /devtmpfs            19G  9.3M   19G   1% /runtmpfs            48G     0   48G   0% /dev/shmtmpfs           5.0M     0  5.0M   0% /run/locktmpfs            48G     0   48G   0% /sys/fs/cgrouptmpfs           9.5G     0  9.5G   0% /run/user/0/dev/sdb1       3.2T  1.7T  1.4T  56% /mnt/3200gb



Noch 1,4 TB frei hab auf dem Volume.

\@devs #off-topic: Vor dem Release einer neuen Version unbedingt nochmal die Solr-Felder des Schemas prüfen, wenn man auf \‘Reset selection to default\’ drückt und danach einen Reindex macht hagelt es NPEs. Soweit ich die Logs verstehe weil ein paar obligatorische Felder (noch) nicht im Schema-Editor aktiviert wurden, was ich damit sagen will: Die Reindex-Funktion will Felder indexieren, die im Standardschema zwar vonhanden, aber noch nicht aktiviert sind.

Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mi Jan 13, 2016 2:23 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-13 20:19:01

Hi LA_FORGE,

wegen \‘Platte voll\’ guck mal nach dem Wert zu resource.disk.used.max.overshot
in der yacy.conf oder unter /ConfigProperties_p.html
> TB hat man, als ein Default Wert hierzu gesucht, wurde einfach nicht vorgesehen :-)

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jan 13, 2016 8:19 pm


Solr Support • 1.839644 - IllegalStateException

Date: 2016-01-14 17:51:46

Hi,

Code:
E 2016/01/14 17:46:05 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues.        at org.apache.lucene.index.DocValues.checkField(DocValues.java:208)        at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227)        at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167)        at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153)        at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36)        at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183)        at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164)        at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812)        at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535)        at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:202)        at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1672)        at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1491)        at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:557)        at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:525)        at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:273)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:156)        at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:220)        at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:370)        at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentListByQuery(MirrorSolrConnector.java:233)        at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$2.run(AbstractSolrConnector.java:268)



diese Exception wirft er wenn ich einen Reindex anstoße. Kann man da was machen?


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Do Jan 14, 2016 5:51 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-14 18:49:27

Vielen Dank!! Dann ist das wahrscheinlich auch der Grund, warum die Anzahl meiner RWIs nicht mehr gestiegen ist?

Statistik: Verfasst von LA_FORGE — Do Jan 14, 2016 6:49 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-14 22:00:02

DHT-in gibt es dann auch nicht mehr - richtig.
Aber es gibt noch ein paar andere Parameter die die Menge der RWI beinflussen.
Merke: die angegeben Anzahl ist nur die des größten Blobs.
Genauer sieht man es unter /PerformanceMemory_p.html als DATA/INDEX/freeworld/SEGMENTS/default/text.index.xxx.blob.xxx
Es wird nur das größte angegeben weil doubletten in unterschiedlichen Blobs sein könnten.

Statistik: Verfasst von sixcooler — Do Jan 14, 2016 10:00 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-15 10:22:18

Vielen Dank für die ausführliche Erklärung.

Auf welchen Wert soll ich resource.disk.used.max.overshot setzen? Ich habe noch 1,4 TB frei :-)

\ I 2016/01/15 10:16:56 RESOURCE OBSERVER Volume /mnt/3200gb/yacy2/DATA: used space (1185348 MB) is high, but nominal (\> 524288 MB)\

Statistik: Verfasst von LA_FORGE — Fr Jan 15, 2016 10:22 am


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-15 15:35:01

Was ich noch dazu sagen mus: Es ist eine 4 TB Platte die ich vollständig für YaCy nutzen möchte. Er soll erst dann meckern und aufhören mit DHT-in und Crawlen wenn nur noch 800 MB frei sind, wie muss ich

Code:
resource.disk.used.max.overshotresource.disk.free.min.steadystateresource.disk.free.min.undershotresource.disk.used.max.steadystate



dann einstellen?

Statistik: Verfasst von LA_FORGE — Fr Jan 15, 2016 3:35 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-16 13:54:53

4TB * 1024GB/TB * 1024MB/GB - 800MB = 4193504MB

DHT-In deaktivieren bei >4193504MB
resource.disk.used.max.overshot = 4193504

Crawls deaktivieren bei <800MB
resource.disk.free.min.steadystate = 800

DHT-In deaktivieren bei <800MB
resource.disk.free.min.undershot = 800

Crawls deaktivieren bei >4193504MB
resource.disk.used.max.steadystate = 4193504

Statistik: Verfasst von sixcooler — Sa Jan 16, 2016 1:54 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-16 14:20:18

Großartig! Vielen Dank! Jetzt hab sogar ich\’s verstanden :-)

Statistik: Verfasst von LA_FORGE — Sa Jan 16, 2016 2:20 pm


Hilfe für Einsteiger und Anwender • Re: Blacklist woher bekomme ich eine? Land AUT

Date: 2016-01-19 14:42:53

Ich habe mal meine Porn-Blacklist freigegeben. Habe sie länger nicht gepflegt, ist aber ein Anfang. Der Peer ist \“allesehersonerdshier\“.

Statistik: Verfasst von Low012 — Di Jan 19, 2016 2:42 pm


Mitmachen • Re: öffentliches YaCy Suchportal (doch noch?)

Date: 2016-01-20 20:56:30

https://www.pixelhero.co.uk not sure mine is working, using to search for web design in bristol

Statistik: Verfasst von lil_eddie — Mi Jan 20, 2016 8:56 pm


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-22 09:34:28

sixcooler hat geschrieben:\ DHT-in gibt es dann auch nicht mehr - richtig.\ Aber es gibt noch ein paar andere Parameter die die Menge der RWI beinflussen.\ Merke: die angegeben Anzahl ist nur die des größten Blobs.\ Genauer sieht man es unter /PerformanceMemory\_p.html als DATA/INDEX/freeworld/SEGMENTS/default/text.index.xxx.blob.xxx\ Es wird nur das größte angegeben weil doubletten in unterschiedlichen Blobs sein könnten.\



Kann ich die RWI-Blobs irgendwie mergen? Ähnl. wie die Solr-Merge-Funktion die ihr auf der Seite IndexControlURLs_p.html eingebaut habt

Statistik: Verfasst von LA_FORGE — Fr Jan 22, 2016 9:34 am


Fragen und Antworten • Re: Platte voll != Platte voll

Date: 2016-01-22 18:35:28

einfach die Blobs von einem Peer zum anderen kopieren - den Zielpeer neu starten - fertig

Statistik: Verfasst von sixcooler — Fr Jan 22, 2016 6:35 pm


Fragen und Antworten • Re: Yacy startet nur sporadisch

Date: 2016-01-22 19:06:52

Hallo

Hatte das gerade eben auch mit meinem aquayacy... Windows7, lief seit sicher einer Woche und heute ging gar nichts mehr.
Das Log meinte dazu

\ E 2016/01/22 18:46:32 org.apache.solr.core.SolrCore \[collection1\] Solr index directory \'D:\\yacy\\aquayacy\\DATA\\INDEX\\freeworld\\SEGMENTS\\solr\_4\_10\\collection1\\data\\index/\' is locked. Throwing exception\ E 2016/01/22 18:46:32 org.apache.solr.core.SolrCore \[webgraph\] Solr index directory \'D:\\yacy\\aquayacy\\DATA\\INDEX\\freeworld\\SEGMENTS\\solr\_4\_10\\webgraph\\data\\index/\' is locked. Throwing exception\ E 2016/01/22 18:46:32 org.apache.solr.core.CoreContainer Error creating core \[webgraph\]: Index locked for write for core webgraph\ org.apache.solr.common.SolrException: Index locked for write for core webgraph\ at org.apache.solr.core.SolrCore.\(SolrCore.java:881)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:654)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:491)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:255)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:249)\ at java.util.concurrent.FutureTask\$Sync.innerRun(Unknown Source)\ at java.util.concurrent.FutureTask.run(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)\ at java.lang.Thread.run(Unknown Source)\ Caused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core webgraph\ at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:516)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:785)\ \... 9 more\ E 2016/01/22 18:46:32 org.apache.solr.core.CoreContainer Error creating core \[collection1\]: Index locked for write for core collection1\ org.apache.solr.common.SolrException: Index locked for write for core collection1\ at org.apache.solr.core.SolrCore.\(SolrCore.java:881)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:654)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:491)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:255)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:249)\ at java.util.concurrent.FutureTask\$Sync.innerRun(Unknown Source)\ at java.util.concurrent.FutureTask.run(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)\ at java.lang.Thread.run(Unknown Source)\ Caused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core collection1\ at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:516)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:785)\ \... 9 more\ I 2016/01/22 18:46:32 SolrEmbeddedInstance detected default solr core: collection1\ E 2016/01/22 18:46:32 STARTUP YaCy cannot start: SolrCore \'collection1\' is not available due to init failure: Index locked for write for core collection1\ org.apache.solr.common.SolrException: SolrCore \'collection1\' is not available due to init failure: Index locked for write for core collection1\ at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:745)\ at net.yacy.cora.federate.solr.instance.EmbeddedInstance.\(EmbeddedInstance.java:89)\ at net.yacy.search.index.Fulltext.connectLocalSolr(Fulltext.java:133)\ at net.yacy.search.Switchboard.\(Switchboard.java:532)\ at net.yacy.yacy.startup(yacy.java:205)\ at net.yacy.yacy.main(yacy.java:697)\ Caused by: org.apache.solr.common.SolrException: Index locked for write for core collection1\ at org.apache.solr.core.SolrCore.\(SolrCore.java:881)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:654)\ at org.apache.solr.core.CoreContainer.create(CoreContainer.java:491)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:255)\ at org.apache.solr.core.CoreContainer\$1.call(CoreContainer.java:249)\ at java.util.concurrent.FutureTask\$Sync.innerRun(Unknown Source)\ at java.util.concurrent.FutureTask.run(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)\ at java.util.concurrent.ThreadPoolExecutor\$Worker.run(Unknown Source)\ at java.lang.Thread.run(Unknown Source)\ Caused by: org.apache.lucene.store.LockObtainFailedException: Index locked for write for core collection1\ at org.apache.solr.core.SolrCore.initIndex(SolrCore.java:516)\ at org.apache.solr.core.SolrCore.\(SolrCore.java:785)\ \... 9 more\



Der Tipp hat dann letztendlich geholfen

sixcooler hat geschrieben:\ Wenn solche \'Index locked \...\' Dinger auftauchen würde ich den YaCy Prozess beenden und \'/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_47/collection1/data/index/write.lock\' und \'/media/rootix/Yacy/yacy/DATA/INDEX/freeworld/SEGMENTS/solr\_47/webgraph/data/index/write.lock\' löschen und es erneit versuchen.\



Wobei die .lock-Datei vom 07.01 war... Hatte Yacy aber sicher letzte Woche neu gestartet...

\ Was Deinen Rechner gerade so heftig beschäftigt sieht man gut in einem Threaddump unter .\



Bei mir ging gar nichts mehr... Während der Arbeit heute traute ich nicht den Rechner Zuhause mit Yacy drauf neu zu starten, war aber irritiert das Yacy von Aussen nicht erreichbar wäre. Irgendwann im Lauf des Tages war dann Yacy gar nicht mehr erreichbar, im Taskmanager hatte es nichts was nach Yacy oder Java aussah...
Auch mehrere Neustarts brachten nichts, Yacy beenden wenn es irgendwo im Speichernirvana hin auch nicht. Er das Löschen der .lock-Datei eben brachte den Erfolg.

rgds
IceBreeze

Statistik: Verfasst von Icebreeze — Fr Jan 22, 2016 7:06 pm


Mitmachen • YaCy als ZeroNet-Suchmaschine

Date: 2016-01-23 14:25:30

I habe hier mal einen Reddit-Thread gestartet. Für den Fall, dass sich jemand für ZeroNet interessiert:
https://www.reddit.com/r/zeronet/commen ... ch_engine/{.postlink}

ZeroNet Projektseite: https://zeronet.io/

Statistik: Verfasst von David — Sa Jan 23, 2016 2:25 pm


English • YaCy as ZeroNet search engine

Date: 2016-01-23 14:32:04

I have just started a reddit thread. In case someone is interested in ZeroNet:
https://www.reddit.com/r/zeronet/commen ... ch_engine/{.postlink}

ZeroNet project page: https://zeronet.io/

Statistik: Verfasst von David — Sa Jan 23, 2016 2:32 pm


Fragen und Antworten • Re: Nach Update auf version 1,82 alle Daten weg

Date: 2016-01-25 22:59:59

Hallo Roland,

mir schon passiert, dass es nach dem Update auf C: nochmal neu installiert wurde. Hatte es vorher auf einer anderen Partition.
Eventuell hast Du es jetzt auch 2 mal?

Gruß
Fiz

Statistik: Verfasst von Fiz-kun — Mo Jan 25, 2016 10:59 pm


Fragen und Antworten • Re: Nach Update auf version 1,82 alle Daten weg

Date: 2016-01-26 07:33:40

Hallo Fritz

Ja ich hatte auch zwei Yacy nebeneinander Port 8090 und 8092 gleichzeitig Online laufen, aber immer wieder stürzte eine ab. Nun habe ich die eine stillgelegt und die andere auf langsameres Indexieren eingestellt, aber es funste auch nicht so richtig, so habe ich die 1.82 Version komplett gelöscht und die 1.72 wieder installiert, Seitdem habe ich keinen Absturz mehr gehabt.
Yacy läuft gut und stabil, zu sehen ist sie Online unter http://www.thueringer-suche.de/ und weitere Domainen.
Ich sage mir man muß machmal auch loslassen können, und NEU anfangen. Es wird jedesmal besser und die Suchergebnisse sauberer.

Bis dann Roland

Statistik: Verfasst von RoGott — Di Jan 26, 2016 7:33 am


Mitmachen • Re: Öffentliche YaCy-Suche mit SSL/TLS-Verschlüsselung?

Date: 2016-01-27 17:02:13

digitalcourage hat geschrieben:\ Lässt sich das schnell nachrüsten, z.B. für ?\

Statistik: Verfasst von flegno — Mi Jan 27, 2016 5:02 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-27 21:57:38

Interesting idea!

Is that possible with yacy?
I have zeronet running, and it runs under localhost:43110 with links to actual pages with content like this: http://127.0.0.1:43110/1EU1tbG9oC1A8jz2 ... 5asrNsE4Vr{.postlink}

So how can I
a) get yacy to index those sites
b) get my indexed sites shared with other people, so they can also query my results?

The idea is this:
I have zeronet and yacy locally running on the same computer and want to add my own site as zeronet page in the format above.
Then I want other people who also use yacy + zeronet to find my just indexed website if they search for a keyword that indicates to content on my 0-page.

Would I need to define something like freenet, like a new shared yacy network group, e.g. zerofreenet and share among those users who join this group?
How can I configure yacy to be able to test that?

Statistik: Verfasst von data2016 — Mi Jan 27, 2016 9:57 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-28 08:38:33

Sounds also quite interesting to me.

Unfortunately, to my mind current YaCy is not ready to do what you describe. In Search Portal mode or PeerToPeer mode (see /ConfigBasic.html), localhost URL are not allowed to be crawled or shared, as they are not supposed to be reachable by external network. I tried crawling a zeronet site (ZeroTalk with images) but YaCy gives me this message : Crawling of \“http://127.0.0.1:43110/1C2JhCunGLtvyX56nQ88tcb87WnXspjWN" failed. Reason: denied_(the host \‘127.0.0.1\’ is local, but local addresses are not accepted: 127.0.0.1)/
What you can do is at least to try crawling ZeroNet pages in YaCy Intranet mode. It worked for me, but for some reason looks like not very efficient, as links are not followed or indexed : at the end I got only one page indexed with no much meta data (see /ViewFile.html).
Try yourself, maybe you may have more success in this mode.

By the way, maybe it would not require so much work to get YaCy working with ZeroNet, but I believe some thinking and refactoring is needed.

Statistik: Verfasst von luc — Do Jan 28, 2016 8:38 am


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-28 12:27:33

so many p2p hidden networks came up all the time the last years (I2P, IPFS, FreenetProject and ZeroNet). From what I know, most of these networks use a local proxy to connet to these networks and that means they appear to YaCy as localhost addess. To explain this no-localhost restriction again: this is there to protect your privacy. Without this restriction it could happen that information from your private intranet is shared to other peers.

This means, the ‚YaCy not ready’ for ‚X\’ (X in hidden-web-networks) just refers to a simply ‚if’ statement, not to the capabiliyt to crawl or index such networks. What we need here is a detailed profile of such networks so that we can define a network definition which opens the p2p restriction in YaCy in such a way that it detects that the ‚intranet’ is a port to such networks with a defined proxy port and other netwok filters so that there is no danger that private data is shared by mistake.

However, you can instantly simulate such a YaCy network for ‚X\’ with the intranet network definition - this would give you a YaCy search engine for such a network but ‚just’ without a sharing option. If this works we should then discover how we can create a pre-defined network definition for such networks which you could then select in /ConfigNetwork_p.html

Statistik: Verfasst von Orbiter — Do Jan 28, 2016 12:27 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-28 15:32:46

Sounds reasonable!
So how exactly can I start testing to crawl localhost:43110 \“zeronet\” sites if setting yacy to \“intranet\” mode?

Statistik: Verfasst von data2016 — Do Jan 28, 2016 3:32 pm


Fragen und Antworten • Re: Nach Update auf version 1,82 alle Daten weg

Date: 2016-01-28 17:16:23

Identisch mit meiner Erfahrung. Neuinstallation hat bei mir auch Früchte getragen...

Statistik: Verfasst von boddin — Do Jan 28, 2016 5:16 pm


Hilfe für Einsteiger und Anwender • Re: Blacklist woher bekomme ich eine? Land AUT

Date: 2016-01-28 17:17:44

sixcooler hat geschrieben:\ Hallo,\ \ viele Peers stellen Ihre Blacklisten zur Verfügung - einfach mal unter /BlacklistImpExp\_p.html etwas stöbern gehen.\ \ Cu, sixcooler.\



Prima danke, noch so etwas habe ich auch gesucht!

Statistik: Verfasst von boddin — Do Jan 28, 2016 5:17 pm


Off-Topic • Re: Urlaub

Date: 2016-01-28 17:28:13

Da bekommt man gleich Fernweh, wenn man sowas sieht! Urlaub ist für mich in nächster Zeit erstmal gestrichen. Meine Freundin bekommt ein Kind und wir brauchen dann definitiv mehr Platz. Ein Fondssparplan, den ich über https://moneypark.ch/sparplan/ ausfindig gemacht habe, soll uns dabei zum Eigenheim helfen. Ein wenig Eigenkapital ist zwar vorhanden, aber jetzt müssen erstmal Prioritäten gesetzt werden.

Statistik: Verfasst von boddin — Do Jan 28, 2016 5:28 pm


Off-Topic • Re: Java Tutorials

Date: 2016-01-28 17:29:51

Habe damals dies zu Hilfe genommen: http://www.onlinetutorials.de/programmierung/java/

Statistik: Verfasst von boddin — Do Jan 28, 2016 5:29 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2016-01-28 17:31:46

Orbiter hat geschrieben:\ ![Bild](http://www.titanic-magazin.de/uploads/pics/titel_2007-08.jpg)\



Das ist hart!

Statistik: Verfasst von boddin — Do Jan 28, 2016 5:31 pm


Fragen und Antworten • RSS FEED - Warum kann YaCY diesen RSS FEED nicht einlesen

Date: 2016-01-29 02:31:02

Hallo
warum kann dieser Feed nicht eingelesen werden
http://www.epochtimes.de/rss/index.xml

Gruß Roland

Statistik: Verfasst von RoGott — Fr Jan 29, 2016 2:31 am


Hilfe für Einsteiger und Anwender • Yacy Ranking bei Hostsuche

Date: 2016-01-29 12:35:14

Eine typische Suche ist häuftig einfach statt die Domain einzutippen in Google etc darin zu suchen.
Bei yacy funktioniert das leider nicht, man findet zwar meist irgendein dokument der gesuchten Seite aber leider nicht den link
Beispiel wären suche nach( google, pcgh, yahoo etc...) Yacy findet eigentlich immer die richtigen Seite und zeigt auch links bei Links die gesuchte Domain an, aber bei den Suchergebnissen lässt das sehr zu wünschen Übrig. Mit der Änderung der Rankingeinstellungen konnte ich keine Besserung erzielen. Ist das ne Konfigeinstellung oder ist das mit yacy einfach nicht möglich?

Statistik: Verfasst von HûntSt°rJonny — Fr Jan 29, 2016 12:35 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-30 15:26:45

First, intranet mode :
- go to Administration > \“Use case & account\” menu (/ConfigBasic.html) : then choose \“Intranet Indexing\“, and click \“Set Configuration\” button.

Then you can try at least by three ways :
- Choose \“URL Viewer\” in \“Search Interfaces\” (/ViewFile.html) : you can paste here your ZeroNet site local url, and click \“Show Metadata\” button. You will be able to see how YaCy parses this page, switching between different view modes with \“View as\” combobox.
- go to Administration > \“Load Web pages, Crawler\” menu (/CrawlStartSite.html) : you can paste your ZeroNet url and \“Start New Crawl\“. You will see \“Crawled Pages\” results at the bottom of Crawler_p.html screen.
- go to Administration > \“Advanced Crawler\” menu (/CrawlStartExpert.html) : you can also paste you url here and \“Start New Crawl Job\“. You will also see \“Crawled Pages results at the bottom.

I just tried all these but, beyond the problem of hidden network access through a proxy, the main issue is that all ZeroNet sites content is dynamically filled in an iframe with javaScript. So as far as I know YaCy does not include a JavaScript engine rendering when crawling, and all he parses and indexes is just the header of ZeroNet.
I guess this can be a more general issue as many websites provide dynamic content through Javascript. Is there some option or solution with existing YaCy crawler?

About access to hidden networks and share of indexed data, I suppose it would not be a problem when the network is not accessed with a local proxy, but only rely on an alternate name resolution system such as Namecoin. Does anyone already crawls .bit sites?

Statistik: Verfasst von luc — Sa Jan 30, 2016 3:26 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-01-31 20:34:51

Hi luc,

thanks for the explanation, I tried all 3 suggestions but to not much avail.

I was able though to index the data folder by pointing the crawler to the cache via file:///, which gave me pretty good results of searching for words or content i knew i came across while surfing zeronet, but then the generated links are not of so much use, as they point to the place in my cache file structure...

So is there any way or idea how to index dynamically loading content via javascript?

Or how to restore useful link structure out of the cache (which always is a full copy of a visited site as far as I understand zeronet)?

Greetings, Clemens.

Statistik: Verfasst von data2016 — So Jan 31, 2016 8:34 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-02-01 08:26:06

Good idea you had to use the cache!

For now I imagine 2 solutions for better indexing ZeroNet :
- Generic : optionally use a browser engine rendering instead of raw html when crawling with YaCy. This would benefit for any dynamically filled website. For example JavaFX has a WebKit based component to include rendered HTML supporting Javascript and CSS : http://docs.oracle.com/javafx/2/webview ... ebview.htm{.postlink}
- ZeroNet specific : customize YaCy to make use of their API to correctly parse links. I don\’t know if their API already includes what would be needed (http://zeronet.readthedocs.org/en/lates ... reference/{.postlink})

Statistik: Verfasst von luc — Mo Feb 01, 2016 8:26 am


English • Amount of RWIs no longer increasing

Date: 2016-02-02 18:52:48

Hi,

I recently discovered that on my main peer \‘endeavour\’ the amount of the RWIs is no longer increasing. Since sixcooler helped me with the resouce observer (thank you very much) I\’m able to exclude this as an issue (It\’s doing it\’s work very well now and honestly reports that 1,2 TB of space are available :-) ). I\’m also doing excessive widespread webcrawls. What\’s the reason that the amount of RWIs is no longer increasing at this peer?

Greetings from germany

LA_FORGE

PS. I decided to start this thread in our english forum because I was too lazy to write in my native language at this moment :D

Statistik: Verfasst von LA_FORGE — Di Feb 02, 2016 6:52 pm


Presse • Re: t3n.de 5 Google-Alternativen

Date: 2016-02-03 20:33:14

Hi,

ich bin soeben auf diesen Beitrag aufmerksam gemacht worden
www.n-tv.de/technik/Das-sind-die-5-best ... 20821.html{.postlink}

Gruß lux

Statistik: Verfasst von lux — Mi Feb 03, 2016 8:33 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-02-04 00:32:37

Orbiter hat geschrieben:\ so many p2p hidden networks came up all the time the last years (I2P, IPFS, FreenetProject and ZeroNet). From what I know, most of these networks use a local proxy to connet to these networks and that means they appear to YaCy as localhost addess. To explain this no-localhost restriction again: this is there to protect your privacy. Without this restriction it could happen that information from your private intranet is shared to other peers.\ \ This means, the ‚YaCy not ready' for ‚X\' (X in hidden-web-networks) just refers to a simply ‚if' statement, not to the capabiliyt to crawl or index such networks. What we need here is a detailed profile of such networks so that we can define a network definition which opens the p2p restriction in YaCy in such a way that it detects that the ‚intranet' is a port to such networks with a defined proxy port and other netwok filters so that there is no danger that private data is shared by mistake.\ \ However, you can instantly simulate such a YaCy network for ‚X\' with the intranet network definition - this would give you a YaCy search engine for such a network but ‚just' without a sharing option. If this works we should then discover how we can create a pre-defined network definition for such networks which you could then select in /ConfigNetwork\_p.html\



How exactly is YaCy currently detecting whether a URL is local? I gather it just does a DNS lookup of the domain in the URL? There are a lot of intricacies of getting this right, which are usually dependent on what non-IP network is used. In Tor\’s case, most hidden services are publicly accessible, but some require client authentication which is done by the Tor daemon. Indexing an authenticated hidden service would be very bad. I don\’t know if the Tor daemon\’s API gives an easy way to detect whether a hidden service used client authentication. In Namecoin\’s case, a domain can resolve to any IPv4/IPv6 address (which should be easy to check for locality), but can also resolve to a Tor or I2P hidden service, as well as Freenet, Zeronet, and CJDNS (although not all of these are widely supported by current software). Namecoin might also in the future support encrypted records. Unfortunately, I\’m not even sure what the right policy is on indexing encrypted Namecoin sites, because some domain owners would only use encrypted records to make blockchain censorship more expensive, while others would be using it for privacy. This is definitely worth thinking about. I don\’t know enough about the systems other than Tor and Namecoin to know what their requirements are, but I strongly suspect that many of them will have their own unique issues to deal with. It is not as simple as whitelisting .onion.

Statistik: Verfasst von biolizard89 — Do Feb 04, 2016 12:32 am


English • Re: Amount of RWIs no longer increasing

Date: 2016-02-04 01:37:17

the number or RWIs can be saturated, i.e. it reached the maximum number of vocabulary of the used languge. This is a bit theoretical but can hold if the indexing domain is limited. Hower, this comment should not exclude the option that this is is a bug.

Statistik: Verfasst von Orbiter — Do Feb 04, 2016 1:37 am


Fragen und Antworten • Crawlparameter agentName=

Date: 2016-02-04 14:08:30

Hi zusammen

YaCy bietet die Möglichkeit, sich einen eigenen Useragent zu kreieren.

Laut der Dokumentation unter http://www.yacy-websearch.net/wiki/inde ... APICrawler{.postlink} muss dazu als Crawl-Parameter [agentName=Custom%20Agent]{style=“font-style: italic”} verwendet werden und gleichzeitig in der yacy.conf 4 Parameter eingetragen werden:

Code:
crawler.userAgent.name=owncrawlercrawler.userAgent.string=Mozilla 5.0 (compatible; owncrawler; +http://irgendeinedomain.org)crawler.userAgent.minimumdelta=500crawler.userAgent.clienttimeout=10000



Ab welcher Version ist das generell möglich? Bei der von mir eingesetzten Version 1.68 funktioniert das leider nicht, wie beschrieben.
Nach dem Start sind die oben gemachten Angaben auch aus der yacy.conf wieder verschwunden, was mich vermuten lässt, das es bei 1.68 noch nicht geht und die unbekannten parameter einfach ausgefiltert werden. ;)
Danke euch :)

Statistik: Verfasst von freak — Do Feb 04, 2016 2:08 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Ranking bei Hostsuche

Date: 2016-02-05 08:20:39

Hello, sorry to answer in English. But I wanted to say domain name (or website host name) search is also a feature I think is missing in YaCy. If someone knows how to configure a peer to perform this kind of query I would be interested.
By the way I believe indexed data and Solr already have everything we would technically need, but a smart enough query still has to be implemented.
To mind my it should not be proposed as default in Text search, but rather as a distinct new UI, for example \“Domain search\” or \“Website search\“.

Statistik: Verfasst von luc — Fr Feb 05, 2016 8:20 am


Fragen und Antworten • suggest.json mehrere Domainen

Date: 2016-02-05 11:12:18

Hallo,

ich möchte Yacy für mehrere Websites verwenden. Dazu möchte ich in die jeweiligen Seiten auch eine Suggest-Funktionalität (/suggest.json?q=search) einbinden.

Dies hat soweit auch funktioniert. Mein Problem ist, dass die vorgeschlagenen Wörter aus allen Domänen kommen die ich crawle. Ich möchte natürlich, das nur die Wörter vorgeschlagen werden, die auch zu der entsprechenden Seite gehören.

Kann mir da jemand einen Rat geben?

Vielen Dank.

Statistik: Verfasst von shahn — Fr Feb 05, 2016 11:12 am


Hilfe für Einsteiger und Anwender • Re: Yacy Ranking bei Hostsuche

Date: 2016-02-05 23:04:53

In order to have higher ranked results on domains / hostnames play around with /RankingSolr_p.html and give host_organization_s or host_s a higher value.

Statistik: Verfasst von sixcooler — Fr Feb 05, 2016 11:04 pm


English • Re: Amount of RWIs no longer increasing

Date: 2016-02-06 09:14:28

Thanks a lot for the detailed explanation. Is there a way to rebuild all the RWIs for my index?

Code:
stefan@endeavour:~# du -sh /mnt/3200gb/yacy2/DATA/INDEX/freeworld/1.2T /mnt/3200gb/yacy2/DATA/INDEX/freeworld/



:-)

Statistik: Verfasst von LA_FORGE — Sa Feb 06, 2016 9:14 am


Hilfe für Einsteiger und Anwender • Re: Yacy on Raspberry Pi starts Java for 20 seconds, then en

Date: 2016-02-15 21:42:02

I got it working! I did
sudo update-alternatives --config java
and set it to use jdk-8-oracle-arm-vfp-hflt/jre/bin/java.
Now it works. I changed it, because after all the tinkering with yacy my i2p was going veery slow and using the processor at 99% so I thought I changed something with the java settings. Now i2p and yacy both work fine, I could run them at the same tim I guess.

Statistik: Verfasst von kurzehilfe — Mo Feb 15, 2016 9:42 pm


Fragen und Antworten • Indexinhalte löschen anhand der Blacklist

Date: 2016-02-15 22:39:36

Hallo zusammen,

ist es möglich das Indexverzeichnis anhand der neu hinzugefügten Blacklist zu \“säubern\“?

Würde mich über eine Antwort freuen!

DANKE!

Statistik: Verfasst von ds810 — Mo Feb 15, 2016 10:39 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-15 22:49:33

Ich verstehe den Sinn noch nicht ganz. Ich lasse ja den Server indexieren. Den Rest holt er sich mit der Zeit von den anderen Peers ab. Zusätzlich habe ich:

Code:
Suchergebnis: crawl Links aller angezeigten Suchergebnisse


aktiviert.

Gruß
dS810

Statistik: Verfasst von ds810 — Mo Feb 15, 2016 10:49 pm


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2016-02-15 22:54:36

Möglich wäre es. Die IT-Verantwortlichen müssen sich nur noch dafür entscheiden. Der Bekanntheitsgrad ist leider nicht der höchste :(. Die Demo-Seite search.yacy.net ist öfters off- als online. Und wenn die online ist, dann hat sie keine Verbindung zu irgend einem Peer, was das Suchergebnis stark beeinflusst - sowie jetzt - leider. Somit kann man sich auch kein Bild von YaCy machen.

PS: Ich habe schon mehrere male drauf hingewiesen ;).

Statistik: Verfasst von ds810 — Mo Feb 15, 2016 10:54 pm


Fragen und Antworten • CPU-Last 100% [UPDATED]

Date: 2016-02-15 23:10:29

Hallo zusammen,

ich stelle auf meinem HP N54L-Server fest, dass der YACY-Prozess, nach ca. 30 Minuten, die CPU zu 100% auslastet. Ich habe keine Crawls laufen und starte auch keine Suchanfragen und trotzdem läuft die CPU auf Hochtouren. Testhalber lies ich den Server über mehrere Stunden mit der hohen CPU-Last laufen in der Hoffnung, dass es nach einer Zeit wieder beruhigt. Leider ohne Erfolg.

Beobachtet ihr ein ähnliches Verhalten? Kann ich etwas dagegen machen? Welche LOGs könnten hilfreich sein?

[Mein Setup:]{style=“font-weight: bold”}
HP N54L
Zugewiesener RAM: 4GB
Anzahl der Dokumente ca. 8,5 Mio.
Typ: Principal
[UPDATE]: Yacy-Version: 1.839644

Würde mich über Eure Unterstützung freuen.

Statistik: Verfasst von ds810 — Mo Feb 15, 2016 11:10 pm


Hilfe für Einsteiger und Anwender • Re: Yacy Ranking bei Hostsuche

Date: 2016-02-15 23:11:50

Oh cool! Danke für den Tipp! Hat bei mir den gewünschten Effekt erbracht.

Statistik: Verfasst von ds810 — Mo Feb 15, 2016 11:11 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-16 00:12:59

Wie genau Yacy vom Code her funktioniert, weiß ich nicht.
Ich würde aber sagen, dass das Yacy Netzwerk entlastet wird und freie Resourcen für andere Aufgaben frei werden, z.B. Verteilen der neuen Crawl Links.
Die atuelle gemeintschafliche Linksammlung wird größer, da die Dokumente eine höhere Redudanz haben.
Ein schnelleres Wachstum wäre demnach die Folge.

Ich selber habe z.B. einen höheren Upload, kann diesen aber nicht mit Yacy nutzen.
Wenn wir jetzt mit ein par Usern regelmäßig aktuelle Dokumenten-Torrents anbieten, hätte andere User eine nette Downloadquelle mit über 100Mbit.

Statistik: Verfasst von promocore — Di Feb 16, 2016 12:12 am


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-16 00:57:02

Gut, schließe mich dem an.

Statistik: Verfasst von ds810 — Di Feb 16, 2016 12:57 am


Hilfe für Einsteiger und Anwender • Vorstellung - und erste Fragen

Date: 2016-02-16 03:24:28

Guten Tag,

ein Bereich für Vorstellung ist offenbar nicht vorgesehen. Also dann hier:
Ich benutze EDV privat nicht als Selbstzweck, sondern für Inhalte. Ich habe daher zu Hause ein Intranet mit mehreren Servern. Ich kenne Ubuntu und Debian, ich weiß für was apt-get gedacht ist. Das zu meiner Person.

Über YaCy stolperte ich vor Tagen völlig zufällig. Auf den ersten Blick sieht es wie die große Liebe aus ... aber damit es auch eine wird, möchte ich möglichst wenige der Fettnäpfe mitnehmen, die ihr schon ausprobiert habt.

Ich habe YacY noch gar nicht installierrt, ich versuche, mich völlig theoretisch einzudenken:
* Ich habe NICHT vor, ein Peer im Web zu werden.
* Ich möchte meine im Intranet verteilten Inhalte zentral suchbar machen
* Ich möchte die Proxy-Funktion nutzen: Alles was ich je las, möchte ich auch später wiederfinden (selbst wenn die originale Quelle nicht mehr existiert!)
* Ich möchte einige wenige Suchbegriffe from-the-wild LOKAL haben

Das scheint für einen neuen internen Server zu sprechen.
Die Dimensionierung ist mir unklar: 1GHz dual-core, 4GB Hauptspeicher, 32 GB SSD reichen?

Wäre es sinnvoll, von vornherein die drei Aufgaben (Intranet-Inhalte / Proxy-Ergebnisse / Crawler-Ergebnisse) auf drei physikalisch verschiedene Root-Server zu legen?

Bitte auch auf Denkfehler hinweisen!
(Ich betrachte wie gesagt die Sache im Moment völlig theoretisch, ohne jede praktische Vorerfahrung.)

Freundliche Grüße

Statistik: Verfasst von Intra — Di Feb 16, 2016 3:24 am


Hilfe für Einsteiger und Anwender • Re: Yacy Ranking bei Hostsuche

Date: 2016-02-16 09:47:41

Yes thank you very much sixcooler for this advice! It works quite fine, and I think it will be very useful for every day searches!

Personally to have a true host name search behavior I had to apply quite extreme settings :
- host_s and host_organization_s boosted with value : 50.0
- only kept fields title, author and description_txt

I believe such a common use case should have a pre-configured profile as it is done for \“Date profile\“.

At least wiki page http://www.yacy-websearch.net/wiki/index.php/En:Ranking could be more detailed for this case.

Statistik: Verfasst von luc — Di Feb 16, 2016 9:47 am


Wunschliste • DBOpendata

Date: 2016-02-16 12:07:15

Hallo,

ist es möglich die Übersicht der Haltestellen der Deutschen Bahn mit in Yacy zu laden?
Es gibt ja diese Wörterbücher mit den Namen/PLZ von Städten.

Der Link wäre: http://data.deutschebahn.com/datasets/haltestellen/

Danke

Statistik: Verfasst von frank_gamefreak — Di Feb 16, 2016 12:07 pm


Mitmachen • Re: Chemnitzer Linuxtage 19./20. März - Helfer gesucht!

Date: 2016-02-16 12:08:01

Okay dann halt mit Joker... es gibt ganz gutes Essen!

Statistik: Verfasst von frank_gamefreak — Di Feb 16, 2016 12:08 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-16 15:04:41

Super ds810,

möchtest du deinen Indexdatei auch sharen oder nur mitverteilen?

Statistik: Verfasst von promocore — Di Feb 16, 2016 3:04 pm


Fragen und Antworten • YaCy 1.83 mit Debian 8 (Jessie)?

Date: 2016-02-16 15:46:21

Weiß jemand, ob die neueren Versionen von YaCy problemlos auf Debian 8 (Jessie) laufen?

Vielen Dank im Voraus für eine Auskunft!

Michael Behrens

Statistik: Verfasst von mbehrens — Di Feb 16, 2016 3:46 pm


Fragen und Antworten • Re: YaCy 1.83 mit Debian 8 (Jessie)?

Date: 2016-02-16 16:48:08

Bin mir nicht sicher, ob das deine Frage beantwortet, aber auf dem Raspbian läuft yacy problemlos. Und das basiert auf Jessie.

Statistik: Verfasst von ds810 — Di Feb 16, 2016 4:48 pm


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2016-02-16 16:54:03

wir machen da mal was. Ich habe schon länger darüber nachgedacht, die Möglichkeit YaCy im Portalmodus betreiben zu können nicht mehr hinter einer Einstellmöglichkeit im Start-Setup zu verbergen sondern einfach als ganzes Release als \‘YaCy Search Appliance\’ anzubieten. Das müsste dann auch auf die YaCy Homepage so drauf. Irgendwie steht da auch ein Redesign an, einen Anfang gibt es hier: https://github.com/yacy/yacy.net_homepage .. das ist aber nur ein Skelett

Statistik: Verfasst von Orbiter — Di Feb 16, 2016 4:54 pm


Mitmachen • Torrent Download ( YaCy , Indexdatei , YaCy für Virtualbox)

Date: 2016-02-16 18:06:04

[[
YaCy Programm:]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-weight: bold”}

YaCy 1.82 für Windows
Torrent Download{.postlink}

YaCy 1.82 für GNU/Linux
Torrent Download{.postlink}

YaCy 1.82 für MAC OS
Torrent Download{.postlink}

[[
YaCy OVA Image:]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-weight: bold”}

Info: http://www.yacy-websuche.de/wiki/index.php/De:VirtualBoxInstall

YaCy OVA Image für Virtualbox.
Torrent Download{.postlink}


[
YaCy Indexdatei]{style=“font-size: 150%; line-height: 116%;“}

Info: http://www.yacy-websearch.net/wiki/index.php/En:IndexExpImp


5 GB Index (02-2016) Torrent Download{.postlink}
10 GB Index (02-2016) Torrent Download{.postlink}

Die Indexgrößen beziehen sich auf die gepackten Archive.

Es wäre natürlich super, wenn mehr User ihre Index Daten bereitstellen könnten.
Falls ihr Hilfe bei der Erstellen des Torrents braucht, könnt ihr mich fragen. Für das Verteilen bräuchte ich von euch nur die par KB große Torrentdatei.

Statistik: Verfasst von promocore — Di Feb 16, 2016 6:06 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-16 18:07:44

Ich habe einen neuen Thread aufgemacht mit allen Torrents, die Yacy betreffen.
Diese werde ich versuchen im ersten Post des Threads aktuell zu halten.

http://forum.yacy-websuche.de/viewtopic.php?f=15&t=5752

Statistik: Verfasst von promocore — Di Feb 16, 2016 6:07 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-16 19:46:57

Hallo Intra,

willkommen bei YaCy!
Ich weiss zwar nicht genau was Du mit \‘from-the-wild\’ meinst, aber soweit ich Deine Überlegungen zu 3 separierten Indexen verstanden habe, scheint es mir auch am naheliegensten 3 Instanzen von YaCy zu betreiben.
Last auf dem Host wird durch YaCy entweder durch das Indexieren oder eben durch Suchanfragen erzeugt. Solange es Dir möglich ist das Indexieren und die suchanfragen so zu timen das sie entweder zeitunkritisch oder nicht zusammen erfolgen spricht auch nichts dagegen mehrere Instanzen auf einer Maschine zu betreiben. Als Anmerkung zu mehren Host aus einer Maschine würde ich das Tar-Ball als Quell empfehlen und die Instanzen auf unterschiedlichen Verzeichnissen betreiben. Das ist meines Wissens nach bei den deb-Pakten schwieriger / nicht vorgesehen.
Was die Dimensionierung angeht ist YaCy ohne die RWIs, welche für die P2P-Verteilung genutzt werden recht schlank. Am ende ist die Dimensionierung von der Anzahl der Dokumente und dem Bedürfniss nach Geschwindigkeit der Suche bestimmt.
Ich würde an Deiner stelle mit einer Instanz und einer Deiner Usecases beginnen und Dich in das Thema einarbeiten.
Eine Instanz zu einer anderen Maschine zu bewegen ist nichts weiter als sein Verzeichniss zu verschieben.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Feb 16, 2016 7:46 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-16 21:23:11

sixcooler hat geschrieben:\ willkommen bei YaCy!\


Danke für die freundliche Begrüßung!

Für das allgemeine Verständnis: Ich rede momentan wie die Jungfer vom Kinde - ich theoretisiere. Ich habe nichts installiert. Aus folgendem Grund: Ich möchte nicht in die bekannte Falle \“mit Euphorie mache ich alles falsch und verbaue mir viel\” laufen.

sixcooler hat geschrieben:\ Ich weiss zwar nicht genau was Du mit \'from-the-wild\' meinst,\


Eine Maschine bzw. Instanz, die sich als Robot nützlich macht: Eine Onlinezeitung nach einem konkreten Begriff abfragen. Google nach einer konkreten Begriffsfolge abfragen. Ein Unterkategorie eines Forums abfragen. (Da gesteigerter Schwierigkeitsgrad: Nur mit Anmeldung Zugang möglich). - Alle anderen meiner gedanklichen Instanzen sind Intranet. Diese eine Instanz greift nach außen. Das meinte ich mit \“from the wild\“.

sixcooler hat geschrieben:\ aber soweit ich Deine Überlegungen zu 3 separierten Indexen verstanden habe, scheint es mir auch am naheliegensten 3 Instanzen von YaCy zu betreiben.\


Und schon hat sich meine Fragerei gelohnt. Ich lerne: YaCy kennt gekapselte Instanzen. Perfekt.

sixcooler hat geschrieben:\ Last auf dem Host wird durch YaCy entweder durch das Indexieren oder eben durch Suchanfragen erzeugt.\


Suchanfragen stelle nur ich - und selbst das nicht jede Stunde. Flaschenhals wird also bei mir das Indexieren werden. Verstanden.

sixcooler hat geschrieben:\ Solange es Dir möglich ist das Indexieren und die suchanfragen so zu timen das sie entweder zeitunkritisch oder nicht zusammen erfolgen spricht auch nichts dagegen mehrere Instanzen auf einer Maschine zu betreiben.\


Schaue Dir mal bitte kurz diesen Mini-Server an: Lüfterlos, 12 Watt max.. Dual Core 2GHz. 32 oder 60 GB SSD intern. Weitere SSD via USB. Debian-8/64/Server nur für diesen Zweck ohne Schnickschnack: http://www.amazon.de/dp/B00NXUMI9A/
Problem: Wenn der ständig CPU-Last hat, bin ich nahe am Hitzetod.

sixcooler hat geschrieben:\ Als Anmerkung zu mehren Host aus einer Maschine würde ich das Tar-Ball als Quell empfehlen und die Instanzen auf unterschiedlichen Verzeichnissen betreiben. Das ist meines Wissens nach bei den deb-Pakten schwieriger / nicht vorgesehen.\


1) CVS oder tarball via download?
2) Ich las was von \“eingebautem Update\” - es gibt jenseits von apt-get eine wie auch immer geartete Update-Funktion der Software?

sixcooler hat geschrieben:\ Was die Dimensionierung angeht ist YaCy ohne die RWIs, welche für die P2P-Verteilung genutzt werden recht schlank.\


RWI = ?

Für das konkret angedachte Projekt ist nicht an P2P gedacht, auch nicht später. Mein Ansatz ist der der Nachhaltigkeit: Wenn es mal steht, soll es auch für 10 Jahre laufen. Und zwar bei minimalem Admin-Aufwand laufen: YaCy soll (für mich) Mittel zum Zweck werden.

sixcooler hat geschrieben:\ Am ende ist die Dimensionierung von der Anzahl der Dokumente und dem Bedürfniss nach Geschwindigkeit der Suche bestimmt.\


Geschwindigkeit der Suche ist (für mich) nachrangig. Flaschenhals wird die Anzahl der Dokumente: Ich betreibe historische Forschung, dabei mühte ich mich, alle Dokumente digital zu halten, meist zudem als OCR-Digitalisat (tesseract). Das liegt wohlsortiert vor. Einige Zahlen: Ein internes Wiki mit ca 4.000 Seiten. 60.000 Mails, Einzeldateien html bzw. eml möglich. Weitere Einzeldateien doc. xsl, txt, pdf, quer über den Daumen alles in allem 4-6 TB. Diese allerdings sinnvollerweise auf drei oder vier unabhängigen Instanzen von YaCy.

Nachträglich eingefügt:
Ahhh, Moment! Viele lokalen Dateien liegen IDENTISCH mehrfach vor.

Frage:
Kennt YaCy einen Mechanismus a la *md5*, um sich Doppelarbeit zu sparen?

sixcooler hat geschrieben:\ Ich würde an Deiner stelle mit einer Instanz und einer Deiner Usecases beginnen und Dich in das Thema einarbeiten.\


Ich arbeite (als AP) grundsätzlich mit virtuellen PC (VMware Player). Idee für ersten Test ist: Neuer \“PC\” mit X11, eigene IP im Intranet. Dort YaCy allein als Web-Proxy - für den anderen virtuellen PC, den ich hier im Moment für dieses Posting nutze. Einige Tage zusehen, das das real passiert.

sixcooler hat geschrieben:\ Eine Instanz zu einer anderen Maschine zu bewegen ist nichts weiter als sein Verzeichniss zu verschieben.\


Ahhh - gut zu wissen. Das gilt auch zwischen verschiedenen physikalischen Maschinen?

Ich möchte mich nochmals für die freundliche Begrüßung bedanken. Vielleicht magst Du die Absätze dieses Postings zerpflücken: Es spricht nichts dagegen, mir auch Zähne zu ziehen: Lieber jetzt als später.

Statistik: Verfasst von Intra — Di Feb 16, 2016 9:23 pm


Fragen und Antworten • Re: YaCy 1.83 mit Debian 8 (Jessie)?

Date: 2016-02-18 12:29:49

Vielen Dank!

Wir haben unsere Installation inzwischen auf Jessie upgadated und mit YaCy Version 1.839644 scheint alles prima zu laufen.

Viele Grüße, Michael

Statistik: Verfasst von mbehrens — Do Feb 18, 2016 12:29 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-18 19:45:03

[Testbasis:]{style=“font-weight: bold”}
Installation des Debian-Version in Ubuntu 14.04

[Testidee:]{style=“font-weight: bold”}
Proxy, ausschließlich die angesurften Seiten sollen im Proxy lokal gehalten und indexiert werden.

[Einstellungen:]{style=“font-weight: bold”}
Netzwerkdefinition \“Intranet\” sowie Robinson-Modus \“privater peer\“.

[Ergebnis:]{style=“font-weight: bold”}
Proxy ist ansprechbar/nutzbar für die lokale virtuelle Maschine. Proxy ist ansprechbar für eine andere Maschine im Intranet, das funktioniert. Leider wird keine der angesurften Seiten indexiert. Keine einzige. Ich suche - und finde folgendes:

Code:
FINAL_PROCESS_CONTEXT the host 'www.abcdef.de' is global, but global addresses are not accepted: 221.x.x.x


Ok, ihm ist das also verboten. Nun bin ich ratlos: Eine Einstellung beim Proxy falsch? Oder wählte ich insgesamt das falsche Modell? Ich wählte die Netzwerkdefinition \“Intranet\” sowie Robinson-Modus \“privater peer\“.

Statistik: Verfasst von Intra — Do Feb 18, 2016 7:45 pm


English • to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 02:18:21

Tired.…
when crawls seemed too slow, I raised memory to 1200 on vps box with 2 GB RAM, Ubuntu 14.04 x86_64
on next reboot, it refused to start.

looking at /usr/share/yacy/DATA/SETTINGS
in yacy.conf - which starts...
# This is an automatically generated file, updated by serverAbstractSwitch and initialized by defaults/yacy.init

I downloaded, edited the memory down to 750 and uploaded it.
javastart_Xmx=Xmx750m
javastart_Xms=Xms750m


Unfortunately the file got badly damaged.
How do I regenerate it, please?
Lots of data inside...over a million docs
It is installed on a remote vps, Ubuntu, in daemon
Many thanks.

Statistik: Verfasst von xioc752 — Fr Feb 19, 2016 2:18 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 09:19:43

Hello,
I suggest you simply delete your yacy.conf file. It will be regenerated with its default values, as stated in Settings_p.html page (System Administration > Advanced Settings).
I verified with my small YaCy peer and it works fine.

Statistik: Verfasst von luc — Fr Feb 19, 2016 9:19 am


YaCy Coding & Architecture • A generic API advanced crawler

Date: 2016-02-19 09:53:31

Hello, I recently found an interesting repository of public APIs descriptions in OpenApi format : https://github.com/APIs-guru/api-models.

First this made me think it would be a good thing to provide a description of YaCy API in a standardized format such as OpenApi (Swagger) or RAML or in the most relevant format...

I also wonder if it could be possible to make a generic advanced crawler able to request any public API, as an alternative to classical crawling. YaCy already have MediaWiki and phpBB3 specialized crawlers and RSS and OAI-PMH importers.
It would be great to have the possibility to request other APIs with little mapping work.

My basic idea would be to specify in a new YaCy screen :
- eventual required api key
- one or more resources listing/discovery services
- which result field(s) contain a public http resource to index
- or wich result field(s) contain metadata to index
- ... any other necessary information

This mapping should be exportable to be shared with other YaCy users, eventually in a specific folder in git repository.

What do you think? Feasible?

Statistik: Verfasst von luc — Fr Feb 19, 2016 9:53 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 11:12:50

Did you have a look at LOG/yacy00.log file? It would be interesting to check if something is written (eventually errors) when you try to start YaCy.

How do you know your yacy.conf file was damaged? Maybe some other key files were also damaged...

Alternatively, I guess you can try to use content of yacy.init (https://github.com/yacy/yacy_search_ser ... /yacy.init{.postlink}) to manually fill your yacy.conf file.

Statistik: Verfasst von luc — Fr Feb 19, 2016 11:12 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 11:16:35

Hello,
I tried that - erasing the yacy.conf file
It too a long time and many attempts, reboots, resets of the server, etc., to push it into action, but after a few hours it worked!
Many Thanks! :D Have a Great Day!

Statistik: Verfasst von xioc752 — Fr Feb 19, 2016 10:04 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 11:19:13

Thank you for the added tips...
I will read them... Good to know for the future...
Yes, it was the config file that was damaged, I know from the process followed.
You have been very helpful! :D Many thanks to you, too!

Question: How much memory can be safely assigned to the JVM say for a vps with 2GB running on Ubuntu?
How to calculate this, please?

Statistik: Verfasst von xioc752 — Fr Feb 19, 2016 11:19 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 11:40:16

You\’re welcome!

You can run this command on your Ubuntu instance before starting YaCy and after starting any other application or service you usually need : free -h
Thus you will see how much memory is already used, how much is free and if swap is eventually used. I think you can safely assign to YaCy JVM the total amount of free memory, minus say some 100 or 200MB to be sure.

Statistik: Verfasst von luc — Fr Feb 19, 2016 11:40 am


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-19 16:05:18

HI..thanks for the suggestion!
Here is what I got...
total used free shared buffers cached
Mem: 2.0G 71M 1.9G 3.8M 0B 40M
-/+ buffers/cache: 31M 2.0G
Swap: 1.0G 0B 1.0G

In your experienced opinion, please, how much is still available, all thing considered?
It is running at 750m, now, but it is painfully slow...almost stopping, many times.
In fact, sometimes it will not open a browser window, at all, though the daemon notice displays when started from the command line with ./startYACY.sh in Ubuntu. It displays various out of memory notices.
Many thanks!

Statistik: Verfasst von xioc752 — Fr Feb 19, 2016 4:05 pm


English • Re: to rebuild - replace a damaged yacy.conf

Date: 2016-02-20 01:26:00

The more memory you can assign for your YaCy peer, the best it will behave. I think you can safely and should at least run it with 1500MB.

What precise version of YaCy do you run (you will find it in /Status.html, YaCy version line)?
I had similar memory performance problems not so long ago when running with memory below 1024MB (see http://mantis.tokeek.de/view.php?id=626). For me the problem mainly occured when storing large documents metadata from remote peers.
If you run last YaCy versions, you can now \“Limit size of indexed remote results\” in /ConfigPortal.html page. When limiting to 1000KB, it worked for my peer and allowed me to run YaCy with 600MB of memory.
You may also want to remove too large documents from your index : see IndexDeletion_p.html page, \“Delete by Solr Query\”
For example, such a query will delete documents with more than 10000 embedded links : inboundlinkscount_i:[10000 TO *] AND inboundlinks_urlstub_sxt:[* TO *]

Statistik: Verfasst von luc — Sa Feb 20, 2016 1:26 am


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-20 14:53:25

Hallo Intra,

vorweg: ich hoffe das sich hier auch noch andere in den Thread einklinken - alles kann ich bestimmt auch nicht beantworten.

Bzgl. des \‘from-the-wild\‘-usecases:
Sicherlich kann man Onlinezeitungen indexieren, was Du mit Google abfrage meinst habe ich noch nicht verstanden. Indexieren von Quellen mit Anmeldung ist meines Wissens nach nicht möglich.

Der von Dir vorgesehene Mini-Server sollte gut gehen - Flaschenhals dürfte hier die SSD werden, über die CPU-Last würde ich mir weniger Gedanken machen.

Wegen der RWIs - das war mal ein Zentraler Bestandteil, ist aber heute nur noch zur Verteilung von Indexdaten verwandt.
Unter /IndexFederated_p.html (unten) kannst Diesen Teil abschalten, was wohl auf alle Deine Usecases trifft.

Identische Dokumente werden auf jeden Fall erst mal idexiert - denn sie sind schon wegen des Pfades unterschiedlich.
So wirst Du aber auch in den Suchergebnissen sehen wo was gleich ist.

Der Proxy-Usecase ist definitiv keiner für den man den Intranet-Modus nutzen sollte.
Die Quellen sind ja nicht im Intranet.
Versuche es mit \‘Suchportal für Ihre eigene Internetseiten\’ unter /ConfigBasic.html

cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Feb 20, 2016 2:53 pm


English • Re: YaCy as ZeroNet search engine

Date: 2016-02-20 23:50:37

ZeroNet stores visited web pages in a local data path. That path can easily indexed with YaCy. The indexed file path could then be translated into the ZeroNet URL schema using the site hash which is also in the data path. That requires some coding and extra logic in the crawler. So far this appears to be an option to access ZeroNet content. The next question to solve is: how should ZeroNet indexes be shared. It requires a public network which handles only localhost addresses. Thats strange, but obviously required.

Statistik: Verfasst von Orbiter — Sa Feb 20, 2016 11:50 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-21 01:41:27

sixcooler hat geschrieben:\ vorweg: ich hoffe das sich hier auch noch andere in den Thread einklinken - alles kann ich bestimmt auch nicht beantworten.\


Das wäre schön.
Ich habe erhebliche Probleme mit der Dokumentation und Web-Administrationsoberfläche. Das scheint mir nicht durchgehend logisch und auch nicht durchgehend dokumentiert. Ja, ich weiß, dass ich keine Ansprüche zu stellen habe, das ist mir klar.

Für mich wären verschiedene Beispielkonfigurationen hilfreich. Aber dazu finde ich nichts. Gibt es so etwas irgendwo? Oder kann mir jemand solche für meine gedachten Anwendungsfälle mitteilen?

sixcooler hat geschrieben:\ Bzgl. des \'from-the-wild\'-usecases:\ Sicherlich kann man Onlinezeitungen indexieren, was Du mit Google abfrage meinst habe ich noch nicht verstanden.\


Ich meinte Google-News mit feststehendem Suchbegriff.

sixcooler hat geschrieben:\ Der von Dir vorgesehene Mini-Server sollte gut gehen - Flaschenhals dürfte hier die SSD werden, über die CPU-Last würde ich mir weniger Gedanken machen.\


Ich denke, dass ich zunächst mit virtuellen Maschinen Anwendungsfälle teste. Und wenn das wie gewünscht funktioniert (was noch in weiter Ferne liegt) kommt der Mini-Server ins Rennen. Die SSD ist da im nächsten Schritt sogar von Vorteil: Das ist keine gekapselte SSD, sondern eine SSD-Karte. Und die kann man recht problemlos tauschen, also auch für Anwendungsfälle - ehe man sich in Kosten für weitere Maschinen stürzt.

sixcooler hat geschrieben:\ Wegen der RWIs - das war mal ein Zentraler Bestandteil, ist aber heute nur noch zur Verteilung von Indexdaten verwandt.\ Unter /IndexFederated\_p.html (unten) kannst Diesen Teil abschalten, was wohl auf alle Deine Usecases trifft.\


Satz nicht verstanden: Was ist \“RWI\“?

sixcooler hat geschrieben:\ Der Proxy-Usecase ist definitiv keiner für den man den Intranet-Modus nutzen sollte.\ Die Quellen sind ja nicht im Intranet.\


Doch, sie sind im Intranet. Also jedenfalls nach meinem Verständnis. Der Proxy holt die angeforderten Seiten und legt sie lokal ab, sonst wäre das ja kein Proxy. Und damit sind sie lokal. Und die soll er indexieren.

Aber es ist tatsächlich die Frage, was mit \“Proxy\” überhaupt gemeint ist, ob ich da etwas falsch verstehe. Das fängt schon damit an, dass ich lese, dass \“Proxy\” veraltet sei und nicht mehr gepflegt würde. Und in einer Diskussion seht, das man Proxy aus dem Projekt entfernen wolle/solle.

Und es geht weiter: Wenn ich es recht verstehe, war das mal dafür gedacht, dass der Indexer AUSGEHEND von den Proxyseiten das Web indexieren solle. Ob das immer noch so ist - weiß ich nicht. Mein Plan ist das jedenfalls nicht.

Ich würde es genial finden, wenn der Proxy sich alle Seiten merkt, die ich ansurfe, mit dem Inhalt, der zum Abrufzeitpunkt vorzufinden war. Und die dann auch indexiert werden. Ich weiß nicht, ob das geht, die Dokumentation erzählt zu Proxy relativ wenig.

sixcooler hat geschrieben:\ Versuche es mit \'Suchportal für Ihre eigene Internetseiten\' unter /ConfigBasic.html\


Das werde ich tun.

Die Version \“intranet/all-ip\” tut schon mal nicht: Aus völlig unklarem Grund läuft in der Version der Proxy nicht. Warum auch immer.

P.S: \‘Suchportal für Ihre eigene Internetseiten\’ scheint auf den ersten Blick zu gehen. Sehr schön: Diesen Anwendungsfall kann ich nun beobachten - und muss das auch tun: Mich muss ein Gefühl für die realen Ergebnisse (der Suche nach Inhalten) entwickeln.

Statistik: Verfasst von Intra — So Feb 21, 2016 1:41 am


Hilfe für Einsteiger und Anwender • lokale Dateien indexieren

Date: 2016-02-21 03:31:47

Hallo,
es geht um mein privates Intranet. Ich will nicht Peer des öffentlichen YaCy-Netzes werden, es geht nur um mein Intranet.

[Ich möchte ein lokales Verzeichnis (ggf mit Unterverzeichnissen) indexieren.]{style=“font-weight: bold”} Der Crawler soll sich nicht irgendwo langhangeln, der soll einfach alle vorhandenen Dateien indexieren. An dieser Aufgabe scheitere ich. Das mag daran liegen, dass ich erst wenige Tage dabei bin. Oder es liegt an der Dokumentation, die ich als lückenhaft und wenig stringent empfinde. Oder es liegt daran, dass ich Andeutungen in Forenbeiträgen einfach nicht verstehe.

Das fängt schon damit an, dass im WebInterface mehrere Stellen sind, an denen ich einen Crawler auf file:// starten kann. Und nichts funktioniert. (Dabei wäre eigentlich die deutlich schönere Idee, dass ich da nicht einmalig was starte - sondern der Crawler weiß, dass er regelmäßig sich das Verzeichnis ansehen soll.)

Ich weiß also nicht, welches grundsätzliche Modell ich für diese Aufgabe auszuwählen habe. Und was ich dann an welchen Stellen einzustellen habe. Für mich wäre eine Art [howto:]{style=“font-weight: bold”} für den Anwendungsfall \“lokale Dateien eines Verzeichnisses crawlen\” ideal: Eine Beispielkonfiguration also.

Denn es ist in der Doku und den Diskussionsbeiträgen schon unklar, welchen root-Bezug das file:// eigentlich hat: Würde im Extremfall ein Crawl auf / der Maschine gehen? Oder ist das relativ zu der Installation von YaCy?

Auch eine weitere Version ist mir unklar:
Ich habe im Intranet einen Samba-Server. Ich könnte also via smb: diesen Server in ein Verzeichnis des YaCy-Servers einbinden. Aber wie geht es dann weiter?

Mir würde eine konkrete Handlungsanweisung (wähle Modell xyz, dann gehe auf Seite abc und schalte ... usw) wirklich sehr helfen.

Zur Verfügung steht:
Virtueller PC mit eigener IP. Ubuntu 14.04, dort die aktuellen Debian-Packages installiert.

Ich bitte um Hilfe.

Statistik: Verfasst von Intra — So Feb 21, 2016 3:31 am


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-21 12:41:30

Hallo Intra,

leider hast Du recht: Doku und Beutzerführung der Adminoberfläche haben noch Potential. Sei willkommen Dich hier mit einzubringen.

Deine Usecases sind da tolle Bespiele - ich würde mich freuen am Ende dazu etwas im Wiki zu finden.

RWI steh für Reverse Wort Index - das ist eine Zuordnung von Worten zu Dokumenten / Seiten auf denen sie vorkommen.
Solche Daten können genutzt werden um Dokumente mit Worten zu finden, was bei YaCy nun aber eine gute alternative erhalten hat, und um Dokumenten-Index anhand von Worten zu verteilen.

Beim Proxy-Usecase nutzt Du den Proxy um Dokumente aus dem Internet zum Browser zu bringen und dabei zu indexieren.
Suchanfragen resultieren u.a. in einen Link auf die Quelle im Internet. Daher ist es kein Intranet.
Die Dokumente werden nicht lokal abgelegt - lediglich die Indexdaten dazu.

YaCY hat mal vor vielen Jahren als Proxy angefangen, als die Weblandschaft noch eine andere war.
Ich selber betrachte die Proxy-Nutzung als meinen Haupt-Usecase und werde auch zusehen das Ding am laufen zu halten.
Das Problem des Indexierens über den Proxy besteht in der Zunahme der personalisierten Seiten, und der Verwendung von Verschlüsselung.
Der Sicherheitsgedanke bzgl. privater Daten steht bei YaCy weit oben, weswegen keine Seiten mit Benutzerdaten indexiert werden.
Im P2P- oder öffentlichen Kontext ist das auch kaum Sinnvoll - was will jemand anderes mit der Information an die nur Du in der Quelle herankommst?
Verschlüsselter Zugriff auf Internetdokumente ist ja eben zwischen Server und Browser verschlüsselt und damit für einen Proxy nicht einsehbar und somit auch nicht indexierbar.

Die Proxy-Nutzung hat also eine Reihe von Einschränkungen:
Seiten mit Verwendung von https, Cookies, Parameterangaben via ? oder Post werden nicht indexiert.
Das ist heutzutage aber ein großer Teil dessen was man so ansurft, weswegen es als \‘veraltet\’ gild.

Unter /ProxyIndexingMonitor_p.html kannst Du Einstellungen zum Proxy vornehmen. Ich benutze z.B. eine indexiertiefe von 1 womit die Seiten die ich ansurfe + die Seiten die darauf verlinkt sind indexiert werden.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Feb 21, 2016 12:41 pm


English • Indexing local file:/// without going upwards

Date: 2016-02-21 13:51:12

Hi,

how can I prevent a crawl from going upwards in the file hierachy given a path to start with via file:///home/user/data?
The thing that seems happening is that (maybe due to symlinks?) the crawler at some point starts index even root-folders of a linux system , so it clearly goes upwards and crawls folders like \“/var /usr /boot\“, etc.

Crawler filter was already set to \“Restrict to subpaths\“, any idea how to make sure Yacy only goes downwards, but never upwards in filehierachy?

Statistik: Verfasst von data2016 — So Feb 21, 2016 1:51 pm


English • how to import a lot of url\’s

Date: 2016-02-21 21:25:00

hello, how to import a list with a lot of url\’s (>2 million) in yacy? thanks for your reply.

Statistik: Verfasst von roel912 — So Feb 21, 2016 9:25 pm


Hilfe für Einsteiger und Anwender • Re: Vorstellung - und erste Fragen

Date: 2016-02-22 01:35:36

sixcooler hat geschrieben:\ leider hast Du recht: Doku und Beutzerführung der Adminoberfläche haben noch Potential. Sei willkommen Dich hier mit einzubringen.\


Dazu ist es deutlich zu früh: Ich verlaufe mich permanent in der Nutzerführung für Admin. Übringes möchte ich Dir für Deine freundliche Unterstützung ausdrücklich danken.

sixcooler hat geschrieben:\ Deine Usecases sind da tolle Bespiele - ich würde mich freuen am Ende dazu etwas im Wiki zu finden.\


Ich weiß. Dafür müsste der erste aber mal so laufen, dass ich das auch wirklich guten Gewissens auf die Menschheit loslassen kann.

sixcooler hat geschrieben:\ Beim Proxy-Usecase nutzt Du den Proxy um Dokumente aus dem Internet zum Browser zu bringen und dabei zu indexieren.\ Suchanfragen resultieren u.a. in einen Link auf die Quelle im Internet. Daher ist es kein Intranet.\ Die Dokumente werden nicht lokal abgelegt - lediglich die Indexdaten dazu.\


Wie sicher ist das? Die Admin-Oberfläche deutet anderes an, siehe unten. Den Gedanken aber weitergedacht: Wen müsste ich den ansprechen, damit das aufgenommen wird?

sixcooler hat geschrieben:\ YaCY hat mal vor vielen Jahren als Proxy angefangen, als die Weblandschaft noch eine andere war.\ Ich selber betrachte die Proxy-Nutzung als meinen Haupt-Usecase und werde auch zusehen das Ding am laufen zu halten.\


Als Nutzer oder als Mit-Entwickler? Hast Du da praktischen Einfluss?

sixcooler hat geschrieben:\ Das Problem des Indexierens über den Proxy besteht in der Zunahme der personalisierten Seiten, und der Verwendung von Verschlüsselung.\


Das Problem ist ein Scheinproblem, möchte ich denken. Verschlüsselung lassen wir außen vor, da ist es klar. Aber die personalisierten Seiten sind gar keine, vermutlich wegen eines bescheuerten Cookie werden mir selbst ganz normale Onlineausgaben von Zeitungen abgelehnt, Du kannst ja selbst mal einen Artikel auf http://www.mz-web.de ansurfen.

sixcooler hat geschrieben:\ Der Sicherheitsgedanke bzgl. privater Daten steht bei YaCy weit oben, weswegen keine Seiten mit Benutzerdaten indexiert werden.\ Im P2P- oder öffentlichen Kontext ist das auch kaum Sinnvoll - was will jemand anderes mit der Information an die nur Du in der Quelle herankommst?\


Und genau hier ist der Denkfehler - also falls ich das so direkt sagen darf.
YaCy wird als verteilte Suchmaschine gesehen. Und immer nur mit diesem Fokus. Dabei steht direkt auf der Projekt-Homepage, dass YaCy auch interne Suchmaschine für Intranet usw sein kann. Da ist es naheliegend, dass genau das indexiert wird, was ich möchte.Und das betrifft erstmal alles aus dem öffentlichen Web, was mich interessiert: Das ist frei verfügbar, warum also nicht? Und ich möchte weitergehen: Ich bin in Foren angemeldet, da sind nicht alle Inhalte öffentlich. Aber SOLANGE ich diese Suchmaschine nur für mich habe - warum soll ich denn da nicht indexieren dürfen, wo ich Zugriff habe?

Das kann man ja gern XOR verkoppeln: Geht nur, wenn mein YaCy nicht öffentlich mitspielt.

sixcooler hat geschrieben:\ Die Proxy-Nutzung hat also eine Reihe von Einschränkungen:\ Seiten mit Verwendung von https, Cookies, Parameterangaben via ? oder Post werden nicht indexiert.\ Das ist heutzutage aber ein großer Teil dessen was man so ansurft, weswegen es als \'veraltet\' gild.\


https ist rein technisch klar. Aber Cookie ist eben nicht klar. Jeder Dödel schickt neuerdings Cookie, da ist rein gar nichts personalisiert. Und bei Paramaterangaben habe ich auch meine Zweifel: Damit fallen sofort sämtliche Spezial-Wiki aus. Und webbasierte Chats auch.

sixcooler hat geschrieben:\ Unter /ProxyIndexingMonitor\_p.html kannst Du Einstellungen zum Proxy vornehmen. Ich benutze z.B. eine indexiertiefe von 1 womit die Seiten die ich ansurfe + die Seiten die darauf verlinkt sind indexiert werden.\

Code:
Proxy Indexierung erfolgt nun bis zu einer Tiefe von-0.Proxy Speichern im Cache ist nun an.Lokales Text Indexieren ist nun an.Lokales Medien Indexieren ist nun an.Remote-Indexieren ist nun aus.Die Cache Größe ist nun auf 40960MB gesetzt.Sie können sich Voransichten von frisch indexierten Seiten auf der Proxy Index Monitor Seite ansehen.


Und der Cache liege unter [DATA/HTCACHE]{style=“font-weight: bold”} - also das klingt erstmal alles wie ein echter Proxy-Cache. Oder ist sehr schlecht formuliert.

[DATA/HTCACHE]{style=“font-weight: bold”} finden ist auch eine lustige Sache: DATA ist /usr/share/yacy/DATA. Das wiederum ist ein [relativer]{style=“font-weight: bold”} Softlink auf ../../../var/lib/yacy , also /var/lib/yacy. Praktisch ist [DATA/HTCACHE]{style=“font-weight: bold”} also /var/lib/yacy/HTCACHE/ - zumindest in der aktuellen Debian-Version.

In einer Version (ich weiß nicht mehr ob bei meinen Versuchen oder ein Screenshot) gab es tatsächlich bei jedem via YaCy gefundenem Link auch einen Link \“cache\“, was wohl andeutet, dass das geht, gehen kann, so gedacht ist, so gedacht war.

Statistik: Verfasst von Intra — Mo Feb 22, 2016 1:35 am


English • Re: how to import a lot of url\’s

Date: 2016-02-22 08:52:10

Hello, you can use Advanced Crawler page (/CrawlStartExpert.html), select \“From File\” Start Point, and paste url of a file containing your urls list (one url per line).
Be aware whole file content will be loaded in memory, so you have to check sufficient free memory is available for YaCy : check file size, and check free memory in /PerformanceMemory_p.html (\“Now before GC\” column).

Statistik: Verfasst von luc — Mo Feb 22, 2016 8:52 am


Mitmachen • 3D Design of YaCy logo (wanted!) stl-File etc.

Date: 2016-02-22 15:59:33

Hi,

does anybody made a stl-file of the YaCy logo? I would need to have one to decorate a ODROID-C1 box.

If you feel inspired to make one, here are the raw logo data files:
http://yacy.net/material/YaCyLogo2011.svg
http://yacy.net/material/YaCyLogo2011.png
http://yacy.net/material/YaCyLogo2011.pdf
http://yacy.net/material/YaCyLogo2011.eps

Maybe it\’s as simple as using the svg, and extruding the white and blue part (each of it seperately). Would be nice to be able to glue the white part into the blue part.

Statistik: Verfasst von Orbiter — Mo Feb 22, 2016 3:59 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-24 11:39:36

Hallo Orbiter,
Der Dump läge dann lokal beim User?

Generell wäre es gut, wenn man über die YaCy GUI irgendwie an externe Dumps kommen könnte.
Externe Quellen, wie die von mir angebotenen Torrent Downloads, werden aktuell nicht genutzt.

Statistik: Verfasst von promocore — Mi Feb 24, 2016 11:39 am


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-24 13:48:37

der Dump würde automatisch ins http share gelegt werden. Bei einem Junior Peer bringt das nichts, ich überlege ob ich dafür eine API baue so dass ein Junior seinen Dump zu irgendeinem Senior pushen kann.

Statistik: Verfasst von Orbiter — Mi Feb 24, 2016 1:48 pm


English • Re: Hello

Date: 2016-02-24 19:13:39

sixcooler hat geschrieben:\ Hi trhero,\ \ your usecase can be done by setting \'Search portal for your own web pages\' at /ConfigBasic.html and start crawling the websites using the \'Advanced Crawler\'.\ There you tipe in the URL of the Site, choose a depth of a value like 9 and check \'Restrict to start domain(s)\'.\ The Depth you need depend on complexity of the Site to crawl. Some Websites provide Sitemaps, which will be pulled and shown at the moment you tiped in the URL. Sitemaps are a good startingpoint for full crawls of Websites.\ \ Cu, sixcooler.\


Thanks its worked ! :) but i have one more question i have a lot of host list with 1 url how can i delete them?
these urls i dont want them on my database http://i.snag.gy/mzlsK.jpg

Statistik: Verfasst von trhero — Mi Feb 24, 2016 7:13 pm


English • Re: Hello

Date: 2016-02-24 21:07:40

Hi trhero,

try Index Administration -> Index Deletion (/IndexDeletion_p.html) and enter something like *.wikipedia.org at \‘One URL stub, a list of URL stubs
or a regular expression\‘.
(or an expression that matches your needs)
klick Simulate Deletion and check if the result looks suitable to you - than klick Engage Deletion.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Feb 24, 2016 9:07 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-24 22:49:46

Ich find die Idee gut!

Statistik: Verfasst von promocore — Mi Feb 24, 2016 10:49 pm


English • Re: Hello

Date: 2016-02-25 00:56:39

sixcooler hat geschrieben:\ Hi trhero,\ \ try Index Administration -\> Index Deletion (/IndexDeletion\_p.html) and enter something like \*.wikipedia.org at \'One URL stub, a list of URL stubs\ or a regular expression\'.\ (or an expression that matches your needs)\ klick Simulate Deletion and check if the result looks suitable to you - than klick Engage Deletion.\ \ Cu, sixcooler.\


this method not worked so i delete all database started from zero so far not bad.Any guide for how to make backup and restore database?

Statistik: Verfasst von trhero — Do Feb 25, 2016 12:56 am


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-25 16:44:41

Eine weitere offenen Frage ist, ob alle Senior peers auch den Index Upload per se akzeptieren sollen, ob hierfür die gleichen Regeln wie beim RWI upload gelten sollen oder ob das eine separate Konfiguration sein soll, die in der Netzdefinition eingestellt ist.

Eine noch weiter gehende Frage ist, wie ein remix dieser uploads dann erfolgen soll: sollen alle peers von allen anderen deren Index laden? Sicher nicht, das wäre eine komplett-Replikation. Aber für bestimmte kleinere Netze wäre das ggf. eine Option.

Statistik: Verfasst von Orbiter — Do Feb 25, 2016 4:44 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-25 17:27:22

Wenn es geht, würde ich hierfür einen extra Punkt machen (default - on), da bei einem Voll Indexexport evt. teilweise Rückschlüsse auf die indexierten Inhalte der User geführt werden könnten. Vielleicht mag das der eine oder andere User nicht oder hat auch nur einfach Bedenken.

Zur Frage 2: Ich fänd es gut, wenn die User optional ihre Uploadgeschwindigkeit eintragen könnten und andere User diese für den Import sehen könnten, bzw den User für den Import dann auch direkt auswählen könnten.
Immerhin sind die Indexdaten relativ groß und ein User mit 128KB Upload wäre nicht der optimaler Partner.

Automatisiert würde meiner Meinung nach nur Sinn machen, wenn User mit einem schnellen Upload (z.B. Vdsl oder Server) global allen Usern den Index bereitstellt und nach und nach jeweils eine gewisse Anzahl Usern mit Indexdateien versorgt. Diese Funktion wäre dann default-off.

Edit: Eine weitere Idee wäre, dass alle User, die diese Globale Funktion einschalten, Dumps nur untereinander teilen und so eine kleinen Stamm an Usern bilden , die ein große Anzahl der Links beinhaltet und einen hohen Upload verfügen.
Also eine Replikation der Daten, jedoch beschränkt auf ein Teil der User.

Statistik: Verfasst von promocore — Do Feb 25, 2016 5:27 pm


English • Re: Hello

Date: 2016-02-25 18:44:03

Hello, you can find a short tutorial here : http://www.yacy-websearch.net/wiki/inde ... ndexExpImp{.postlink}
Maybe it is sufficient for your needs.

Statistik: Verfasst von luc — Do Feb 25, 2016 6:44 pm


YaCy Coding & Architecture • Java Web Start launch alternative

Date: 2016-02-26 10:44:12

Hello, I would personally find it great to have a Java Web Start link (JNLP) on yacy.net website as an alternative to OS dependent installers (here is a good example on JOSM project website : http://josm.openstreetmap.de/)
I think it could be helpful for some newcomers who don\’t want to \“install\” something but want to try a local YaCy peer, and may be afraid by github and ant compile.
At least a link to http://latest.yacy.net:81/update/ last stable release would be a good thing.
But a Java Web Start link is easier (only one click needed) and truly cross-platform.

First step to make it possible is to produce a runnable jar. Not a big deal with an ant task, but some other modifications are likely to be needed : for example, at first startup yacy assume default config files are in a local \‘defaults\’ directory rather than in classpath. I have already started to experiment, but as more work is needed, I am wondering what you think of this idea... Have you already tried? Would you support this and eventually add an third deployment link on yacy.net website?

Statistik: Verfasst von luc — Fr Feb 26, 2016 10:44 am


English • Re: Indexing local file:/// without going upwards

Date: 2016-02-26 11:22:18

maybe the \‘restrict to subpath\’ does not work correctly because it expects a domain which is not there with file paths.
It should work when \‘use filter\’ is set to a self-defined filter, like \“file:///home/user/data.*\” (I did not try that yet.. but if that does not work it is definitely a bug)

Statistik: Verfasst von Orbiter — Fr Feb 26, 2016 11:22 am


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-26 18:51:01

promocore hat geschrieben:\ Super ds810,\ \ möchtest du deinen Indexdatei auch sharen oder nur mitverteilen?\



Ich verteile dein Index mit.

Statistik: Verfasst von ds810 — Fr Feb 26, 2016 6:51 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-27 14:26:57

Aber wenn man das ganze weiter spinnt , macht es da den RWI upload nicht überflüssig?

Kann man den normalen Austausch nicht irgendwie beschleunigen? Ich meine ich habe eine 3 Tb Festplatte und 10 mbit Upload, da könnte ich doch locker 2 TB an Index Daten innerhalb kurzer Zeit auf meinem Rechner speichern und nicht mühselig meine Kiste selber einen Index erstellen lassen.

Statistik: Verfasst von bbtuxi — Sa Feb 27, 2016 2:26 pm


Mitmachen • Re: 3D Design of YaCy logo (wanted!) stl-File etc.

Date: 2016-02-28 02:30:00

did a rough OpenSCAD code, still needs the star

\ a1 = \[\[280,250\],\[390,250\],\[320,650\],\[380,650\],\[450,250\],\[560,250\],\[440,930\],\[160,930\],\[180,820\],\[350,820\],\[360,760\],\[190,760\]\];\ \ a2 = \[\[620,350\],\[820,350\],\[740,790\],\[540,790\],\[600,480\],\[720,480\],\[730,430\],\[610,430\],\[650,550\],\[700,550\],\[680,720\],\[630,720\]\];\ \ a3 = \[\[930,160\],\[1200,160\],\[1160,410\],\[1050,410\],\[1070,260\],\[1020,260\],\[950,650\],\[1010,650\],\[1040,480\],\[1150,480\],\[1100,750\],\[820,750\]\];\ \ a4 = \[\[1250,360\],\[1320,360\],\[1270,660\],\[1330,660\],\[1380,360\],\[1460,360\],\[1370,880\],\[1160,880\],\[1170,800\],\[1300,800\],\[1310,740\],\[1180,740\]\];\ \ \ \ module letters(l1height)\ {\ rotate(\[180,0,0\]){\ \ {\ translate(\[0,0,-l1height\])\ {\ {\ linear\_extrude(height = l1height)\ {\ polygon(a1);\ polygon(a2,\[\[0,1,2,3,4,5,6,7\],\[8,9,10,11\]\]);\ polygon(a3);\ polygon(a4);\ }\ }\ }\ }\ }\ }\ \ module outline(ol1height,ol1radius)\ {\ rotate(\[180,0,0\]){\ \ {\ translate(\[0,0,-ol1height\])\ {\ difference()\ {\ \ \ \$fn=50;\ minkowski()\ {\ linear\_extrude(height = ol1height)\ {\ polygon(a1);\ polygon(a2,\[\[0,1,2,3,4,5,6,7\],\[8,9,10,11\]\]);\ polygon(a3);\ polygon(a4);\ }\ cylinder(r=ol1radius);\ }\ \ translate(\[0,0,0\])\ linear\_extrude(height = 1000)\ {\ polygon(a1);\ polygon(a2,\[\[0,1,2,3,4,5,6,7\],\[8,9,10,11\]\]);\ polygon(a3);\ polygon(a4);\ }\ \ }\ }\ }\ }\ }\ \ color(\[42/255,147/255,194/255\]) {\ outline(50,60);\ }\ color(\"white\") {\ letters(70);\ }\

Statistik: Verfasst von dorkmo — So Feb 28, 2016 2:30 am


Hilfe für Einsteiger und Anwender • Der erste Bug

Date: 2016-02-28 05:29:27

[Es war alles ein sehr sehr schöner Traum:]{style=“font-weight: bold”} Alle Daten, Dateien des Intranet indexieren, suchbar machen. Und alles suchbar machen, was man man im Internet auch noch sieht. Ja, dieser Traum wird auf der Homepage des Projekts so beschrieben.

Etwas stutzig wurde ich, als mir Kollegen (ich kenne Kollegen, die auch mit Suchmaschinen zu tun haben - ich habe ja auch damit zu tun) das Projekt als unbedeutend und instabil beschrieben, das wollte ich nicht glauben. Etwas mehr stutzig wurde ich, als ich hier in diesem Forum eine nicht so sehr lebendige Community vorfand. Um so mehr danke ich dem Einzigen, der mir antwortete.

Nun bin ich erstmals auf ein Problem gestoßen, welches substanziell gegen das Projekt spricht: Der Proxy fälscht URL. Ja, es ist nachvollziehbar, der Zielserver des Requests ist mein eigener. Dieses Verhalten ist absolutes no-go. Das mag ein Bug sein. Da aber nicht absehbar ist, dass jemand reagiert, mache ich unter die wunderschöne Idee einen Haken.

Sehr schade.

Statistik: Verfasst von Intra — So Feb 28, 2016 5:29 am


Hilfe für Einsteiger und Anwender • Re: Der erste Bug

Date: 2016-02-28 13:01:02

Hallöchen \@Intra!

Intra hat geschrieben:\ Nun bin ich erstmals auf ein Problem gestoßen, welches substanziell gegen das Projekt spricht: [[Der Proxy fälscht URL.]{style="font-style: italic"}]{style="font-weight: bold"}\



Zum Thema:

\ [[Erklärung anhand einer Analogie:]{style="font-style: italic"}]{style="font-weight: bold"}\ \ Freunde kommen zu Besuch. Sie wollen Pizza essen. Der Gastgeber nimmt zunächst eine Liste mit den Bestellungen auf. Dann ruft er den Pizza-Bringdienst an, gibt die Bestellungen durch, nimmt die Pakete an der Tür entgegen und reicht sie danach an seine Freunde weiter. Der Gastgeber hat sich dabei wie ein Proxy verhalten: Er hat stellvertretend für seine Freunde den Kontakt mit dem Bringdienst aufgenommen. Ehe der Gastgeber die Ware anhand der Liste weiterreicht, kann er sie auf eine korrekte Lieferung hin überprüfen, und er kann, wenn er will, die Pizzen zusätzlich garnieren oder unerwünschten Belag entfernen (die Pakete verändern).\ \ Der Pizzabote mag sich zwar denken, dass sein Kunde all die Pizzen nicht alleine verspeisen wird, jedoch hat er nie die Leute gesehen, für die die Pizzen tatsächlich bestimmt waren. Für ihn war einzig und allein der Gastgeber der Ansprechpartner (ein Stellvertreter).\



Wobei in diesem Beispiel der Gastgeber und der Pizzabote zwei Proxys sind, denn der Pizzabäcker wird ja kaum selbst die Pizzen bringen!

Es ist der Sinn eines Proxy, daß statt der eigenen IP die des Proxy verwendet wird! Ich arbeite hier nicht mehr oder nicht immer mit YaCy als Proxy, ich verwende hier aus verschiedenen Gründen [[>HAVP<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} im Netzwerk.

Stell doch bitte mal irgend einen Proxy in deinem Browser ein ung gehe dann auf [[>MyIP.is<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, vielleicht bemerkst Du dann deinen Gedankenfehler bezüglich einem Proxy! Bei mir wird dort folgendes angegeben:

\ [[[Your IP address is:]{style="font-style: italic"}]{style="font-weight: bold"}]{style="font-size: 150%; line-height: 116%;"}\ \ [[[127.0.0.1]{style="font-style: italic"}]{style="font-weight: bold"}]{style="font-size: 150%; line-height: 116%;"}\ \ [[[Your Hostname is:]{style="font-style: italic"}]{style="font-weight: bold"}]{style="font-size: 150%; line-height: 116%;"}\ \ [[[localhost]{style="font-style: italic"}]{style="font-weight: bold"}]{style="font-size: 150%; line-height: 116%;"}\ \ [The IP used to connect to this webserver is [[88.217.\*.\*]{style="font-style: italic"}]{style="font-weight: bold"} which is your proxy server\'s address. You connect to the proxy server using 127.0.0.1]{style="font-size: 85%; line-height: 116%;"}\



Beachte bitte hierbei, daß die angegebene IP [[88.217.*.*]{style=“font-style: italic”}]{style=“font-weight: bold”} [(von mir unkenntlich gemacht!)]{style=“font-style: italic”} die meines Providers ist. Ein Proxy ist immer nur ein Vermittler, mehr nicht!

Statistik: Verfasst von TmoWizard — So Feb 28, 2016 1:01 pm


Mitmachen • Re: Index exportieren, sharen, remixen!

Date: 2016-02-28 20:00:10

Den Austausch zu beschleuningen wäre bestimmt auch eine gute Idee.
Könnte man sowas nicht über eine Preset-Auswahl machen?
- User mit hohen Upload und viel Festplattenspeicher
- User mit hohen Upload und wenig Festplattenspeicher
- usw.

Statistik: Verfasst von promocore — So Feb 28, 2016 8:00 pm


Mitmachen • Re: 3D Design of YaCy logo (wanted!) stl-File etc.

Date: 2016-02-28 22:43:24

YEAH great work! I did not yet work with OpenSCAD but I got your work into a working stl.

Can you add the star as well?

Now I need to figure out to separate the blue from the white. You computed the thick outline using the OpenSCAD methods which looks exactly like the original… How Can I have a seperate stl for white and blue?

Statistik: Verfasst von Orbiter — So Feb 28, 2016 10:43 pm


English • I go to left YACY

Date: 2016-02-29 00:26:49

after few weeks importing hundreds of GB I decide to left YACY . The issues with the SSL certificate is only import one time and not work any more and the little help I go tin the documentation and in the forum make me left the project. I can waste my time any more

Statistik: Verfasst von blablanet — Mo Feb 29, 2016 12:26 am


Hilfe für Einsteiger und Anwender • Re: Der erste Bug

Date: 2016-02-29 03:13:48

Danke für Deine Antwort, ich freue mich, dass überhaupt jemand antwortet.

Nein, fachlich liegst Du falsch. Mir ist das Proxy-Konzept wohlbekannt. Und ich bin seit 1994 (damals mit dem CERN-Server) auch auf der anderen Seite der Front unterwegs, ein wenig verstehe ich schon von der Sache.

Der YaCy-Proxy verfälscht bestimme URL insofern, dass er ein \“=\” an die URL hängt.

Deinem anderen Proxy-Hinweis bin ich noch nicht nachgegangen. Ansich benötige ich keinen Proxy, ich bin mehr als 20 Jahre auch gut ohne ausgekommen. Ich suche im Grunde einen schmalen Proxy, der allein die angefragte URL, aber für immer und ewig speichert. Praktisch also lediglich den Content speichert. Der ganze nachzuladende Zirkus ist uninteressant.

Statistik: Verfasst von Intra — Mo Feb 29, 2016 3:13 am


Fragen und Antworten • Re: yacy mit Dualstack IPv4 und IPv6

Date: 2016-02-29 20:06:39

Wer unter Windows 8 die gleichen Probleme hat, kann ein recht einfaches Tool vom Microsoft herunterladen und muss so nicht in Registry rumfuchteln.

https://support.microsoft.com/de-de/kb/929852


[Für die Meisten sollte dieser Patch der richtige sein:]{style=“text-decoration: underline”}
[Deaktivieren von IPv6 und IPv6-Tunnelschnittstelle Nontunnel-Schnittstellen (außer der Schleife)]{style=“font-style: italic”}

Nach einem Systemreboot verbindet sich Yacy aussschließlich über IPv4.

Statistik: Verfasst von promocore — Mo Feb 29, 2016 8:06 pm


Fragen und Antworten • Re: yacy mit Dualstack IPv4 und IPv6

Date: 2016-02-29 20:13:43

Hallo promocore,

ich hab zwar keine Erfahrung mit ipv6 - probiere aber doch einfach mal \‘-Djava.net.preferIPv4Stack=true\’ in startYACY.sh den JAVA_ARGS, bzw in startYACY.bat in \‘javacmd\’ hinzuzufügen.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Feb 29, 2016 8:13 pm


Fragen und Antworten • Re: yacy mit Dualstack IPv4 und IPv6

Date: 2016-02-29 21:11:25

Hallo sixcooler,

ich habe in der Batch und im Shellscript die Anweisung eingefügt. Das hat auch geholfen, Yacy nutzt ausschließlich IPv4 8-) Danke
Das Problem hatte ich sowohl unter Linux wie auch Windows 8.

Hast du auch eine Idee, wie ich Yacy zusätzlich über IPv6 erreichbar machen könnte?


Könnte es evt. einen Grund geben, warum diese Anweisung nicht als default mit drinne ist? -Probleme bei DS-Lite Anschlüssen, die nur IPv6 zur verfügung haben?
Ich könnte mir vorstellen, dass einige User mit einem Dual Stack, wie ihn Telekom aktuell anbietet, dieses Problem haben.

Statistik: Verfasst von promocore — Mo Feb 29, 2016 9:11 pm


Fragen und Antworten • Re: yacy mit Dualstack IPv4 und IPv6

Date: 2016-02-29 21:27:05

Hallo promocore,

das war mal default - nachdem sich irgendwer um ipv6 gekümmert hatte kam das raus, weil es nicht mehr nötig war - so war der Glaube.
Ich selber habe noch kein ipv6 bei meinem ISP - daher fehlt mir die Erfahrung.

Leider kann ich daher auch nicht sagen wie es mit beiden Varianten klappt.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Feb 29, 2016 9:27 pm


Fragen und Antworten • Re: yacy mit Dualstack IPv4 und IPv6

Date: 2016-02-29 21:43:36

Hallo sixcooler,

danke soweit für die Info.

Falls ihr zukünftig vielleicht IPv4 und Ipv6 anpackt und ein User mit vollem Dualstack benötigt, kann ich bestimmte Funktionen gerne testen.


Gruß promocore

Statistik: Verfasst von promocore — Mo Feb 29, 2016 9:43 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-02-29 22:24:40

Diese Probleme habe ich bei mir noch nicht beobachtet.

Ich würde den Fehler in etwas Grundsätzliches vermuten.

Ist Java aktuell?
Settings unter \“Leistung Settings of Busy Queues\” default?
Yacy mindestens 600MB Ram zugewiesen?

Statistik: Verfasst von promocore — Mo Feb 29, 2016 10:24 pm


Hilfe für Einsteiger und Anwender • Re: Der erste Bug

Date: 2016-03-01 07:14:58

Hallöchen \@Intra

Intra hat geschrieben:\ Danke für Deine Antwort, ich freue mich, dass überhaupt jemand antwortet.\



Immer gerne, solange es irgendwie hilfreich ist! ;)

Intra hat geschrieben:\ Und ich bin seit 1994 (damals mit dem CERN-Server)\



Oha! Das war annähernd die Zeit, in der mein ATARI als Mailbox lief! :mrgreen: Allerdings kennt so etwas heute kaum jemand mehr, wir werden wohl alt...

Intra hat geschrieben:\ Der YaCy-Proxy verfälscht bestimme URL insofern, dass er ein \"=\" an die URL hängt.\



:o Das hab ich aber noch nie gehört, ist der Fehler neu? Wie geschrieben verwende ich hier im Netzwerk [(privat)]{style=“font-style: italic”} HAVP als Proxy, aber auch früher mit YaCy hatte ich damit keine Probleme!

Intra hat geschrieben:\ Deinem anderen Proxy-Hinweis bin ich noch nicht nachgegangen. Ansich benötige ich keinen Proxy, ich bin mehr als 20 Jahre auch gut ohne ausgekommen. Ich suche im Grunde einen schmalen Proxy, der allein die angefragte URL, aber für immer und ewig speichert. Praktisch also lediglich den Content speichert. Der ganze nachzuladende Zirkus ist uninteressant.\



Ja gut, gerade im privaten Bereich wie bei mir ist sowas eher selten zu finden. Schließlich muß ja in dem Fall mindestens ein Rechner 247 durchlaufen, das ist nicht gerade jedermanns Sache. \“Benötigen\” ist hier bei mir nicht ganz richtig, immerhin sind hier mehrere Rechner im Netzwerk und nicht alle gehören mir. Folglich bin ich da schon etwas vorsichtig, hier in [[DE]{style=“font-style: italic”}]{style=“font-weight: bold”} gibt es ja immerhin die Störerhaftung!

Statistik: Verfasst von TmoWizard — Di Mär 01, 2016 7:14 am


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-01 17:54:02

Hey promocore,

Javaversion: 1.8
RAM: 4GB (zugewiesen) (8GB insgesamt)
[Settings unter \“Leistung Settings of Busy Queues\” default?]{style=“font-style: italic”} werde ich heute überprüfen.

Danke für dein Feedback.

Gruß
dS810

Statistik: Verfasst von ds810 — Di Mär 01, 2016 5:54 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-01 22:06:17

bitte bei 100% CPU Last immer einen Thread Dump machen und posten: http://www.yacy-websearch.net/wiki/inde ... hread_Dump{.postlink}

Statistik: Verfasst von Orbiter — Di Mär 01, 2016 10:06 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-01 22:56:33

ds810 hat geschrieben:\ Hey promocore,\ \ Javaversion: 1.8\ RAM: 4GB (zugewiesen) (8GB insgesamt)\ [Settings unter \"Leistung Settings of Busy Queues\" default?]{style="font-style: italic"} werde ich heute überprüfen.\ \ Danke für dein Feedback.\ \ Gruß\ dS810\



Ich teste als Neuling derzeit immer noch meine YaCy-Versionen auf unterschiedlichen Plattformen mit bestimmten Settings.
Grad habe ich bei mir diese Erkenntnis gemacht:

YaCy auf Windows 8.1 64bit mit aktuellem Java 8 läuft bei mir auch nicht gut. Ich habe zwar keine 100% CPU Auslastung, jedoch hängt die GUI, bestimmte Menüpunkte können nicht immer geöffnet werden, bestimmte Grafiken werden nicht richtig animiert und crawlen ist extrem langsam.

YaCy auf Linux mit Java 7 hingegen rennt bei mir wie sau. Hier habe ich keine dieser Probleme.
Hardwarevorraussetzung und Settings sind gleich, da beides in einer VM mit gleichen Settings läuft.

Statistik: Verfasst von promocore — Di Mär 01, 2016 10:56 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-02 20:28:03

Folgendes kann ich feststellen (Thread Dump):

Wie das zu interpretieren ist, weis ich leider nicht...

PS: ich habe einige an Blacklists. Ich nutze Yacy als Adblocker. Funktioniert übrigens sehr gut ;). Sogar auf dem Handy, wenn man YACY als Proxy einrichtet ;)

Code:
************ Start Thread Dump Wed Mar 02 20:24:52 CET 2016 ******************* YaCy Version: 1.83/9703Assigned   Memory = 4108320768Used       Memory = 2704130768Available  Memory = 1404190000 Occurrences: 100at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:250)at org.eclipse.jetty.server.ServerConnector.accept(ServerConnector.java:377)at org.eclipse.jetty.server.AbstractConnector$Acceptor.run(AbstractConnector.java:500)at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)at java.lang.Thread.run(Thread.java:745) Occurrences: 100at sun.nio.ch.SelectorImpl.select(SelectorImpl.java:101)at org.eclipse.jetty.io.SelectorManager$ManagedSelector.select(SelectorManager.java:600)at org.eclipse.jetty.io.SelectorManager$ManagedSelector.run(SelectorManager.java:549)at org.eclipse.jetty.util.thread.NonBlockingThread.run(NonBlockingThread.java:52)at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)at java.lang.Thread.run(Thread.java:745) Occurrences: 100at java.util.regex.Matcher.matches(Matcher.java:604)at net.yacy.repository.Blacklist.isListed(Blacklist.java:583)at net.yacy.repository.Blacklist.isListed(Blacklist.java:486)at transferURL.respond(transferURL.java:128)at sun.reflect.GeneratedMethodAccessor12.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:498)at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:663)at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:829)at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:318)at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:380)at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)at org.eclipse.jetty.server.Server.handle(Server.java:499)at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)at java.lang.Thread.run(Thread.java:745) Occurrences: 40at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2078)at org.eclipse.jetty.util.BlockingArrayQueue.poll(BlockingArrayQueue.java:389)at org.eclipse.jetty.util.thread.QueuedThreadPool.idleJobPoll(QueuedThreadPool.java:531)at org.eclipse.jetty.util.thread.QueuedThreadPool.access$700(QueuedThreadPool.java:47)at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:590)at java.lang.Thread.run(Thread.java:745)

Statistik: Verfasst von ds810 — Mi Mär 02, 2016 8:28 pm


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2016-03-03 10:47:55

biolizard89 hat geschrieben:\ In Solr, you can use the debugQuery field to get information on how each result\'s ranking was calculated: [https://wiki.apache.org/solr/SolrReleva \... 22wings.22](https://wiki.apache.org/solr/SolrRelevancyFAQ#Why_does_id:archangel_come_before_id:hawkgirl_when_querying_for_.22wings.22){.postlink}\ \ Is something similar available for YaCy\'s ranking? I\'d really like to be able to get YaCy results and see how the ranking was calculated (both Solr and RWI).\



Hello Orbiter (or any other developers reading this).

I\’ve successfully implemented this, and will be sending a pull request as soon as the code is cleaned up a little bit. Before I do so, I have a quick question. I assume that this feature should be off by default, since it results in a lot of extra data being generated and most users don\’t care about it. What is the right way for a user to enable this feature? Solr uses an HTTP GET parameter to enable this. Is that the preferred method for YaCy as well? It\’s probably also possible to add a setting in the ranking settings page, which would enable/disable this. Personally I prefer using an HTTP GET parameter since it\’s somewhat easier to quickly enable/disable than adding a ranking settings page entry. Opinions?

Cheers.

Statistik: Verfasst von biolizard89 — Do Mär 03, 2016 10:47 am


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-03 13:26:54

Hi, I continue experimenting with this idea. htroot and defaults folders not being regular classpath resources really doesn\’t help... But I managed to start a peer without errors based on such a all-in-one runnable jar! Still have to solve some Jetty related issues, but I am confident.
I finally used Maven Shade plugin which is better to package an single runnable jar. It is really helpful for example to merge name conflicting SPI services contained in lucene jars.
For the future, I also believe it would really be a good idea to move htroot and defaults to a regular classpath folder such as src/main/resources/net/yacy thus following maven default archetype...

Statistik: Verfasst von luc — Do Mär 03, 2016 1:26 pm


English • Re: YaCy equivalent of Solr\’s debugQuery?

Date: 2016-03-03 13:33:53

Hello, to my mind it si sufficient to set this new feature off by default and to add a parameter which can eventually activate it.
But, if you have some more time, I think it is even better if you add a configuration option which can activate/desactivate it all time, default being off. Of course, any eventual request parameter would override config value... It is a little bit more complicated, but there are many examples in YaCy sources.

Statistik: Verfasst von luc — Do Mär 03, 2016 1:33 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 10:27:19

zu was ihr das alles gebraucht ist ja irre.
Also im Thread dump kann man sehr deutlich sehen dass die große Blacklist die Ursache der 100% CPU sind, und zwar wird diese beim URL transfer gezogen.
Abhilfe wäre:
- blacklist für url transfer ausschalten
- Code auf Performancefehler untersuchen (hab ich eben gemacht, kann man nicht viel machen)
- Cache-Voodoo in der Blacklist einbauen (würde nur gehen wenn die Blacklist beim proxy-Browsen so eine Last erzeugen würde, also hier nicht)
- Blacklist auf Formfehler untersuchen (das kann man mehr oder weniger gut machen...) .. dazu bräuchte ich aber deine Blacklist zum testen!

Statistik: Verfasst von Orbiter — Fr Mär 04, 2016 10:27 am


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 12:30:40

Hallöchen zusammen!

ds810 hat geschrieben:\ PS: ich habe einige an Blacklists. Ich nutze Yacy als Adblocker. Funktioniert übrigens sehr gut ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink"). Sogar auf dem Handy, wenn man YACY als Proxy einrichtet ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\



:o Ich mache hier auch einige merkwürdige Dinge auf meinem Rechner, aber auf diese lustige Idee bin noch nicht einmal ich gekommen! :mrgreen: Allerdings arbeite ich sowieso mit Adblock Plus und NoScript und habe inzwischen aus verschiedenen Gründen [[>HAVP<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} als Proxy eingerichtet, da hier auch der Rechner meines Sohnes im Netz ist. Das klappt bis jetzt ganz gut so.

YaCy habe ich aber als zusätzliche Suchmaschine ebenfalls über das LAN eingerichtet, so daß auch mein Sohn und jeder andere im meinem Netz nicht unbedingt auf Google & Co angewiesen ist.

Interessant wäre endlich die Möglichkeit, daß YaCy auch auf dem Smartphone brauchbar ist. Ich bin gerade am überlegen, ob ich dafür irgendwie ein Template erstellen könnte! Das müßte doch eigentlich mit HTML und CSS möglich sein, oder? :?: Durch meine eigene Website und mein eigenes WordPress-Theme kenne ich mich ja ein bißchen mit der Thematik aus, es wäre jedenfalls einen Versuch wert.

Statistik: Verfasst von TmoWizard — Fr Mär 04, 2016 12:30 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 13:26:46

Orbiter hat geschrieben:\ zu was ihr das alles gebraucht ist ja irre.\



Ich finde YaCy eines der interessantesten Projekte, die ich je gesehen habe. Ganz ernsthaft!

Das ist auch der Grund warum ich es versuche in ganzer Fülle auszunutzen. Es funktioniert ja tadellos, bis auf die hoche CPU-Last, die die CPU-Temperatur bis auf die 90°C hochtreibt. :oops:

PS: Die beiden Blacklist poste ich heute Abend.

Gruß
dS810

Statistik: Verfasst von ds810 — Fr Mär 04, 2016 1:26 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 13:27:56

Etwas OT:

Mir geht es nicht darum YACY nur als SUMA auf dem Handy zu nutzen [(zuhause und beruflich jedoch schon)]{style=“font-weight: bold”}, sondern eben auch als PROXY, um Werbung etc. zu filtern.

Ich habe eine Blacklist erstellt und eine angepasste Easylist.txt importiert. D. h., dass die Webseiten auf dem Handy - auch wenn ich unterwegs bin - über meinen YACY-Proxy geleitet werden und ohne Werbung angezeigt werden.

Zusätzlich werden alle von mir aufgerufen URL mit einer Tiefe von 1 [(oder 2 - bin mir nicht mehr sicher)]{style=“font-style: italic”} automatisch indexiert.

PS: Es ist erstaunlich um wie viel schneller der Aufbau der Seiten stattfindet.

Gruß
dS810

Statistik: Verfasst von ds810 — Fr Mär 04, 2016 1:18 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 15:09:16

Das sind meine Listen:

Code:
<?xml version="1.0" encoding="UTF-8"?><blacklists>   <list name="NoCrawl.black" shared="1" dht="0" crawler="1" proxy="0" search="0" surftips="0" news="0">         <item>.*.twitter.*/.*</item>         <item>.*.vk.*/.*</item>         <item>.*.wikipedia.*/.*</item>         <item>.*.ebay.*/.*</item>      </list></blacklists>


Code:
<?xml version="1.0" encoding="UTF-8"?><blacklists>   <list name="NoSearch.black" shared="1" dht="1" crawler="1" proxy="0" search="1" surftips="1" news="1">         <item>.*.google.*/.*</item>         <item>.*.facebook.*/.*</item>         <item>.*.*/.*\.zip</item>         <item>.*interiowo.pl/.*</item>         <item>.*.*/editpost.php.*postid=.*</item>         <item>.*.*/addreply.php.*postid=.*</item>         <item>.*.*/report.php.*postid=.*</item>         <item>.*.*/usercp.php.*</item>         <item>.*.*/newthread.php.*boardid=.*</item>         <item>.*.cn/.*</item>         <item>search.yacy.*/.*</item>         <item>.*xbxxb.*/.*</item>         <item>.*fuerth.*/.*\_read\-.*</item>         <item>.*fuerth.*/.*sendafriend.*</item>         <item>.*fuerth.*/.*print.*</item>         <item>.*bild.de/.*</item>         <item>.*.*/.*?lang=zh.*</item>         <item>.*.*/.*?lang=ja.*</item>         <item>.*.*/.*?lang=gu.*</item>         <item>.*.*/.*?lang=kn.*</item>         <item>.*.*/.*formmail.php.*</item>         <item>.*.*/.*login.php.*</item>         <item>.*.*/.*/?impressum/.*</item>         <item>.*.*/.*/?agb/.*</item>         <item>.*.*/.*/?kontakt/.*</item>         <item>.*.*/.*--.*</item>         <item>.*copyquery.com/.*</item>         <item>.*.wp.me/.*</item>         <item>.*.*/.*\.pdf.*</item>         <item>.*.*/.*\?url=.*</item>         <item>.*.jp/.*</item>         <item>.*(?&lt;!(de)|(en)|(ru))\.wikipedia.*/.*</item>         <item>.*.*/.*/l10n/.*</item>         <item>.*alternativeto.net/.*\?.*</item>         <item>.*distrowatch.*/.*\?.*</item>         <item>.*pro-linux.de/.*\?.*</item>         <item>.*pro-linux.de/.*comment(s)?\.html</item>         <item>.*pro-linux.de/(.*/)?user/.*</item>         <item>.*pro-linux.de/(.*/)?send/.*</item>         <item>.*jkpj.com/.*</item>         <item>.*{.*/.*</item>         <item>.*ubuntuforums.*/.*#post.*</item>         <item>.*ubuntuforums.*/.*&amp;p=.*</item>         <item>.*bayern.de/.*layer=print.*</item>         <item>.*bayern.de/.*fontsize=.*</item>         <item>.*discounto.de/.*:.*</item>         <item>.*.*/(.*/)*cgi-bin/.*</item>         <item>.*mtv-stadeln.net/(.*/)?node/.*</item>         <item>.*illuminati-news.com/.*\.html?</item>         <item>.*indymedia.org/.*\?.*</item>         <item>.*0serg.livejournal.com/.*\?.*</item>         <item>.*btdigg.org/search\?.*</item>         <item>.*.*/.*\.log.*</item>         <item>.*.*/.*\.txt.*</item>         <item>.*kvn.ru/profile.*</item>         <item>.*bergfreunde.de/.*-bewertung.*</item>         <item>.*rollsport.de/.*\?.*</item>         <item>.*bergfreunde.de/.*\?.*</item>         <item>.*.*/.*\.rc</item>         <item>.*.*/.*\.dws</item>         <item>.*.*/.*\.dsp</item>         <item>.*.*/.*\.dsw</item>         <item>.*.*/.*\.wxs</item>         <item>.*.*/.*\.gcc</item>         <item>.*.*/.*\.bz2</item>         <item>.*.*/.*\.def</item>         <item>.*.*/.*\.7z</item>         <item>.*.*/.*\.exe</item>         <item>.*doppelpunkt.de/.*com_mailto.*</item>         <item>.*doppelpunkt.de/.*com_users.*</item>         <item>.*doppelpunkt.de/.*com_search.*</item>         <item>.*doppelpunkt.de/.*cid\=\&amp;.*</item>         <item>.*imdb.com/.*\?.*</item>         <item>.*nashe.ru/.*\?.*</item>         <item>.*twitter.*/.*\?lang=.*</item>         <item>.*.*/.*feedformat=.*</item>         <item>.*.*/(.*/)*viewtopic.php.*&amp;p=.*</item>         <item>bugs.yacy.net/.*</item>         <item>.*.*/devel/people\..*\.html</item>         <item>.*.*/.*\.cgi</item>      </list></blacklists>


Code:
<?xml version="1.0" encoding="UTF-8"?><blacklists>   <list name="NoProxy.black" shared="1" dht="1" crawler="1" proxy="1" search="1" surftips="1" news="1">         <item>ad.*.*/.*</item>         <item>ads.*.*/.*</item>         <item>.*cdn.emetriq.*/.*</item>         <item>.*cdn.iqcontentplatform.*/.*</item>         <item>.*c.t4ft.*/.*</item>         <item>.*ups.xplosion.de/.*</item>         <item>.*common.i12.de/.*</item>         <item>.*a.visualrevenue.*/.*</item>         <item>.*ec-ns.sascdn.*/.*</item>         <item>.*intellitxt.com/.*</item>         <item>.*connect.facebook.*/.*</item>         <item>.*jsc.marketgid.com/.*</item>         <item>.*cdn-rtb.sape.ru/.*</item>         <item>.*.*/.*/mui\.js.*</item>         <item>.*mg.dt00.*/.*</item>         <item>.*ag-gb.marketgid.*/.*</item>         <item>.*contextual.media.*/.*</item>         <item>.*.*/.*begun.*</item>         <item>.*imagesrv.adition.*/.*</item>         <item>.*.*/.*mtrcs.*</item>         <item>.*gwp.nuggad.*/.*</item>         <item>.*publishing.kaloo.*/.*</item>         <item>.*addthis.*/.*</item>         <item>.*webclick.*/.*</item>         <item>.*panel100.*/.*</item>         <item>.*kastatic.*/.*</item>         <item>.*maid.*/.*</item>         <item>.*.*/.*chartbeat\.js.*</item>         <item>.*.*analytic.*/.*</item>         <item>.*.*/.*adcontrol.*</item>         <item>.*appspot.*/.*</item>         <item>.*bootstrapcdn.*/.*</item>         <item>.*static-fra.*/.*</item>         <item>.*xing-share.*/.*</item>         <item>.*gstatic.com/.*</item>         <item>.*revsci.net/.*</item>         <item>.*marketo.*/.*</item>         <item>.*inspectlet.*/.*</item>         <item>.*static.*chartbeat.*/.*</item>         <item>.*.*/.*clicktracking.*</item>         <item>.*outbrain.*/.*</item>         <item>.*.*/.*remclient.*</item>         <item>.*.*/.*webtrek.*</item>         <item>.*sascdn.*/.*</item>         <item>.*.onion/.*</item>         <item>.*.*/.*metrika.*</item>         <item>.*uptolike.com/.*</item>         <item>.*ulogin.ru/.*</item>         <item>.*tfag.*/.*</item>         <item>.*vinsight.*/.*</item>         <item>.*optimizely.*/.*</item>         <item>.*.*/.*tracking\.js.*</item>         <item>.*.*/.*breakingNews\.js.*</item>         <item>.*meetic-partners.*/.*</item>         <item>.*emetriq.*/.*</item>         <item>.*mradx.*/.*</item>         <item>.*criteo.*/.*</item>         <item>.*maxymiser.*/.*</item>         <item>.*wikihow.*/.*</item>         <item>.*transparencytoolkit.*/.*</item>         <item>.*.*/.*adscpript.*</item>         <item>.*yandex.*/.*watch.*</item>         <item>.*yandex.*/.*share.*</item>         <item>.*platform.twitter.com/.*button.*</item>         <item>.*simpalsid.com/.*</item>         <item>.*marketgid.*/.*</item>         <item>.*openstat.*/.*</item>         <item>.*yandex.*/.*metrika.*</item>         <item>.*dt00.*/.*</item>         <item>.*mycdn.*/.*</item>         <item>.*numbers.md/.*</item>         <item>.*connect.ok.*/.*</item>         <item>.*adriver.ru/.*</item>         <item>.*banner.idr.*/.*</item>         <item>.*.*/.*selfpromotion.php.*</item>         <item>.*ligatus.com/.*</item>         <item>.*.*/(.*/)*ajs\.php\?.*</item>         <item>.*.*/.*/www/delivery/.*</item>         <item>.*cpx.golem.de/.*</item>         <item>.*.*/.*ping\.gif\?.*</item>         <item>.*nuggad.net/.*</item>         <item>.*go-mpulse.net/.*</item>         <item>.*wt-eu02.net/.*</item>         <item>.*.com/c\.gif\?.*</item>         <item>.*atwola.com/.*</item>         <item>.*chartbeat.net/.*</item>         <item>.*.*/.*/gujad\..*</item>         <item>.*.*/.*advert.*</item>         <item>.*target.smi2.net/.*</item>         <item>.*counter\..*\..*/.*</item>         <item>.*facebook.com/impression.php.*</item>         <item>.*.*/.*_logHuman=.*</item>         <item>.*.*/.*/adsense/.*</item>         <item>.*usabilla.com/.*</item>         <item>.*.*/.*/record-impressions\..*</item>         <item>.*fls-eu.amazon.de/.*</item>         <item>.*images-amazon.com/.*clientsidemetricsauijavascript.*\.js.*</item>         <item>.*amazon.de/uedata.*</item>         <item>.*google.*/gen_204\?.*</item>         <item>.*webmasterplan.com/.*</item>         <item>.*newrelic.com/.*</item>         <item>.*.*/.*/adtech\..*</item>         <item>.*ms.computerbild.de/.*</item>         <item>.*computerbild.de/images/pic\.gif.*</item>         <item>.*atsfi.de/.*</item>         <item>.*.*/.*=adreplacementwrapperreg.*</item>         <item>.*ensighten.com/.*</item>         <item>.*mediaplex.com/.*</item>         <item>.*mplxtms.com/.*</item>         <item>.*krxd.net/.*</item>         <item>.*analytics.unister-gmbh.de/.*</item>         <item>.*advertising.com/.*</item>         <item>.*acint.net/.*</item>         <item>.*begun.ru/.*</item>         <item>.*doubleclick.*/.*</item>         <item>.*googlesyndication.*/.*</item>         <item>.*googletagmanager.*/.*</item>         <item>.*googletagservices.*/.*</item>         <item>.*googleadservices.*/.*</item>         <item>.*bild.de/.*linktracking.*</item>         <item>.*smartadserver.*/.*</item>         <item>.*.*/.*adreplacementwrapperreg.*</item>         <item>.*.*/(.*/)*ad/.*</item>         <item>.*unister-adservices.*/.*</item>         <item>.*unister-adserver.*/.*</item>         <item>.*cloudflare.com/.*</item>         <item>.*golem.de/staticrl/scripts/golem_cpxl_.*</item>         <item>.*imasdk.googleapis.com/.*</item>         <item>.*ioam.*/.*</item>         <item>.*webtraxs.*/.*</item>         <item>.*adition.*/.*</item>         <item>.*meetrics.net/.*</item>         <item>.*.*/.*adimage\.aspx.*</item>         <item>.*.*/.*/ad_bomb/.*</item>         <item>.*adform.net/.*</item>         <item>metrics.*.*/.*</item>         <item>.*newjobs.com/.*</item>         <item>.*monster.com/.*</item>      </list></blacklists>


Code:
<?xml version="1.0" encoding="UTF-8"?><blacklists>   <list name="PornFilter.black" shared="1" dht="1" crawler="1" proxy="1" search="1" surftips="1" news="1">         <item>.*sex.*/.*</item>         <item>.*blow.*/.*</item>         <item>.*gay.*/.*</item>         <item>.*hardcore.*/.*</item>         <item>.*tits.*/.*</item>         <item>.*nude.*/.*</item>         <item>.*boobs.*/.*</item>         <item>.*anal.*/.*</item>         <item>.*adult.*/.*</item>         <item>.*lebian.*/.*</item>         <item>.*pussy.*/.*</item>         <item>.*xxx.*/.*</item>         <item>.*swinger.*/.*</item>         <item>.*softcore.*/.*</item>         <item>.*fetish.*/.*</item>         <item>.*naked.*/.*</item>         <item>.*penis.*/.*</item>         <item>.*teen.*/.*</item>         <item>.*0190.*/.*</item>         <item>.*fuck.*/.*</item>         <item>.*dildo.*/.*</item>         <item>.*livecam.*/.*</item>         <item>.*porn.*/.*</item>         <item>.*zoophil.*/.*</item>         <item>.*fick.*/.*</item>         <item>.*gangbang.*/.*</item>         <item>.*erotic.*/.*</item>         <item>.*erotik.*/.*</item>         <item>.*lolita.*/.*</item>         <item>.*vibrator.*/.*</item>         <item>.*shemale.*/.*</item>         <item>.*pervers.*/.*</item>         <item>.*voyeur.*/.*</item>         <item>.*oral.*/.*</item>         <item>.*orgy.*/.*</item>         <item>.*girls.*/.*</item>         <item>.*amateur.*/.*</item>         <item>.*casino.*/.*</item>         <item>.*dating.*/.*</item>         <item>.*cock.*/.*</item>         <item>.*69.*/.*</item>         <item>.*spank.*/.*</item>         <item>.*squirt.*/.*</item>         <item>.*nackt.*/.*</item>         <item>.*.de.vu/.*</item>         <item>.*.da.ru/.*</item>         <item>.*freepic.*/.*</item>         <item>.*fist.*/.*</item>         <item>.*hure.*/.*</item>         <item>.*nutte.*/.*</item>         <item>.*strip.*/.*</item>         <item>.*masturb.*/.*</item>         <item>.*escort.*/.*</item>         <item>.*orgas.*/.*</item>         <item>.*flirt.*/.*</item>         <item>.*single.*/.*</item>         <item>.*geil.*/.*</item>         <item>.*mature.*/.*</item>         <item>.*swapsmut.*/.*</item>         <item>.*crazy.*/.*</item>         <item>.*mother.*/.*</item>         <item>.*bbw.*/.*</item>         <item>.*tumblr.*/.*</item>         <item>.*midnight.*/.*</item>         <item>.*howdoyouchevy.*/.*</item>         <item>.*xhamster.*/.*</item>         <item>.*anyslick.*/.*</item>         <item>.*fundorado.*/.*</item>         <item>.*tnaflix.*/.*</item>         <item>.*hotwife.*/.*</item>         <item>.*orsm.*/.*</item>         <item>.*hhttb5.*/.*</item>         <item>.*girlfr.*/.*</item>         <item>.*mynikkisims.*/.*</item>         <item>.*wild.*/.*</item>         <item>.*movies.*/.*</item>         <item>.*floozy.*/.*</item>         <item>.*hairy.*/.*</item>         <item>.*bang.*/.*</item>         <item>.*t411.*/.*</item>         <item>.*wife.*/.*</item>         <item>.*young.*/.*</item>         <item>.*eroro.*/.*</item>         <item>.*vivagals.*/.*</item>         <item>.*kat.cr/.*</item>         <item>.*husband.*/.*</item>         <item>.*anysmut.*/.*</item>         <item>.*ladylana.*/.*</item>         <item>.*123any.*/.*</item>         <item>.*xnxx.*/.*</item>         <item>.*xvid.*/.*</item>         <item>.*venus.*/.*</item>         <item>.*vagin.*/.*</item>         <item>.*warez.*/.*</item>         <item>.*privat.*/.*</item>         <item>.*bestandfree.*/.*</item>         <item>.*(?&lt;!you)tube.*/.*</item>         <item>.*kim58.*/.*</item>         <item>.*beegnow.*/.*</item>         <item>.*ma-ture.*/.*</item>         <item>.*drhoseinnejad.*/.*</item>         <item>.*tranny.*/.*</item>         <item>.*pururin.*/.*</item>         <item>.*productionsbdl.*/.*</item>         <item>.*fatty.*/.*</item>         <item>.*.*/.*xxx.*</item>         <item>.*.*/.*porn.*</item>         <item>.*.*/.*blow.*</item>         <item>.*bonusvid.*/.*</item>         <item>.*wank.*/.*</item>         <item>.*xgent.*/.*</item>         <item>.*eqek.*/.*</item>         <item>.*qeebe.*/.*</item>         <item>.*mums.*/.*</item>         <item>.*granny.*/.*</item>         <item>.*.*/.*gay.*</item>         <item>.*fapvid.*/.*</item>         <item>.*.*/.*anal.*</item>         <item>.*.*/.*pussy.*</item>         <item>.*dow-stats.*/.*</item>         <item>.*.*/.*anus.*</item>         <item>.*.*/.*fuck.*</item>         <item>.*shavedpics.*/.*</item>         <item>.*ipuss.*/.*</item>         <item>.*spicybigbutt.*/.*</item>         <item>.*bulldoglist.*/.*</item>         <item>.*milf.*/.*</item>         <item>.*.*/.*milf.*</item>         <item>.*busty.*/.*</item>         <item>.*.*/.*busty.*</item>         <item>.*tastymovie.*/.*</item>         <item>.*vataa.*/.*</item>         <item>.*cutiesover30.*/.*</item>         <item>.*asstr.*/.*</item>         <item>.*thehun.*/.*</item>         <item>.*iboxo.*/.*</item>         <item>.*hclips.*/.*</item>         <item>.*vidz.*/.*</item>         <item>.*unshavedcuties.*/.*</item>         <item>.*yolasite.*/.*</item>         <item>.*ebonyclipss.com/.*</item>         <item>.*fuq.com/.*</item>         <item>.*kowalskypage.com/.*</item>         <item>.*call-kelly.com/.*</item>         <item>.*sleazydream.com/.*</item>         <item>.*18-club.com/.*</item>         <item>.*tukif.club/.*</item>         <item>*.bodycontact.com/.*</item>         <item>*.club.de/.*</item>      </list></blacklists>

Statistik: Verfasst von ds810 — Fr Mär 04, 2016 3:09 pm


Fragen und Antworten • Re: CPU-Last 100% [UPDATED]

Date: 2016-03-04 19:36:07

Orbiter hat geschrieben:\ Abhilfe wäre:\ - blacklist für url transfer ausschalten\



Ist damit die Einstellung \“dht\” unter Blacklist oder [ConfigNetwork_p.html]{style=“font-weight: bold”} -> [0 verwerfe / 0 akzeptiere übertragene URLs, die zu Ihrer Blacklist passen.]{style=“font-weight: bold”} gemeint?

Gruß
dS810

Statistik: Verfasst von ds810 — Fr Mär 04, 2016 7:36 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2016-03-07 08:20:07

Ich habe YaCy mal wieder aus dem git kompiliert (1.839710) und danach lief es auf meinem Server erst, nachdem ich dort von Java 1.7 auf Java 1.8 umgestiegen bin. Ist das so gewollt oder ein Versehen?

Statistik: Verfasst von Low012 — Mo Mär 07, 2016 8:20 am


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2016-03-07 18:48:01

Hi,

ich hab das jetzt mal alles getestet und möchte es nochmal konkretisieren.

Ich habe einen yacypeer der eine Webseite durchsucht und auch nur diese im Index haben soll. Diesen Index möchte ich aber auch mit dem p2p Netz teilen.

Zunächst habe ich Robinson Modus -> Öffentlicher Peer ausprobiert.
Resultat: Lokale Suche geht und durchsucht nur den eigenen Index, aber die Inhalte werden nicht mit dem p2p Netz geteilt.

Dann habe ich mal umgestellt:
Peer to peer Modus:
Index-Verteilung
aktiviert
aktiviert
Index-Empfang
verwerfe
deny

Resultat: Inalte wurden mit p2p Netz geteilt, aber es tauchten fremde Inhalte in der lokalen Suche auf.

Ich bin jetzt immer noch nicht sicher ob das was ich will einfach nicht geht, oder ob ich nur zu blöde bin das zu konfigurieren.

Unter Robinson Modus steht ja auch:
Es gibt keinen Index-Empfang von und keine Index-Verteilung zu anderen Peers.

Ich will aber keinen Index-Empfang und *eine* Index-Verteilung.

Daher dachte ich es muss wohl Peer-to-peer sein mit deaktivierten Index-Empfang, aber da hatte ich fremde Inhalte im Index.

Kann mir jemand helfen?

Statistik: Verfasst von Eike — Mo Mär 07, 2016 6:48 pm


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2016-03-07 20:25:43

Hallo Eike,

unter /HostBrowser.html?admin=true&hosts= (Index Browser) kannst Du einsehen von welchen Domains Dein Index Inhalte hat.
Ist da auch wirklich nur der gewollte Teil drin?
Evtl sind aus früheren Suchen im P2P Verbund noch deren Ergebnisse in den Index gelangt.
Dieses kann man auch unter /ConfigPortal.html (Portal Konfiguration) mit \‘add remote search results to the local index\’ aussschalten.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mär 07, 2016 8:25 pm


Solr Support • Re: Lucene geht auf Java 8

Date: 2016-03-08 09:22:57

YaCy sollte mit Java 7 funktionieren. Warum dein compilat das nicht macht weiss ich nicht.
Dazu fällt mir ein, dass wir das target in ant auf Java 7 festlegen könnten, denn ansonsten compiliert YaCy mit dem Target der neuesten jdk-Version.
Die YaCy Releases sollten aber Java 7 sein, weil auf dem build-Server ein

Code:
OpenJDK Runtime Environment (IcedTea 2.6.4) (7u95-2.6.4-1~deb7u1)

ist

Statistik: Verfasst von Orbiter — Di Mär 08, 2016 9:22 am


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2016-03-08 14:16:39

Hi sixcooler,

ich hatte jetzt den index schon gelöscht, daher kann ich das nicht überprüfen, werde das dann nochmal ausprobieren.

Du meinst also
Peer to peer Modus [check]
Index-Verteilung [check]
aktiviert [check]
aktiviert [check]
Index-Empfang [uncheck]
verwerfe [check]
deny [check]

Mit add remote search results to the local index [uncheck] musste das gewünschte liefern.

Da es eine etwas grössere Seite ist, dauert das bis ich Ergebnisse habe, ich melde mich dann nochmal.

Danke vorerst, Eike

Statistik: Verfasst von Eike — Di Mär 08, 2016 2:16 pm


English • Re: how to import a lot of url\’s

Date: 2016-03-09 09:13:09

2 million urls Wow
I think that is a bit much in one hit, why dont you try splitting the main file into smaller ones.
I have a program that runs in QB64 to do that so you could try reducing the number of URLs per go.

https://github.com/smokingwheels/loklak_split/blob/master/split_linux.bas

Instructions on how to install QB64 in Linux
http://smokingwheels.mooo.com/forum/topic.asp?TOPIC_ID=93

Windows http://www.qb64.net/

It will run faster on QuickBasic 4.5 in Windows But no long file names.

Statistik: Verfasst von smokingwheels — Mi Mär 09, 2016 9:13 am


Solr Support • Re: Lucene geht auf Java 8

Date: 2016-03-09 11:16:35

Hmmm, muss ich bei gelegenheit mal in einer VM testen.

Statistik: Verfasst von Low012 — Mi Mär 09, 2016 11:16 am


English • Some questions about using Yacy as a local indexer

Date: 2016-03-09 17:52:12

I came across Yacy recently and I must say what the project has achieved sofar is quite impressive for me. I\’m trying to evaluate Yacy as a local file / local web indexer in an intranet scenario, because I see a very valid use case for such a project where you can mix both index data from internal web-based resources like websites, wiki pages, problem trackers, etc, and unstructured data from fileservers and present the results in one consistent UI.

Firstly, I understand that this use case is probably not the first focus of this project, so I can understand that some features, like data access rights for specific content and the subsequent omission from the results for certain users, will be unavailable from this search engine. So I\’d like to limit the scope of the indexed data to information that should be available for all users of the implementation.

But even with this in mind, Yacy doesn\’t seem to be able to do what I want it to do, for two simple reasons :
-> When it comes to indexing the content of file servers in the LAN, I suppose I should use an smb:// link. However, no sane person ever makes file servers available without using a password, and I haven\’t found any way yet to make yacy authenticate to a remote file server with a login and password combination.
-> When it comes to internal wiki pages, hardly anyone ever setting up an internal information system in a multi-user environment will set this up without using some kind of authrorization to the content. Again, I\’ve yet to find a way to make handle this kind of authorization.

Maybe this functionality can be implemented in a future version? It\’s probably not very hard to do since all other indexers that have this kind of use case do it and would mean the difference between Yacy being usable or not in an intranet setup. Again, if there\’s another way to do this, I\’d like to learn about it, the Wiki wasn\’t any help in this regard.

Thank you!

Statistik: Verfasst von frderi2 — Mi Mär 09, 2016 5:52 pm


Fragen und Antworten • Kann YaCy passwortgeschützte Seiten crawlen?

Date: 2016-03-10 09:39:38

Hallo,

ist es möglich, mit YaCy Seiten zu crawlen und zu indizieren, die - z.B. per htaccess - passwortgeschützt sind? Klar: dazu müsste man YaCy irgendwo Benutzername und Passwort zum Crawlen dieser Seiten hinterlegen können.

Ist das angedacht oder hat das schonmal jemand gemacht?

Vielen Dank im Voraus für eine Antwort.

Michael Behrens

Statistik: Verfasst von mbehrens — Do Mär 10, 2016 9:39 am


Mitmachen • Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-10 12:46:02

Hallo zusammen.

Wie Ihr an dem Betreff lessen könnt betreue ich mit einem Kollegen zusammen einen Yacy Crawler auf einem Debian Server.
Die beiden Ports sind an sich offen (für TLS verbindungen und für Normale Verbindungen.) Aber der Crawler verbindet sich trz nicht mit anderen Peers.

Weiss einer von euch woran das liegen kann und was man in so einem Fall machen kann?

Liebe Grüsse

Arian

Statistik: Verfasst von Bostan — Do Mär 10, 2016 12:46 pm


Fragen und Antworten • Re: Kann YaCy passwortgeschützte Seiten crawlen?

Date: 2016-03-10 13:49:42

Das geht nicht. Solche Seiten würden ja auch als Suchergebnis nicht gut gehen.

Eine Möglichkeit, das doch zu machen würde ich im Kontext mit der kaskelix.de - Strategie sehen, WARC-Files als Quellen importieren zu können. Solche WARC-Files können ja mit wget erzeugt werden, und wget kann man ein Passwort mitliefern. Was in diesem Prozess noch fehlen würde, wäre ein Import-Prozess für WARC-Files.
Äusserst kompliziert wäre das nicht weil WARC sehr einfach ist und wir nur den Crawler umgehen müssen, aber es ist halt noch nicht da.

Statistik: Verfasst von Orbiter — Do Mär 10, 2016 1:49 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-10 19:06:09

Hallo Arian,

sorry - so wird euch noch keiner helfen können - das sind noch zu wenig Informationen.
Was hast Du nach dem ersten Start gemacht / an den Konfigurationen geändert?
Wie machst Du aus das keine Verbindung mit anderen Peers existiert?
kannst Du von ausserhalb deines lokalen Netztes über die IP und die Ports auf Deine YaCy Installation mit einem Browser zugreifen?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mär 10, 2016 7:06 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-11 17:23:51

sixcooler hat geschrieben:\ Hallo Arian,\ \ sorry - so wird euch noch keiner helfen können - das sind noch zu wenig Informationen.\ Was hast Du nach dem ersten Start gemacht / an den Konfigurationen geändert?\ Wie machst Du aus das keine Verbindung mit anderen Peers existiert?\ kannst Du von ausserhalb deines lokalen Netztes über die IP und die Ports auf Deine YaCy Installation mit einem Browser zugreifen?\ \ Cu, sixcooler.\



Hi merci für die Antwort.

Das keine Verbindungen existieren mach ich daran aus das es auf der Seite von Yacy dieser Text steht:

You cannot be reached from outside. A possible reason is that you are behind a firewall, NAT or Router. But you can search the internet using the other peers\’ global index on your own search page. We encourage you to open your firewall for the port you configured (usually: 8090), or to set up a \‘virtual server\’ in your router settings (often called DMZ). Please be fair, contribute your own index to the global index.

Momentan greife ich über Yacy meistens von einem Externen Netz zu in dem Lokalen Netz. Yacy ist über die Ports nicht erreichbar aber ich bin mir sicher das sie offen sind.

Statistik: Verfasst von Bostan — Fr Mär 11, 2016 5:23 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-12 12:13:45

Hallo Arian,

Du kannst den offenen Port z.B. hier prüfen:
http://www.canyouseeme.org/

Hast du einen IPv4 oder IPv6 Internetanschluss? oder wird evt. beides gleichzeitig zur verfügung gestellt (Telekom DSL Magenta Tarif)?

Statistik: Verfasst von promocore — Sa Mär 12, 2016 12:13 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-13 10:57:41

promocore hat geschrieben:\ Hallo Arian,\ \ Du kannst den offenen Port z.B. hier prüfen:\ \ \ Hast du einen IPv4 oder IPv6 Internetanschluss? oder wird evt. beides gleichzeitig zur verfügung gestellt (Telekom DSL Magenta Tarif)?\



Der Internetanschluss ist im Moment IPv4.

Statistik: Verfasst von Bostan — So Mär 13, 2016 10:57 am


Hilfe für Einsteiger und Anwender • Anfängerfrage: Experten Crawler konfigurieren

Date: 2016-03-13 16:58:10

Hallo zusammen,

ich bin vor ein paar Tagen zufällig im Internet auf dieses Projekt aufmerksam geworden und fand es auch interessant. Daraufhin dachte ich mir das so ein \“Mitmach\“-Versuch nichts schaden könne und installierte mir die entsprechende Datei und seitdem läuft YaCy bei mir im Junior-Modus um mich etwas vertraut damit zu
machen. Da die Menüführung doch im ersten Moment sehr verwirrend erscheint und die gefundenen Dokumentation (Wiki) ziemlich rudimentär bzw.teilweise
nicht übereinstimmend ist, bin ich halt etwas am experimentieren. Aber vielleicht ist es auch der anfänglichen Euphorie geschuldet .…

Nachdem ich mich mit der Such-Funktion, der Basis-Konfiguration, der Begriff DHT (Versand) und dem starten eines einfaches Crawlers beschäftigt habe, bin ich nun dabei
mich an dem starten eines erweiterten Crawlers (Experten Crawl Start/CrawlStartExpert.html) heranzutasten. Aber leider verliefen alle meine bisherigen Tests
einen erweiterten Crawler zu starten nicht gerade erfolgreich und werden unter \“Abgelehnte URLs\” mit der folgenden Fehlermeldung angezeigt:

FINAL_LOAD_CONTEXT url does not match must-match filter .*xxxxxxxx.xx/xxxx/xxxxxx (die URL habe ich mal hier durch \“x\” ersetzt)

Für die Tests habe ich verschiedene News-Seiten zum crawlen herangezogen um jeweils die aktuellen News einer Rubrik zu erfassen. Um hier jetzt nicht nochmal alle Einstellungen zu posten habe ich ein paar Scrennshots an meinem Posting beigefügt, die die vorgenommenen Einstellungen zeigen.

Ich wäre für einen Tipp (können aber auch mehrere sein ;) ) bezüglich des oberhalb geschilderten dankbar

Schöne Grüße
Catta_Lina

Statistik: Verfasst von Catta_Lina — So Mär 13, 2016 4:58 pm


Fragen und Antworten • Re: Kommerzielle Nutzung

Date: 2016-03-16 21:47:33

Stimmt, ist ja auch bei Wordpress und Joomla so. Danke für die Info.

Statistik: Verfasst von Minc — Mi Mär 16, 2016 9:47 pm


Off-Topic • Re: Lustige Videos, Flashs, gifs, etc.

Date: 2016-03-16 22:16:47

wow, der bekommt ja die richtige Antwort von der Frau

https://www.youtube.com/watch?v=hESyHaqnA24

und hier die Story zum Video: http://www.eurodamen.com/schlechtes-ben ... n-treffen/{.postlink}

Statistik: Verfasst von metusalem — Mi Mär 16, 2016 10:16 pm


Suchmaschinen • Re: DOMENGO

Date: 2016-03-17 06:22:32

Minc hat geschrieben:\ was für Suchanfragen gebt ihr hier denn ein? Ich bekomme keine Ergebnisse.\


und mit welcher Suchanfrage hat es bei dir nicht geklappt? Ich gebe hier https://www.domengo.de bspw. \“bitcoin\” und bekomme eine längere Trefferliste. Für den Suchbegriff \“meinungsmachtkontrolle\” meldet domengo.de:

\ Leider ergab Ihre Suche kein Ergebnis !\


Also gibt es im http://www.domengo.de-Index keine Webseiten, die \“meinungsmachtkontrolle\” im Text enthalten. Der Betreiber domengo.de gibt auch zu - s. den Hinweis unter jeder - auch ergebnislosen - Trefferliste:

\ Natürlich können wir Ihnen noch keine Ergebnisse wie Google oder Bing anbieten. Unser Index wächst aber täglich.\

;) .

Gruss, Gustav

Statistik: Verfasst von flegno — Do Mär 17, 2016 6:22 am


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-17 07:43:29

Hallo Minc,

Willkommen im Forum!

Minc hat geschrieben:\ Ich möchte ein Online-Suchportal (nicht peer to peer) auf einer Website zur Verfügung stellen, bzw. dieses als Suchmaschinen-Projekt anbieten, welches sich auf eine bestimmte Kategorie beschränkt.\ \...\ \ Beispiel: Ich möchte, dass wenn nach Melitta Kaffeemaschine gesucht wird, auf der Seite XY.de auch nur 1 Treffer mit einer Melitta Kaffeemaschine in der Suche angezeigt wird. Das Gleiche bei Toastern, Spülmschinen, etc. Ohne, dass gleich tausende von anderen Unterseiten aufgelistet werden. Ist das möglich und wenn ja, wie ist das möglich?\


vlt. kannst du die gewünschte Funktionalität in deinem Suchportal mit Hilfe dieser YaCy-Features umsetzen:

  1. Verhalten_steuern - http://www.yacy-websuche.de/wiki/index. ... en_steuern{.postlink}
  2. Blacklists - http://www.yacy-websuche.de/wiki/index. ... Blacklists{.postlink}
  3. Crawling Filter - http://www.yacy-websuche.de/wiki/index. ... ing_Filter{.postlink}
  4. SearchParameters - http://www.yacy-websuche.de/wiki/index. ... Parameters{.postlink}

M.E. lässt sich diese Funktionalität mit zwei unterschiedlichen Ansätzen realisieren:

Welcher Lösungsansatz für dein Portal der richtige ist, kann bspw. davon abhängen:

Gruss, Gustav

Statistik: Verfasst von flegno — Do Mär 17, 2016 7:43 am


Suchmaschinen • Re: DOMENGO

Date: 2016-03-17 10:51:49

OK, danke jetzt hat es auch bei mir geklappt.

Statistik: Verfasst von Minc — Do Mär 17, 2016 10:51 am


Fragen und Antworten • 2 Fragen

Date: 2016-03-17 13:51:34

Hi,

\ E 2016/03/17 12:58:01 HeapReader file /mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20160222025352028.blob corrupted at 4797555650: negative len. len = -12, pk.len = 12\ E 2016/03/17 12:58:02 HeapReader file /mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20160222025352028.blob corrupted at 4797555720: negative len. len = -12, pk.len = 12\ E 2016/03/17 12:53:56 HeapReader file /mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20160222025352028.blob corrupted at 3907148580: negative len. len = -12, pk.len = 12\ E 2016/03/17 12:45:25 HeapReader file /mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20160222025352028.blob corrupted at 5570446070: negative len. len = -12, pk.len = 12\ E 2016/03/17 13:20:45 HeapReader file /mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20160222025352028.blob corrupted at 5072252700: negative len. len = -12, pk.len = 12\



kann ich das BLOB irgenwie reparieren?

\ W 2016/03/17 13:12:36 ReferenceContainerArray timout in get() (2): 64 tables searched. timeout = 5000\



Wie heißt die Variable die mit diesem Wert korrespondiert?


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Do Mär 17, 2016 1:51 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-17 15:30:37

flegno hat geschrieben:\ Hallo Minc,\ \ Willkommen im Forum!\ >
> > Minc hat geschrieben:Ich möchte ein Online-Suchportal (nicht peer to > peer) auf einer Website zur Verfügung stellen, bzw. dieses als > Suchmaschinen-Projekt anbieten, welches sich auf eine bestimmte > Kategorie beschränkt.\ > \...\ > \ > Beispiel: Ich möchte, dass wenn nach Melitta Kaffeemaschine gesucht > wird, auf der Seite XY.de auch nur 1 Treffer mit einer Melitta > Kaffeemaschine in der Suche angezeigt wird. Das Gleiche bei > Toastern, Spülmschinen, etc. Ohne, dass gleich tausende von anderen > Unterseiten aufgelistet werden. Ist das möglich und wenn ja, wie ist > das möglich?\ > >


vlt. kannst du die gewünschte Funktionalität in deinem Suchportal mit Hilfe dieser YaCy-Features umsetzen:

  1. Verhalten_steuern - http://www.yacy-websuche.de/wiki/index. ... en_steuern{.postlink}
  2. Blacklists - http://www.yacy-websuche.de/wiki/index. ... Blacklists{.postlink}
  3. Crawling Filter - http://www.yacy-websuche.de/wiki/index. ... ing_Filter{.postlink}
  4. SearchParameters - http://www.yacy-websuche.de/wiki/index. ... Parameters{.postlink}

M.E. lässt sich diese Funktionalität mit zwei unterschiedlichen Ansätzen realisieren:

  • entweder so einen Index erstellen, dass die Eingabe des Suchbegriffs die gewünschte Ergebnisliste liefert - Stichwörter [Blacklists]{style=“font-style: italic”} und [Crawling Filter]{style=“font-style: italic”}
  • oder dein Index enthält alle Webseiten und die gewünschte Ergebnisliste wird durch die Definition von geeigneten [SearchParameters]{style=“font-style: italic”} generiert

Welcher Lösungsansatz für dein Portal der richtige ist, kann bspw. davon abhängen:

  • wie oft der Index aktualisiert wird
  • wie deine Webseiten strukturiert sind
  • wie viel Ressourcen kannst du in die Entwicklung deiner Lösung investieren
  • wie viel SearchParameter-Justierung kannst den Nutzern deines Portals zumuten
  • ...

Gruss, Gustav



Danke für die Tipps. Dann werde ich mich hier wohl erst einmal reinarbeiten müssen. Ich melde mich dann wieder zurück.

Statistik: Verfasst von Minc — Do Mär 17, 2016 3:30 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-17 16:16:57

promocore hat geschrieben:\ Hast du auch einen neuen Usernamen in Yacy angegeben oder den voreingestellten gelassen?\


Ich hab den voreingestellten gelassen

Statistik: Verfasst von Bostan — Do Mär 17, 2016 4:16 pm


Fragen und Antworten • Indexinhalte löschen

Date: 2016-03-17 16:44:31

Habe versucht gewisse Indexinhalte zu löschen, leider erfolglos. Manche URLs lassen sich nicht entfernen, bzw. ausfindig machen. Wie, bzw. wo kann ich lückenlos URLs aus dem Index löschen?

Statistik: Verfasst von Minc — Do Mär 17, 2016 4:44 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-17 16:46:15

Kann ich die SearchParameter-Justierung im Backend bestimmen oder geht das nur Nutzerseits im Frontend? Und wo genau kann ich diese Dinge einstellen?

Statistik: Verfasst von Minc — Do Mär 17, 2016 4:46 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-17 17:36:27

Ich meine mich zu erinnern, dass bei Linux dieser geändert werden muss, damit die Meldung weg geht. Auch bei einem extrem kurzen Namen (3-4 Zeichen) blieb die Meldung bei mir.
Ob hierdurch wirklich die Konnektiviät betroffen ist habe ich nicht geprüft.

Statistik: Verfasst von promocore — Do Mär 17, 2016 5:36 pm


Fragen und Antworten • Re: Indexinhalte löschen

Date: 2016-03-17 20:07:40

Hallo Minc,

Indexverwaltung -> Index Löschung (/IndexDeletion_p.html).

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mär 17, 2016 8:07 pm


Fragen und Antworten • Re: 2 Fragen

Date: 2016-03-17 20:16:13

Hi LA_FORGE,

sorry - die Blobs zu reparieren ist nicht trivial. Man könnte sich maximal in die Struktur der Blobs einfuchsen und dann mit einem Hex-Editor korrigieren.
Da ist der Aufwand aber wohl zu heftig.

Zu dem Timeout:
das ist hardgecodet in ReferenceContainerArray

private final static long METHOD_MAXRUNTIME = 5000L;

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mär 17, 2016 8:16 pm


Fragen und Antworten • Re: Indexinhalte löschen

Date: 2016-03-17 21:37:08

sixcooler hat geschrieben:\ Hallo Minc,\ \ Indexverwaltung -\> Index Löschung (/IndexDeletion\_p.html).\ \ Cu, sixcooler.\



Vielen Dank!

Statistik: Verfasst von Minc — Do Mär 17, 2016 9:37 pm


Fragen und Antworten • Re: 2 Fragen

Date: 2016-03-18 16:18:30

Vielen Dank

Statistik: Verfasst von LA_FORGE — Fr Mär 18, 2016 4:18 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-19 13:09:23

> Kann ich die SearchParameter-Justierung im Backend bestimmen
mit ein wenig HTML-Kenntnissen kannst du sinnvolle SearchParameter standardmäßig im Formular im Backend festlegen.

> Und wo genau kann ich diese Dinge einstellen?
wie gesagt ein wenig HTML-Kenntnisse sind hier von Vorteil. Bspw. mit SearchParameter site:http://forum.yacy-websuche.de im Formular kannst du die Suche auf die Treffer von der Website forum.yacy-websuche.de einschränken. Usw. s. http://www.yacy-websuche.de/wiki/index. ... Parameters{.postlink} .

Gruss, Gustav

Statistik: Verfasst von flegno — Sa Mär 19, 2016 1:09 pm


Hilfe für Einsteiger und Anwender • Re: Anfängerfrage: Experten Crawler konfigurieren

Date: 2016-03-20 21:37:46

Hallo sixcooler,

leider war es mir in letzter Zeit nicht möglich früher zu antworten.

Danke für deinen Tipp mit der Linkliste, der zu funktionieren scheint. Aus der angezeigten Linkliste von Yacy (Experten Crawler) in der Rubrik \“Startpunkt\” -> \“Von Linkliste der URL\” lässt sich erkennen das der Link auch von der Eingangsseite eigentlich zu erreichen sein müsste. Das Negative an der Sache ist aber, wenn ich den Punkt \“Von Linkliste der URL\” auswähle das er mir leider alle Unterverzeichnisse durch crawlt die mit der Eingangsseite verbunden sind und nicht nur die von mir gewünschte Rubrik{.postlink}.
Habe mal meine vorher beschriebene Vorgehensweise bei anderen Portalen getestet, wobei ich immer dieselbe Fehlermeldung bekam (siehe Anfangsposting){.postlink}:
FINAL_LOAD_CONTEXT url does not match must-match filter .*xxxxxxxx.xx/xxxx/xxxxxx (die URL habe ich mal hier durch \“x\” ersetzt)

Auf meiner Suche nach einer möglichen Fehlerursache bin ich auf folgende Seite{.postlink} gestoßen, die die Einstellungen eines Experten-Crawls an einem Bsp. beschreiben. Selbst wenn ich ein Test mit den dort beschriebenen Einstellungen durchführe, erhalte ich obige genannte Fehlermeldung.

Könnt ihr mir posten, worin der Fehler könnte

Schöne Grüße
Catta_Lina

Statistik: Verfasst von Catta_Lina — So Mär 20, 2016 9:37 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-21 16:45:22

Danke für die Antwort. ich merke schon, ist alles nicht so einfach. Da werden wohl noch öfter ein paar Fragen dazu aufkommen. Nun aber mal eine leichte. Wie kann ich von einer bestimmten Domain nur bestimmte Kategorien/Bereiche crawlen? Beispiel: http://www.derdomainname.de/kategorie

Statistik: Verfasst von Minc — Mo Mär 21, 2016 4:45 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-21 17:09:11

ich würde an deiner stelle testen, ob SearchParameter inurl:{.postlink} zum gewünschten Ergebnis führt.

Um bereits Index zu filtern, muss du sich mit dem Thema Regex{.postlink} ausseinandersetzen, hier muss ich passen

Statistik: Verfasst von flegno — Mo Mär 21, 2016 5:09 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-22 09:09:36

OK, danke.

Statistik: Verfasst von Minc — Di Mär 22, 2016 9:09 am


English • Re: Some questions about using Yacy as a local indexer

Date: 2016-03-22 15:28:17

Hello, as far as I know, YaCy is currently designed to index resources in a given network (internet, intranet, custom...), and to provide access and search trough its index to all users inside this network.

But inside an intranet, I guess the following configuration example should work (I did not tested it) and could fit your needs :
- one wiki instance
- one issue tracker
- one YaCy instance having full access without authentication to wiki and issue tracker resources
- wiki, tracker and YaCy instances access is restricted to intranet users by the same CAS SSO server

But of course things become more complicated if you want multiple YaCy peers to run on each intranet user computer, or if full access can not be open between resources servers and YaCy server, or if different credentials have to be applied to each resource... I think adapting YaCy to these needs represent a non negligible amount of work.

Statistik: Verfasst von luc — Di Mär 22, 2016 3:28 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-22 22:13:11

promocore hat geschrieben:\ Ich meine mich zu erinnern, dass bei Linux dieser geändert werden muss, damit die Meldung weg geht. Auch bei einem extrem kurzen Namen (3-4 Zeichen) blieb die Meldung bei mir.\ Ob hierdurch wirklich die Konnektiviät betroffen ist habe ich nicht geprüft.\



Danke :) sry das es immer länger dauert wegem Antworten kann leider momentan wegen Ausbildung und Prüfungsphasen nur relativ unregelmässig im Forum nachschauen.

Statistik: Verfasst von Bostan — Di Mär 22, 2016 10:13 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-23 19:01:58

I finally managed to build fully functional YaCy runnable jar, and it can also be launched using Java Web Start!

You can have a try on this page : http://luccioman.github.io/yacy_search_server/

There are still more non regressions tests to run, but all major use cases worked for me on Debian Jessie or Windows 7, with Oracle JVM 7 or 8 (it currently won\’t work with IcedTea Web).
Any feedback is welcome.

Statistik: Verfasst von luc — Mi Mär 23, 2016 7:01 pm


Hilfe für Einsteiger und Anwender • Re: FQDN zur YaCy Suchmaschine geht nicht

Date: 2016-03-23 21:09:39

Hi Hassan,

es kann gut sein das Deine FqDN vom Peer nicht erkannt werden, z.B. weil Dein Host sie nicht auflösen kann.
YaCy macht da so eine Art NameBasedVirtualHost - was beim Start nicht als zugehöriger DN erkannt wird, wird als Anfrage ignoriert.

Eigentlich sollte es reichen Deinen FqDN z.B. in dei /etc/hosts einzutragen (YaCy neu starten).
Wenn das nicht geht gibt es die Möglichkeit einen zusätzlichen Namen unter System Administration > Server Access Settings (/Settings_p.html?page=ServerAccess) als fileHost einzutragen.

Die .yacy-DNs werden nur innerhalb der Peers anhand der ausgetauschten Seeds aufgelöst.

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Mär 23, 2016 9:09 pm


Hilfe für Einsteiger und Anwender • Re: FQDN zur YaCy Suchmaschine geht nicht

Date: 2016-03-23 21:38:52

Hi sixcooler (was für ein entspannter Name :mrgreen: )

die Idee mit der \“hosts\” habe ich jetzt sowieso schon mal gelöst, weil ich meinen internen FTP mal crawlen lasse. Diesen möchte ich dann aber logischerweise auch von extern zugreifen können. Ob das schon das Problem löst, werde ich morgen posten, wenn ich wieder in der Arbeit bin.

cu und Danke
Hassan

Statistik: Verfasst von HassanMullah — Mi Mär 23, 2016 9:38 pm


Hilfe für Einsteiger und Anwender • Re: FQDN zur YaCy Suchmaschine geht nicht

Date: 2016-03-24 09:06:41

Hallo sixcooler,

wie versprochen, hier mein Feedback ...

sixcooler hat geschrieben:\ Eigentlich sollte es reichen Deinen FqDN z.B. in dei /etc/hosts einzutragen (YaCy neu starten).\ Wenn das nicht geht gibt es die Möglichkeit einen zusätzlichen Namen unter System Administration \> Server Access Settings (/Settings\_p.html?page=ServerAccess) als fileHost einzutragen.\



Nachdem ich Gestern Abend ja die \“hosts\” bearbeitet hatte, habe ich heute Morgen dann gleich mal den Aufruf mit der FQDN URL versucht. Ergebnis war diesmal keine weiße Seite, sondern eine Art Java Stacktrace.
OK, nicht aufgeben. Ich habe daraufhin - wie oben beschrieben den FQDN im Feld \“filehost\” eingetragen, den YaCY neu gestartet und erneut versucht. BINGO. YaCy ist von extern via FQDN erreichbar. Aber Achtung! Im System Status bekam ich die Meldung, das mein Peer nicht mehr den anderen Peers kommuniziert. Grübel Grübel ??? OK, ich habe daraufhin meine \“hosts\” nochmals bearbeitet und den FQDN Eintrag auskommentiert. YaCy neu gestartet, ein bisschen gewartet und jetzt wirklich BINGO. Alles gut.

Vielen vielen vielen DANK

Gruß Hassan

Statistik: Verfasst von HassanMullah — Do Mär 24, 2016 9:06 am


Hilfe für Einsteiger und Anwender • [gelöst] FQDN zur YaCy Suchmaschine geht nicht

Date: 2016-03-24 09:07:39

Halli Hallo,

ich habe vor 2 Tagen die Suchmaschine YaCy bei Tante Google gefunden und war von dem Konzept sehr begeistert. Also schnell mal aufgesetzt, ein paar Test gemacht, soweit erst mal OK. YaCy läuft jetzt im Senior Modus und ist im freeworld Netz integriert.

Wenn ich mir dann mal den Systemstatus ansehe, fällt mir folgendes auf der rechten Seite auf:

Adresse
Host: []:8090
Öffentliche Adresse: http://x.x.x.x:8090 (wobei x ein Platzhalter für die aktuelle öffentliche IP Adresse ist.

Aktuell habe ich YaCy auf einem Notebook bei mir zu Hause am laufen, jedoch benötige ich die Suchmaschine auch öfters in der Arbeit. Ich kann mich von der Arbeit entweder via VPN oder via https oder Teamviewer zu Hause aufschalten.

Wenn ich mich via Teamviewer auf das Linux Notebook aufschalte, bekomme ich YaCy über die URL http://localhost:8090 dargestellt
Wenn ich mich via VPN aufschalte und den lokalen Browser in der Arbeit mit der URL http://192.168.x.x:8090 starte, bekomme ich YaCy ebenfalls dargestellt

Ich habe 2 offizielle DynDNS Namen, welche meine aktuelle öffentliche IP representieren. Eine kommt von der QNAP NAS, die andere von der Fritzbox (MyFritz). Wenn ich diese beiden DynDNS Namen per PING auflösen lasse, bekomme ich die gleiche öffentliche IP Adresse angezeigt, wie Sie auch YaCy beim Systemstatus erkennt.

Wenn ich jetzt versuche von der Arbeit (ohne VPN) im Browser die URL http://hier-steht-der-fqdn-vom-dynDNS1:8090 oder http://hier-steht-der-fqdn-vom-dynDNS2:8090
aufrufe, bekomme ich nur eine weiße Internetseite dargestellt. Später soll der Zugriff auf https mal umgestellt werden, aber erst mal muss ich \“was sehen\”

Wenn ich das gleiche nochmals mache, aber statt des FQDN mit der öffentlichen IP, dann bekomme ich YaCy wieder angezeigt.

Und jetzt wird es ganz komisch. Wenn ich in meine lokale \“hosts\” Datei z.B. den Eintrag lalala.bubu.lulu mit der öffenlichen IP verknüpfe und dann im Browser die URL http://lalala.bubu.lulu:8090 eingebe, wird mir YaCy ebenfalls angezeigt.

Da sich in der Regel aber eine IP wechselt, sollte man doch auf einen (zumindest mir öffentlich bekannten) FQDN zugreifen können.

Was läuft hier falsch? Ich verwende zur Zeit die YaCy version 1.839739
Was genau steckt eigentlich hinter der URL YaCy Adresse: http://{peername}.yacy

Wie löst Ihr den Zugriff auf die Suchseite von extern?

Gruß und Danke
Hassan

Statistik: Verfasst von HassanMullah — Mi Mär 23, 2016 8:50 pm


Hilfe für Einsteiger und Anwender • Collection & Cache & QNAP & Crawls löschen & Datenpflege

Date: 2016-03-24 15:42:21

Einen wunderschönen Gründonnerstag Nachmittag,

nachdem ich mich jetzt ein paar Stunden mit der Adminoberfläche beschäftigt habe (und mir immer noch sehr sehr viel gar nichts sagt), sowie dieses Forum teilweise auch schon angelesen habe, möchte ich gerne folgende 5 Fragen stellen:

1.) unter /CrawlStartSite.html habe ich die Möglichkeit eine \“Collection\” zu vergeben. [Was ist damit genau gemeint?]{style=“font-weight: bold”} Ich hoffe mal folgendes: Wenn ich z.B. die Site http://www.monster.de und http://www.stepstone.de crawlen möchte, dann könnte ich als Collection Name z.B. \“Jobsuche\” angeben. Wenn ich dann die erweiterte Suche antriggere und nach dem Suchbegriff \“Datenbank\” suche, jedoch unter dem Feld \“Vorzugsmaske\” den Begriff \“Jobsuche\” eingebe, dann werden mir nur Ergebnisse der Sites http://www.monster.de und http://www.stepstone.de geliefert, welche irgendwo den Begriff \“Datenbank\” enthalten. Somit sehe ich keine \“HowTo\’s\” usw. von irgendwelchen Wikis oder so.

Ist meine Annahme richtig?

2.) Thema Cache. Ich habe auf meiner NAS ein paar Verzeichnisse, die \“privater Natur\” sind. Damit ich die jedoch mit YaCy crawlen kann, habe ich auf diese einen anonymen FTP Lesezugriff gesetzt. Meine YaSy Sucheingabe ist via https von Extern erreichbar (der Rest läuft bewußt im Juniormodus), mein FTP Port lasse ich jedoch nicht durch die NAS nach außen schauen. Ich habe jetzt die FTP Site mit dem öffentlichen FQDN crawlen lassen. Dabei bin ich dann natürlich in die Falle gelaufen, das ich keine Zugriff habe, da meine NAS das ja nicht zulässt. Jetzt kam ich auf folgende Idee. Ich würde den FTP Crawl + die gecrawlter Ergebnisse komplett löschen. Danach würde ich den FTP Crawl nochmals laufen lassen, aber mit der privaten IP Adresse, also ftp://192.168.*.* usw.. Von der vermuteten Logik, würden dann die gecrawlten Suchtreffer auch auf die URL ftp://192.168.*.* zeigen, d.h. diese wären auf gar keinen Fall im Internet verfügbar, es sei denn ich würde vor dem Anklicken des Links meine VPN Verbindung aufbauen, womit ich dann Mitglied in meinem privaten Intranet wäre.

Jetzt kommt aber mein Problem: Bei den Suchtreffern steht unten nebem dem Wort \“Citations\” auch das Wort \“Cache\“. Und hier finde ich dann die Informationen wieder, aber nicht mit dem Zugriff via FTP, sondern als HTTPs gecachtet Site, d.h. jeder kann darauf zugreifen. Gar nicht gut!!!

Was muss ich machen, damit dieses \“Cache\” niemals für die FTP Site angezeigt wird?

3.) Aktuell habe ich YaCy auf einem Notebook mit Linux Mint 17.3 (8 GB RAM - 512 GB HDD) am laufen. YaCy bekommt großzügige 3072 MB für Java. Ich würde YaCy aber gerne auf meine weniger performante NAS umziehen. Es handelt sich um ein QNAP TS-112p mit 2TB HDD und leider nur 512 MB RAM (technische Details hier: https://www.qnap.com/i/de/product/model.php?II=132&event=2). Auf der NAS läuft folgende Java Version:

Code:
[~] # java -versionjava version "1.8.0_65"Java(TM) SE Embedded Runtime Environment (build 1.8.0_65-b17, headless)Java HotSpot(TM) Embedded Client VM (build 25.65-b01, mixed mode)



Soweit ich das jetzt erkenne, ist das ja nur die JRE und nicht das geforderte JDK 7

Könnte ich die YaCy Instanz trotzdem rüberkopieren, oder geht das mit der NAS und dem JRE nicht?

4.) Wie kann ich den Crawlvorgang + die gecrawlten Ergebnisse am schnellsten komplett bzw. pro FQDN löschen?

5.) Wie sollte man seine Suchmaschine pflegen, damit Sie



Danke an alle uns wunderschöne erholsame Osterfeiertage

Gruß Hassan

Statistik: Verfasst von HassanMullah — Do Mär 24, 2016 3:42 pm


Hilfe für Einsteiger und Anwender • Re: Suchmaschine auf Keywords abstimmen

Date: 2016-03-26 10:24:17

Wie kann ich YaCy so einstellen, dass in der Suche nur auf Keywords im Titel und in der URl gesucht wird? Also ohne Einbeziehung von Content, Description usw. Ich hatte es mal im Solr Shema Editor hinbekommen aber leider vergessen wie. Weiss hier jemand zufällig einen Rat?

Statistik: Verfasst von Minc — Sa Mär 26, 2016 10:24 am


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-28 14:39:12

Bostan hat geschrieben:\ >
> > promocore hat geschrieben:Ich meine mich zu erinnern, dass bei Linux > dieser geändert werden muss, damit die Meldung weg geht. Auch bei > einem extrem kurzen Namen (3-4 Zeichen) blieb die Meldung bei mir.\ > Ob hierdurch wirklich die Konnektiviät betroffen ist habe ich nicht > geprüft.\ > >



Hoi bins nochmals. Also der Name ist geändert verbindet sich trz nicht hab aber gesehen das Yacy nur auf Ipv6 hört und nicht auf Ipv4 kann es damit einen zusammenhang haben? Wenn ja wie mache ich das sich das ändert.

Danke

Statistik: Verfasst von Bostan — Mo Mär 28, 2016 1:39 pm


Off-Topic • Alternative usage idea

Date: 2016-03-28 14:49:07

What do you think, does this engine to create p2p free alternatives https://archive.org/web/ ?

Statistik: Verfasst von player — Mo Mär 28, 2016 1:49 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-28 15:47:05

So Sieht es bei mir aus:

yacy\@yacy:~/yacy\$ netstat -lnp | grep java
tcp6 0 0 :::8090 :::* LISTEN 15325/java
tcp6 0 0 :::8443 :::* LISTEN 15325/java

Kann es daran liegen das es keine IPv4 Verbindungen hat?

Liebe Grüsse

Bostan

Statistik: Verfasst von Bostan — Mo Mär 28, 2016 2:47 pm


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-28 19:12:33

Das kann gut sein, ich hatte ähnliche Probleme.
Die Lösung sollte funktionieren:
http://forum.yacy-websuche.de/viewtopic.php?f=5&t=5765

Statistik: Verfasst von promocore — Mo Mär 28, 2016 6:12 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-30 10:06:51

Hey luc,
I just tried this and it is working fine! Thats a good thing!
We should integrate this into the main branch. I had a look into your commits: that was a lot of work and you changed quite a bit. I must take some time to read all the changes. I believe you fixed a lot of path issues to make this possible?

Statistik: Verfasst von Orbiter — Mi Mär 30, 2016 9:06 am


YaCy Coding & Architecture • Re: A generic API advanced crawler

Date: 2016-03-30 10:11:10

well that looks like a lot of work. The big issue with this is: YaCy is already a big beast, and an api with user accounts would open new questions.
My current attempt to create an architecture which can grow - and maybe has such a kind of an api - is a microservice partition of the whole search engine parts.
My thoughts are here: http://kaskelix.de/
This would also cover the idea to have a separate crawler.

Statistik: Verfasst von Orbiter — Mi Mär 30, 2016 9:11 am


English • Re: recovering a directory containing crrawling data

Date: 2016-03-30 10:13:35

Please have a look into your log (/var/log/yacy); is there any suspicious message (i.e. exceptions) about the startup issue?

Statistik: Verfasst von Orbiter — Mi Mär 30, 2016 9:13 am


English • Re: Some questions about using Yacy as a local indexer

Date: 2016-03-30 10:30:28

Hi frderi2,
authorization/authentication questions regarding smb and/or wiki servers have been discussed many times in the past. The problem is, that any information that YaCy would be able to crawl using an authentication method would be leaked to users without that authentication, if they are able to use YaCy to find at least the link to those resources. There would be the need that YaCy provides the same authentication methods as the resources which had been accessed by YaCy. Thats a problem and not easy to solve.

However, there are solutions which you can build around YaCy: i.e. you can mount disk drives on the machine which is running YaCy you you can then crawl the paths to these mounted drives using the file:// url. Providing access to your server with YaCy on it would be equal to granting access to the drives. That is something you can set up as an administrator around YaCy. Users with the same disk drives mounted to the same path would then be able to access the content which they find in YaCy. That works also on windows (i.e. file://z:\data..). In linux the path starts with three \‘/\‘, like file:///media/disk3

Statistik: Verfasst von Orbiter — Mi Mär 30, 2016 9:30 am


Off-Topic • Re: Alternative usage idea

Date: 2016-03-30 10:38:08

yes
- we need an open wayback machine, which can be cloned here: https://github.com/ikreymer/pywb and maybe this as well: https://github.com/ikreymer/webarchiveplayer
- we need a crawler which creates WARC files, you can do that with wget
- we need a WARC reader in YaCy which imports the same data as provided with the wget --- I am working on that (a bit)
- then we would need to integrate all of this, there is a concept for that: http://kaskelix.de/

Statistik: Verfasst von Orbiter — Mi Mär 30, 2016 9:38 am


Mitmachen • Re: Server verbindet sich trotz offenen Ports nicht

Date: 2016-03-30 18:18:09

Merci jetzt funktioniert es wieder.

promocore hat geschrieben:\ Das kann gut sein, ich hatte ähnliche Probleme.\ Die Lösung sollte funktionieren:\ \

Statistik: Verfasst von Bostan — Mi Mär 30, 2016 5:18 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-30 18:31:04

Hello, thank you very much for reviewing, that\’s encouraging!

Yes the only purpose of all changes I made on my branch was to allow launching through a single runnable jar and then through Java Web Start. My ultimate goal would eventually to allow launching YaCy as a browser embedded applet.
Most of the work is only refactoring on resources loading : the idea is to load necessary resources as classpath resources URLs instead of relative or absolute file paths.
I also modified icon tray enabled/disabled conditions for linux because user also need feedback on this OS when YaCy is not launched as a service.

Before merging to main branch there are still non regressions tests to run with classical ditribution and OS dependant installers. I think some modifications are still to be done at least in pom.xml (htroot, defaults, lang, and other resources should only be included in the new all-in-one runnable jar, and kept out of yacycore.jar as currently done in main distribution).

I will try to finalize these tests as soon as possible. If you have some other questions don\’t hesitate!

Statistik: Verfasst von luc — Mi Mär 30, 2016 5:31 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-31 07:16:40

I was initially thinking that embedding htroot resources in yacycore jar could be a performance issue when running YaCy from tar.gz distribution but my last tests seem to show it is not a problem.
So I pushed on my git branch some fixes and changes to make ant compiling and maven tgz distribution packaging consistent with new all-in-one runnable jar package.

Now last remaining points to check are other ant tasks (\“copyMain4Dist\“, \“installonlinux\”...), OS specific installers packaging and running, and merging last changes from main branch. Personally I am only sure to have time to do this from next Monday, but of course you can already do it on your own.

Statistik: Verfasst von luc — Do Mär 31, 2016 6:16 am


Hilfe für Einsteiger und Anwender • Re: Suche nur im Titel & URL

Date: 2016-03-31 14:56:58

Das kannst Du unter \“/RankingSolr_p.html\” anpassen. Lass nur den Wert für Host etc. stehen. Alle anderen entfernen, bzw. Ranking dem entsprechend nach unten korrigieren.

Statistik: Verfasst von ds810 — Do Mär 31, 2016 1:56 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-31 15:52:30

Two questions - because I am completely unfamiliar with the jnlp process:
- where does the yacy.jnlp stores DATA?
- how does it come that execution of yacy.jnlp creates a YaCy.app and where is the code?

Statistik: Verfasst von Orbiter — Do Mär 31, 2016 2:52 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-31 19:04:29

- the jar file downloaded with jnlp is stored in a temporary folder. For example on linux : /home/username/.java/deployment/cache. You can configure this with jre/bin/jcontrol program in General tab, button \“Parameters...\“. YaCy DATA folder may be created here at first launch, but I also experienced DATA folder re-created directly on desktop when launching from desktop shortcut. That\’s why I chose to specify a DATA parent folder as a yacy class main parameter (see https://github.com/luccioman/yacy_searc ... y.jnlp#L29{.postlink}). Thus now DATA should be in [userHome]/yacy-1.83-data.

- JNLP allow to specify if you want a desktop and a menu bar shortcuts to be created with :

Code:
<shortcut>     <desktop/>     <menu/></shortcut>


I chose that but this is not mandatory and you may prefer to consider JNLP launch as only a way to try YaCy and not to \“install\” it.

Applications and resources can be removed using again jre/bin/jcontrol program : Paremeters... > Delete files or Visualize > Cross button

JNLP syntax reference for Java 7 is here : https://docs.oracle.com/javase/7/docs/t ... yntax.html{.postlink}

Statistik: Verfasst von luc — Do Mär 31, 2016 6:04 pm


YaCy Coding & Architecture • Re: Java Web Start launch alternative

Date: 2016-03-31 19:17:32

As default Java applets or Java Web Start applications are \“Sandboxed\”
they do not have access to file system resources for example. YaCy needs to write files, to open a port and to connect to multiple peers. So \“all-permissions\” element in JNLP is needed, and jar must be signed with a certificate validated by a recognized Certificate Authority (I created a Certum \“Open Source Developer\” certificate) or a security warning will be displayed or application may even be blocked (users can still add security exceptions using jcontrol program but it is a little bit annoying).
Note also that on latest Mac OS X even with a valid certificate Mac now block applets and jnlp as default and user will have to add a security exception in mac preferences.

l have to add a security exception in mac preferences.

Statistik: Verfasst von luc — Do Mär 31, 2016 6:17 pm


Hilfe für Einsteiger und Anwender • Re: Suche nur im Titel & URL

Date: 2016-03-31 21:29:51

Super, danke für die Info. Vielleicht kannst Du mir auch bei diesen helfen:

1) Wie kann ich die Suchergebnisse so filtern, dass standardmäßig bestimmte Begriffe in der URL und im Titel mitgesucht werden?
Beispiel: Jemand tippt Cola in die Suche ein, gesucht wird aber Cola kaufen, usw.

2) Wie kann ich die Suche einstellen, dass von jeder URL nur die erste Seite angezeigt wird und nicht http://www.xxxxx.dd/xxxxx/seite2.html, http://www.xxxxx.dd/xxxxx/seite3.html, usw.

Statistik: Verfasst von Minc — Do Mär 31, 2016 8:29 pm


Hilfe für Einsteiger und Anwender • Re: Collection & Cache & QNAP & Crawls löschen & Datenpflege

Date: 2016-04-01 13:06:03

Huhu, sind meine Fragen alle zu schwierig??

Statistik: Verfasst von HassanMullah — Fr Apr 01, 2016 12:06 pm


Hilfe für Einsteiger und Anwender • YacY auf Website installieren

Date: 2016-04-01 18:20:50

Ich möchte ein Suchmaschinenportal ähnlich wie domengo.de online stellen wo User nur suchen (nicht teilen) können.

Ich komme jedoch mit diesen Anleitungen http://www.yacy-websearch.net/wiki/inde ... rale_Suche#Einbinden_In_Ihre_Seite & http://www.yacy-websearch.net/wiki/inde ... ntegration{.postlink} leider nicht klar und würde gerne wissen, wie ich meine lokale YaCy Suche so auf meine Website integriere, dass es wie hier aussieht: https://www.domengo.de/. Die Sucherbenisse sollen also nicht so: http://localhost:8090/yacysearch.html?query=....... sondern so aussehen: https://www.domengo.de/results.......
Dazu habe ich ein paar Fragen:

1. Wie bewerkstelligt man so etwas genau? Wie funktioniert die Integration auf eine Website mit Wordpress? Wie wird der Index/die Datenbank verschoben?
2. Sollte die Datenbank auf einen eigenen Server oder reicht anfangs auch ein Webserver?
3. Worauf sollte sicherheitstechnisch geachtet werden?
4. Wie groß sollte der Webspace sein?

Statistik: Verfasst von Minc — Fr Apr 01, 2016 5:20 pm


Mitmachen • TLS

Date: 2016-04-02 12:29:46

Hallo Leute,

Wenn ich mich mit meinem Server (yacy) über HTTPS verbinde dann sagt es das das TLS Zertificat ungültig sei.
Woran könnte das liegen?

Statistik: Verfasst von Bostan — Sa Apr 02, 2016 11:29 am


English • word with accentuated characters are not found

Date: 2016-04-03 15:21:09

Hi,
I\’d installed Yacy few days ago on a dedicated computer to participate to freeworld network.
I try to understand some Yacy features.
One is about accentuated characters, that are many in french language.

[Yacy does not found document on search with \“androïd\” while it find some with search \“android\“.]{style=“font-weight: bold”} But it should find same documents for those 2 searches ...

Where this behavior (stemming or else) can be adjusted ?

Thanks a lot.
Cheers.

Statistik: Verfasst von Cyrille37 — So Apr 03, 2016 2:21 pm


English • What are LF & MH for Crawler PPM settings ?

Date: 2016-04-03 15:29:14

Hi,

I did not find documentation about LF and MH for Crawler PPM settings at /Crawler_p.html.
Could someone explains a bit please ?

Thanks a lot.

Statistik: Verfasst von Cyrille37 — So Apr 03, 2016 2:29 pm


English • Filtering urls before domain crawling

Date: 2016-04-04 10:59:46

Hi,

It\’s possible to define regular expression to filter proxied urls (Blacklist_p.html), for cleaned the index (IndexDeletion_p.html), but I do not find filter for crawler. Did I miss something ?

The use case: when crawling MediaWiki site all links are indexed such like \“action=edit section=1\“, \“action=edit section=2\” and so on for each pages sections ... :mrgreen:

Thanks & Cheers

Statistik: Verfasst von Cyrille37 — Mo Apr 04, 2016 9:59 am


YaCy Coding & Architecture • Re: No Search Results Navigation

Date: 2016-04-13 09:54:19

luc hat geschrieben:\ I think it will be difficult to help you if you made lot of changes : your problems can not but reproduced reliably.\ \ By the way both errors looks related to missing elements in facets block on the left. Did you modified or deleted this?\ \ - \"Cannot read property \'setAttribute\' of null\" means the HTML tag with id=\"sort\_button\_context\" is missing from index.html. Originally it is here : [https://github.com/yacy/yacy\_webclient\_ \... .html\#L197](https://github.com/yacy/yacy_webclient_bootstrap/blob/master/yacysearch/index.html#L197){.postlink}\ \ - Cannot read property \'0\' of undefined means a facet (\"Filetype\" for example) has undefined \"elements\" property. I think it is not supposed to happen because normally server does not return empty facets.\



Yes I have changed elements on the left like Context Ranking and Sort by Date. This is the part you have listed here. I deleted this but this has nothing to do with the navigation problem. I also see no navigation when I use the original files (unchanged and without deleting something).

Statistik: Verfasst von Minc — Mi Apr 13, 2016 8:54 am


Mitmachen • OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-13 14:22:24

Hallo,

wie letztes Jahr ist wieder statt des Linuxtages der OpenTechSummit in Berlin.
http://opentechsummit.net/

Wir könnten dort auch wieder einen Tisch bekommen und YaCy ausstellen, wenn sich genügend Helfer finden! Das geht nur über einen Tag, wir bräuchten zwei Helfer, dann wird das ganz nett.

Wer möchte mithelfen? (Helfer bekommen auch freien Eintritt, schätze ich mal..)

Viele Grüße,
Michael

Statistik: Verfasst von Orbiter — Mi Apr 13, 2016 1:22 pm


Hilfe für Einsteiger und Anwender • Re: YacY auf Website installieren

Date: 2016-04-13 15:17:15

Ist es zwingend notwendig, dass der Yacy auf dem gleichen Server installiert ist wie auch der Webclient? Das ist nämlich bei mir nicht der Fall. Es wäre einleuchtend, da ja bei Localhost die Suchnavigation da ist.

Statistik: Verfasst von Minc — Mi Apr 13, 2016 2:17 pm


Hilfe für Einsteiger und Anwender • Yacy kann nicht online gehen

Date: 2016-04-13 16:02:31

Hallo, ich recht neu hier und hab da mal ein paar fragen.

1. Mein Peer kann manchmal nicht online gehen, der Port scheint nicht freigeschaltet zu sein( ist er aber laut online-port-checkern). Wie gesagt ist das auch nur manchmal der Fall, andere male gehts dann wieder.

2. Lässt sich ein Index übertragen? Noch läuft yacy auf meinem Stand-Rechner, ich überlege aber das ganze auf meinen Pi umziehen zu lassen. Kann ich da den bereits erstellten index irgendwie mitnehmen?

3. Gibt es eine einstellung, dass der index aktuell gehalten wird, sprich die Websites alle 4 Wochen ein weiteres mal aufgerufen werden?

Das wars erstmal, über eine Antwort würde ich mich sehr freuen.

Mit freundlichem Gruß

94bb494nd41f

Statistik: Verfasst von 94bb494nd41f — Mi Apr 13, 2016 3:02 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-13 20:06:40

Hallo,

na da bin ich doch dabei!
Brauchen wir noch etwas dazu, das ich mitbringen kann?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Apr 13, 2016 7:06 pm


Hilfe für Einsteiger und Anwender • Re: Yacy kann nicht online gehen

Date: 2016-04-13 20:17:36

Hi 94bb494nd41f,

zu 1 kann man erst was sagen wenn man maldurch die Logfiles guckt, was da schief geht.

zu 2 kann man in dem man DATA/INDEX/freeworld/SEGMENTS auf den anderen Host kopiert

zu 3 man kann unter /IndexReIndexMonitor_p.html einen recrawl-job anwerfen, der macht was Du willst

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Apr 13, 2016 7:17 pm


YaCy Coding & Architecture • Re: No Search Results Navigation

Date: 2016-04-14 14:26:18

OK I finally reproduced the same error \“Cannot read property \‘0\’ of undefined\” when running a YaCy peer in 1.829000 version.
Orbiter developped the bootstrap webclient recently so I guess it is compatible with YaCy servers starting only from version 1.83. If you effectively run in 1.82, you should upgrade your YaCy, for example by using administration page : http://localhost:8090/ConfigUpdate_p.html (menu \“RAM/Disk Usage & updates\” > \“Download system update\” tab).

Statistik: Verfasst von luc — Do Apr 14, 2016 1:26 pm


Hilfe für Einsteiger und Anwender • Rss Feed Datenbank exportieren bzw. kopieren

Date: 2016-04-14 17:40:31

Gruezi,

ich würde gerne mit einer YaCY Installation auf einen anderen Rechner umziehen und dabei meine riesige Liste von RSS-Feed Einträgen mitnehmen.
Was muß ich dafür kopieren oder exportieren?
HELP :shock:

Statistik: Verfasst von Crystalgazer — Do Apr 14, 2016 4:40 pm


Hilfe für Einsteiger und Anwender • Re: Rss Feed Datenbank exportieren bzw. kopieren

Date: 2016-04-14 20:37:02

Hallo Crystalgazer,

ich hab nicht ganz verstanden was Du mit den RSS-Feed Einträgen meinst - evtl. hast Du die als Crawl-Startpunkte?

Wenn Du dein DATA-Verzeichniss kopierst, hast Du alles (Index, Einstellungen, crawls) mit umgezogen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Apr 14, 2016 7:37 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-14 21:20:08

ja, da hätte ich Zeit - ist ja schließlich Vatertag. Und ich würde mich freuen Euch mal wieder zu treffen. Sagt Bescheid wenn es vorher noch Dinge zu erledigen oder zu besorgen gilt.

Gruß
lux

Statistik: Verfasst von lux — Do Apr 14, 2016 8:20 pm


Hilfe für Einsteiger und Anwender • Re: Yacy kann nicht online gehen

Date: 2016-04-14 21:28:54

Cool, danke. Aus den Logs werde ich nicht wirklich schlau. Ich hab die mal als Anhang hochgeladen. http://www.xup.in/dl,13880801/LOG.rar/ (aus/Data/log)

Gruß

94bb494nd41f

Statistik: Verfasst von 94bb494nd41f — Do Apr 14, 2016 8:28 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-15 09:11:34

Hallo, ich habe auch Zeit und würde mich auch freuen euch zu sehen. Müssen wir uns irgendwo anmelden? Wann sollen wir da sein?
Gruss uhura

Statistik: Verfasst von Uhura — Fr Apr 15, 2016 8:11 am


Suchmaschinen • Re: Java Open Source Search Engines

Date: 2016-04-15 10:27:46

This website is now down, but you can still read it on the weyback machine : http://web.archive.org/web/201412152326 ... gines.html{.postlink}

Statistik: Verfasst von luc — Fr Apr 15, 2016 9:27 am


Suchmaschinen • WebGraph in a blockchain

Date: 2016-04-15 10:33:36

Hi, here are some interesting ideas about the value of global webgraph, and eventual opportunity to write it in blockchain transactions such as Bitcoin :
https://medium.com/\@maciejolpinski/recr ... .548fzr3v0{.postlink}

Statistik: Verfasst von luc — Fr Apr 15, 2016 9:33 am


Hilfe für Einsteiger und Anwender • Re: Rss Feed Datenbank exportieren bzw. kopieren

Date: 2016-04-15 11:32:43

Hallo Sixcooler,

\ DATA-Verzeichniss kopierst\



Habe ich gemacht, es FUNZT :mrgreen: .
Ich muß allerdings noch etwas dazu sagen. Meine \“Alt-Installation\” lief auf einem Windows-Server der in \“Data/Settings/yacy.conf\” ganz andere Einstellungen hatte.
Auf dem Zielsystem (Ubuntu 15.04) hatte ich bereits schon eine Basisinstallation die ich vorher gesichert habe.
Nachdem ich nun die gesichte Ubuntu yacy.conf ins kopierte System überspielte hatte fuhr Yacy mit \“./startYACY.sh\” sofort hoch.

Und es sieht so aus als würde die Installation tatsächlich laufen.

\ RSS-Feed Einträgen\


Die RSS-Feed Einträge waren Crawl-Start Punkte die über \“Import/Export/Rss-FeedImport\” eingelesen und in den Scheduler eingepflegt wurden.
Und das waren immerhin fast 1500 Stück :shock: .

Aber so wie es aussieht ist das ganze Gerödel jetzt im Zielsystem. Dank Dir, der Tip hat mir eine Menge Arbeit erspart !!!

Ich bin jetzt aber noch so frech und poste gleich nochmal eine Frage ins Forum, vielleicht hast Du da auch noch einen Tip für mich.

Gruß Alex

Statistik: Verfasst von Crystalgazer — Fr Apr 15, 2016 10:32 am


Hilfe für Einsteiger und Anwender • Heuristik von OpenSearchSystemen

Date: 2016-04-15 11:39:56

Gruezi zusammen,

anscheinend bin ich zu blöd um die Funktion \“Lade externe Suchergebnisse von den gelisteten aktiven OpenSearch Systemen \” richtig zu konfigurieren oder zu verstehen.
Was ich gerne hinbekommen würde, z.b e-bay Suchergebnisse als Suchtreffer angezeigt zu bekommen. :roll:

Geht das mit der Funktion überhaupt, geht das mit e-bay, oder vielleicht mit Amazon? :?
HELP :shock:

Statistik: Verfasst von Crystalgazer — Fr Apr 15, 2016 10:39 am


Fragen und Antworten • Re: Peer ist von aussen nicht erreichbar

Date: 2016-04-15 13:12:09

Mit den Einstellungen geht es nun.

Statistik: Verfasst von Eike — Fr Apr 15, 2016 12:12 pm


Fragen und Antworten • Ignore Tags

Date: 2016-04-15 13:16:08

Ist es möglich yacy daran zu hindern bestimmt Content-Bereiche zu indexieren?

Ich stelle mir so was vor:
<do_not_index>
menu
</do_not_index>
Main content
<do_not_index>
footer
</do_not_index>

Yacy würde dann nur \“Main content\” indexieren, aber über alles crawlen (z.B. eventuelle Links im Footer/Menü)

Geht das?

Statistik: Verfasst von Eike — Fr Apr 15, 2016 12:16 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-15 13:49:15

Oh prima! Ja dann wären wir schon komplett, mehr als drei Helfer bekommen wir da nicht unter. Wenn es so wird wie letztes Jahr haben wir einen Tisch, alle Projekte haben da nur einen Tisch gehabt.

Ich werde dieses Mal erst am Vorabend ganz spät ankommen, also können wir uns nicht schon vorher treffen. Das holen wir dann aber nach, wenn ihr wollt, ich bin bis Samstag in Berlin.

Ich werde euch ankündigen, dann werden wir das mit dem Einlass schon schaffen.

Weil ich diesmal nicht per Auto komme sondern per Bahn kann ich nur ganz wenig mitbringen. Insbesondere nicht das große Banner. Statt dessen können wir uns so einen Rollaufsteller leisten, die gibts schon ganz günstig, so was ist knapp einen Meter breit und knapp zwei Meter hoch. Ein Motiv dafür habe ich aber noch nicht. Was sollen wir da drauf machen?
Hier ist ein PDF mit Datenanlage-Beschreibung: https://berlindisplay.de/de/datenblatt?id_attachment=20

Statistik: Verfasst von Orbiter — Fr Apr 15, 2016 12:49 pm


Wunschliste • Google Importer

Date: 2016-04-17 09:44:27

Ich habe einen Vorschlag für eine Erweiterung die ich hier mal zur Diskussion stellen will:
Ein Googleimporter. Was soll das Teil machen?
Wenn es eingeschaltet ist die Suchanfrage an Google weiterleiten, die Suchergebnisse von Google bezüglich der Domain auswerten und die Domain so weit noch nicht vorhanden als Crawljob einstellen.
Was haltet Ihr davon? Wäre jemand bereit so was zu entwickeln?

Statistik: Verfasst von Micki — So Apr 17, 2016 8:44 am


YaCy Coding & Architecture • Help with a Procedure

Date: 2016-04-18 11:16:03

Hi,

I need a script (Windows Batch, but java code is welcome too, to do a specific HTTP POST to a server, after that a TCP port number is returned. I want this port number to be directly applied as YaCys main port. Since I\’m a novice with java or programming languages in general, It would be very appreciated if someone can contribute such a feature to the Codebase of YaCy, maybe as a new feature called \‘Automatic port assignment for the Private Internet Access VPN-Provider.

I just made an entry at the bugtracker, too: http://mantis.tokeek.de/view.php?id=652


Greetings from germany

Steve

Statistik: Verfasst von LA_FORGE — Mo Apr 18, 2016 10:16 am


YaCy Coding & Architecture • Re: Help with a Procedure

Date: 2016-04-19 22:20:43

Additonal info: The Port change in YaCy has only to be done every time the IP on the VPN interface changes (eg. after a reconnect)

Statistik: Verfasst von LA_FORGE — Di Apr 19, 2016 9:20 pm


YaCy Coding & Architecture • Re: Help with a Procedure

Date: 2016-04-20 01:56:15

LA\_FORGE hat geschrieben:\ if someone can contribute such a feature to the Codebase of YaCy,\



Hi,
basically, with the api interface it\’s already there, e.g. change the port manually and look in api table (System Admin) what URL to call, or just add
e.g.
rundll32 url.dll,FileProtocolHandler \“http://localhost:8090//ConfigBasic.html?&set=Konfiguration&port=9090" to your script to change from 8090 to port 9090

Greetings.

Statistik: Verfasst von reger — Mi Apr 20, 2016 12:56 am


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-22 17:18:29

Hallo,

ich habe uns nun als Aussteller angemeldet. Der Einlass für Helfer wird über Freitickets geregelt. Ich schicke euch den Freiticket-Code per PN.
Wir haben 20 Freitickets. Sobald alle Helfer ihren Code genutzt haben -und auch ihren Freunden den Code gegeben haben- poste ich den Freiticket-Code für alle, so dass wir alle Freitickets gut nutzen können.

Statistik: Verfasst von Orbiter — Fr Apr 22, 2016 4:18 pm


Hilfe für Einsteiger und Anwender • Re: Heuristik von OpenSearchSystemen

Date: 2016-04-22 18:08:13

du musst dazu die OpenSearch URL kennen, die kannst du auch ansonsten im Browser testweise laden, das sieht dann wie RSS aus. Wenn du die URL hast, kannst du sie als externe Such-URL eintragen

Statistik: Verfasst von Orbiter — Fr Apr 22, 2016 5:08 pm


Suchmaschinen • Re: WebGraph in a blockchain

Date: 2016-04-22 18:12:07

this article lacks technical insights with details of an algorithm on how to do that. Instead, it is filled with pseudo \‘look at the similarities\’ which are no similarities. Plus: business graphics and an complete \‘AAL\’ (german: andere arbeiten lassen - let other people work on it) attitude.

Statistik: Verfasst von Orbiter — Fr Apr 22, 2016 5:12 pm


Fragen und Antworten • Re: Ignore Tags

Date: 2016-04-22 18:13:18

ja so ein feature habe ich mal mit der Uni Basel diskutiert. Das macht Sinn, aber es fehlt ein Standard um so etwas zu beschreiben. Gibts einen den ich übersehen habe?

Statistik: Verfasst von Orbiter — Fr Apr 22, 2016 5:13 pm


YaCy Coding & Architecture • Re: Help with a Procedure

Date: 2016-04-23 07:59:38

reger hat geschrieben:\ >
> > LA\_FORGE hat geschrieben: if someone can contribute such a feature > to the Codebase of YaCy,\ > >



Hi,
basically, with the api interface it\’s already there, e.g. change the port manually and look in api table (System Admin) what URL to call, or just add
e.g.
rundll32 url.dll,FileProtocolHandler \“http://localhost:8090//ConfigBasic.html?&set=Konfiguration&port=9090" to your script to change from 8090 to port 9090

Greetings.



Great! Thank you very much!

Statistik: Verfasst von LA_FORGE — Sa Apr 23, 2016 6:59 am


YaCy Coding & Architecture • Postprocessing: Looking for the code

Date: 2016-04-23 11:33:16

Hi,

i\’m searching for the java code behind

Code:
Postprocessing Progress  busy:postprocessed 219800 from 100556956 collection documents; 4 ppm; 21380799 minutes remaining



What\’s the name of the associated java class?


Greetings

LA_FORGE

Statistik: Verfasst von LA_FORGE — Sa Apr 23, 2016 10:33 am


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-24 11:19:06

Wir haben nun auch einen Stand-Announcement für OTS auf meetup:

http://www.meetup.com/de-DE/OpenXLab/ev ... =230593089{.postlink}

Da steht auch schon der Promo-Code für die Freitickets drin, also alle bitte schnell euere Tickets schnappen!

Statistik: Verfasst von Orbiter — So Apr 24, 2016 10:19 am


Hilfe für Einsteiger und Anwender • Yacy behauptet nach Absturz 8090 sei nicht offen

Date: 2016-04-24 22:47:48

Hallo Freunde der Sonne,

nachdem mir mein Rechner abgeschmiert ist, soll mein port 8090 nicht mehr offen sein, ein \“online-port-checker\” bezeugt allerdings das Gegenteil.
Normalerweise ließ sich das nur durch eine Neuninstallation beheben. Gibt es eine \“einfachere\” Methode? Würde mich sehr freuen.

Mit freundlichem Gruß

94bb494nd41f

Statistik: Verfasst von 94bb494nd41f — So Apr 24, 2016 9:47 pm


Hilfe für Einsteiger und Anwender • Trotz freien Speicherplatz indixiert es nicht

Date: 2016-04-25 10:05:17

Hallo zusammen

Der Yacypeer behauptet das der Schpeicherplatz voll ist obwohl es noch genug Speicherplatz vorhanden ist.

Weiss einer von euch an was das liegen könnte?

Liebe Grüsse

Arian

Hier noch die Meldungen

Es steht weniger als 50 MB Arbeitsspeicher zur Verfügung. DHT Empfang wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.
schlecht
Crawling wurde pausiert! Wenn das Crawling automatisch pausiert wurde, prüfen Sie bitte Ihrer Festplattenspeicher.

Dann noch die Anzeige wegem Speicherplatz

Speicherverbrauch
RAM benutzt:1,45 GB
RAM maximal:1,78 GB
DISK benutzt:(etwa) 57,76 GB
DISK frei:212,58 GB

Weiss einer von euch wie man das fixen kann?

Danke

Liebe Grüsse

Bostan

Statistik: Verfasst von Bostan — Mo Apr 25, 2016 9:05 am


Fragen und Antworten • Re: Ignore Tags

Date: 2016-04-25 12:46:16

Standard leider nicht, eher mehrere uneinheitliche Lösungen:

https://en.wikipedia.org/wiki/Noindex#Noindexing_part_of_a_page

Statistik: Verfasst von Low012 — Mo Apr 25, 2016 11:46 am


Hilfe für Einsteiger und Anwender • Re: Trotz freien Speicherplatz indixiert es nicht

Date: 2016-04-25 19:52:45

Hallo Arian,

ich denke, an der Stelle funktioniert YaCy ganz gut und es ist nichts zu fixen :-)

Am einfachsten wird es sein YaCy mehr Arbeitsspeicher zu gönnen. (/Performance_p.html)

Das Verhältniss von maximalen- zu benutztem Speicher ist schon klein genug um das Wachsen des Indexes einzustellen - für die Menge an Speicher.

Die Meldung dazu ist leider etwas irreführend: die Messungen zum verwendeten Speicher sind stark Zeitabhängig und werden nicht immer gleich präzise durchgeführt um schneller zu arbeite. Auch wenn Du die Generation Memory Strategy eingeschaltet hast (/PerformanceMemory_p.html) ist der angegebene Minimalwert nicht mehr von belang und es wird abhängig von deiner von der jvm gegebenen Speicherkonfiguration das crawlen eingestelt.

Alternativ zum erhöhen des Speichers kannst Du dich von Teilen Deines Index trennen (/IndexDeletion_p.html).

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Apr 25, 2016 6:52 pm


Hilfe für Einsteiger und Anwender • Re: Yacy behauptet nach Absturz 8090 sei nicht offen

Date: 2016-04-25 19:58:53

Hallo 94bb494nd41f,

wenn dein YaCy abgestürzt ist - ist der java-Prozess dann auch wirklich weg bevor du den nächsten Versuch startest?
Ist Dein YaCy nach dem Start den lokal über 8090 zu erreichen?
Ist im router ein Portforwarding noch aktiv?

Am besten Näherst Du dich dem Problem vom lokalen YaCy aus schrittweise in die weite Welt.
Ohne die Zwischenschritte kann man nur raten.

Interessanter finde ich die Frage warum Dein YaCy abstürzt? Kannst Du dazu Logfiles liefern?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Apr 25, 2016 6:58 pm


Hilfe für Einsteiger und Anwender • Re: Trotz freien Speicherplatz indixiert es nicht

Date: 2016-04-25 21:35:14

Nur hat doch Yacy im Moment 212 gb frei oder verstehe ich etwas falsch?

sixcooler hat geschrieben:\ Hallo Arian,\ \ ich denke, an der Stelle funktioniert YaCy ganz gut und es ist nichts zu fixen ![:-)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\ \ Am einfachsten wird es sein YaCy mehr Arbeitsspeicher zu gönnen. (/Performance\_p.html)\ \ Das Verhältniss von maximalen- zu benutztem Speicher ist schon klein genug um das Wachsen des Indexes einzustellen - für die Menge an Speicher.\ \ Die Meldung dazu ist leider etwas irreführend: die Messungen zum verwendeten Speicher sind stark Zeitabhängig und werden nicht immer gleich präzise durchgeführt um schneller zu arbeite. Auch wenn Du die Generation Memory Strategy eingeschaltet hast (/PerformanceMemory\_p.html) ist der angegebene Minimalwert nicht mehr von belang und es wird abhängig von deiner von der jvm gegebenen Speicherkonfiguration das crawlen eingestelt.\ \ Alternativ zum erhöhen des Speichers kannst Du dich von Teilen Deines Index trennen (/IndexDeletion\_p.html).\ \ Cu, sixcooler.\

Statistik: Verfasst von Bostan — Mo Apr 25, 2016 8:35 pm


Hilfe für Einsteiger und Anwender • Re: Trotz freien Speicherplatz indixiert es nicht

Date: 2016-04-25 23:43:57

Es geht um den für die JVM reservierter (Arbeits-)Speicher aka RAM: /Performance_p.html

Statistik: Verfasst von sixcooler — Mo Apr 25, 2016 10:43 pm


Hilfe für Einsteiger und Anwender • Re: Trotz freien Speicherplatz indixiert es nicht

Date: 2016-04-26 00:53:57

sixcooler hat geschrieben:\ Es geht um den für die JVM reservierter (Arbeits-)Speicher aka RAM: /Performance\_p.html\



Für die JVM sind 2048 MByte reserviert also deutlich mehr als voll ist oder sehe ich was falsch?

Statistik: Verfasst von Bostan — Mo Apr 25, 2016 11:53 pm


YaCy Coding & Architecture • Re: Postprocessing: Looking for the code

Date: 2016-04-26 08:57:19

Hi, as this message is displayed in /Crawler_p.html page, you can easily find the java class behind, it is Crawler_p.java (https://github.com/yacy/yacy_search_ser ... ler_p.java{.postlink}).
But I guess you are looking for how is \“postprocessing_status\” (https://github.com/yacy/yacy_search_ser ... .html#L147{.postlink}) filled...
And you will see it is not directly feed by Crawler_p.java, but rather by JavaScript Crawler.js (https://github.com/yacy/yacy_search_ser ... er.js#L110{.postlink}), which itself got it from /api/status_p.xml (https://github.com/yacy/yacy_search_ser ... _p.xml#L83{.postlink}), which itself is fed by status_p.java class (https://github.com/yacy/yacy_search_ser ... .java#L155{.postlink}) :)

Statistik: Verfasst von luc — Di Apr 26, 2016 7:57 am


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-04-27 09:29:49

Hallo
in meinem Bekanntenkreis besitzt jemand einen Beamer, den ich vllt ausleihen könnte. Hätten wir auf dem Open Tech Summit Bedarf dafür? Wenn ja, würde ich mich darum kümmern.

Viele Grüße
lux

Statistik: Verfasst von lux — Mi Apr 27, 2016 8:29 am


Mitmachen • Re: YaCy funding and development policy

Date: 2016-04-29 10:45:32

Hi, I was recently reading about foundations supporting free software projects. I found some ones which I think are matching YaCy goals, and are calling for funding application with a deadline coming soon :
- NLnet Foundation : https://nlnet.nl/news/2016/20160601-call-en.html
- Internet Freedom Fund : https://www.opentech.fund/requests/inte ... eedom-fund{.postlink}

I am considering applying to support full time developer work on YaCy for one or a few people. The main roadmap could be something like :
- stemming of search queries : current one is quite basic
- performances : better control over disk and CPU use
- image and media search : improve results relevance
- mobile terminal use : current web interface should be improved for better compatibility
- accessibility : administrative web interface would benefit from code review and testing with accessibility tools
- easier ranking control : it must easier for users to customize ranking algorithm
- deployment for end users or for web portal administrators : more deployment options (desktop, cloud containers...) and more detailed procedures for admins are needed
- integration of existing external indexes : extend existing options(wikis, OAI-PMH, phpbbb forums) to other relevant formats
- detailed code review with security in mind : to target a larger audience, security can not be ignored
- modularization : it could be beneficial to split the monolithic project into well defined independent modules, eventually exchangeable
- documentation : protocol, API and end-user documentation has evolved slower than code
- peer implementation with WebRTC : an alternative peer implementation running purely in browser would lower entry barrier for newcomers

Any suggestion? Do you think it is a good idea?

Statistik: Verfasst von luc — Fr Apr 29, 2016 9:45 am


Fragen und Antworten • Re: Ignore Tags

Date: 2016-05-01 11:36:58

Dieses Feature ist für eine gute Qualität des Suchergebnisses insbesondere für eine integriere Webseitensuche, sehr wichtig.

Ich hab mal ein Ticket gemacht:

https://github.com/yacy/yacy_search_server/issues/49

Statistik: Verfasst von Eike — So Mai 01, 2016 10:36 am


Fragen und Antworten • Zensurfrontend

Date: 2016-05-01 17:09:18

Wäre es möglich ein zweites Frontent zu bekommen, das mit Hilfe eine entsprechenden Zusatz Zensur-Datenbank Suchergebnisse zensiert nach dem was in der Datenbank hinterlegt ist anzuzeigen?

Statistik: Verfasst von Micki — So Mai 01, 2016 4:09 pm


Hilfe für Einsteiger und Anwender • WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-01 17:14:22

Mir ist aufgefallen unter Win2012 und 6 Kerne geht die CPU Last des Yacy Prozess mal locker auf bis zu 100%. Arbeitsspeicher ist nicht das Problem da sind noch paar GB da. Jemand ne Idee woher die Last kommt. Ich habe auf Robison umgestellt, da geht das bei weitem nicht so extrem rauf. Java ist aktuell 32 Bit.

Statistik: Verfasst von Micki — So Mai 01, 2016 4:14 pm


Fragen und Antworten • Re: Zensurfrontend

Date: 2016-05-01 19:42:12

Hallo Micki,

wir sind ja hier mit der Motivation, des Freien Wissenszugangs unterwegs - Zensur passt da wenig hinein.
Leider verstehe ich nicht wirklich was ein solches 2. Frontend tun sollte - geht es um die Filterung des Indexes?
In der Blacklist Verwaltung (/Blacklist_p.html) kann man filtern was in den Index gelangt.
In der Indexlöschung (/IndexDeletion_p.html) lässt sich bereits vorhandenes aus dem Index entfernen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mai 01, 2016 6:42 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-01 19:46:07

Hallo Micki,

unter \‘Thread Dump\’ (/Threaddump_p.html) kann man sich Mehrfach Dumpstatistiken erstellen lassen wenn man einen solchen Fall hat wo die Last hoch ist, und man herausbekommen möchte was YaCy so beschäftigt.

Mit hIlfe der Statistik können wir sicher weiter helfen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Mai 01, 2016 6:46 pm


Fragen und Antworten • Re: Zensurfrontend

Date: 2016-05-02 08:52:37

Es geht darum evtl. wie andere Suchmaschinen auch auf einer Website zur Suche frei zu geben. Dazu muß man sich aber in Deutschland an gewisse Spielregeln halten.
Unter anderem eben nur für das was man anzeigt leider Zensur zu üben. Ich weiß dass ist nicht Yacy - Idee. Daher meine Idee im Index und für Peers hält man das \“volle Programm\” weiter vor aber bei dem was die Website anzeigt ist man brav Gesetzeskonform. Ich hoffe die Ausführungen machen mein Anliegen etwas verständlicher.

Statistik: Verfasst von Micki — Mo Mai 02, 2016 7:52 am


Fragen und Antworten • Re: Zensurfrontend

Date: 2016-05-02 21:30:18

Hallo Micki,

geht es im sowas wie Leistungsschutzrecht oder Linkhaftung?

Ich mag etwas blauäugig daran gehen, sah aber bisher noch keinen Handlungsbedarf.
Aber ich filtere mit den oben genannten möglichkeiten meinen Index schon stark - schon um die Volumen handhabbar zu halten.
Die Filter geben viele Peers frei - so kann man sich seine Filter zusammensuchen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 02, 2016 8:30 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-03 08:24:56

Micki hat geschrieben:\ Java ist aktuell 32 Bit.\



Da helfen dann auch die paar GB Arbeitsspeicher nicht. 64 Bit wäre vielleicht besser, so ist Yacy wahrscheinlich ständig damit beschäftigt, den Speicher sauber zu halten.

Statistik: Verfasst von PCA42 — Di Mai 03, 2016 7:24 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-05 10:29:22

Wenn ich Java 64 Bit installiere welche Version?
Gibt es eine Anleitung was evtl. an Yacy angepasst werden muss?

Statistik: Verfasst von Micki — Do Mai 05, 2016 9:29 am


Fragen und Antworten • Re: Zensurfrontend

Date: 2016-05-05 13:03:10

Hallo sixcooler,
es geht um so was wie:
Jugendschutz, Persönlichkeitsrechte, illegale Inhalte. Leider hat der EuGH hier einiges gegen Suchmaschinen entschieden.

Gruß
Micki

Statistik: Verfasst von Micki — Do Mai 05, 2016 12:03 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-05-09 10:29:41

Vielen Dank nochmal an alle die wieder geholfen haben!

Wir haben es (ein bisschen) in die RBB Abendschau geschafft: https://twitter.com/yacy_search/status/ ... 4550459392{.postlink} :D :D :D

Statistik: Verfasst von Orbiter — Mo Mai 09, 2016 9:29 am


Fragen und Antworten • Yacy automatic web crawling

Date: 2016-05-09 14:35:05

Hi all,

I have learned German in the past, but I will continue in English sorry for that !
At first, let me say that I discovered Yacy a very short time ago, and I can say, it looks very powerfull :P . Furthermore, the windows installation is very easy and it is available in several languages which is quite impressive ! Some pages of the website are translated in French, some video tutorials exist in english, that is good too. Sadly I can\’t find any French Yacy community :\|. I have found some old articles from 2011 but it seems that Yacy has been strongly improved since this time.

I have red a little the documentation and have watched the tutorial videos. But I have not undestood well the default behaviours of a fresh install (after the basic configuration done) :
:arrow: Does Yacy nodes crawl permanently and automatically all the world wide web, or should I manualy define the websites which should be crawled on my computer ?

In my understanding, by default, Yacy don\’t index anythink until you configure some websites or sources to be crawled.
If that is true, I think it could be very interesting to develop a feature which allows all nodes to crawl automaticaly all the web, following some basic rules on which pages should be crawled in priority (frequently updated pages, banned or priority topics definedb y default or by node owners, etc..) and introducing may be some coordination between nodes (don\’t crawl again a page which has just been crawled by an other node).

I understand that this feature could require some new developments :geek: , but I imagine the power of this kind of system: very quickly, much more pages would be indexed by Yacy and we could expect to do not use any proprietary search indexer anymore :P and invite our non geeg friends and family to use and install Yacy (themselve indexing the web without configuring anything)!

Thank you if you can answer me, and sorry if I have not well understood the functionality of Yacy and how it should be used :roll: .
Let discuss of this feature on this topic if you are interested :!:

Regards,
Ainslie

Statistik: Verfasst von ainslied — Mo Mai 09, 2016 1:35 pm


Fragen und Antworten • Suchergebnisse bewerten

Date: 2016-05-09 18:00:47

Hi,

gibt es die Möglichkeit Suchergebnisse zu bewerten?
Ich sehe es gibt einen Recommend-Link, aber beeinflusst der das lokale Suchergebnis?

Was ich gerne möchte ist folgendes:

Yacy indexiert eine Seite und ist auf dieser als Suchlösung integriert. Jetzt möchte ich dem User die Möglichkeit geben, bestimmte Ergebnisse aufzuwerten, so das sie in der Ergebnisliste nach oben wandern (bei der nächsten Suche mit dem gleichen Suchbegriff).

Ab besten wäre natürlich das sich Klicks gemerkt werden. Sprich Ergebnis A wurde 10% öfter angeklickt als Ergebnis B, also wandert A nach oben.

Ist das möglich (mit recommend)?

Bis denne, Eike

Statistik: Verfasst von Eike — Mo Mai 09, 2016 5:00 pm


Wunschliste • Nicht indexieren von Teilen einer Webseite

Date: 2016-05-09 18:04:43

Hatte ich schon mal hier gepostet:
viewtopic.php?f=5&t=5795&p=32844#p32844{.postlink-local}

Passt aber wohl besser zur Wunschliste ;-)

Gibt auch ein Ticket dazu:

https://github.com/yacy/yacy_search_server/issues/49

Bis denne, Eike

Statistik: Verfasst von Eike — Mo Mai 09, 2016 5:04 pm


Fragen und Antworten • Re: Suchergebnisse bewerten

Date: 2016-05-09 21:50:46

Hallo Eike,

ja son Feature gab es mal, finde es aber nicht mehr...
\@all: weiss noch wer was aus diesem Bewerten-Feature geworden ist?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 09, 2016 8:50 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-05-09 21:59:24

Super - wie hast Du diese Sekunde gefunden?
Sagtest Du nicht auch etwas von den Talks die als Video irgendwo zu finden seien - hast Du da Links?

Statistik: Verfasst von sixcooler — Mo Mai 09, 2016 8:59 pm


Fragen und Antworten • Re: Yacy automatic web crawling

Date: 2016-05-09 22:50:42

Hi Ainslie,

you\’re right, from a fresh install YaCy crawls nothing until you start a crawl by giving a startpoint.
But your gets Index-Data from other peers and this is already very helpful, resolving a search-request.

I don\’t understand what you mean by the basic rules to crawl per default.
If you don\’t limit the crawler to the start domain, and give a high crawling depth you will get more than we are able to handle very soon :-)

You can also help others that distribute their crawl-jobs, by enabling remote-crawling (/RemoteCrawl_p.html).
Once You got Index-Data, there are also old pages in the index, these may need to be recrawled (/IndexReIndexMonitor_p.html).

For me it is best that all the users start crawling pages of their interest, to get a well blended index.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Mai 09, 2016 9:50 pm


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-05-10 10:04:05

Hier gibt es Videos:

https://www.youtube.com/playlist?list=PL3bvPCw5QCLJGq0IS2DBKry-mP2dTMXQD

Statistik: Verfasst von Low012 — Di Mai 10, 2016 9:04 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-10 10:17:35

Das aktuelle Java (z.Z. Java 8, Update 91) gibt es hier: http://www.java.com/de/download/manual.jsp (Windows Offline (64-Bit)).

Wenn du nicht für irgendwas genau die bisher installierte Java-Version benötigst, deinstallier die am besten zuerst komplett. Sobald du die 64-Bit-Version installiert hast, kannst du YaCy in der Oberfläche mehr als 4GB RAM zuweisen, die dann auch benuzt werden. Die Einstellung dazu findest du auf http://localhost:8090/Performance_p.html. Meinem Peer habe ich 8GB zugewiesen und der hat eine halbwegs große Datenbank:

Bild

Statistik: Verfasst von Low012 — Di Mai 10, 2016 9:17 am


Fragen und Antworten • Re: Suchergebnisse bewerten

Date: 2016-05-10 12:03:29

Ich glaube, es gab da zwar mal die Möglichkeit, Buttons zu drücken, wenn ich mich richtig erinnere, wurden die aber nie ausgewertet.

Statistik: Verfasst von Low012 — Di Mai 10, 2016 11:03 am


Hilfe für Einsteiger und Anwender • Yacy startet nicht

Date: 2016-05-11 12:16:04

Hallo,

Yacy runter geladen, installiert, Port freigegeben, Rechner neu gestartet. Yacy startet einfach nicht.

Sollte es unter Dienste auftauchen?
Sollte ein Icon im Systray erscheinen?

Infos:
OS: Windows 10
YacyDebug: Keine Anzeige (Cmd-Fenster ist kurz zu sehen)
Logfile etc: Finde ich nicht (Pfad?)
Java: 1.8.0_91

Statistik: Verfasst von TinyTina — Mi Mai 11, 2016 11:16 am


Mitmachen • Re: OpenTechSummit 5. Mai in Berlin - mit YaCy?

Date: 2016-05-11 17:23:09

Ich hab das Video von mir re-mixed (Lautstärke angehoben, Schnitt) und hier gepostet, in 2 Teilen:

iframe

iframe

Im Prinzip erzähle ich dort, das wir mal besser auch auf Social Media gucken sollten, weil da momentan die Musik spielt.
Zu einem zukünftigen YaCy gibts ja dieses kaskelix.de Konzept. Dort könnte man in einem Aggregationsteil die Social Media Sachen rein nehmen, für das ich momentan an loklak arbeite. Ist also noch ein weiter Weg.

Statistik: Verfasst von Orbiter — Mi Mai 11, 2016 4:23 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2016-05-11 21:02:05

Hallo TinyTina,

leider habe ich keine Ahnung von Windowsen - ich gehe mal davon aus Du hast den Windows-Installer genutzt?
(keine Ahnung ob der auch mit Windows 10 tut)

Bis ein Windows-Auskenner sich hier meldet kannst Du ja mal das Installationsverzeichniss und darin den Pfad DATA\LOG suchen - dort sind die Logfiles.

Alternativ kannst Du auch das tar.gz-Paket nehmen und entpacken - darin ist ein \“installYaCyWindowsService.bat\” zum einrichten des Dienstes (der hoffentlich auch unter windows 10 tut).

Startete YaCy vor dem Neustart?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Mai 11, 2016 8:02 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2016-05-12 08:29:32

Danke für die schnelle Antwort.

Ich habe den Windows-Installer benutzt, Version 1.82.
Im Installationsverzeichnis habe ich keine Dateien gefunden, die für mich nach Logfiles aussehen. Den Pfad Data\Log gibt es bei mir nicht.
Die Datei installYaCyWindowsService.bat habe ich auch schon ausgeführt.
Yacy hat auf meinem System noch nie funktioniert. Neuinstallation wurde auch schon durchgeführt.

Statistik: Verfasst von TinyTina — Do Mai 12, 2016 7:29 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nicht

Date: 2016-05-12 21:26:35

Hallo TinyTina,

und wenn du das tar.gz-Paket herunterlädst, entpackst und dort erst mal die stopYACY.bat zum starten ausprobierst - geht es dann?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 12, 2016 8:26 pm


Hilfe für Einsteiger und Anwender • Community search

Date: 2016-05-13 10:36:13

Hi everyone, I am requesting you some advice or ideas for setting up YaCy in the following scenario (sorry to post in English) :

Let suppose I have some software hosted on GitHub or a blog hosted on a blogging platform or any web content on a central repository. I am bored with that and I want to self-host my content or at least choose my hosting organization.
So I may choose to run my own instances of GitLab and WordPress for example. I will be able to set-up a YaCy node in webportal mode and index my own content. Ok, great! Everything looks fine : visitors will be able to search my content, and I will contribute to the YaCy freeworld network.

But I still want visitors to be able to search my content among a larger community, as it was possible on the original platform. To my mind it looks like this part is not so obvious...
So how would you proceed and on which YaCy configuration options would you rely? Do you know examples of such communities or maybe the extra tools required?

Statistik: Verfasst von luc — Fr Mai 13, 2016 9:36 am


Hilfe für Einsteiger und Anwender • Problem accessing /IndexCreateQueues_p.html

Date: 2016-05-14 06:27:56

Kann mir wer sagen welchen Parameter ich da modifizieren muss um die Queue anzeigen zu können?

Bekomme folgende Fehlermeldung:
HTTP ERROR 500

Problem accessing /IndexCreateQueues_p.html. Reason:

Server Error

Caused by:

javax.servlet.ServletException: F:\YaCy\htroot\IndexCreateQueues_p.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:831)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:800)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:497)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:313)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:626)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:546)
at java.lang.Thread.run(Unknown Source)

Statistik: Verfasst von Micki — Sa Mai 14, 2016 5:27 am


YaCy Coding & Architecture • Automated YaCy Docker image

Date: 2016-05-14 10:18:30

Hi, I made last days some experiments using docker to deploy YaCy. I found it quite interesting as an alternative to full virtual machines : it offers complete isolation but is lightweight and image building can be easily shared and automated.
Don\’t you think it would be interesting to include a Dockerfile in main yacy git repository? It would allow a docker image up-to-date with latest commits to be automatically generated, on Docker Hub or on another Docker repository.
There were already 3 existing yacy docker files on Docker Hub, but they reference older YaCy versions or are not targetting automated build from latest sources.

I propose you a version based on Debian here : https://github.com/luccioman/yacy_searc ... ker/docker{.postlink}.
And the automated docker image : https://hub.docker.com/r/luccioman/yacy/

Statistik: Verfasst von luc — Sa Mai 14, 2016 9:18 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-15 14:09:20

Hallo Low012,
danke für die Informationen.Also die mehr als 4 GB gehen schon physikalisch derzeit noch nicht!
Sag mal wie lang dauert denn bei Dir ein kompletter Neustart von Yacy?

Statistik: Verfasst von Micki — So Mai 15, 2016 1:09 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-05-16 15:56:27

Thats very interesting. It reminds me on latest activities at the YaCy sister-project loklak, which has now one-click deploy buttons for Heroku, Scalingo, Bluemix and the Docker Cloud:
https://github.com/loklak/loklak_server ... ick-deploy{.postlink}

It would be amazing to analyze if similar things are possible for YaCy. Can you try to copy the one-click button deploy schema of loklak for YaCy?

Statistik: Verfasst von Orbiter — Mo Mai 16, 2016 2:56 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-17 09:16:38

Ab dem Start des Start-Skript bis YaCy im Browser aufgerufen werden kann, vergeht bei mir ziemlich genau eine Minute.

Statistik: Verfasst von Low012 — Di Mai 17, 2016 8:16 am


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-05-17 10:09:45

Yes that\’s great you set this up on loklak.
I will try it on YaCy as soon as I can.

Statistik: Verfasst von luc — Di Mai 17, 2016 9:09 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-17 11:02:41

Low012 hat geschrieben:\ Ab dem Start des Start-Skript bis YaCy im Browser aufgerufen werden kann, vergeht bei mir ziemlich genau eine Minute.\


Ok das ist performant! Also ich kann da zwischendrinn zwischen start yacy und das der Browser auf geht locker 2x Kaffee trinken gehen.

Statistik: Verfasst von Micki — Di Mai 17, 2016 10:02 am


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-05-17 22:28:11

Currently the one-click deploy to docker cloud appears to be broken : the links works but then it opens an empty stack. However the link on loklak readme seems to follow documentation recommendation (https://docs.docker.com/docker-cloud/ap ... cloud-btn/{.postlink})...
By the way I pushed a docker cloud stack for yacy (https://github.com/luccioman/yacy_searc ... -cloud.yml{.postlink}) which I successfully used to deploy a YaCy node on Docker Cloud.
I also added the button on my yacy docker readme, hoping this button should soon work.

Statistik: Verfasst von luc — Di Mai 17, 2016 9:28 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-18 09:34:03

Der Rechner, auf dem meine Installation läuft, sieht so aus:

CPU: Intel i7-4770
RAM: 32GB (8GB für YaCy)
HDD: 2x 2TB an SATAIII 7200RPM als RAID1, laut Werbung des Hosters \“Enterprise-Klasse\”
OS: Debian 8.4 (Jessie) 64bit
Java: OpenJDK 8, 64bit

Ich denke mal, dass die Festplatten wirklich eine ganz gute Leistung bringen, ich habe allerdings nie Benchmarks durchgeführt. Der Server ist nicht schlecht, ist jetzt allerdings auch schon ein paar Jahre alt und ist damals bei den Root-Servern das günstigste Angebot des Hosters gewesen.

Statistik: Verfasst von Low012 — Mi Mai 18, 2016 8:34 am


Suchmaschinen • Die Nachrichten-Suchmaschinen

Date: 2016-05-18 11:57:27

Durchsuchbarkeit von mehreren Hunderten oder gar Tausenden Nachrichtenquellen des Internets stehen zur Verfügung und bieten eine hohe Auffindbarkeitsquote von nahezu jeder Neuigkeit. Im Speziellen kann der Benutzer ausschließlich nach lokalen Nachrichten aus einer bestimmten Stadt oder Region suchen lassen, oder die Ergebnisse nach Themen sortiert ausgeben zu lassen. Analog zu den News aus Deutschland kann in den weltweiten Internet-Quellen nach aktuellen Nachrichten und Meldungen nachgeforscht werden.

Statistik: Verfasst von livia — Mi Mai 18, 2016 10:57 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-05-18 13:08:39

Da muss ich mal aufrüsten!

Statistik: Verfasst von Micki — Mi Mai 18, 2016 12:08 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 16:45:38

did you already find out how to get more results?

Statistik: Verfasst von chris92 — Mi Mai 18, 2016 3:45 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 16:54:16

I found out that the API is nonfunctional, as well as the whole ranking algorithm. These are pragmatic facts I already wrote about, and you can find confirmations via google.

Moreover, what is instead my opinion, is that the project leadership is roaming toward messy random goals rather than a defined roadmap. What results is that, after 10 years of development, Yacy still suffers major design defects and is, in fact, entirely broken, as you may google for.

Statistik: Verfasst von davide — Mi Mai 18, 2016 3:54 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 17:55:23

ok thank you for pointing that out, I will think about this.

nevertheless, if anyone is reading this and is still interested in the answer to the question - I figured out how to get more results.

There is a parameter called \“startRecord\“. At first you set it to 0. If you got 20 results you set it to 20, got another 20 --> set it to 40 and so on.

Statistik: Verfasst von chris92 — Mi Mai 18, 2016 4:55 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 18:04:16

Have a lot of fun.

Statistik: Verfasst von davide — Mi Mai 18, 2016 5:04 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 18:12:25

Hi, I just tried this API call with a YaCy node deployed from latest sources and you now effectively have more than 20 results as desired.

Davide, this project has maybe not became as active as we could expect since your initial report, but at least some bugs are fixed ... so your reporting is not as useless as you might think ;)

Statistik: Verfasst von luc — Mi Mai 18, 2016 5:12 pm


English • Re: Only get 20 results from API

Date: 2016-05-18 18:28:52

I also got more than 20. But always in chunks of 20 per request.
And I just tried to get many results and noticed it always stops after the first 200. Even if there should come about 1000-3000.

Statistik: Verfasst von chris92 — Mi Mai 18, 2016 5:28 pm


English • Re: Only get 20 results from API

Date: 2016-05-19 09:37:38

There was a fix for chunks size in January : https://github.com/yacy/yacy_search_ser ... a7dc1973f5{.postlink}.
So if you run a yacy version upper than v1.839654 you should be able to have up to 100 results per request. I am running a yacy 1.839816 and it works.
You can even theorically have up to 1000 results per request if you set the \“Snippet Fetch Strategy\” (in http://localhost:8090/ConfigPortal.html) to \“CACHEONLY\” or \“FALSE\“.

But you are right that getting last results is still not currently working. With my node it always ends at (page size x 10) or at a few hundreds when maximumRecords is set to 1000 with CECHEONLY strategy.

So effectively this can give some fun work for a goodwill one who would like to fix it one and for all!

Statistik: Verfasst von luc — Do Mai 19, 2016 8:37 am


Fragen und Antworten • Crawls importieren

Date: 2016-05-19 10:48:01

Gibt es eine Möglichkeit Crawlaufträge zu Importieren?
Ich stelle mir das so Vor, man hat eine Liste mit x tausend Domains die man crawlen will.
das mann angibt nimm die und die Einstellungen und mach aus jeweils z. B. x Domains (Vorschlag 6-8) einen Crawlauftrag. Gut ich weiß je nach Ausgangsliste können das eine Menge werden.

Statistik: Verfasst von Micki — Do Mai 19, 2016 9:48 am


Suchmaschinen • Re: Die Nachrichten-Suchmaschinen

Date: 2016-05-20 08:14:49

Quelle: http://www.news-on-web.de/nachrichten-s ... hinen.html{.postlink}

Spam-Account?

Statistik: Verfasst von Low012 — Fr Mai 20, 2016 7:14 am


English • YaCy heuristics : extend with RSS-Bridge

Date: 2016-05-20 12:15:42

Hi, maybe you know YaCy Heuristics feature (/ConfigHeuristics_p.html) : it allows you to feed YaCy search results from external websites supporting OpenSearch{.postlink}.
This feature looks interesting but if you tried to play with it you may have soon realized it has quite a limited use : YaCy only support OpenSearch results in RSS or Atom feed formats but most websites offering OpenSearch only return results in HTML.

Example from Twitter opensearch.xml{.postlink} :

Code:
<Url type="text/html" method="get" template="https://twitter.com/search?q={searchTerms}"/>



Unfortunately, OpenSearch results in HTML are not standardized, so if you want a program to be able to use it, you have to write a custom parser for each website. So gentle websites should also provide OpenSearch results in RSS or Atom if they want visitors to easily plug any program they want on their results (WordPress.com is a good example. See their OpenSearch description{.postlink})... But that not the case for many wesites I checked.

Here come to rescue a project like RSS-Bridge{.postlink}. Volunteers contributors are providing mappings from web APIs to RSS or Atom feeds. All you need is to install a PHP enabled web server and launch your RSS-Bridge instance.

So with YaCy, resumed architecture will be : user search -> YaCy server (heuristics enabled) -> RSS-Bridge -> External website

Here are the required setup steps :
1. Install a web server supporting PHP : for example Apache with the PHP module enabled
2. Get latest sources from https://github.com/sebsauvage/rss-bridge
3. Extract it to a suitable directory : for example /var/www/html for a Debian Apache
4. Eventually set needed permissions : for example chown www-data ... for a Debian Apache
5. Check rss-bridge is working at http://your_host/rss-bridge/, and verify search is working for the bridge you are interested in
6. Eventually modify rss-bridge/whitelist.txt file to enable a specific bridge
7. Go to your YaCy /ConfigHeuristics_p.html page : tick \“opensearch load external search result list from active systems below\” checkbox
8. Add one or more bridge URLs : any title and comment you wish, and URL copied from a rss-bridge search result. Example (searching yacy on Twitter Bridge) :

Code:
http://your_host/rss-bridge/?action=display&bridge=TwitterBridge&q=yacy&format=AtomFormat

.
9. Important : replace your search term with {searchTerms} to make a valid OpenSearch URL or it won\’t work. Example :

Code:
http://your_host/rss-bridge/?action=display&bridge=TwitterBridge&q={searchTerms}&format=AtomFormat


10. That\’s it! Now heuristics results from the bridge may appear in your 20 first YaCy search results (with H favicon left from some search result entries).

Statistik: Verfasst von luc — Fr Mai 20, 2016 11:15 am


Hilfe für Einsteiger und Anwender • Spezialpeers

Date: 2016-05-21 09:56:28

Ich habe gelesen es gibt die Möglichkeit mit Spezialpeers zu arbeiten. Leider hab ich das Konfigurationsbeispiel da nicht ganz verstanden. Ich hab nun folgende Überlegung wo es super wäre, wenn wer beschreiben könnte ob und wie das geht.
Ich möchte z. B. folgendes machen:
1 Peer wikipedia.org
1 Peer *.de, *.at,*.ch
1 Peer *.com
1 Peer *.net
1 Peer *.fr,*.co.uk
1 Perr der Rest

Nach Außen 1 Maschine. Sinn natürlich kleinere Indexbestände pro Maschine.

Statistik: Verfasst von Micki — Sa Mai 21, 2016 8:56 am


Hilfe für Einsteiger und Anwender • CPU usage (GNU, like Slackware64, old PC) 100%--can I limit?

Date: 2016-05-27 06:27:55

I\’ve been trying YaCy a few years on Slackware64, wanting to make public node. However, YaCy eventually uses 100% or maybe even \‘101%\’ CPU resources, according to the \‘top\’ command. I have YaCy on Slackware64 14.1 GNU/Linux (stable, but with official updates) with AMD Athlon X2 5600+ (about 2x2.9, or 5.8 GHz) (that I wasn\’t running much else on but HTTPD for a rather plain, low-traffic site) and a want to try it on a virtual private server with newer, Intel E5-2860 (but only 1x2.8 GHz) running several other programs. It\’s okay if YaCy uses most my bigger server\’s CPU (preferably not all) but of course shouldn\’t on the less powerful one. YaCY uses so much crawling my sites, but then doesn\’t usually decrease usage. So, I\’m wondering how to limit YaCy\’s system resource usage without crashing.

I\’ve edited the version number in slackbuilds.org\’s JDK build script, so installed JDK 8u92, but haven\’t tried it for YaCy yet (maybe other stuff) as the intense usage happened for years and didn\’t seem merely a Java problem.

Someone said use Docker. It just seems too complicated, and the version someone already set up wouldn\’t use my configuration. Is there a simpler way, perhaps built-in to a recent YaCy version?

I saw a similar Windows thread but didn\’t want to \‘hijack\’ that. I don\’t understand much Deutsch, but can copy your replies into translate.google.com (like translate.google.de), and people can discuss other POSIX-based operating systems (GNU/Linux, etc.) and hardware in this thread. It\’d be interesting to see how to do the same on BSDs, though I don\’t use those so much anymore.

Statistik: Verfasst von dchmelik — Fr Mai 27, 2016 5:27 am


Hilfe für Einsteiger und Anwender • Re: CPU usage (GNU, like Slackware64, old PC) 100%--can I li

Date: 2016-05-27 10:09:09

Hi, maybe you can make use of cgroups{.postlink}. What\’s more it is actually used by docker to control containers resources, and also by Systemd{.postlink} for example.

For now I didn\’t really played with it, and I am not sure if is easier to use it directly or to learn using Docker tools. At least cgroups is a kernel feature, so it is surely not loosing time to learn using it...

PS : I experimented with YaCy on Docker recently and I think it is not as complex as it may look. A Dockerfile{.postlink} is even now on YaCy main repository, and is used to build a docker image from latest YaCy sources here{.postlink}.

Statistik: Verfasst von luc — Fr Mai 27, 2016 9:09 am


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-05-27 14:34:24

\@Orbiter, thank you for having merged Pull Request #52{.postlink}.
I don\’t know if you saw my comment after this request was close, so I copy it here :

Do you plan to create an official account for yacy organization on DockerHub?
If so YaCy docker image building could be fully automated from latest commits on main yacy git repository...
I am not member of yacy main github repository so I still have to manually merge latest commits to my own repository clone, wich then automatically triggers a docker build on https://hub.docker.com/r/luccioman/yacy/...

Statistik: Verfasst von luc — Fr Mai 27, 2016 1:34 pm


English • Re: Only get 20 results from API

Date: 2016-05-27 17:08:14

Hi, I was thinking and just tested another workaround (maybe a bit late)
if your intend is to get json results coming only from your peer index, another solution is to use directly embedded solr api. Of course the output format won\’t be the same as yacysearch servlet, but this way is reliable to get ALL results, with page size up to 100, starting at any page.

Thus your inital query :
Code:
curl "http://youhost:8090/yacysearch.json?query=my+url-encoded+query&maximumRecords=200&resource=local"



could be translated to :

Code:
curl "http://youhost:8090/solr/select?q=my+url-encoded+query&wt=json&start=0&rows=100&core=collection1"



and you may loop, increasing start by 100 on each step, or jump directly to the page you wish.

Statistik: Verfasst von luc — Fr Mai 27, 2016 4:08 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-05-27 20:24:37

ah, yes, good idea, but I believe Frank \@frank_gamefreak has taken that account already :) Frank?

Statistik: Verfasst von Orbiter — Fr Mai 27, 2016 7:24 pm


YaCy Coding & Architecture • Re: Postprocessing: Looking for the code

Date: 2016-05-29 15:21:35

Hi,

thank you very much for this detailed explanation. In which file is the java code that does the postprocessing actually? Since I\’m a beginner in programming languages your\’re welcome to post the snippet of the code that does the postprocessing.

Statistik: Verfasst von LA_FORGE — So Mai 29, 2016 2:21 pm


YaCy Coding & Architecture • Re: Postprocessing: Looking for the code

Date: 2016-05-30 08:15:49

Ok, so we can now look for references to CollectionConfiguration postprocessingRunning and postprocessingActivity static proprerties. If you use Eclipse IDE, you can do so by selecting property, and then with this menu : Search > References > Workspace (shortcut keys : Maj + Ctrl + G).
For postprocessingRunning, we get references in status_p.java a,d CollectionConfiguration.java classes. In status_p, we only read the property. But we are looking for the place where we fill the property with some value. It is quite simple in this case : everything is done in CollectionConfiguration.postprocessing{.postlink} method.
At the beginning of the method, property postprocessingRunning is set to true{.postlink} :

Code:
        // calculate the number of documents to be processed        String collection1query = collection1query(segment, harvestkey);        String webgraphquery = webgraphquery(segment, harvestkey);        postprocessingRunning = true;



And at the of all processings, it is set again to false{.postlink} :

Code:
        postprocessingWebgraphCount = 0;        postprocessingActivity = "postprocessing terminated";        ConcurrentLog.info("CollectionConfiguration", postprocessingActivity);        postprocessingRunning = false;        return allcount.get();



The postprocessing method itself as a few hundreds of lines of code I will not detail now. So I don\’t know if you wish to understand the whole process, but at least I can tell you how to identify the different parts : you can look for lines where postprocessingActivity property is fill. For example with the first parts :

Code:
postprocessingActivity = "collecting counts";


...

Code:
postprocessingActivity = "collecting host facets for collection";


...

Code:
postprocessingActivity = "create ranking map";



And so on...

Statistik: Verfasst von luc — Mo Mai 30, 2016 7:15 am


Mitmachen • Re: YaCy funding and development policy

Date: 2016-05-31 11:12:17

Dear friends,

I contact you regarding this topic. With my father and a developper we\’ve financed the development of a company search engine.
WE HAVE lots of appointments and our clients (Famous french groups) have important needs of what we are offering them.
We built everything inspiring ourselves from Yacy.

Now our search engine starts to work but we need some skills for the scalability. So if one of you feels he can manage a big project we would be glad to go further.
Don\’t hesitate to contact me jc.gryson@gmail.com

Regards,

Statistik: Verfasst von jcgryson — Di Mai 31, 2016 10:12 am


Mitmachen • Re: YaCy funding and development policy

Date: 2016-06-01 08:52:21

Hello,
it sounds interesting. Have you already a website describing your activity?
Do you make use of some YaCy components and do you plan to contribute back to community project some of your coming developments?

Sincerely,
Luc

Statistik: Verfasst von luc — Mi Jun 01, 2016 7:52 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-06-01 23:23:17

Hast du Blcklists im Einsatz? Die treiben meine CPU auf 100% hoch.

Statistik: Verfasst von ds810 — Mi Jun 01, 2016 10:23 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-06-02 09:46:11

Ich habe recht umfangreiche (und schlecht gepflegte) Blacklists im Einsatz. Allerdings benutze ich darin kaum RegEx, die mehr CPU-Last erzeugen.

Statistik: Verfasst von Low012 — Do Jun 02, 2016 8:46 am


Fragen und Antworten • YaCy und Java 1.8

Date: 2016-06-03 09:13:16

Hallöchen zusammen,

ich hätte da folgendes Problem:

In YaCy [[1.839838]{style=“font-style: italic”}]{style=“font-weight: bold”} wird mir derzeit folgende Meldung angezeigt:

YaCy hat geschrieben:\ Your Java version is old. YaCy currently needs Java [[1.7]{style="font-style: italic"}]{style="font-weight: bold"} but we want to migrate to Java [[1.8]{style="font-style: italic"}]{style="font-weight: bold"} in the future. Migration to [[1.8]{style="font-style: italic"}]{style="font-weight: bold"} won\'t happen until end of [[2016]{style="font-style: italic"}]{style="font-weight: bold"}, but we want to join code with YaCy\'s sister project loklak.org and with a possible re-construction of YaCy in the kaskelix architecture which will be using Java [[1.8]{style="font-style: italic"}]{style="font-weight: bold"}\



Nun gibt es da aber folgende Situation:

Wenn ich Java [[1.7]{style=“font-style: italic”}]{style=“font-weight: bold”} deinstallieren möchte, dann wird automatisch auch YaCy mit deinstalliert! Das bedeutet, daß ich derzeit [[2]{style=“font-style: italic”}]{style=“font-weight: bold”} Versionen von Java hier habe, denn auch [[1.8]{style=“font-style: italic”}]{style=“font-weight: bold”} ist hier schon seit längerem installiert und das entsprechende Plugin wird wenn notwendig von meinem Browser [(SeaMonkey [[i][i]2.45a2]{style=“font-weight: bold”}[/i]]{style=“font-style: italic”}, also eine Testversion!)[/i] auch verwendet:

[[Pfad: /usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/IcedTeaPlugin.so]{style=“font-style: italic”}]{style=“font-weight: bold”}

Was geht denn da schief mit YaCy, denn so ist das ja wohl nicht ganz in Ordnung!

Ansonsten mein Lob zu YaCy, es läuft derzeit als [[\“Principal Peer\“]{style=“font-style: italic”}]{style=“font-weight: bold”} stabil und ohne weitere Probleme. 8-)

Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Fr Jun 03, 2016 8:13 am


Fragen und Antworten • Re: YaCy und Java 1.8

Date: 2016-06-03 13:18:10

Hallo,
Ich habe eine offene Pull Request{.postlink} für dieses Problem unter Debian.
Ich glaube \@Orbiter oder andere Betreuer sollten nur integrieren.
Entschuldigung für mein schlechtes Deutsch!

Statistik: Verfasst von luc — Fr Jun 03, 2016 12:18 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-06-03 17:09:49

propose you some improvements, mainly regarding security and image size
see Pull Request #55{.postlink} for more details.

om/yacy/yacy_search_server/pull/55){.postlink} for more details.

Statistik: Verfasst von luc — Fr Jun 03, 2016 4:09 pm


Hilfe für Einsteiger und Anwender • Public Suche aber Adminbereich schützen

Date: 2016-06-05 14:55:23

Hallo

Ich habe einen neuen Yacy Peer aufgesetzt. Klappt alles sowiet wunderbar.
jedoch würde ich gerne die Suche auf der Startseite Public machen und den Adminbereich schützen.
Die config zum ausblenden des \“Admin\” Buttons links oben habe ich gefunden und funktioniert auch.
Jedoch werde ich unmittelbar nachdem ich die meine URL eingetippt zur Eingabe von Benutzernamen und Passwort gezwungen, bevor ich überhaupt irgendwas angezeigt bekomme...

Was muss ich tun damit dies funktioniert? (Ich vermute dass kann nicht viel sein)
Ich möchte eigentlich keinen weiteren Webserver installieren auf meinem vServer nur damit die generische Suchmaske angezeigt wird.
Kann mir jemand helfen/bzw nen Link geben auf nen ähnlichen Thread?

Wäre süper
Danke schon mal für die Hilfe

Statistik: Verfasst von Saar-Grebloe — So Jun 05, 2016 1:55 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-06-05 15:34:19

Nein ich habe keine Blacklists im Einsatz!
Habe jetzt Ram aufgerüstet macht die Sache wohl etwas stabiler. Die JVM hat jetzt 2874 MB. Macht es Sinn diesen Wert noch mal zu erhöhen?
Noch was ist mir aufgefallen nach einem Neustart des Servers startet Yacy deutlich schneller als wie wenn man nach stop yacy den Prozess gekillt hat.

Statistik: Verfasst von Micki — So Jun 05, 2016 2:34 pm


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-06-05 18:23:43

Hab das RAM für die JVM auf 3174 MB gesetzt. Jetzt scheint die Sache stabil zu laufen setze es noch in einem weiteren Versuch dann auf 3874. Mal sehen was dann passiert.

Statistik: Verfasst von Micki — So Jun 05, 2016 5:23 pm


Fragen und Antworten • Re: YaCy und Java 1.8

Date: 2016-06-06 08:33:09

Hallo TomWizard, ich glaube luc hat das Problem behoben, ich habe gestern ein neues Debian-Package gebaut so dass du nun auf Java 8 gehen können solltest ohne dass YaCy auch das alte 7 haben will. Danke auch an luc für die schnelle Reaktion.
Bitte berichten obs so geklappt hat.

Statistik: Verfasst von Orbiter — Mo Jun 06, 2016 7:33 am


Hilfe für Einsteiger und Anwender • Re: Public Suche aber Adminbereich schützen

Date: 2016-06-06 08:36:36

Wenn du die Suchseite auf einem Webserver hosten willst, empfehle ich https://github.com/yacy/yacy_webclient_bootstrap
Dann hast du die Suche komplett vom Server getrennt. Da kannst du dann die Suchseite auch verändern wie du willst um das zu integrieren.

Statistik: Verfasst von Orbiter — Mo Jun 06, 2016 7:36 am


Fragen und Antworten • Re: YaCy und Java 1.8

Date: 2016-06-06 09:34:28

Guten Morgen \@Orbiter und \@luc,

das Update kam und nun sieht es so aus:

YaCy hat geschrieben:\ YaCy Version: [[1.83/9857]{style="font-style: italic"}]{style="font-weight: bold"}\ \ Java Version: [[1.8.0\_91]{style="font-style: italic"}]{style="font-weight: bold"}\



Hat also super geklappt, danke vielmals! Endlich bin ich die alte Version von Java los, wurde auch Zeit. ;)
Einen schönen Tag wünsche ich noch und einen guten Start in die neue Woche.

Statistik: Verfasst von TmoWizard — Mo Jun 06, 2016 8:34 am


Hilfe für Einsteiger und Anwender • Re: WIN 12 CPU Prozess bis zu 100%

Date: 2016-06-06 11:32:49

So Ram auf 3874 gesetzt. Das ganze scheint jetzt stabiler zu laufen. Zumindest kocht der Prozess nicht mehr auf bis zu 100% CPU hoch so Maximal nur noch bis zu 60%.
Was aber auffällt ist dass das crawlen jetzt nach ca. 35 - 50 TSD. Dokumenten scheinbar aufhört. Der Indexaustausch läuft weiter!

Statistik: Verfasst von Micki — Mo Jun 06, 2016 10:32 am


Fragen und Antworten • Re: YaCy und Java 1.8

Date: 2016-06-06 17:19:26

Danke \@TmoWizard für diese ganze Freundlichkeit!

Statistik: Verfasst von luc — Mo Jun 06, 2016 4:19 pm


YaCy Coding & Architecture • Social Media Ranking

Date: 2016-06-07 18:02:03

nach über einem Jahr wo ich mich mit loklak.org beschäftigt habe fällt mir nun auf dass die in tweets eingebetteten Links eine hervorragende Quelle für Ranking-Koeffizienten sein könnten. Ich habe hier nun 1.3 milliarden Tweets und alle Links wurden de-shortened und die Domäne der eingebetten Links in ein eigenes Feld geschrieben. Es wäre also einfach da Statistiken zu machen.

Ich stelle mir das so vor: pro Monat eine Aufstellung der Domänen mit prozentualem Anteil aller Links. Das sollten Werte von weit unter 1 ergeben, diese könnte man dann mit einer Konstante multiplizieren (z.B. 256) und somit ein Ranking-Attribut bekommen, was man dem Release beilegt. So wie eine moderierte Liste, nur eben dass sie aus Twitter errechnet wurde. Man bräuchte im YaCy Index ein numerisches Feld, wo die entsprechende Zahl aus dem Prozentwert * 256 eingetragen wird. Und dann danach sortieren.

Statistik: Verfasst von Orbiter — Di Jun 07, 2016 5:02 pm


Fragen und Antworten • Re: Drupal module Search API Solr Search with YaCy

Date: 2016-06-07 22:57:57

Hi, YaCy is currently based on Solr and can even be used with an external Solr server. So your idea makes sense.
But I think the first problem you will be faced with these modules is that they provide their own solr config and schema which of course is different from the one used in YaCy. I am not sure how you could do the mapping between these two... Did you already tried some experiments?

Statistik: Verfasst von luc — Di Jun 07, 2016 9:57 pm


YaCy Coding & Architecture • Re: Social Media Ranking

Date: 2016-06-08 07:56:36

Hi Orbiter, I think it would be great to help YaCy with all these data gathered by loklak. But I wonder if the new field added to YaCy index should not rather be a raw value such as the links number from social medias, rather than an already processed ranking value. Wouldn\’t it be more clear for users and also allow finer tuning and customization of ranking on this new field?

Statistik: Verfasst von luc — Mi Jun 08, 2016 6:56 am


YaCy Coding & Architecture • Re: Social Media Ranking

Date: 2016-06-08 14:59:03

absolute numbers are misleading becuase the absolute number of harvested messages is very different over time. I. e. there may be 200 million messages on total for one month, and then 100 million another month. To normalize this, the best approach is to compute a likelihood to click on a specific domain if all the links are available for a random click in a specific time windows. Then different time frames can be compared.
Thats the same approach google does if they compute the page rank: not the absolute number of referrences but the likelihood to reach a specific page if a user clicks randomly.

Statistik: Verfasst von Orbiter — Mi Jun 08, 2016 1:59 pm


YaCy Coding & Architecture • Re: Social Media Ranking

Date: 2016-06-09 14:08:25

Thank you for the explanation. You are right, storing a number of links only make sense regarding to the absolute total number, which evolves each time a document is indexed. So it is more practical to store the ratio.
By the way, it will surely help users to clearly document the formula used to feed this new field.

Statistik: Verfasst von luc — Do Jun 09, 2016 1:08 pm


Wunschliste • Re: Ex- und Import von Crawls

Date: 2016-06-11 09:22:33

Schon ein Ergebnis für Yacy?

Statistik: Verfasst von Micki — Sa Jun 11, 2016 8:22 am


Hilfe für Einsteiger und Anwender • Twitter & Co.

Date: 2016-06-11 09:23:49

Kann man mit yacy auch Twitter tweets & Co. crawlen so wie man das bei Google sieht?

Statistik: Verfasst von Micki — Sa Jun 11, 2016 8:23 am


YaCy Coding & Architecture • LibreJS, JavaScript license in YaCy

Date: 2016-06-11 09:30:48

Hello,
I tried to make JavaScript licensing more clear in YaCy, targeting LibreJS compliance : see Pull Request #56{.postlink}.
I hope I made no Copyright mistake. If someone want to have a look at jslicense.html{.postlink} file, or at copyright headers added to YaCy owned js files in /htroot/js{.postlink}, feedback will be welcome.

What\’s more, I applied the licensing rules for main YaCy web interface, but not for the sub interface YaCy UI deployed on each node at /yacy/ui/, because I found it broken each time I tried to use it since last year. Is this part of YaCy dead? Or do you know if some people would like to use it, and some effort to bring it back to life could be useful?

Statistik: Verfasst von luc — Sa Jun 11, 2016 8:30 am


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-06-11 10:35:11

Hallo, ja YaCy kann Twitter crawlen. Du kannst versuchen mit eine YaCy peer.
Du kannst auch suchen mit YaCy, zum Beispiel : \“yacy site: twitter.com\“.

Un Vielleicht, daß dich das loklak{.postlink} Projekt interessieren kann.

Statistik: Verfasst von luc — Sa Jun 11, 2016 9:35 am


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-06-11 20:04:17

Dieses Projekt wäre evtl. Interessant was mir nicht klar ist, ist diese Suchmaschine dann zu Yacy kompatibel, so dass man sie als Yacy spezial peer einsetzen kann? WeilP2P scheint ja zu gehen.

Statistik: Verfasst von Micki — Sa Jun 11, 2016 7:04 pm


YaCy Coding & Architecture • Re: LibreJS, JavaScript license in YaCy

Date: 2016-06-12 00:37:05

Hi luc, thank you for that extensive work. How did you know all the original authors? I will merge your changes but I want to check the license headers first in detail.

Statistik: Verfasst von Orbiter — Sa Jun 11, 2016 11:37 pm


YaCy Coding & Architecture • Re: LibreJS, JavaScript license in YaCy

Date: 2016-06-12 13:56:56

Hi Orbiter, on each YaCy js file I searched for contributors through the git history. I looked for their corresponding names only in publicly available information :
- /AUTHORS file
- in other YaCy source files where a header mentioned the contributor with his pseudo and his name
- on this forum : some people mention their personal website in their profile
Thank you for reviewing, and good luck.

Statistik: Verfasst von luc — So Jun 12, 2016 12:56 pm


English • Re: recovering a directory containing crrawling data

Date: 2016-06-12 20:26:32

Hi,
Sorry to give you a so late answer (:-(

Effectively, I have exceptions errors ; the log file returns :

2016/06/12 20:02:13 STARTUP YaCy cannot start: SolrCore \‘collection1\’ is not available due to init failure: Error opening new searcher
org.apache.solr.common.SolrException: SolrCore \‘collection1\’ is not available due to init failure: Error opening new searcher
at org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:1066)...

then :
Caused by: org.apache.solr.common.SolrException: Error opening new searcher
at org.apache.solr.core.SolrCore.<init>(SolrCore.java:820)...

then :
Caused by: org.apache.solr.common.SolrException: Error opening new searcher
at org.apache.solr.core.SolrCore.openNewSearcher(SolrCore.java:1676)...

then :
Caused by: org.apache.lucene.index.CorruptIndexException: file mismatch, expected suffix=2tcr, got=2ti6 (resource=BufferedChecksumIndexInput(NIOFSIndexInput(path=\“/var/lib/yacy/INDEX/freeworld/SEGMENTS/solr_5_2/collection1/data/index/segments_2tcr\“)))
at org.apache.lucene.codecs.CodecUtil.checkIndexHeaderSuffix(CodecUtil.java:279)
at org.apache.lucene.index.SegmentInfos.readCommit(SegmentInfos.java:308)
at org.apache.lucene.index.IndexFileDeleter.<init>(IndexFileDeleter.java:171)...

I don\’t see the meaning of all that ; perhaps my 10 Go data ane not compatible with the yacy version ( 1.83.9857) ?

Statistik: Verfasst von jihell — So Jun 12, 2016 7:26 pm


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-06-13 22:50:22

Ich habe loklak nicht getestet, aber ich denke, daß er spezieller ist als YaCy, um tweets zu ernten. Loklak peers sind momentan kein YaCy peers, aber es scheint, sollen die beiden Projekte zu verbinden (vgl /Status.html{.postlink} letzte Note)...

Statistik: Verfasst von luc — Mo Jun 13, 2016 9:50 pm


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-06-14 07:59:48

Hab es gelesen wird wohl aber noch etwas dauern die schreiben ja Ende 2016. Da vermute ich dann mal frech 2017. :)

Statistik: Verfasst von Micki — Di Jun 14, 2016 6:59 am


English • Re: recovering a directory containing crrawling data

Date: 2016-06-14 08:44:26

Hi, to be sure it is not a Solr version issue you could try reinstalling the exact same YaCy version you used before Debian reinstall.
But to my mind, looking at your error stack and at involved Solr sources it is more probably a consistency issue with one of your index file. YaCy might have incorrectly stopped and let a Solr file in a corrupted state...
I don\’t think recovering your index data is desperate. Maybe can you try following a procedure such as described here : Solr fix corrupted index{.postlink}
Let us now if you have some success, it may be quite useful!

Statistik: Verfasst von luc — Di Jun 14, 2016 7:44 am


Hilfe für Einsteiger und Anwender • Werden empfangene URL\’s noch mal gecrawled?

Date: 2016-06-14 09:41:40

Werden empfangene URL\’s noch mal gecrawled oder einfach übernommen?
Frage deshalb weil sich das ja auch auf die Qualität des Index auswirkt!

Statistik: Verfasst von Micki — Di Jun 14, 2016 8:41 am


Hilfe für Einsteiger und Anwender • java.io.IOException

Date: 2016-06-14 23:18:38

Bekomme immer wieder bei diversen URL\’s Ausnahmefehler:

Crawling von \“http://www.hotelier.de https://www.vice.com http://www.kimeta.de\” schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can\’t execute: Received fatal alert: handshake_failure duration=70/

Kann man da was an den Einstellungen für das Crawlen ändern?

Browsen mit Mozilla geht!

Statistik: Verfasst von Micki — Di Jun 14, 2016 10:18 pm


Hilfe für Einsteiger und Anwender • Re: java.io.IOException

Date: 2016-06-15 10:39:33

Hallo, für mich kein Problem um zu crawling http://www.hotelier.de und https://www.vice.com mit /CrawlStartSite.html (\“not more than\” : 200 documents) und letze YaCy Version. Aber das war sehr langsam.
Mit http://www.kimeta.de habe ich diesen Irrtum : \“FINAL_ROBOTS_RULE denied by robots.txt\”...

Statistik: Verfasst von luc — Mi Jun 15, 2016 9:39 am


Hilfe für Einsteiger und Anwender • Port 8090 auf Debian vServer (angeblich?) nicht offen

Date: 2016-06-16 06:47:01

Hallo

Ich versuche nun seit ein paar Stunden den Port 8090 für YACY \“verständlich\” zu öffnen auf meinem Debian vServer

Befehle die ich für iptables ausgeführt habe um den Port zu öffnen (als root):

Code:
iptables -A INPUT -p tcp --dport 8090 --jump ACCEPTiptables -A FORWARD -p tcp --dport 8090 --jump ACCEPTiptables -A OUTPUT -p tcp --dport 8090 --jump ACCEPT



Anzeige auf dem vServer siehe Anhänge

Laut einer nmap Abfrage von einem anderen vServer ist der Port auch offen... (nmap.png)

Trotzdem denkt YACY das mein Port 8090 nicht offen ist!? Was mache ich denn falsch?

Statistik: Verfasst von Saar-Grebloe — Do Jun 16, 2016 5:47 am


YaCy Coding & Architecture • Move interface to HTML5

Date: 2016-06-16 12:29:59

Hi, I made some improvements on YaCy web interface, targeting mobile devices (Pull Request 58{.postlink}) and bootstrap webclient (Pull Request 9{.postlink}).
More generally, don\’t you think it would be time to move from XHTML to HTML5?
HTML5 is currently the living standard and most browsers now support it for years, even mobile ones. What\’s more, YaCy make use of Bootstrap which apparently rely on HTML5 doctype to work properly : http://getbootstrap.com/css/#overview-doctype ...

Statistik: Verfasst von luc — Do Jun 16, 2016 11:29 am


Hilfe für Einsteiger und Anwender • Re: Port 8090 auf Debian vServer (angeblich?) nicht offen

Date: 2016-06-17 14:58:02

Hello,
sorry, I answer in English because my German is still very poor.
Did you try running YaCy on your vServer without iptables filtering rules (or the initial default ones)? At least if your YaCy peer works correctly with such a config, you would be sure the problem is not coming from some network issue and that there is something to fix in your iptables rules...

Statistik: Verfasst von luc — Fr Jun 17, 2016 1:58 pm


Hilfe für Einsteiger und Anwender • Re: Port 8090 auf Debian vServer (angeblich?) nicht offen

Date: 2016-06-17 17:55:02

Hi luc

Thanks for answering.
Yes I\’ve tried to run yacy with default iptabels rules.
Straight after installing yacy (debian package via apt-get install) my yacy peer was shown as \“Senior\” peer and port 8090 would be open.
Then a few hours later, the admin page showed port 8090 is not open. Between new install and login a few hours I didn\’t touched the iptable config at all.
There was no reason to do that.

Because the admin page is showing \“port 8090 is not open\” I\’ve applied the iptable config as per my origin post without any luck.
Since the install the admin never showed \“port 8090\” is open again.

Please note I\’ve noticed the same behavior on a second vSever which runs on ubuntu.

Statistik: Verfasst von Saar-Grebloe — Fr Jun 17, 2016 4:55 pm


Hilfe für Einsteiger und Anwender • Re: Port 8090 auf Debian vServer (angeblich?) nicht offen

Date: 2016-06-17 22:37:22

Ok, so maybe this issue is specifically related to VServer... I have a Debian Jessie VPS (based on KVM) running YaCy for some months now and I didn\’t experienced this problem...
Do you host yourself your VServer instance or is hosted by a provider? I don\’t know especially much about this kind or virtualization, but maybe you missed some networking configuration steps to correctly bind between guest and host system? VServer documentation seems to mention some specific steps{.postlink}.

Statistik: Verfasst von luc — Fr Jun 17, 2016 9:37 pm


Hilfe für Einsteiger und Anwender • Crawljob submitting Script für fremde Seiten / API

Date: 2016-06-19 10:00:41

Gibt es bereits ein Script, damit man Crawljobs von fremden Seiten her initiieren kann? Alternativ eine API dafür?
So dass man Yacy auch bei Suchmaschinen - Submittern einbauen lassen kann.

Statistik: Verfasst von Micki — So Jun 19, 2016 9:00 am


Hilfe für Einsteiger und Anwender • Gecrawled Dokumente pro Yacy Start

Date: 2016-06-23 06:37:12

Mir ist aufgefallen, dass die Zahl der Dokumente die Yacy indexiert, bis ein Neustart von Yacy fällig ist stark variiert so zwischen 20.000 und 400.000 etwa. Ist das bei euch auch so?

Statistik: Verfasst von Micki — Do Jun 23, 2016 5:37 am


English • Yacy, Installation help for Mac

Date: 2016-06-26 11:42:52

Hey there, I downloaded Yacy but whenever I started it, the message [to use the \“java\” command-line tool you need to install a JDK]{style=“text-decoration: underline”} popped up.

So I installed the java from the official apple website
https://support.apple.com/kb/DL1572?viewlocale=en_US&locale=en_US

The message disappeared, and when I clicked on the app, nothing happened. It\’s just there, on the desktop. And I can\’t access localhost 8090.

I\’m using google chrome, but i tried this on safari too, and the localhost page still doesn\’t load

could you please help me out?

Statistik: Verfasst von peevacorn — So Jun 26, 2016 10:42 am


Hilfe für Einsteiger und Anwender • Re: 100% CPU auf Grund von Regex

Date: 2016-06-26 20:26:58

Also es fehlen noch die Information wieviel Kerne und wieviel Ram hat die Javamaschine?
Bei wieviel Dokumenten bist du gerade?

Statistik: Verfasst von Micki — So Jun 26, 2016 7:26 pm


Hilfe für Einsteiger und Anwender • 100% CPU auf Grund von Regex

Date: 2016-06-26 21:46:25

Hallo zusammen,

ich habe das Thema schon bereits angesprochen. Und trotzdem lässt es mir keine Ruhe. Ich habe soeben eine neue Instanz aufgebaut und lasse die im Robinson-Modus laufen, um die Einflüsse von außen auszuschließen. Ich habe eine Blacklist mit ca. 40 Einträgen. Nach ca. 5-10 Minuten Yacy-Nutzung läuft die CPU durchgehend auf 100% und nimmt auch nicht mehr ab.

Was ich noch festgestellt habe ist, dass die URL\’s, unter /Threaddump_p.html?singleThreaddump=Einzelner+Thread+Dump, sich immer wieder wiederholen. Scheit Endlosschleife zu sein.


Könnte einer von den Entwicklern sich diese Stelle bitte, bitte, bitte ansehen? Ich wäre euch dafür unendlich dankbar!

Gruß
dS810

[System:]{style=“font-weight: bold”}
Ubuntu Server 16.04
Java: 1.8
Yacy: 1.839857

2 Kerne mit je 2.2 GHz
SSD
2048 RAM sind zugewiesen

Code:
Occurrences: 100at java.util.regex.Matcher.matches(Matcher.java:604)at net.yacy.repository.Blacklist.isListed(Blacklist.java:577)at net.yacy.http.AbstractRemoteHandler.handle(AbstractRemoteHandler.java:146)at org.eclipse.jetty.server.handler.HandlerList.handle(HandlerList.java:52)at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1129)at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1065)at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)at org.eclipse.jetty.server.Server.handle(Server.java:499)at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)at java.lang.Thread.run(Thread.java:745)

Statistik: Verfasst von ds810 — Sa Jun 25, 2016 3:38 pm


Hilfe für Einsteiger und Anwender • Re: 100% CPU auf Grund von Regex

Date: 2016-06-26 21:47:42

Hey Micki,

sorry, ich habe die Info nachgereicht.

\ 2 Kerne mit je 2.2 GHz\ SSD\ 2048 RAM sind zugewiesen\


Gruß
dS810

Statistik: Verfasst von ds810 — So Jun 26, 2016 8:47 pm


Hilfe für Einsteiger und Anwender • Re: 100% CPU auf Grund von Regex

Date: 2016-06-27 04:57:44

Also ich würde mal testen so weit möglich:

4-6 Kerne
und mal das Ram auf 4 oder 5 GB wenn mgl. Manche empfehlen 8 GB bei Java 64 Bit.

Hatte das selbe Problem und seit dem ich auf 5 GB hoch läuft das Ganze halbwegs stabil, was nicht heißt das sie CPU Last trotzdem Regelmäßig an die 100% hoch geht.

Statistik: Verfasst von Micki — Mo Jun 27, 2016 3:57 am


English • Re: Yacy, Installation help for Mac

Date: 2016-06-27 10:12:10

Hi peevacorn, as it is said on the apple page you used, they offer a deprecated java version (java 6). Current official Oracle java version is java 8, and YaCy require at least java 7 to run.
So you should \“download the latest version of Java for OS X directly from Oracle https://www.java.com \” as stated on Apple page.
Don\’t hesitate to ask again if you encounter other issues.

Statistik: Verfasst von luc — Mo Jun 27, 2016 9:12 am


Mitmachen • Eu finanziert Code Review...

Date: 2016-06-27 14:56:45

Siehe https://ec.europa.eu/eusurvey/runner/EU ... are-choice{.postlink} - wäre schön wenn da ein paar von euch Yacy vorschlagen würden.


Gruß
Thomas

Statistik: Verfasst von Vega — Mo Jun 27, 2016 1:56 pm


Hilfe für Einsteiger und Anwender • Re: 100% CPU auf Grund von Regex

Date: 2016-06-27 15:59:22

Dass die CPU 100% hin und wieder erreicht - stört mich nicht. Nur es bleibt auf 100% in einer \“Endlosschleife\” mit der o.g. Exception. Getestet habe ich es schon mit 6 GB RAM mit dem selben Misserfolg. Wie gesagt: Es ist ganz einfach zu reproduzieren. Nur - was mache ich mit der Erkenntnis?

Statistik: Verfasst von ds810 — Mo Jun 27, 2016 2:59 pm


Mitmachen • Re: Eu finanziert Code Review...

Date: 2016-06-28 12:19:54

Hi, it would be great to have a YaCy code review funded by EU, but as I understand it the project is targeting software in use in European institutions. So I think there are rather more chances to obtain code review for some YaCy components such as BouncyCastle, Apache commons or Solr (not in their suggested list).
But maybe I am not aware these institutions are already using YaCy as an alternative search engine...

Statistik: Verfasst von luc — Di Jun 28, 2016 11:19 am


English • Re: Yacy, Installation help for Mac

Date: 2016-06-28 12:32:32

Hey, thanks, I downloaded and installed the java from the link you sent me, but still no luck. I tried doing this on 4 different browsers. When I clikc on yacy app nothing happens and localhost page can\’t be found

Statistik: Verfasst von peevacorn — Di Jun 28, 2016 11:32 am


English • Re: Yacy, Installation help for Mac

Date: 2016-06-28 14:14:37

Ok, so as an alternative way to launch YaCy, you can open Terminal and launch from command line.
Fisrt, check Java is correctly installed by typing : java -version.
Then you can go to your YaCy app folder : cd /YourInstallPath/YaCy.app/Contents/Resources/Java
And finally launch with : sh startYACY.sh
This way you may have more details on what is going wrong.
You can also look for error messages in the log file : /YourInstallPath/YaCy.app/Contents/Resources/Java/DATA/LOG/yacy00.log

Statistik: Verfasst von luc — Di Jun 28, 2016 1:14 pm


Hilfe für Einsteiger und Anwender • Robinson Mode

Date: 2016-06-30 01:59:01

Hello Yacy forums,
I think this is a Robinson Mode issue I am struggling with.

We have installed Yacy on a Windows 7 box.
We are trying to index documents stored locally,
at:
\users\username\YaCy\DATA\HTDOCS\repository\
based on the guidance found at the Yacy-Websearch DOT NET/wiki/index.php/En:Use_cases for Collaborative Desktop Indexing

Although documents get indexed (they show up in search), when we try to click on the individual results, nothing happens.
Therefore we cannot actually read the document.

It looks like on the server I can copy/paste the URL and paste it in a new tab and documents open up.
However, just clicking the link does not do anything.

Also, when accessing the search results from any other machine, the URL string reads like this:
file:///C:/users/rashid/YaCy/DATA/HTDOCS/repository/Topics/Cyber/Cyber%20Infrastructure%20No%20Borders.pdf

So obviously clicking that URL from the non-server will always fail.

Any advice?

- Rashid

Statistik: Verfasst von rashid — Do Jun 30, 2016 12:59 am


Hilfe für Einsteiger und Anwender • Re: Robinson Mode

Date: 2016-06-30 18:13:12

Hi,
I think you should just follow wiki advice : \“starts a web crawl at the address http://<local-ip>:8090/repository/.\” Thus search results start with <local-ip> instead of file:///C:... It is even better if you use your windows 7 box hostname instead of its IP adress.

Statistik: Verfasst von luc — Do Jun 30, 2016 5:13 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-07-03 17:56:34

After running continuously a YaCy Docker container for some weeks, I have some more informations for anyone interested :
- the way I configured the proposed YaCy image, with default Docker log configuration and a YaCy instance in peer to peer mode, the log file for the container grows up to some giga bytes in a week, eventually filling all disk on a small host server. The problem is not YaCy log which is correctly rotated, but Docker container log itself. To avoid this problem you have to set some options (--log-opt max-size and --log-opt max-file) when running the container. So I updated the Readme.md{.postlink} to mention this.
- I also added to the Readme.md an example procedure to upgrade the YaCy Docker image.
- Regarding Docker Hub automated build on commits, a simple daily scheduled shell script checking YaCy main git repository commits atom feed{.postlink} and then eventually triggering build through docker Hub Trigger URL seems to do the job.

\@Orbiter, if you wish to merge these changes{.postlink} to main YaCy branch I think it could be a good idea before releasing next version as it has no impact on YaCy source code itself.

Statistik: Verfasst von luc — So Jul 03, 2016 4:56 pm


Hilfe für Einsteiger und Anwender • Re: Crawljob submitting Script für fremde Seiten / API

Date: 2016-07-03 18:59:27

Das müsste doch eigentlich per site-Suche gehen, oder?

Code:
http://yacy:8090/yacysearch.html?query=site:fremdeseite.de



Unter Heuristik muss \“Suchergebnis: crawl Links aller angezeigten Suchergebnisse\” aktiviert sein, dann wird die Remtoe-Site schon indiziert.

Statistik: Verfasst von webproject — So Jul 03, 2016 5:59 pm


Hilfe für Einsteiger und Anwender • Re: Robinson Mode

Date: 2016-07-03 20:09:40

that fixed it perfectly - thank you so much

Statistik: Verfasst von rashid — So Jul 03, 2016 7:09 pm


YaCy Coding & Architecture • YaCy Release 1.90

Date: 2016-07-04 13:15:58

Today I released YaCy 1.90 and made a large step from 1.83 to 1.90 because of the long time since 1.82 and the huge amount of work that was made since then, now mainly from reger and sixcooler.

If you have a loog at the github graphs https://github.com/yacy/yacy_search_ser ... ntributors{.postlink} then it becomes obvious that reger almost took over development in the last year.

devwork.png

[Thank you reger for your amazing work!]{style=“font-weight: bold”}

Statistik: Verfasst von Orbiter — Mo Jul 04, 2016 12:15 pm


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-07-04 13:18:00

One thing is missing in this release: a framework App for Mac. I was not able to get this together. The old wrapper cannot be used since Oracle changed something and the Mac OS starts now java in a different way.

Can somebody try to find out how to create a new Mac App wrapper?
Please help and post a solution here!

Statistik: Verfasst von Orbiter — Mo Jul 04, 2016 12:18 pm


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-07-04 17:46:35

Hi, JavaFX now provides an ant packaging task including Mac OS as a target : self-contained-packaging{.postlink}
Maybe this can help? Unfortunately I can not check this before next Friday when I can have a MacBook available.

[Edit :]{style=“font-weight: bold”} looking a little more deeply at JavaFX packaging tools, it looks like it could indeed be useful, but probably not with current YaCy sources structure (see Classpath related issues encountered when trying to package{.postlink} a one runnable jar for a Java Web Start version of YaCy)

Statistik: Verfasst von luc — Mo Jul 04, 2016 4:46 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-07-04 22:17:29

I just merge the changes. I did not test them but I trust you.

In loklak{.postlink} we have four deploy-buttons, one with docker. It\’s possible to have a 1-click deploy in the could infrastructure of your choice. It would be nice to have that for YaCy as well. Can you have a look if that can be done for YaCy?

Statistik: Verfasst von Orbiter — Mo Jul 04, 2016 9:17 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-07-04 22:36:48

Great, I hope it will be useful for some people.

And of course it would be very convenient to have more one-click deploy possibilities for YaCy. I will try with loklak examples when having time in coming days and report here advancement. See u later.

Statistik: Verfasst von luc — Mo Jul 04, 2016 9:36 pm


Fragen und Antworten • Veraltete Suchergebnisse

Date: 2016-07-04 22:53:07

Hallo,

mir ist aufgefallen, in den Ergebnissen Treffer angezeigt werden, die es aber auf dem Zielserver nicht mehr gibt bzw. die Domain teils schon gar nicht mehr connected ist.

Werden die Suchergebnisse von Yacy ab und an überprüft und

- aktialisiert, wenn dich die Seite geändert hat ?
- aus dem Index genommen, wenn die URL nicht mehr erreichbar ist?

Statistik: Verfasst von webproject — Mo Jul 04, 2016 9:53 pm


YaCy Coding & Architecture • Migrate YaCy web page templates to moustache.js

Date: 2016-07-06 11:00:48

If you read http://mustache.github.io/ it looks like the creators of moustache.js had been inspired by our template system for web pages. Even the syntax is very similar.

http://mustache.github.io/\#demo hat geschrieben:\ \{{header}}\\ {{\#bug}}\ {{/bug}}\ \ {{\#items}}\ {{\#first}}\ \\{{name}}\\\ {{/first}}\ {{\#link}}\ \\{{name}}\\\ {{/link}}\ {{/items}}\ \ {{\#empty}}\ \The list is empty.\\ {{/empty}}\



To move the YaCy architecture to more common web design patterns it could be good to move all our servlets to moustache.js.

This could be done with two components:
- all servlets could render a JSON result using the YaCy patterns
- all html pages then use moustache.js and the json from the servlets to display it\’s content.

We could go there doing two steps:
- add a servlet which creates the JSON from all servlets automatically (should not be very difficult)
- create a translator which is able to translate all html pages from YaCy patterns to moustache.js patterns. That translator could then re-write all our html pages.

What do you think?

Statistik: Verfasst von Orbiter — Mi Jul 06, 2016 10:00 am


Hilfe für Einsteiger und Anwender • Re: Werden empfangene URL\’s noch mal gecrawled?

Date: 2016-07-06 11:28:31

Sie werden nicht wieder geladen. Das würde ja auch das Verteilungskonzept ein wenig schräg machen: je mehr man verteilt, desto mehr Arbeit hätten die Peers wenn sie die URLs neu laden müssen.
Die URL-Verteilung findet ja nur im Kontext mit Index Sharing statt, und da geht es ja (auch) darum dass die Arbeit eines Peers (der, der verteilt) als Zuarbeit bei den anderen ankommt, nicht als deren Mehrarbeit.

Statistik: Verfasst von Orbiter — Mi Jul 06, 2016 10:28 am


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-07-06 11:30:14

Eine Verbindung würde keine Netzverbindung sein sondern eine Daten-Zuarbeit. Beispielsweise gibt es da die Idee, die Twitter-Daten zum (social-) Ranking in YaCy zu verwenden.

Statistik: Verfasst von Orbiter — Mi Jul 06, 2016 10:30 am


YaCy Coding & Architecture • Re: LibreJS, JavaScript license in YaCy

Date: 2016-07-06 11:30:57

Hi luc, thank you for your work; I merged your pull request into YaCy 1.91

Statistik: Verfasst von Orbiter — Mi Jul 06, 2016 10:30 am


Wunschliste • Re: Ex- und Import von Crawls

Date: 2016-07-06 11:37:52

Hierfür gibt es nun eine Lösung:
- man kann Index Dumps exportieren (letztes Commit hierzu: https://github.com/yacy/yacy_search_ser ... 1ede38088e{.postlink} )
- man kann diese Dumps auch wieder importieren (Commit: https://github.com/yacy/yacy_search_ser ... 746a6e2151{.postlink} ) indem man das in diese API pusht.
Das schöne daran: man kann das auch Querbeet zwischen Peers machen.. und scripten.
Das ganze ist leider noch nicht sehr gut dokumentiert, ich wollte diese Funktionen im Kontext eines neuen Index Sharing Mechanismus\’ integrieren. Das ist leider noch nicht fertig. Export und Import sollte aber gehen.

Statistik: Verfasst von Orbiter — Mi Jul 06, 2016 10:37 am


YaCy Coding & Architecture • Re: Migrate YaCy web page templates to moustache.js

Date: 2016-07-07 13:55:43

Hi, personally I also agree with the idea of using common and well known and documented libraries. On the other hand I think YaCy templating system is quite raw but do the job, and its entry-barrier is quite low.
Anyways, your plan sounds feasible. I only hope the generic JSON producing servlet will not add to much processing overhead.

Statistik: Verfasst von luc — Do Jul 07, 2016 12:55 pm


Hilfe für Einsteiger und Anwender • Re: Twitter & Co.

Date: 2016-07-07 20:24:54

Schade meine Idee war eher die, diese Twittersuchmaschine, als Datenlieferant für Yacy zu nutzen!

Statistik: Verfasst von Micki — Do Jul 07, 2016 7:24 pm


YaCy Coding & Architecture • Re: Automated YaCy Docker image

Date: 2016-07-08 02:40:08

Hi, I have played with Heroku deploy first. You can from now try yourself the one-click deploy button for Heroku on this branch{.postlink}.

Thus with a free Heroku account you should be able to run a YaCy peer in senior mode (don\’t forget the only manual step : filling MAVEN_CUSTOM_OPTS environment variable with -Dyacy.staticIP=your_app_name.herokuapp.com, as explained in the open deploy page).

Remarks :
- I transformed main Readme file from mediawiki syntax to markdown as it is far easier and better documented to add button links in Markdown

- YaCy Jetty server http port has to be bound to the PORT arbitrarily chosen by Heroku, but external public port has to be set to 80, as your_app_name.herokuapp.com is the only way to reach an Heroku container from external machines. A small hack to serverSwitch.java do the job on the branch for now. But in yacy.init file there is a property named \“bindPort\“, which looks like currently unused. It could be convenient to use it and to be able to define both a local bindPort and a public port in /Configbasic.html. What do you think about it?

- I am now faced with a big limitation of YaCy deployment in Heroku : files (Solr index, settings, logs...) are correctly written to container file system, but they are discarded each time the container (Heroku call it a \“dyno\“) is restarted. This is an Heroku feature and this happens about once a day. So deploying in Heroku becomes quite handy for testing purpose, or for YaCy first try, but it is not very useful for long term use. Is it the same for loklak on Heroku or what is the storage solution? To overcome this limitation, it is documented that we should rely on cloud storage such as Amazon S3, but this would involve much refactoring, especially to keep compatibility with local file system storage for non-cloud peers. An intermediate solution could be to use Websolr Add-on{.postlink} to store solr index, but this is quite expensive (lowest price : 20 dollars a month for only 20000 documents!)...

Statistik: Verfasst von luc — Fr Jul 08, 2016 1:40 am


Hilfe für Einsteiger und Anwender • Re: Werden empfangene URL\’s noch mal gecrawled?

Date: 2016-07-08 05:28:40

Also ich will das Indexsharing nicht in Frage stellen. Aber ich fände es durchwegs für Sinnvoll mit einem delay von x Tagen oder Wochen die empfangenen URL\’s neu zu crawlen.
Wie ich schon ausgeführt habe zum einen der Grund, dass man ja den Index aktuell halten möchte, zum anderen ja auch Peers regelmäßig ausfallen was die Zahl der im gemeinsamen Index vorhandenen Dokumente ja doch sehr schwanken lässt.Beide \“Probleme\” würden so gelöst, so meine Überlegung.

Statistik: Verfasst von Micki — Fr Jul 08, 2016 4:28 am


Hilfe für Einsteiger und Anwender • Re: Local Crawl Queue wächst zu stark

Date: 2016-07-08 06:02:06

Kann man denn Yacy zum gezielten Abarbeiten der Queue Lokaler Crawler überreden. Bei mir sind da mittlerweile 5,5 Mio Einträge drin. Wäre doch für den Index vorteilhaft wenn sie im Dokumentenbestand wären statt in einer Queue vor sich hin dümpeln!

Statistik: Verfasst von Micki — Fr Jul 08, 2016 5:02 am


Hilfe für Einsteiger und Anwender • PPM sehr langsam

Date: 2016-07-09 11:11:18

Habe nun eine YaCy Suchmaschine seit ca. 3 Tagen am Laufen.

Habe auch schon unzählige Domains zum Crawlen in Auftrag gegeben. Ich nutze dafür nicht die Experten Crawl Starten,
sondert Webseiten laden mit Crawler.

Da gebe ich die Startseite eine Homepage an und lasse es auf Domain beschränkt. Crawling Tiefe kann man hier ja nicht einstellen.

Habe auf diese Art und Weise ca 300 Crawls gestartet (300 verschiedene Domains!) und ich hab in Summe nur eine PPM vom ca 30-50.

Ich habe YaCy 16GB von meinem RAM abgegeben, mein Internet hat gemessene 75 MBit/s DOWN und der Rechner ist sonst nicht in Verwendung und hat 8 Kerne.

Was ist da los?

Statistik: Verfasst von 0xFEEDC0DE64 — Sa Jul 09, 2016 10:11 am


Hilfe für Einsteiger und Anwender • Re: PPM sehr langsam

Date: 2016-07-09 12:11:51

Hi,

was ist denn Dein eingestellter Wert der Maximalen PPM unter \‘Crawler Überwachung\’ (/Crawler_p.html)?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Jul 09, 2016 11:11 am


Hilfe für Einsteiger und Anwender • Crwalerfehler löschen

Date: 2016-07-10 07:46:26

Kann man wo einstellen, dass Crawlerfehler automatisch gelöscht werden?

Statistik: Verfasst von Micki — So Jul 10, 2016 6:46 am


English • new page =failed. Reason: exist-test failed: Error executing

Date: 2016-07-12 13:32:27

Hello,
Same problem before in Using 1.83 and now appearing again a Fresh Install of 1.90
DATA folder moved from previous install (essential to conserve)

Adding a never crawled URL to the Advanced Crawler for specific page
Crawling of \“http://www.theguardian.com/politics/2016/jul/11/.... \” [failed. Reason: exist-test failed: Error executing query/]{style=“font-weight: bold”}

Running Windows 10, in MS Azure cloud Basic A1 (1 Core, 1.75 GB memory)
1,200 GB dedicated to YaCy (no competing programs running simultaneously in same WIN vm space)
127 GiB attaached disk, but still running on \‘native\’ internal Solrs in YaCy
YaCy version: 1.909000
Uptime: 0 days 00:58
Java version: 1.8.0_91
Processors: 1
Memory Usage
RAM used:389.35 MB
RAM max:1.13 GB
DISK used:(approx.) 5.25 GB
DISK free:107.44 GB
31747 documents
Robinson Mode
Documents
solr search api31,7472
Webgraph Edges
solr search api1,962,3701
Citations
(reverse link index)492,2171
RWIs
(P2P Chunks)
---
Crawler PPM0
Postprocessing Progress
idle00:00
pending:collection=29762webgraph=1962370
Traffic (Crawler)0.64 MB
Load-1

How to set this to start crawling and indexing again normally, please?
Thank you for your patient advice.

Statistik: Verfasst von xioc752 — Di Jul 12, 2016 12:32 pm


Fragen und Antworten • Meta-Beschreibung

Date: 2016-07-12 18:55:22

Hallo,

Ich habe bei Suchanfragen die einen Direkten treffer liefern ein unschönes Problem.
(siehe erstes Ergebnis auf dem Screenshot)

beschreibung.jpg


Hat jemand einen Tipp für mich wie ich das lösen kann bzw. wie die auf der Webseite festgelegte Meta-Beschreibung angezeigt wird ?


vielen dank

Statistik: Verfasst von Lerios — Di Jul 12, 2016 5:55 pm


Hilfe für Einsteiger und Anwender • Re: Crwalerfehler löschen

Date: 2016-07-13 13:36:15

Micki hat geschrieben:\ Kann man wo einstellen, dass Crawlerfehler automatisch gelöscht werden?\



Was verstehst du genau unter \“Crawlerfehler\”

Statistik: Verfasst von webproject — Mi Jul 13, 2016 12:36 pm


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-13 14:05:45

Hi, I just successfully crawled \“http://www.theguardian.com/politics/2016/jul/11/who-will-be-in-theresa-mays-cabinet-government" and other similar pages with a YaCy 1.919013 peer adn default advanced parameters.
There were not so much changes since 1.909000, so can you detail the other parameters you used in /CrawlStartExpert.html?

Statistik: Verfasst von luc — Mi Jul 13, 2016 1:05 pm


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-13 15:48:36

HI + thanks for replying.
I, too, just crawled that page and got this:
Crawling of \“http://www.theguardian.com/politics/2016/jul/11/who-will-be-in-theresa-mays-cabinet-government \” failed. Reason: exist-test failed: Error executing query/

The server in a Win vm is running as stand alone Robinson mode - public peer
(Microsoft Windows 10 instance in Azure cloud computing environment)
The idea is to later convert several such Robinson servers to a dedicated private group with full DHT+P2P in a privte group of servers for searching a special topic
Network definition = defaults/yacy.network.allip.unit

re: used in /CrawlStartExpert.html
generic, excepting these:
Crawling Depth = 0

\ \...Use Special User Agent and robot identification\


Use Special User Agent and robot identification = Random browser or \‘greedy\’ mode

As listed below...
Crawling Depth 1 + also all linked non-parsable documents [selected]
Unlimited crawl depth for URLs matching with [not selected]
Maximum Pages per Domain Use: [not selected] Page-Count: [not selected] 10000
misc. Constraints Accept URLs with query-part (\‘?\‘): [selected]
Obey html-robots-noindex: [selected]
Obey html-robots-nofollow: [not selected]
Load Filter on URLs must-match
Restrict to start domain(s) [selected]
Restrict to sub-path(s) [not selected]
Use filter.* [not selected] (must not be empty)
must-not-match
Load Filter on IPs .* [not selected] must-match(must not be empty)
must-not-match [not selected]
Must-Match List for Country Codes info no country code restriction
Use filter [not selected]
AD,AL,AT,BA,BE,BG,BY,CH,CY,CZ,DE,DK,EE,ES,FI,FO,FR,GG,GI,GR,HR,HU,IE,IM,IS,IT,JE,LI,LT,LU,LV,MC,MD,MK,MT,NL,NO,PL,PT,RO,RU,SE,SI,SJ,SK,SM,TR,UA,UK,VA,YU
Document Filter [not selected]
These are limitations on index feeder. The filters will be applied after a web page was loaded.

Filter on URLsinfo
must-match .* [not selected] (must not be empty)
must-not-match[not selected]
Filter on Content of Document [not selected]
(all visible text, including camel-case-tokenized url and title)
must-match .* [not selected](must not be empty)
must-not-match[not selected]
Clean-Up before Crawl Start No Deletion Do not delete any document before the crawl is started.
Delete sub-path [not selected] For each host in the start url list, delete all documents (in the given subpath) from that host.
Delete only old [not selected] Treat documents that are loaded ago as stale and delete them before the crawl is started.
Double-Check Rules
No Doubles [selected] Never load any page that is already known. Only the start-url may be loaded again.
Re-load [not selected] Treat documents that are loaded ago as stale and load them again. If they are younger, they are ignored.
Document Cache
Store to Web Cache [selected]
Policy for usage of Web Cache
no cache [not selected] if fresh [selected] if exist [not selected] cache only [not selected]
Robot Behaviour
Use Special User Agent and robot identification [Random Browser]
Snapshot Creation
Max Depth for Snapshots -1
Multiple Snapshot Versions [selected>] replace old snapshots with new one [not selected] add new versions for each crawl must-not-match filter for snapshot generation
Index Attributes
Indexing
index text: {selected] index media: [selected] Add Crawl result to collection(s) user
Time Zone Offset -120

---
How and where did you get YaCy 1.919013 please? I\’d like to update everything to latest ver., please, ASAP. Thanks!
I cannot find it and the win version: 1.909000 update does not show it as available, and from here it\’s somehow not in Google search.

Many thanks for your patient help!

Statistik: Verfasst von xioc752 — Mi Jul 13, 2016 2:48 pm


Hilfe für Einsteiger und Anwender • Re: Crwalerfehler löschen

Date: 2016-07-13 20:00:35

wenn man den Inexbrowser aufruft gibt es unten den button Lösche alle Ladefehler.
Ich denke das ist das wo Links entwder kaputt oder nicht crawlbar sin.

Statistik: Verfasst von Micki — Mi Jul 13, 2016 7:00 pm


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-14 00:22:10

I retried in Robinson mode with \“allip\” network config and with the same parameters as yours and still had no error. To be sure, tomorrow I will retry on windows with YaCy 1.909000...

Looking rapidly for the error \“exist-test failed\” in source code, it looks like YaCy has a problem accessing your Solr index when checking if the url has already been crawled. Did you tried after restarting your YaCy peer? And does basic crawl (/CrawlStartSite.html) works?

The peer I run is in a Docker container on a VPS, and has this version because is automatically built from latest sources on the main YaCy git repository. You can find it on Docker Hub{.postlink}.

If you really want the very latest changes running on Windows, I am afraid you will have to build it yourself from latest sources, or wait for a new official build made available on http://kaskelix.de/update/, by Orbiter I guess.

Statistik: Verfasst von luc — Mi Jul 13, 2016 11:22 pm


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-14 08:54:26

Thank you for your patient and detailed reply and testing.

Your comment on potential problems reading the Solr files, flags a recurring problem / issue
I/we have seen this problem, before, in the 1.839857 +related generations.
This is seen, notably, when we need to move DATA sets to a fresh, certified, public build #.
This happens most frequently when the move becomes urgently needed.
This happens when /ConfigHeuristics_p.html is suddenly unavailable, and shows Solr error mssages, due to a breakdown in the surrounding machine.
Typically it is in the Heuristics page that we see this failure, and when it fails, it produces what seems to be a non-recoverable error.

Following instructions from Orbiter, some years ago, for this specific type of case, we have relied on moving DATA sets to fresh, healthy installs.
This has not always been successful, to say the least.
We have lost access to DATA sets.
Our DATA sets are frequently on the order of 20+ GB or more.

Despite carefully recovering and patiently moving them, we frequently we have huge trouble getting the moved DATA pack to be read, at all.
This is shown in the new \‘fresh build\’ vm refusing to start.
Removing the DATA set and letting the new vm build a new empty DATA set, shows the vm is comparatively healthy.
Stopping it, properly, removing the \‘fresh\’ empty DATA set and replacing it with our DATA set, and restarting - even in \‘administrator\’ mode in the Win version, generates a \‘no start\’ reaction.
I have struggled with this in both Ubuntu installs for 3+ years and more recently in Windows installs.

I am wondering about the UTF- 8 issue.
I may be totally wrong, of course.
Our focused crawls are done in up to 40 languages. Our DATA sets are, of necessity, heavily loaded with many languages and types of characters.
By looking at front end search result \‘symptoms,\’ this may give us a clue to the / or an / underlying problem.
Users need to search from the front end in any of the source languages, of course.

I have noticed, also, that sometimes when a front end search is done specifically in Ukrainian or Russian (for example) the results are very limited, even though there has been a lot of suitable original data mined and cross indexed, previously.
Results in Ukrainian are smaller than Russian results and sometimes only a few pages of results display.
The front end search, using a built in generic display panel, tends to go back to Page 1 - even when a Page 3 or Page 4 is selected to be displayed next.
This happens also when we know that there is substantial \‘extra\’ data results that can be displayed.
The numbers of potential results shown at the top of the results page also seems smaller than should be available.
Reverting to Page 1 happens in cases where we know there is more data and larger available results are shown to be available.

Can this create a weakness in the later readability of DATA sets that have been moved to a fresh vm?
If \‘yes,\’ how can this be \‘strengthened\’ to make the DATA sets more reliably readable, when moved?

I appreciate your thoughts on this, please.
As noted above, I may be totally off base in this examination, but some of the impacts could - perhaps - be as we are seeing them.

Thank you very kindly, once again, for your patient help!
Your seasoned expertise is most appreciated :)

Statistik: Verfasst von xioc752 — Do Jul 14, 2016 7:54 am


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-14 15:14:53

Hi, thanks for your very detailed operations feedback. I think this is very valuable for further improvements.
I am not very experienced in running highly available YaCy peers. I have only been running for my personal use one or two remote peers always up for some months now, with index sizes of only a few Giga Bytes. I also experienced loosing some indexed DATA but mainly because of manipulation errors when starting playing with Docker.

Maybe backing up your index with the \‘Index Export\’ feature (/IndexExport_p.html) and then importing would be a more reliable solution rather than directly reusing DATA folders. Did you experiment a little with this solution? (I don\’t know if it would perform in a reasonable amount of time for data sets as large as yours...)

Another possibility I am thinking (but I didn\’t tried yet) could be to use an external Solr Server rather than the default embedded one in YaCy. Embedded Solr works fine and make YaCy an autonomous application, but I am not sure it is a good option for large production data sets (see Solr wiki{.postlink} and documentation documentation{.postlink} about this).

By the way, these kind of issues are not the most obvious ones to investigate and solve. It would certainly help to perform some debugging when you encounter the issue... Maybe you have some people with development skills in your group?

Statistik: Verfasst von luc — Do Jul 14, 2016 2:14 pm


YaCy Coding & Architecture • official 1.9 Download broken

Date: 2016-07-15 01:05:33

Hi \@Orbiter

the official download archives
http://yacy.net/release/yacy_v1.90_20160704_9000.exe
http://yacy.net/release/yacy_v1.90_20160704_9000.tar.gz
were compiled with Java 1.8. Due to collection api changes YaCy v1.9 will not run in Java 1.7 but it requires Java 1.8.
See also bug report http://mantis.tokeek.de/view.php?id=670 . The networklist will prove this true.

I think it\’s worse while to exchange the archives with a 1.7 compilement.

Statistik: Verfasst von reger — Fr Jul 15, 2016 12:05 am


YaCy Coding & Architecture • Re: official 1.9 Download broken

Date: 2016-07-16 02:07:47

arrr... ok this was a failure.
I exchanged the binaries, but kept the file names. Please re-test.

Statistik: Verfasst von Orbiter — Sa Jul 16, 2016 1:07 am


YaCy Coding & Architecture • Re: official 1.9 Download broken

Date: 2016-07-16 09:11:19

the first peers with YaCy 1.9 and Java 1.7 appear now, so I guess it\’s fixed.

Statistik: Verfasst von Orbiter — Sa Jul 16, 2016 8:11 am


Hilfe für Einsteiger und Anwender • Proxy Login

Date: 2016-07-16 09:35:40

Gibt es so was wie eine Loginseite für Proxyuser?
Ich habe einen User für die Proxybenutzung angelegt.
Damit wer den Proxy benutzen kann muss er ich mit dem User anmelden. Gibt es da eine extra Seite die er aufrufen kann oder nur dass er loginpflichtige Adminfunktionen aufruft?

Statistik: Verfasst von Micki — Sa Jul 16, 2016 8:35 am


YaCy Coding & Architecture • Re: official 1.9 Download broken

Date: 2016-07-16 23:21:10

Orbiter hat geschrieben:\ Please re-test.\



It\’s fine now.

Statistik: Verfasst von reger — Sa Jul 16, 2016 10:21 pm


Fragen und Antworten • Re: Seiten auf Domino Server mit session based auth crawlen

Date: 2016-07-19 22:47:15

Hi Copro,

nein das Feature gibt es nicht, um Inhalte mit Authentifikation nicht unnütz in den Resultaten zu haben, wo man sie als Snippet ohne Authentifikation sehen wurde oder wo man eh ohne die die Anmeldung nicht auf die Seite kommt.
Das Problem stellt sich sowohl im verteilten Index, als auch wenn man die Suche anderen Usern frei gibt.

Cu

Statistik: Verfasst von sixcooler — Di Jul 19, 2016 9:47 pm


Fragen und Antworten • Re: Seiten auf Domino Server mit session based auth crawlen

Date: 2016-07-20 09:42:20

In dem Fall wären die Benutzer im Intranet ja authentifiziert. Das bedeutet man müsste nur eine Möglichkeit finden den Crawler vorher zu authentifizieren ?
Die aktuell verwendete Netzwerkeinheit ist die yacy.network.allip.unit
Gibt es die Möglichkeit über diese Konfiguration nicht nur den User-Agent zu modifizieren sondern eventuell auch eine Authentifizierung (z.B. Session Keks) oder einen X-Auth Header zu hinterlegen ?

Ich hatte zuerst versucht die Netzwerkeinheit yacy.network.intranet.unit zu verwenden - da wurden aber die Server im Intranet mit 10/ Adressen und *.local Hosts abgewiesen.
Aber auch da sind eigentlicht 10/ Adressen erlaubt und nicht in der Blacklist

Code:
# white/blacklistsnetwork.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*,localhostnetwork.unit.access.blacklist =



Als Alternative hätte ich mir die Importmöglichkeit über surrogates angesehen aber soweit ich verstanden habe müsste da dann der eigentliche Inhalt ebenfalls zugänglich gemacht werden.

Statistik: Verfasst von Copro — Mi Jul 20, 2016 8:42 am


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-20 12:50:39

If you want to run the latest code from Git hub...
Muddle and adjust you way thru this Wiki https://github.com/loklak/loklak_server/wiki/Setting-up-Loklak-on-Windows-32-Bit
Take the time to Read sources carefully.
I did it for [url]Loklak.org[/url] and have run yacy for several weeks.
Then follow the Linux instructions for Yacy.
https://github.com/yacy/yacy_search_server
You must start Yacy with the BAT File being in windows.
If you want.

Statistik: Verfasst von smokingwheels — Mi Jul 20, 2016 11:50 am


English • Re: new page =failed. Reason: exist-test failed: Error execu

Date: 2016-07-20 15:59:43

Thank you, smokingwheels.
I will go and look. :) Thanks for the tips, too.

We are still trying to find a strong, reliable solution to
NEW PAGE =FAILED. REASON: EXIST-TEST FAILED: ERROR EXECUTING
1) > the issue of new pages reporting incorrectly at known 1st crawl, hence initial crawling being stopped [as described above] and

2) previously harvested, and what were functional DATA sets non being readable when moved to fresh a YaCy

I am wondering if it is needed to reinstall the same -by now- older version / generation of YaCy to achieve readability?
It was my understanding that this was not required.

We have many large, older DATA sets after several years of cloud based harvesting and now we to \‘mount\’ the older data sets and use them.

Many thanks for your expertise!

Statistik: Verfasst von xioc752 — Mi Jul 20, 2016 2:59 pm


Fragen und Antworten • Re: Seiten auf Domino Server mit session based auth crawlen

Date: 2016-07-20 19:08:31

Hallo Copro,

Der Authentifizierungsteil ist zwar nicht im Crawler eingebaut - aber das ist nicht das Problem:

Das Problem ist das man restricted Content ohne Zuordnung dessen wer das sehen darf in den Suchergebnissen hat - das hat man nur mit mit der gleichen Logik der Seitenquelle. Deswegen überlässt man sowas lieber den Anwendungen aus denen die Seiten stammen. Diese können die gleiche Logik auf die Suchergebnisse anwenden.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jul 20, 2016 6:08 pm


English • How to search all of craigslist?

Date: 2016-07-23 16:51:22

I want to search search multiple craigslist.org sites at once and almost real time. The problem is, they won\’t allow that. They let you search one sub-page per query. Many sites use google to offer customized craigslist searches. However, google doesn\’t offer up to date results. So those pages have poorly results. There are many scripts out there but most of them are out of date. Plus the craigslist.org administrators ban everybody who intent to index their site.
I wish to make a personal search engine similar to the:
https://web.archive.org/web/20100317031 ... sPal-works{.postlink}
Unfortunately the service was forced to shut down:
https://web.archive.org/web/20130416171 ... gspal.com/{.postlink}

I know, I could make an RSS feed reader, but that\’s very inflexible. So the question is, is YaCy suitable for the job or shall I write a script instead? Than is possible to avoid getting banned?

Statistik: Verfasst von kato — Sa Jul 23, 2016 3:51 pm


English • Trying to get YaCy working with I2P, error, need help

Date: 2016-07-26 01:49:37

Greetings,

I am attempting to get YaCy working with I2P. I don\’t know too much about YaCy but have managed to get YaCy to index eepsites, and connect to another peer over I2P. That\’s where it ends. I get an error that I can\’t figure out (probably from lack of knowledge). If more information is needed, let me know. I would really like to get this working with I2P.

The below is part of the log from the principal peer.

Code:
I 2016/07/25 18:13:04 YACY hello/server: changing remote peer '_anonufe-29231182-0' [tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, 127.0.0.1] peerType from 'virgin' to 'senior'.I 2016/07/25 18:13:04 YACY hello/server: responded remote peer '_anonufe-29231182-0' [tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, 127.0.0.1] in 39 millisecondsI 2016/07/25 18:13:21 YACY yacyClient.hello thread 'HTTPClient-http://tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p:8091/yacy/hello.html' contacted peer at tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p:8091, received 1010 bytes, time = 59 millisecondsW 2016/07/25 18:13:21 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException   at net.yacy.peers.Protocol.hello(Protocol.java:238)   at net.yacy.peers.Network$publishThread.run(Network.java:211)E 2016/07/25 18:13:21 YACY publishThread: error with target seed {UTC=-0400,Port=8091,RCount=0,Hash=jW8wmuJ4oc5i,LastSeen=20160725221304,Name=_anonufe-29231182-0,Version=1.90009000,rI=0,NCount=0,USpeed=0,rU=0,RSpeed=0.0,IP=tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p,PeerType=senior,ISpeed=0,ICount=0,CCount=2.0,sI=0,LCount=0,sU=0,BDate=20160725221252,news=,Uptime=0,Flags=%   ,IP6=,SCount=1,JRE=1.8.0_91}: nulljava.lang.NullPointerException   at net.yacy.peers.Protocol.hello(Protocol.java:238)   at net.yacy.peers.Network$publishThread.run(Network.java:211)I 2016/07/25 18:13:21 YACY PeerPing: I am accessible for 0 peer(s), not accessible for 0 peer(s).I 2016/07/25 18:13:21 YACY PeerPing: No data, staying at myType: principalI 2016/07/25 18:13:32 YACY hello/server: responded remote virgin peer '_anonufe-29231182-0' from [tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, 127.0.0.1], time_dnsResolve=0, time_backping=24, method=reportedip=tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, urls=0I 2016/07/25 18:13:32 YACY hello/server: changing remote peer '_anonufe-29231182-0' [tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, 127.0.0.1] peerType from 'virgin' to 'senior'.I 2016/07/25 18:13:32 YACY hello/server: responded remote peer '_anonufe-29231182-0' [tndmt4uz4nglsbfrmucdjyvuwuzcvberfurzrp53ha3tinohfgiq.b32.i2p, 127.0.0.1] in 27 milliseconds




Below is part of the log from the new peer.

Code:
I 2016/07/25 18:13:02 YACY yacyClient.hello thread 'HTTPClient-http://kaddhgljo3u6gcktwtjsxrf7ok4sp7xdhw3k4vk67vehsjfxwo2q.b32.i2p:8090/yacy/hello.html' contacted peer at kaddhgljo3u6gcktwtjsxrf7ok4sp7xdhw3k4vk67vehsjfxwo2q.b32.i2p:8090, received 1002 bytes, time = 91 millisecondsW 2016/07/25 18:13:02 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException   at net.yacy.peers.Protocol.hello(Protocol.java:238)   at net.yacy.peers.Network$publishThread.run(Network.java:211)E 2016/07/25 18:13:02 YACY publishThread: error with target seed {UTC=-0400,Port=8090,RCount=0,Hash=rqSdw4MOl7vi,LastSeen=20160725221221,Name=_anonufe-29160459-0,Version=1.90009000,rI=0,NCount=0,USpeed=0,rU=0,RSpeed=0.0,IP=kaddhgljo3u6gcktwtjsxrf7ok4sp7xdhw3k4vk67vehsjfxwo2q.b32.i2p,PeerType=principal,ISpeed=0,ICount=0,CCount=0.0,sI=0,LCount=0,seedURL=http://qbmqolrdw732vzqtrlp75zil4tr4nckh5onppzhhox2jbtymmasa.b32.i2p/seed.txt,sU=0,BDate=20160725221141,news=,Uptime=0,Flags=%   ,IP6=,SCount=0,JRE=1.8.0_91}: nulljava.lang.NullPointerException   at net.yacy.peers.Protocol.hello(Protocol.java:238)   at net.yacy.peers.Network$publishThread.run(Network.java:211)I 2016/07/25 18:13:02 YACY PeerPing: I am accessible for 0 peer(s), not accessible for 0 peer(s).I 2016/07/25 18:13:02 YACY PeerPing: No data, staying at myType: virgin



I would appreciate any and all help. Thank you.

Statistik: Verfasst von mcradventures — Di Jul 26, 2016 12:49 am


English • Re: How to search all of craigslist?

Date: 2016-07-26 21:30:43

Hi, if craigslist ban anyone intending to crawl their sites, I am not sure YaCy would currently help you...
However I suppose YaCy network could theorically do it, using \“global crawl\” feature (see \“Do Remote Indexing\” on the bottom of the CrawlStartExpert.html page on a running YaCy peer), but I fear currently there are not so much YaCy peers accepting remote crawls, and also maybe not enough peers running at the same time...

YaCy heuristics feature (/ConfigHeuristics_p.html) could also help, but it is designed to only configure some OpenSearch URLs which will fill P2P search results with some more items, and won\’t be the only results source.

But maybe a Meta Search engine such as Searx could help you more...

Statistik: Verfasst von luc — Di Jul 26, 2016 8:30 pm


English • Re: Trying to get YaCy working with I2P, error, need help

Date: 2016-07-26 22:02:22

Hi, how do you proceed to connect to your I2P peer? Did you create a custom Network Definition file (something like yacy.network.[yournetwork].unit) and used it in /ConfigNetwork_p.html? I suppose this the first thing to do, as was done for the ZeroNet network{.postlink} for example...
By the way, looking at your error stack trace, it looks like your peer tried to perform DNS resolution{.postlink} on your other peer address. Of course if did not found anything and returned null, but the null result is indeed not very well handled : it is likely the ie.getHostAddress(){.postlink} instruction which triggers that obscure NullPointerException.
At that point, I have not currently enough YaCy network definitions knowldge to predict if it may be correctly configured to handle I2P without further developments, but maybe \@Orbiter will have some tips for you...

Statistik: Verfasst von luc — Di Jul 26, 2016 9:02 pm


English • Re: Trying to get YaCy working with I2P, error, need help

Date: 2016-07-27 03:41:44

luc hat geschrieben:\ Hi, how do you proceed to connect to your I2P peer? Did you create a custom Network Definition file (something like yacy.network.\[yournetwork\].unit) and used it in /ConfigNetwork\_p.html? I suppose this the first thing to do, as was done for the [ZeroNet network](https://github.com/yacy/yacy_search_server/blob/master/defaults/yacy.network.zeronet.unit){.postlink} for example\...\ By the way, looking at your error stack trace, it looks like your peer tried to perform [DNS resolution](https://github.com/yacy/yacy_search_server/blob/master/source/net/yacy/cora/protocol/Domains.java#L876){.postlink} on your other peer address. Of course if did not found anything and returned null, but the null result is indeed not very well handled : it is likely the [ie.getHostAddress()](https://github.com/yacy/yacy_search_server/blob/master/source/net/yacy/peers/Protocol.java#L238){.postlink} instruction which triggers that obscure NullPointerException.\ At that point, I have not currently enough YaCy network definitions knowldge to predict if it may be correctly configured to handle I2P without further developments, but maybe \@Orbiter will have some tips for you\...\



I\’m new to YaCy, but below is the config:

Code:
yacy.init (changes):network.unit.definition = defaults/yacy.network.i2p.unitnetwork.group.definition = defaults/yacy.network.i2p.groupremoteProxyUse=trueremoteProxyUse4SSL=trueremoteProxyHost=127.0.0.1remoteProxyPort=4444remoteProxyNoProxy=127\..*,localhostseedUploadMethod=FileseedFilePath=Data/eepsite/docroot/seed.txtseedURL=http://qbmqolrdw732vzqtrlp75zil4tr4nckh5onppzhhox2jbtymmasa.b32.i2p/seed.txtpeername=I2PYaCyyacyDebugMode=truestaticIP=kaddhgljo3u6gcktwtjsxrf7ok4sp7xdhw3k4vk67vehsjfxwo2q.b32.i2pbrowserPopUpTrigger=falseclienttimeout=90000crawler.clientTimeout=90000proxy.clientTimeout=90000indexControl.timeout=180000indexDistribution.timeout=180000indexTransfer.timeout=360000CRDistOn=falseCRDist1Target=proxyClient=localhost,127\.0\.0\.1



The yacy.network.i2p.unit (for principle peer) is:

Code:
network.unit.name=i2pworldnetwork.unit.description=Yacy network for I2Pnetwork.unit.domain=anynetwork.unit.search.time=4network.unit.dhtredundancy.junior=1network.unit.dhtredundancy.senior=1network.unit.bootstrap.seedlist0=http://qbmqolrdw732vzqtrlp75zil4tr4nckh5onppzhhox2jbtymmasa.b32.i2p/seed.txtnetwork.unit.update.location0=http://yacy.net/Download.html network.unit.update.location1=http://latest.yacy.de network.unit.protocol.control=uncontrolled


The other peer has the \“network.unit.dhtredundancy.senior\” changed to 3.

yacy.network.i2p.group file is empty.
yacy.networks file contains:
defaults/yacy.network.i2p.unit

There are three total I2P tunnels being used. One is used for eepsite indexing (port 4444), another is used for the seed.txt (qbmqolrdw732vzqtrlp75zil4tr4nckh5onppzhhox2jbtymmasa.b32.i2p), and the third is used for allowing access to the YaCy (YaCy port).

For testing, one peer is a principle peer. The other a senior peer. Both are ran on the same computer using different ports and different I2P tunnels to avoid conflicts. Since the connections are going over I2P, there shouldn\’t be a problem with this I wouldn\’t think. They seem to be able to see each other, they seem to be able to exchange hellos. They seem to have issues actually connecting to each other and the error in the original post might be the culprit. The ultimate goal of this little project is decentralized eepsite indexing on I2P. Nothing currently exists like it on I2P and I want to bring it to I2P. Any help would be appreciated.

NOTE: Due to being new to YaCy, there may be problems with the configuration. Everything other than the above is pretty much stock.

Statistik: Verfasst von mcradventures — Mi Jul 27, 2016 2:41 am


Solr Support • unexpected docvalues type NONE for field \‘url_chars_i\’

Date: 2016-07-27 17:19:48

Hi,

Code:
E 2016/07/27 19:15:50 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)



Fra-ge: Wenn ich über die Seite \‘IndexReIndexMonitor_p.html\’ einen recrawl des kompletten Index anstoße, wird dann das og. Feld aus dem Solr-Schema befüllt?


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mi Jul 27, 2016 4:19 pm


Fragen und Antworten • Re: Meta-Beschreibung

Date: 2016-07-28 13:31:23

Hallo,

ich vermute mal, Yacy unterscheidet nicht zwischen sichtbaren und nicht sichbaren Elementen und liefert daher in den Ergebnissen auch leider Java-Script in der Vorschau mit aus.
Vielleicht mal im Bugtracker als Feature-Request einstellen und hoffen, daß ein Programmieren sich dessen annimmt :D
Bugtracker: http://mantis.tokeek.de/my_view_page.php

Statistik: Verfasst von webproject — Do Jul 28, 2016 12:31 pm


Fragen und Antworten • Yacy als Proxy in größeren Umgebungen

Date: 2016-07-31 08:26:25

Verwendet von euch einer Yacy als Proxy in Umgebungen ab 10 User aufwärts?
Würde gerne mal das mit dem entfernten Proxy testen!

Statistik: Verfasst von Micki — So Jul 31, 2016 7:26 am


Fragen und Antworten • Re: Yacy als Proxy in größeren Umgebungen

Date: 2016-07-31 11:02:19

Hallo \@Micki

Micki hat geschrieben:\ Würde gerne mal das mit dem entfernten Proxy testen!\



Das funktioniert wohl nur mit einem entsprechenden Server und einer festen IP-Adresse, welcher wie mein eigener Rechner hier [[247]{style=“font-style: italic”}]{style=“font-weight: bold”} durchläuft. Theoretisch könnte ich den als YaCy-Proxy für den Rechner meines Sohnes verwenden und ich hab das auch schon probiert, das funktioniert einwandfrei. Allerdings sind beide Rechner und auch unsere Smartphones natürlich hier im eigenen Netzwerk, so daß das ohne Probleme läuft. Auch mit anderen Rechnern [(Laptops)]{style=“font-style: italic”}, Smartphones und zwei Tabletts [(insgesamt [8]{style=“font-weight: bold”} Geräte gleichzeitig)]{style=“font-style: italic”} habe ich das getestet, Probleme gab es damit nicht wirklich, aber es bremst die entsprechenden Rechner/Smartphones und natürlich meinen eigenen Arbeits-PC gehörig!

Andererseits habe ich auch einen [[[HAVP]{style=“text-decoration: underline”}{.postlink}]{style=“font-weight: bold”} ([[H]{style=“text-decoration: underline”}]{style=“font-weight: bold”}TTP [[A]{style=“text-decoration: underline”}]{style=“font-weight: bold”}nti [[V]{style=“text-decoration: underline”}]{style=“font-weight: bold”}iren [[P]{style=“text-decoration: underline”}]{style=“font-weight: bold”}roxy)]{style=“font-style: italic”} hier am laufen, da mir dann doch gerade auf dem Windows [[7]{style=“font-style: italic”}]{style=“font-weight: bold”} Rechner meines Sohnes die Sicherheit vorgeht!

Mein YaCy ist auch nicht öffentlich, da ich ja dank meines Providers alle [[24]{style=“font-style: italic”}]{style=“font-weight: bold”} Stunden eine neue IP bekomme [(Zwangstrennung)]{style=“font-style: italic”}. Netzintern geht das also einwandfrei, extern kann ich jedoch derzeit nicht probieren. Ich habe jedoch vor längerer Zeit mal einen Versuch gestartet und meine zu dem Zeitpunkt öffentliche IP notiert und bin dann zu meiner Ex-Ehefrau gefahren. Auf den damals [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} vorhandenen Rechnern [(zwei Tower per LAN und ein Laptop über WLAN)]{style=“font-style: italic”} habe ich dann zum Testen mein YaCy als Proxy eingerichtet und siehe da:

[[Es funktionierte ohne Probleme!]{style=“font-style: italic”}]{style=“font-weight: bold”}

Die einzige Einschränkung dabei ist natürlich die jeweilige Geschwindigkeit der Verbindung! Ich selbst habe hier Glasfaser und das läuft wirklich flott, während meine Ex zu dieser Zeit nur eine [[6.000]{style=“font-style: italic”}]{style=“font-weight: bold”}er Leitung hatte. Ehm... nicht wirklich optimal! :roll:

In einem internen Netz sollte das aber auf jeden Fall funktionieren. Dabei ist jedoch zu beachten, daß auf dem YaCy-Server nicht viel anderes läuft und dieser sollte auch [[relativ]{style=“font-style: italic”}]{style=“font-weight: bold”} gut ausgestattet sein. Wenn ich meinen eigenen Rechner als Server nehmen würde, dann sehe ich diesen außer den Festplatten als absolutes Minimum an:


In einer größeren Umgebung ab [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} PC\’s würde ich jedoch einen [[\“richtigen\“]{style=“font-style: italic”}]{style=“font-weight: bold”} Server für YaCy in die Ecke stellen, keinen billigen und etwas getunten Büro-PC wie meinen eigenen, welcher ja auch noch für andere Zwecke verwendet wird! Wer außer mir läßt schon seinen PC [[247]{style=“font-style: italic”}]{style=“font-weight: bold”} durchlaufen? Immerhin mach ich ja auch noch bei [[SETI]{style=“font-style: italic”}]{style=“font-weight: bold”} mit [(BOINC)]{style=“font-style: italic”} und der schon erwähnte [[HAVP]{style=“font-style: italic”}]{style=“font-weight: bold”} braucht natürlich auch noch entsprechend Ressourcen.


Grüße nun aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Jul 31, 2016 10:02 am


Fragen und Antworten • Re: Yacy als Proxy in größeren Umgebungen

Date: 2016-08-01 06:10:40

Hallo Micki,

hier die Antwort auf deine PN:

Micki hat geschrieben:\ Hallo Mike,\ das finde ich erst mal spitze ein Yacyanwender aus Augsburg !\ Bin auch in Augsburg.\



Willkommen im Club! :mrgreen:

Micki hat geschrieben:\ Ich hab hier den Proxy aktiviert. Verbessert sehr den eigenen Index hab ich festgestellt.\



Dafür ist der Proxy ja auch da.

Micki hat geschrieben:\ Würde deshalb gerne mal in einer größeren Umgebung einen Proxy anzapfen.\




Wie ich geschrieben habe konnte ich das bisher nicht richtig testen, sondern eben nur bis maximal [[8]{style=“font-style: italic”}]{style=“font-weight: bold”} Geräte. Da YaCy jedoch hier auf meinem Arbeits-PC läuft geht dieser natürlich in die Knie, so daß ein vernünftiges Arbeiten unmöglich wird, wenn mehrere Personen gleichzeitig darauf zurückgreifen!

Man sollte hierfür ein extra Gerät [(PC oder richtiger Server)]{style=“font-style: italic”} verwenden, was allerdings mit extra Kosten verbunden sein wird. Bei mir rentiert sich daß mit maximal [[5]{style=“font-style: italic”}]{style=“font-weight: bold”} gleichzeitig laufenden Geräten inkl. meinem Arbeits-PC eher nicht, außerdem könnte ich mir das als Hartz-IV-Empfänger derzeit auch gar nicht leisten!

Ich könnte aber mal sehen, was ich aus den alten Rechnern in meinem Keller rausholen kann, allerdings dauert das natürlich seine Zeit. Außerdem mache ich vom Jobcenter aus einen halbtägigen Kurs mit, so daß meine Zeit doch etwas knapp wird! Einen Versuch ist es jedoch wert, vielleicht kann ich da ja was zusammenbasteln. Wäre nicht das erste mal, daß ich solche Experimente mache. ;)

Viele Grüße aus der Firnhaberau

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Aug 01, 2016 5:10 am


Fragen und Antworten • Re: Yacy als Proxy in größeren Umgebungen

Date: 2016-08-01 19:46:00

Ich plane mir die Tage 4 HD\’s zu kaufen um endlich meinen Prolineat aufsetzen zu können!

Statistik: Verfasst von Micki — Mo Aug 01, 2016 6:46 pm


Solr Support • Re: unexpected docvalues type NONE for field \‘url_chars_i\’

Date: 2016-08-03 04:11:10

Hm.. auch wenn ich das Feld url_chars_i im Solr-Schema-Editor deaktiviere und YaCy neustarte wird die Exception immer noch geworfen :-(

\@devs: Könnt ihr das bitte fixen?

Statistik: Verfasst von LA_FORGE — Mi Aug 03, 2016 3:11 am


Hilfe für Einsteiger und Anwender • Re: CPU usage (GNU, like Slackware64, old PC) 100%--can I li

Date: 2016-08-03 08:14:40

Thanks, I\’ll try one or both of those things... but I thought people would be discussing similar operating system (OS) distributions (distro.) Slackware is a very Unix-like OS/distro, since it uses sysvinit; Debian is not anymore, because it uses systemd.

Statistik: Verfasst von dchmelik — Mi Aug 03, 2016 7:14 am


Hilfe für Einsteiger und Anwender • Re: CPU usage (GNU, like Slackware64, old PC) 100%--can I li

Date: 2016-08-03 20:30:53

Hi,

if you want to limit the System-usage of YaCy on a Linux-System you can use a build-in feature to set the max systemload at Performance Settings of Queues and Processes (/PerformanceQueues_p.html) on the right column:
There you can set for each task of YaCy a maximum Systemload - of the system has an higher load this task stops untill the load is lower than the value.

For eg. I use a Max Systemload of 1.0 for Local crawl - whenever there is load from other processes, or tasks of yacy this stops and the System has recources left for other things.
The Systemload is much more precise than the cpu-usage for tuning in order to have an always usable system. On the other hand this is not available for Windows-Systems.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Aug 03, 2016 7:30 pm


Solr Support • Re: unexpected docvalues type NONE for field \‘url_chars_i\’

Date: 2016-08-03 20:50:25

Hi LA_FORGE,

kannst Du das Reproduzieren? - wann kommt es zu dieser Exception?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Aug 03, 2016 7:50 pm


YaCy Coding & Architecture • AJAX/AJAJ dynamic web page crawling

Date: 2016-08-04 22:34:09

Since october 2015 google officially announced that they are able to crawl dynamic AJAX/JSON-driven web pages without any extra work from web page administrators because their crawler is able to read dynamic web pages in the same way as web browsers do:

https://webmasters.googleblog.com/2015/ ... cheme.html{.postlink}

https://webmasters.googleblog.com/2015/10/deprecating-our-ajax-crawling-scheme.html hat geschrieben:\ Today, as long as you\'re not blocking Googlebot from crawling your JavaScript or CSS files, we are generally able to render and understand your web pages like modern browsers.\



I thought it may be really difficult to do so for us as well. But just recently I had a look for headless browser frameworks and I found htmlunit{.postlink} - in a very simple test I was able to run this tool and get full DOM-enriched content from AJAX-driven web pages. :ugeek:
That means we have the opportunity to get better crawled content. I am currently investigating opportunities to create a new crawler based on that.

As there is a plan to create a \‘YaCy2\’ made out of single components (see kaskelix.de) the \‘new\’ crawler using htmlunit could become one first of such components.

Statistik: Verfasst von Orbiter — Do Aug 04, 2016 9:34 pm


Hilfe für Einsteiger und Anwender • Re: CPU usage (GNU, like Slackware64, old PC) 100%--can I li

Date: 2016-08-05 09:38:33

Ah yes thanks sixcooler! Again YaCy had an already available feature, one just has to know where to find it ;) Effectively these options provide finer tuning inside YaCy. I am playing a little with them and it looks like they do the job on Debian Linux. But on my machine they do not prevent high CPU peak usages... Not really a problem, but when you wish to have a hard CPU usage limit, OS specific features like cgroups on Linux may be more reliable. Of course the best is to test what fits the most one\’s needs.

Statistik: Verfasst von luc — Fr Aug 05, 2016 8:38 am


English • Export to file -no export- failed: number of exported docume

Date: 2016-08-06 10:28:48

re

\ Export to file -no export- failed: number of exported documents == 0\



in installation
at
/IndexExport_p.html

Dear colleagues,
Attempt to export movable file using tool at
/IndexExport_p.html
Full Data Records: XML (Rich and full-text Solr data...

generates
[Export to file -no export- failed: number of exported documents == 0]{style=“font-weight: bold”}

Under
Index Export
The local index currently contains 35,863 documents.

YaCy version: 1.909000
Uptime: 0 days 00:58
Java version: 1.8.0_102
Processors: 2
Load: -1.0
Threads: 4416, peak:75, total:483
RAM used: 202.91 MB
RAM max: 580 MB
Memory reserved for JVM 600 MByte

Crawling...on schedule

Please advise how to get an export
restarting, rebooting does not clear this error

Many thanks!

Statistik: Verfasst von xioc752 — Sa Aug 06, 2016 9:28 am


English • Re: Export to file -no export- failed: number of exported do

Date: 2016-08-06 14:07:12

Hi, I just checked sources and performed an export on my peer, and for now I can tell you this error is supposed to occur when you set a too restrictive filter, for example with \“query\” or \“maximum age\” field.
Did you set some value in these fields? You should check it fits what you need.

Statistik: Verfasst von luc — Sa Aug 06, 2016 1:07 pm


YaCy Coding & Architecture • Dokumentation des Expertcrawl Formular

Date: 2016-08-07 13:49:52

Gibt es eine Dokumentation für das Expert Crawlformular oder eine Api um anderen Anwendungen das Einstellen von Crawls zu ermöglichen?

Statistik: Verfasst von Micki — So Aug 07, 2016 12:49 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-07 17:05:28

Hat sich erledigt. Bin fündig geworden:

http://www.yacy-websearch.net/wiki/inde ... APICrawler{.postlink}

Statistik: Verfasst von Micki — So Aug 07, 2016 4:05 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-08 18:40:03

Hi Micki, I also initially missed this page. So I added a link in the Dev:API{.postlink} wiki page.
If you see other relevants pages which should link to this doc, dont\’ hesitate to update it.

Statistik: Verfasst von luc — Mo Aug 08, 2016 5:40 pm


Hilfe für Einsteiger und Anwender • Re: Anazon & Co.

Date: 2016-08-09 15:34:20

Der Proxy checkt einige Eigenschaften der Webseiten, bevor die indexiert werden. Wenn es möglich ist, dass die Seite personalisierte Inhalte enthält, wird sicherheitshalber nicht indexiert, um nicht Daten im Index aufzunehmen, die dort im Zweifelsfall nichts zu suchen haben. Wenn ich mich richtig erinnere, ist eine dieser Eigenschaften, dass Cookies gesetzt werden.

Da mittlerweile die Seiten, die keine Cookies setzen, schon fast die Ausnahme bilden, ist der Proxy zum Indexieren leider nur noch bedingt geeignet.

Statistik: Verfasst von Low012 — Di Aug 09, 2016 2:34 pm


Hilfe für Einsteiger und Anwender • Re: Anazon & Co.

Date: 2016-08-09 20:44:43

Wird aber scheinbar nicht wirklich konsequent durchgezogen ;) . Aber immerhin weiß man jetzt was.

Statistik: Verfasst von Micki — Di Aug 09, 2016 7:44 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-09 21:48:55

The Question is, how many crawljobs can be insert per minute? Are there any further limitations than discspace?

Statistik: Verfasst von Micki — Di Aug 09, 2016 8:48 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-10 09:35:01

I thinks this depends on your crawler and performance settings. I am not aware of /CrawlStartSite.html or /CrawlStartExpert.html setting time restrictions to submit new crawls.
So if you submit many new crawls in a short time, I guess you would eventually end up with your crawl queue being full because reaching memory limits. The best is even to test this.

Statistik: Verfasst von luc — Mi Aug 10, 2016 8:35 am


Solr Support • Re: unexpected docvalues type NONE for field \‘url_chars_i\’

Date: 2016-08-10 12:09:42

Hi,

die Exception wird dauernd während dem Crawlen geworfen (sowohl beim \“normalen\” Crawlen als auch bei der neuen Recrawl-Funktion die ihr eingebaut habt). Auch wenn ich das Feld im Schema-Editor deaktiviere und YaCy neustarte wird sie immer noch geworfen:

Code:
E 2016/08/10 14:02:09 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentListByQuery(MirrorSolrConnector.java:233) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentListByQuery(MirrorSolrConnector.java:233) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentListByQuery(MirrorSolrConnector.java:233) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)E 2016/08/10 14:01:45 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field 'url_chars_i' (expected=NUMERIC). Use UninvertingReader or index with docvalues. at org.apache.lucene.index.DocValues.checkField(DocValues.java:208) at org.apache.lucene.index.DocValues.getNumeric(DocValues.java:227) at org.apache.lucene.search.FieldComparator$NumericComparator.getNumericDocValues(FieldComparator.java:167) at org.apache.lucene.search.FieldComparator$NumericComparator.doSetNextReader(FieldComparator.java:153) at org.apache.lucene.search.SimpleFieldComparator.getLeafComparator(SimpleFieldComparator.java:36) at org.apache.lucene.search.FieldValueHitQueue.getComparators(FieldValueHitQueue.java:183) at org.apache.lucene.search.TopFieldCollector$SimpleFieldCollector.getLeafCollector(TopFieldCollector.java:164) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:812) at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535) at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206) at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792) at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611) at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573) at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524) at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272) at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219) at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentListByQuery(AbstractSolrConnector.java:423) at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentListByQuery(MirrorSolrConnector.java:233) at net.yacy.cora.federate.solr.connector.AbstractSolrConnector$3.run(AbstractSolrConnector.java:361)

Statistik: Verfasst von LA_FORGE — Mi Aug 10, 2016 11:09 am


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-12 20:10:23

Using the form it thaks about 17 minutes until 1 one job is insert.

Statistik: Verfasst von Micki — Fr Aug 12, 2016 7:10 pm


Wunschliste • No More 404s -View a saved version courtesy of the Wayback M

Date: 2016-08-13 08:52:58

For those of us using YaCy to create serious archives - and everyone else!

In [[[Firefox Test pilot]{style=“text-decoration: underline”}]{style=“font-style: italic”}]{style=“font-weight: bold”},
There is a new Firefox add on to refer 404 pages to the WayBack Archive
[\“View a saved version courtesy of the Wayback Machine\“]{style=“font-weight: bold”}
https://testpilot.firefox.com/

They write

\ Just Launched\ No More 404s\ Powered by the Wayback Machine\ Tired of dead ends on the web?\ We\'ll let you know when there\'s a saved version of what you\'re looking for on the Internet Archive\'s Wayback Machine.\



[[Please, can we have the function in YaCy?
This would be VERY USEFUL!]{style=“font-style: italic”}]{style=“font-weight: bold”}

The tools for it are Open Sourced - Firefox
This is scheduled to become a standard part of Firefox

Note: This is somewhat similar to the Cache Viewing \“Ressurect Pages\” Firefox addon
https://addons.mozilla.org/en-US/firefox/addon/resurrect-pages/
Which covers that and these
o Google Cache
o The Internet Archive
o WebCite
o archive.is

This recoverable page option could be a very important function
Beyond the current fundamental question of \“does it exist NOW\”
This could be \‘toggled\’ in the user results, for example.

This implementation as a Function to toggle [on a case by case basis]{style=“font-weight: bold”} in the results, will preserve several important aspects of YaCy security and ALSO allow \‘in depth\’ research, if needed.
We have users asking for something like this kind of function - who want to see \‘lost\’ archival type records no longer displayed.

[Thank you, and in many languages!]{style=“font-weight: bold”}

Statistik: Verfasst von xioc752 — Sa Aug 13, 2016 7:52 am


Solr Support • Re: unexpected docvalues type NONE for field \‘url_chars_i\’

Date: 2016-08-13 19:47:25

Ha! Ich glaube ich konnte es noch präziser eingrenzen: Es tritt primär beim Postprocessing auf, und zwar immer genau nach:

Code:
I 2016/08/13 21:44:07 CollectionConfiguration convergence step 1 for host mitratemplate.com ...I 2016/08/13 21:44:07 CollectionConfiguration convergence for host mitratemplate.com after 1 steps



Und direkt danach wird dann die Exception geworfen.

Statistik: Verfasst von LA_FORGE — Sa Aug 13, 2016 6:47 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-16 14:26:51

Wow, 17 minutes, to only insert a crawl job? Something may have gone wrong. On my YaCy peer running only with 600MB RAM on a 2,4GHz processor this only takes a few secons to add a new crawl job with the form...
Do you use some options other than defaults?

Statistik: Verfasst von luc — Di Aug 16, 2016 1:26 pm


Wunschliste • Re: No More 404s -View a saved version courtesy of the Wayba

Date: 2016-08-16 15:05:48

Hi, what exactly do you mean?
Would you like YaCy to provide alternative links (when they exist) to the archived version of any result which current status is 404? Instead of displaying dead links or hiding them from the results pages?

Statistik: Verfasst von luc — Di Aug 16, 2016 2:05 pm


Off-Topic • HP Printer Tech Support Number 1 888 883 1066 Hp Printer Pho

Date: 2016-08-16 18:59:17

**① ⑧⑧⑧ ⑧⑧③ ①⓪⑥⑥ ♋ HP Printer Support Number
++++1-888-883-1066 HP printer support number**
[HP printer support number 1 888 883 1066][1]
[1]: http://hpprintersupportnumber.site123.me/
We\’re happy to help you 247 call us 1 888 883 1066
HP printer customer support service number 1 888 883 1066
Call on HP Printer customer service hours number, it is the toll free number of qualified HP Printer technical support experts here you can
get solution for HP Printer not working properly, how to use HP Printer etc. You can communicate with our engineers all time, they are available 247 time for USA & Canada HP Printer customer.
HP Care Pack
Extend your warranty with more years – Once our HP Care-line officer diagnoses the need for a replacement printer, please bring the printer
back to an HP Authorized Exchange Point. Your replacement printer will be available for collection at the same HP Authorized Exchange Point
Contact us HP printer support number 1 888 883 1066
Get technical support for HP products and services.
Contact us HP printer support number 1 888 883 1066
Tell us more about your product or service to be connected with an expert.
Hp Printer tech support phone number,
Hp Printer live support phone,
Hp Printer live account support number,
Hp Printer support phone,
Hp Printer service phone number,
Hp Printer live account phone number,
Hp Printer com support number,
Hp Printer tech support phone number,
Call Hp Printer customer support,
Hp Printer customer service phone number,
Hp Printer live billing phone number,
Hp Printer live troubleshooting,
Customer service Hp Printer,
1800 for my Hp Printer,
Hp Printer live support telephone number,
Hp Printer live problems,
Call Hp Printer live support,
Hp Printer live 800 number,
Hp Printer number call,
Hp Printer tech support number,
Support Hp Printer live,
Hp Printer customer support phone number,
Hp Printer helpline number,
Hp Printer help number,
Hp Printer contact support,
Hp Printer billing phone number,
Contact Hp Printer phone number,
Hp Printer customer service telephone number,
Hp Printer customer support,
Hp Printer 1800 number,
Hp Printer phone number customer service
1800 my Hp Printer,
Hp Printer phone number,
Hp Printer live account support,
Contact Hp Printer live customer service,
Hp Printer support call,
Hp Printer live service
lists.gnu.org/archive/html/savannah-register-public/2016-07/msg00079.html
https://forums.gota.io/thread-10080.html
https://blueprints.launchpad.net/steady ... 8-883-1066{.postlink}
https://www.pythonanywhere.com/forums/topic/6061/
https://www.americanexpress.com/us/smal ... rt-number/{.postlink}
https://www.reddit.com/r/HP_Casting/com ... 888831066/{.postlink}
http://osdir.com/ml/savannah-register-p ... 00081.html{.postlink}
https://www.penflip.com/Armitadev/hp-pr ... 8-883-1066{.postlink}
http://best-metal-detector.com/hp-print ... o-replies/{.postlink}
https://www.gitbook.com/explore?page=5189
https://community.secondlife.com/t5/%D0 ... -p/3056310{.postlink}
https://www.plurk.com/m/u/Armitadev
http://www.findmall.com/list.php?14
https://blueprints.launchpad.net/steady ... 8-883-1066{.postlink}
HP printer support number call anytime at 1 888 883 1066 //http://hpprintersupportnumber.site123.me/ HP printer support number call anytime at 1 888 883 1066
http://hpprintersupportnumber.site123.me/
HP printer service number 1 888 883 1066
[Hp printer support number 1 888 883 1066][1]
[1]: http://hpprintersupportnumber.site123.me/
We\’re here to help you call us at 1 888 883 1066

Statistik: Verfasst von hpprinter — Di Aug 16, 2016 5:59 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-16 21:23:56

I have 5 GB Ram 14 Mio documents 4 core and 343 crawlobs in the queu

Statistik: Verfasst von Micki — Di Aug 16, 2016 8:23 pm


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-17 10:09:06

Ok, maybe this would be more efficient to start a crawl job with a list of start URLs instead of starting multiple crawl jobs...
By the way, there is probably room for performance improvements so it may be valuable to create a mantis issue. Did you noticed at which number of crawljobs it started to become unreasonnably long to insert new jobs?

Statistik: Verfasst von luc — Mi Aug 17, 2016 9:09 am


YaCy Coding & Architecture • Re: Dokumentation des Expertcrawl Formular

Date: 2016-08-19 19:27:38

I\’m not shure but i think it was between 200 an 250.

Statistik: Verfasst von Micki — Fr Aug 19, 2016 6:27 pm


Hilfe für Einsteiger und Anwender • Performace Optimierung

Date: 2016-08-20 07:22:47

Ich weiß nicht ob das hier oder besser im Bugtracking aufgehoben ist daher erst mal hier ggf. mitteilen das ich es verschiebe.
Ich habe für die Java Maschine 64 Bit 6 GB Ram 4 Kerne und win Server 2012.
Derzeit 14,2 Mio Dokumente im Index und Running crawls (344).
Ich plane über eine Software crawls zu submitten. Derzeit dauert die Bearbeitung eines neuen Submitts via Expertcrawl Forms mindestens 17 Minuten.
Meine Frage kann man da was optimieren das das schneller verarbeitet wird? Die Anwendung die ich geschrieben habe würde nämlich zeitweise die Jobs im 3 Sekunden Rhythmus raus hauen.

Statistik: Verfasst von Micki — Sa Aug 20, 2016 6:22 am


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-20 14:20:56

Hallo Micki,

irgendwo hattest Du ja schon mal davon geschrieben. Ich kann mir nocht nicht vorstellen was da an einem Crawlstart so lange dauern sollte.
Hast Du ein Beispiel, das man sich mal ein Bild davon machen kann?

Vu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Aug 20, 2016 1:20 pm


English • Re: Export to file -no export- failed: number of exported do

Date: 2016-08-21 00:44:21

Hello,

I have the same error when i trie to do a Full Data Records
I use the default filer:

Export Path /usr/share/yacy/DATA/EXPORT/
URL Filter .*.*
query *.*
maximum age (seconds, -1 = unlimited) -1

I have this error in log

2016/08/21 00:45:06 org.apache.solr.handler.RequestHandlerBase java.lang.IllegalStateException: unexpected docvalues type NONE for field \‘load_date_dt\’ (expected=NUMERIC). Use UninvertingReader or index with docvalues.

Statistik: Verfasst von Guims — Sa Aug 20, 2016 11:44 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 08:36:05

Hallo Sicoole,
kann sein ich vermute auch, das es nicht ein generelles yacyproblem ist eher eins meiner Einstellungen.
Habe einen Exprtcrawl mit volgenden Parametern:
http://www.altenhilfe-augsburg.de
https://www.pflege.de
http://www.jameda.de
http://www.kursana.de

Crawltiefe 6

Dauer 12 Minuten von Neuer Crawl job starten drücken bis die Crawlerüberwachungsseite die erfolgreiche Submittung meldet.
Subitt Start erfolgt auf einer andern Maschine denn der Maschine auf der yacy läuft.

Noch ein Hinweis. Ich konnte beobachten, dass nach ca. 6 bis 8 h ein Neustart fällig ist weil in den Browserfenstern nichts mehr angezeigt wird.

Nachtrag:
ich verwende derzeit den Proxy um mal testweise die Ergebnisse meines Tools in yacy rein zu bekommen. Das funktioniert so leidlich und nicht so wie ich es gerne hätte.

Statistik: Verfasst von Micki — So Aug 21, 2016 7:36 am


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 11:53:11

Hallo Micki!

Micki hat geschrieben:\ [[Crawltiefe 6]{style="font-style: italic"}]{style="font-weight: bold"}\ \ Dauer 12 Minuten von Neuer Crawl job starten drücken bis die Crawlerüberwachungsseite die erfolgreiche Submittung meldet.\ Subitt Start erfolgt auf einer andern Maschine denn der Maschine auf der yacy läuft.\ \ Noch ein Hinweis. Ich konnte beobachten, dass nach ca. 6 bis 8 h ein Neustart fällig ist weil in den Browserfenstern nichts mehr angezeigt wird.\



Dir ist schon klar, daß eine Crawltiefe von [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} ziemlich heftig ist, oder? Als einfaches fiktives Beispiel hat jede Seite [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links, welche YaCy dann crawlt:


[[1.000.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Links bei einer Tiefe [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} und nur [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links pro Seite, da YaCy ja von allen Seiten alle Links crawlt! Da sind dann ziemlich viele doppelt oder mehrfach dabei, aber das weiß dein YaCy noch nicht. Als krasses Beispiel nimmst Du dann die englische Wikipedia, in ein paar Jahren dürfte dein YaCy dann mit dem Crawlen fertig sein...

Es braucht nur eine der gecrawlten Seite gleich auf der Crawltiefe [[1]{style=“font-style: italic”}]{style=“font-weight: bold”} einen Link zur Wikipedia haben, dann wird sich dein Server freuen! Es dürfte also einleuchtend sein, warum das bei dir so lange dauert. Das von dir angegebene Portal [[\“Kursana\“]{style=“font-style: italic”}]{style=“font-weight: bold”} z. B. hat unten im Footer etliche Links zu fremden Seiten, da geht es also schon los. [[\“jameda\“]{style=“font-style: italic”}]{style=“font-weight: bold”} verlinkt sogar zu [[\“Burda Digital GmbH\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, Facebook, Twitter und noch ein paar anderen Seiten, da kommt so einiges zusammen!

Eine Crawltiefe von [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} ist eindeutig übertrieben, [[2 - 3]{style=“font-style: italic”}]{style=“font-weight: bold”} ist vollkommen ausreichend. Du kannst ja spaßeshalber mit deiner eingestellten Crawltiefe [[mein Castle{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} indexieren, ich selbst mach das jedenfalls garantiert nicht!

Bedenke, daß viele Seiten wesentlich mehr als nur die fiktiven [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Links zu anderen Seiten haben und welche Auswirkungen das auf dein YaCy hat:


Das dürfte dann auch der Grund sein, warum das Submitten bei dir so lange benötigt! Probier das doch einfach mal mit einer geringeren Crawltiefe aus, vielleicht habe ich mit meiner Vermutung ja recht.

[[Edit:]{style=“font-style: italic”}]{style=“font-weight: bold”} Eigentlich finde ich es ja gut, wenn Du deinen Index so extrem ausbauen willst. Wenn ich mir nämlich den derzeitigen Gesamtindex so betrachten, dann hängen seit einer Ewigkeit irgendwo bei [[~4.000.000.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Dokumenten fest und das ist einfach zu wenig! :cry: Mir scheint es so zu sein, daß zu wenig Werbung für YaCy betrieben wird. Es machen einfach nicht genügen Leute mit bzw. indexieren die vorhandenen Peers nicht genug.

Laut meiner [[\“http://192.168.178.20:8090/Network.html"]{style="font-style: italic”}]{style=“font-weight: bold”} sind es derzeit [[169]{style=“font-style: italic”}]{style=“font-weight: bold”} aktive Senior-, [[877]{style=“font-style: italic”}]{style=“font-weight: bold”} passive Senior- und [[1.130]{style=“font-style: italic”}]{style=“font-weight: bold”} Juniorpeers, der Index könnte also bedeutend größer sein! Da laufen einige [[\“Aktive Principal and Senior Peers\“]{style=“font-style: italic”}]{style=“font-weight: bold”} keine Ahnung wie lange und dann kommen die nicht einmal auf [[100.000]{style=“font-style: italic”}]{style=“font-weight: bold”} Dokumente. :o

Ich indexiere ja auch nicht mehr so wie bei meiner letzten Installation von YaCy, mein Rechner schafft das einfach nicht so wie ich das gerne hätte. Immerhin muß ich mit dem Ding ja noch arbeiten können, da ich leider keinen eigenen Server dafür habe...

Hm...

Da steht doch noch ein alter Rechner hier! Mal sehen, ob ich damit was anfangen kann! Ist es eigentlich möglich, den Index von einem Rechner auf einen Anderen zu übertragen? Wobei das auch egal wäre, da der noch nicht so groß ist. Aber eventuell kann ich mit der Kiste ja was anfangen, das würde auch mein Arbeitstier hier entlasten!


Grüße nun aus Augsburg/Firnhaberau

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Aug 21, 2016 10:53 am


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 15:23:36

Hallo Mike,
danke für Deine Tipps. Mir wird da einiges klarer.
Das es im Index über die 4 Billionen nicht bzw. nur zäh raus geht wundert mich nicht. Ich denke hier stößt die Architektur des Ganzen an Grenzen bzw. Abfragen werden unperformant. Ich habe auch den Eindruck das den Peer privat schalten etwas beim Indexieren bringt.
Ich teste mal die 2er Tiefe.
Ach scheint mir der Proxy ein guter Weg das Indexieren zu verbessern. Mein Tool schiebt die Domains zum Cralen derzeit über den Proxy rein. Allein heute zwischen 8.00 und 11 Uhr ca. 11224 neue Dokumente. Leider muss dafür aber der Index am Wochenende ohne meinen Peer auskommen.

Statistik: Verfasst von Micki — So Aug 21, 2016 2:23 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 15:46:57

Ich habe auch bei Google Recherchen festgestellt, dass gesuchte Infos oft mehrere Ebenen unter der Startseite oft erst zu finden sind.
Was jeder einzelne machen kann ist die Proxifunktion von yacy zu nutzen um den eigenen Idex und damit den ganzen Index zu verbessern.

en.wikipedia.org 249590
de.wikipedia.org 150101

Statistik: Verfasst von Micki — So Aug 21, 2016 2:46 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 15:57:38

Hi Miki!

Micki hat geschrieben:\ Hallo Mike,\ Das es im Index über die 4 Billionen nicht bzw. nur zäh raus geht wundert mich nicht. Ich denke hier stößt die Architektur des Ganzen an Grenzen bzw. Abfragen werden unperformant. Ich habe auch den Eindruck das den Peer privat schalten etwas beim Indexieren bringt.\



Ähem.. 4.000.000.000 sind aber keine Billionen, sondern 4 Milliarden. Bei 4 Billionen Dokumenten hätten wir wohl mehr im Index wie alle anderen Suchmaschinen zusammen! :lol:

Micki hat geschrieben:\ Ach scheint mir der Proxy ein guter Weg das Indexieren zu verbessern.\



Das hat sich bei mir erledigt, da ich hier inzwischen aus verschiedenen Gründen [[HAVP{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} als Proxy verwende.

Micki hat geschrieben:\ Mein Tool schiebt die Domains zum Cralen derzeit über den Proxy rein. Allein heute zwischen 8.00 und 11 Uhr ca. 11224 neue Dokumente. Leider muss dafür aber der Index am Wochenende ohne meinen Peer auskommen.\



Ich verstehe hier dein Vorgehen nicht so ganz, denn einen Crawl kann man ja auch über die entsprechende Benutzeroberfläche anstoßen:

http://192.168.178.20:8090/CrawlStartExpert.html

Das geht auch von einem anderen Rechner im Netzwerk, ein zusätzliches Tool ist doch dafür gar nicht notwendig! :?:

ach ja, auf dem vorhin erwähnten Rechner installiere ich gerade einen Ubuntu Server. Scheint zu funktionieren, allerdings ist [[1]{style=“font-style: italic”}]{style=“font-weight: bold”} GB RAM wohl etwas wenig für YaCy! Mal sehen, ob ich das überhaupt zum Laufen bekomme. Zumindest der Server selbst läuft ja schon mal und macht gerade Updates...

Statistik: Verfasst von TmoWizard — So Aug 21, 2016 2:57 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 16:05:24

Weiterer Grund warum im Index kaum was vorwärts geht ist vermutlich, wenn die Zeit die für das Prüfen ob eine Seite im allgemeinen Index schon ist größer wird, als die Zeit die man zur Indexierung benötigt, wird es auch problematisch.

Statistik: Verfasst von Micki — So Aug 21, 2016 3:05 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 18:07:12

\ Ich verstehe hier dein Vorgehen nicht so ganz, denn einen Crawl kann man ja auch über die entsprechende Benutzeroberfläche anstoßen:\ \ \ \ Das geht auch von einem anderen Rechner im Netzwerk, ein zusätzliches Tool ist doch dafür gar nicht notwendig! ![:?:](http://forum.yacy-websuche.de/images/smilies/icon_question.gif "Question")\



Wenn du manuell anstoßen willst sicher. Ich habe ein nettes Java Programm geschrieben, was systematisch Buchstabenkombinationen mit Tdl\’s kombiniert und wenn es die Kombi gibt sie über den \“Proxy schleift\“.

\ ach ja, auf dem vorhin erwähnten Rechner installiere ich gerade einen Ubuntu Server. Scheint zu funktionieren, allerdings ist [[1]{style="font-style: italic"}]{style="font-weight: bold"} GB RAM wohl etwas wenig für YaCy! Mal sehen, ob ich das überhaupt zum Laufen bekomme. Zumindest der Server selbst läuft ja schon mal und macht gerade Updates\...\



Wird sicher erst mal laufen, aber sobald die Datenbank groß wird in die Knie gehen.

Statistik: Verfasst von Micki — So Aug 21, 2016 5:07 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 18:13:42

Micki hat geschrieben:\ Weiterer Grund warum im Index kaum was vorwärts geht ist vermutlich, wenn die Zeit die für das Prüfen ob eine Seite im allgemeinen Index schon ist größer wird, als die Zeit die man zur Indexierung benötigt, wird es auch problematisch.\



Nun, so besonders lang dürfte das nicht benötigen nehme ich mal an. Der oben erwähnte alte Rechner läuft nun als Ubuntu-Server nur mit YaCy, das Crawlen meines Blogs hat bei einer Crawltiefe 2 nur ein paar Minuten benötigt. Der hat sogar nur 768 MB RAM, scheint YaCy aber nicht wesentlich zu beeinflussen. Es ist dort nur unwesentlich langsamer wie auf meinem normalen Arbeitsrechner. Das bedeutet für mich, daß ich diesen Rechner zumindest etwas entlasten und YaCy von dort deinstallieren kann.

Mal gucken, ob ich für den alten/neuen \“YaCy-Server\” noch etwas zusätzliches RAM auftreiben kann!

Statistik: Verfasst von TmoWizard — So Aug 21, 2016 5:13 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 20:14:12

Na ja Ram bei e-bay ;)

Statistik: Verfasst von Micki — So Aug 21, 2016 7:14 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-21 22:14:55

Hallo,

die Ausführungen zur Indextiertiefe sind schon richtig, haben nur mit der Zeit zum Anlegen des Crawl weniger zu tun.
Ist die Maschine ansonsten schwer am Arbeiten?
Es kann gut sein das einfach zu viel anderes an Tasks ansteht und es daher so lange dauert.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Aug 21, 2016 9:14 pm


Hilfe für Einsteiger und Anwender • Re: Performace Optimierung

Date: 2016-08-22 05:44:17

Ach noch zum Tiefenproblem: Warum kopiert hier yacy nicht Google. Die haben das Problem sehr geschickt mit 2 Bots gelöst. 1 Bot quasi nur auf ebene 1 Domains sammeln und Links auf der ersten Seite und einen 2 Bot (deepbot) der dann in die Tiefen der Seiten abgetaucht ist.

Statistik: Verfasst von Micki — Mo Aug 22, 2016 4:44 am


Hilfe für Einsteiger und Anwender • yacy search portal

Date: 2016-08-24 08:11:58

i am wondering where the coding for the search portal is i am working on my own project and would like to use it instead of everyone being a peer
any help would be appreciated

Statistik: Verfasst von kwell24 — Mi Aug 24, 2016 7:11 am


Hilfe für Einsteiger und Anwender • Re: yacy search portal

Date: 2016-08-24 08:40:56

what i would like to do, is have a main client that does no more than to access the peers on a intranet it serves as the front end to bring the power of the peers to the backend

Statistik: Verfasst von kwell24 — Mi Aug 24, 2016 7:40 am


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-24 16:35:13

Hi \@Orbiter , I propose a solution for packaging YaCy 1.90 for MacOS in Pull Request 68{.postlink}.

Best regards,
Luc

Statistik: Verfasst von luc — Mi Aug 24, 2016 3:35 pm


Hilfe für Einsteiger und Anwender • Re: yacy search portal

Date: 2016-08-25 10:49:37

Hello,
I am not really sure to understand what you want to do, but if you are looking for a search front-end page requesting a backing peer you can for example use the webclient_bootstrap{.postlink} as a basis.

Statistik: Verfasst von luc — Do Aug 25, 2016 9:49 am


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-26 11:55:49

Hi luc, I tested your changes and it works perfectly! This is great! Finally we have a mac release again!

Thank you very much!

There is only one thing which is not working (but I don\’t know if that worked before): you cannot start the mac release out of the write-protected dmg drive. YaCy should not write anywhere there, so that should work, but it does not. Is there any way to make that working as well?

Statistik: Verfasst von Orbiter — Fr Aug 26, 2016 10:55 am


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-26 16:29:12

Hello, indeed YaCy is writing its DATA folder inside its own YaCy.app/Contents/MacOS folder, so this can not work from a write protected parent container.
I still have a YaCY 1.82 MacOS release and it is working this way... I didn\’t check the standard MacOS policy regarding where to write app data. Do you think writing data directly to an app package is bad practice?
If so I think we can choose explicitly the DATA folder when launching startYACY.sh with \“-startup [folder_path_relative_to_user_home]\” options...

Statistik: Verfasst von luc — Fr Aug 26, 2016 3:29 pm


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-28 00:19:35

My last knowledge about the data folder on Mac OS X is, that the YaCy Mac app wrote it\’s data folder to ~/Library/YaCy/DATA
That is also documented in http://www.yacy-websuche.de/wiki/index. ... FirstStart{.postlink}
I don\’t know where that changed. But I consider that this would be a good practice. Is that possible?

I believe the fact that we have a Mac release again is a very good reason to have another main release soon with it!

Statistik: Verfasst von Orbiter — Sa Aug 27, 2016 11:19 pm


YaCy Coding & Architecture • Implemented Translation Community Support

Date: 2016-08-29 03:18:02

With commit https://github.com/yacy/yacy_search_ser ... c5512bdd1e{.postlink}
v 1.919114 I implemented a additional news service to share added or modified UI translation (with intention for easy community support)

Functionality:
- YaCy UI translation modification (via http://localhost:8090/Translator_p.html ) are stored in a local translation file (DATA/locale/??.lng)
- with the new http://localhost:8090/TransNews_p.html servlet the entries in this file can be shared via the internal news service
- this servlet offers to vote (positive/negative) on the translation proposals in the new spool
- on positive votes, the news entry is added to the own local translation list and a voting message is added to the news pool

At this time, no rule has been implemented to handle remote voting news.
One not really correct handling is, after voting (and by that adding to the local file) one may publish the remote translation as own proposal (the local translation uses just the *.lng format with no info about the origin). But a check is included to not duplicate translation proposal for same key/source text.

Further ideas are (not implemented yet):
- route news to a language maintainer, so it can finally be included in the distribution (but we probably need to update and verify the list of available maintainers)
- do something with the voting
- use xliff file format for local modified translation file and include status information (see point above)

But to get going and see what can be improved,
have fun to push some news out.

cu

Statistik: Verfasst von reger — Mo Aug 29, 2016 2:18 am


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-30 18:34:57

Ok, this makes sense with the official OS X documentation{.postlink}, which more exactly recommands to store app data files in ~/Library/Application Support/com.example.MyApp/

I should have some time to implement and test this modification in the coming days, and let you know once everything works fine!

Statistik: Verfasst von luc — Di Aug 30, 2016 5:34 pm


Fragen und Antworten • Besuchte Links innerhalb der YaCy-Weboberfläche

Date: 2016-08-31 00:42:30

Hi,

kann es sein, dass nach der v1.7 die Links die man schon einmal besucht hat nicht mehr als \‘besucht\’ markiert werden? Aufgefallen ist mir das z. B. im HostBrowser, bei der v1.7 wurden die Domains/Links auf oberster Hierarchieebene immer als \‘besucht\’ im Browser angezeigt, nach der 1.7 leider nicht mehr. Andere Links innerhalb von YaCy die zu gecrawlten Inhalten führen werden auch nicht mehr als \‘besucht\’ markiert. Wie kann man das wieder aktivieren? CSS? Oder irgendwo anders im Code?


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Aug 30, 2016 11:42 pm


Fragen und Antworten • Re: Besuchte Links innerhalb der YaCy-Weboberfläche

Date: 2016-08-31 08:13:38

Hi LA_FORGE,

visited Links andersfarbig zu gestalten ist wohl nicht mehr \‘state of the art\’ :-)
Vor allem aber ist 1.7 ja schon lange her!
Theoretisch kann man das im css des von dir verwendeten Themes wieder einbauen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Aug 31, 2016 7:13 am


Fragen und Antworten • Re: Besuchte Links innerhalb der YaCy-Weboberfläche

Date: 2016-08-31 11:48:09

Hi,

cool danke! Ich frage deshalb, weil mein Bildschirmleseprogramm das auch auswerten kann und es auch shortcuts dafür gibt, um zu einem besuchten Link zu springen. Das würde ich gerne wieder nutzen. Welche CSS-Datei wäre da relevant? Ich habe mehrere im htroot gefunden. Was muss da genau geändert werden?


VG

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mi Aug 31, 2016 10:48 am


Fragen und Antworten • Re: Besuchte Links innerhalb der YaCy-Weboberfläche

Date: 2016-08-31 16:52:28

wissentlich habe ich das nicht ausgebaut. Ich vermute das kam im Zuge der Umstellung auf bootstrapcss herein.
Hier gibts vermutlich eine Bestätigung dass das so sein könnte: http://stackoverflow.com/questions/1832 ... link-style{.postlink}

Statistik: Verfasst von Orbiter — Mi Aug 31, 2016 3:52 pm


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-08-31 16:52:57

great!

Statistik: Verfasst von Orbiter — Mi Aug 31, 2016 3:52 pm


YaCy Coding & Architecture • Re: Implemented Translation Community Support

Date: 2016-09-04 01:10:16

Hi luc,

thanks for the input
and agree to all (the 1st is fixed, the 2nd is not 100% clear to me, the 3rd soon).

cu

Statistik: Verfasst von reger — So Sep 04, 2016 12:10 am


Wunschliste • Re: No More 404s -View a saved version courtesy of the Wayba

Date: 2016-09-05 18:12:37

Hello,
as you may have noticed, even the W3C is now supporting{.postlink} web resources versionning on its own web site through the Memento{.postlink} Protocol.

Interesting points with the Memento project is that it appears to be already supported by many large web archives, and it also support self-archiving with SiteStory{.postlink}.

So one can imagine some YaCy support at various levels (crawling, index sharing, search results links...). I am not sure providing alternative versions links in search results is the most relevant to start with, considering it is supposed to be handled soon natively by browsers themselves...

Statistik: Verfasst von luc — Mo Sep 05, 2016 5:12 pm


Fragen und Antworten • P2P Protokoll

Date: 2016-09-06 14:43:21

Ich habe ein paar Fragen dazu wie die Peers bei einer Suchabfrage untereinander kommunizieren:

1) Ist die Kommunikation zwischen den Peers Klartext (also http) oder verschlüsselt (also https)? Auf den ersten Blick sieht das für mich unverschlüsselt aus, aber ich habe da noch nicht sooooo tief in den Quelltext geschaut.

2) Wenn ich das richtig verstehe, dann wird anderen Peers, falls auf diese für eine Suche zurück gegriffen wird, jeweils der Hashwert der Suchbegriffe übermittelt. Und auch jeweils nur der/die Hashwert(e), für die dieser andere Peer innerhalb der DHT zuständig ist. Habe ich das richtig verstanden?

3) Die Hashwerte für die Keywords werden in source/net/yacy/kelondro/data/word/Word.java mit der Funktion word2hash berechnet?

Statistik: Verfasst von MikeS — Di Sep 06, 2016 1:43 pm


Hilfe für Einsteiger und Anwender • Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Date: 2016-09-07 10:13:43

Hallo zusammen,

ich versuche seit längerem die Yacy Suchmaschine als Enterprise Search Engine einzuführen.
Als Quellen, also Seiten die gecrawlt werden sollen und danach durchgesucht werden sollen, sollen das Intranet, die Netzlaufwerke und die hauseigene Wikipage dienen.
Bisher habe ich nur geschafft eine Intranet-Seite crawlen zu lassen - bei den anderen zwei \“Quellen\” bin ich leider bis jetzt erfolglos gewesen. :/ und ich weiss auch nicht wie ich da voran gehen soll oder was ich falsch mache..
Installiert habe ich die YaCy Version: 1.909000

Kann mich jemand bitte bei meinem Problem unterstützen, sodass ich endlich zu einem erfolgreichen Abschluss komme??

Vielen Dank im Voraus

MfG
UNM

Statistik: Verfasst von unm — Mi Sep 07, 2016 9:13 am


Fragen und Antworten • Re: Yacy als Proxy in größeren Umgebungen

Date: 2016-09-07 12:36:23

Mein YACY läuft 247 und wird hauptsächlich als Proxy verwendet. Der Server steht zu Hause und ist von außen per dyndns (https://freedns.afraid.org/) immer erreichbar. 3 Smartphones und 3 Laptops sind dauerhaft mit dem Server verbunden. Wenn du nicht groß - wie ich - per RegEx die Inhalte (in meinem Fall die Werbung) aus dem Traffic filterst, so sehe ich bis ca. 20 Clients keine Probleme auf dich zukommen.

Statistik: Verfasst von ds810 — Mi Sep 07, 2016 11:36 am


English • How to check if my node works?

Date: 2016-09-07 13:09:58

My node has 82999 documents, 82999 links, 980637 RWIs, but \“Sent DHT Word Chunks\” is 831 \“Sent URLs\” is 2087, and these counts stay the same for a long time. How to check if the node works and that data I indexed is usable for search by others?

Does it send index chunks on demand when searches are run on other nodes, or it sends all index to distribute on other nodes?

Statistik: Verfasst von ungzd — Mi Sep 07, 2016 12:09 pm


YaCy Coding & Architecture • Re: YaCy Release 1.90

Date: 2016-09-07 15:36:11

Hi luc, sorry for the delay, I just tested an \‘ant clean all distMacApp\’ without changes and it is working beautifully!
I checked the location of the storage path in ~/Library: you choosed the path ~/Library/Application Support/net.yacy.YaCy/DATA for the data folder.
This is different from the previous path as described in the wiki but I think it is a well-choosen path. It will give us the opportunity to use the paths net.yacy.YaCy_X (...name not yet known...) once we have \‘YaCy2\‘-Components, and we will have many of them (!). So lets keep this. Good work!

This is so good that we should have another release soon. Any emergency task to be done before it?

Statistik: Verfasst von Orbiter — Mi Sep 07, 2016 2:36 pm


Fragen und Antworten • Re: Yacy als Proxy in größeren Umgebungen

Date: 2016-09-07 18:34:51

Momentan hab ich leider andere Probleme. Der Apache hat irgend ein Problem und liefert keine Seiten mehr aus!

Statistik: Verfasst von Micki — Mi Sep 07, 2016 5:34 pm


YaCy Coding & Architecture • YaCy Release 1.92

Date: 2016-09-07 20:55:14

Hi, because of luc\’s enabling of the Mac Release{.postlink}, we should publish that soon. I suggest to do that at the next monday.
Any last-moment bugfixes required?

Statistik: Verfasst von Orbiter — Mi Sep 07, 2016 7:55 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-07 21:20:57

Hi,
I don\’t use any Macs, but I followed the changes on that topic with interest.
So I agree to publish that soon.

Maybe we should disable the use the swfParser - I got some cases where it caused ContentScraper.anchors to be filled in GB-range, which may fail in many installations. I think a feature like parsing flash isn\’t worth scaring new user away.
(I didn\’t had time to fix / workaround that)

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Sep 07, 2016 8:20 pm


Hilfe für Einsteiger und Anwender • Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Date: 2016-09-07 23:02:12

Hallo Umn,

damit Dir jemand helfen kann braucht es sicherlich etwas mehr infos:
- was ist der Unterschied der Quellen die nicht gecrawlt werden zu denen die es werden?
- gab es eine Fehlermeldung nach Anlegen des Crawlstarts?
- kann der User unter dem YaCy läuft von der Maschineauf dem es läuft z.B. mit wget auf die Quellen zugreifen?

Eine weitere Idee kann es sein für das Thema in Pro-Users{.postlink} nach Professioneller Hilfe zu fragen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Sep 07, 2016 10:02 pm


Hilfe für Einsteiger und Anwender • Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Date: 2016-09-08 09:58:03

Hallo sixcooler,

vielen Dank für deine Antwort.

Also die Infos die ich ausgelassen habe..
* eine Intranetseite wird erfolgreich gecrawlt.
* was jedoch nicht geklappt hat war das Crawlen von Netzlaufwerken, und das Crawlen von kennwortgesicherten Seiten (Wikipage,..)

ich möchte gerne Netzlaufwerke crawlen lassen die im FileServer liegen auf die jeder Mitarbeiter zugreifen kann, jedoch kann ich von der Maschine aus auf der YaCy installiert ist auf diese besagten Netzlaufwerke nicht zugreifen.
und ich weiss auch nicht wie ich auf diese Quellen mit wget zugreifen kann.

wenn ich versuche das Wiki crawlen zu lassen (xwiki/industrialwiki)
beim Versuch diese Seite crawlen zu lassen erscheint eine Fehlermeldung:

Crawling von \“http://dewiki.de-gmbh.com/industrialwiki/bin/view/Main/?srid=RZzImYK2" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY \‘HTTP/1.1 401 Unauthorized\’ for URL \‘http://dewiki.de-gmbh.com/industrialwiki/bin/login/XWiki/XWikiLogin;jsessionid=A23A8324D6574EE32490BE71B9511681?srid=RZzImYK2&xredirect=/industrialwiki/bin/view/Main/?srid=RZzImYK2'$/
hier liegt ein Authentifizierungsproblem vor..aber wie ich diese lösen kann weiss ich nicht..

und bin aus diesen Gründen auf Hife angewiesen.

Vielen Dank im Voraus.

MfG
UNM

Statistik: Verfasst von unm — Do Sep 08, 2016 8:58 am


English • Re: How to check if my node works?

Date: 2016-09-08 10:11:13

Hello, you can for example test on your peer the search API (/yacy/search.html) used by YaCy peers to perform p2p searches. There are some examples in the wiki : Dev:APIsearch#Example_Usage{.postlink}. Supposing your local index contains one of the sample search terms, the query sould return results encoded (hashes) results. So remote peers should be able to use them.

You can also check your solr API (/solr/select) is correctly working. There is also a sample query in the wiki : Dev:APISolrSelect{.postlink}.

And of course your peer Status should be \“Senior\” but I guess you already checked that.
You should also check in (/ConfigNetwork_p.html) that \“Index Distribution\” is enabled. This is what controls the automated index distribution, notably through /yacy/transferRWI.html API.

Statistik: Verfasst von luc — Do Sep 08, 2016 9:11 am


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-08 11:15:55

Hi, should we stop committing on the master branch until this release?
I would have a very small complementary fix related to mantis 679{.postlink} to correctly handle selected language other than English.

Statistik: Verfasst von luc — Do Sep 08, 2016 10:15 am


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-08 17:04:40

bugfixes: yes, sure! - experimental stuff better not

Note:
In the past we always had a lot of experiments and I highly welcome them because we are a search engine laboratory :) -- but not if we want to do a release. Thats the reason for the release posting here.

Statistik: Verfasst von Orbiter — Do Sep 08, 2016 4:04 pm


YaCy Coding & Architecture • quick results without P2P vs. remote search

Date: 2016-09-08 17:12:34

The bootstrap webclient https://github.com/yacy/yacy_webclient_bootstrap now points by default to http://search.yacy.net using the solr endpoint. It can be hosted as github pages and thats the case with that repository. It can be tested at http://yacy.github.io/yacy_webclient_bootstrap/

This shows how fast a YaCy search page could deliver search results, if no p2p activity is done. I believe we should consider this method as default in the future and abandon the old YaCy search page to move on to a modern architecture of web pages using a JSON service and a standard search engine backend (here: Solr. elasticsearch may come someday...).

The question is: how can we still integrate a p2p search? Doing p2p and collecting the results would make it necessary to push their results into the index before retrieving the combined result. I did not test that yet but I doubt that this is fast.
An alternative would be, to search in the p2p network _after_ the result has been delivered - just to enrich the search index further for the next search. But that would work only for large search portals with many users.

Statistik: Verfasst von Orbiter — Do Sep 08, 2016 4:12 pm


Hilfe für Einsteiger und Anwender • Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Date: 2016-09-08 21:06:29

Hallo Umn,

was das crawlen mit authentisierung angeht muss ich leider schreiben das YaCy dieses nicht unterstützt: die Suchtreffer würden dann ja dem User präsentiert ohne sich authentifiziert zuhaben.
Aber evtl bietet das verwendete Wiki selber eine Opensearch-Schnittstelle, welche man unter /ConfigHeuristics_p.html einbinden kann?

Fileserver lassen sich je nach verwendetem Protokoll via smb://... oder file://... als crawlstart inidizieren.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Sep 08, 2016 8:06 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-09 09:07:34

OK Orbiter, I committed the previously mentioned bug fix, fixed French translations in the Tray icon and added some other French translations that were waiting on my peer.
I think that\’s all for me until the next release!

Statistik: Verfasst von luc — Fr Sep 09, 2016 8:07 am


YaCy Coding & Architecture • Re: quick results without P2P vs. remote search

Date: 2016-09-09 14:19:18

Hello, if we want to use lightweight webclients such as this one, why not simply rely on the /yacysearch.json API as the backend service when we wish to have realtime P2P search?

It is already implemented and as far as I know it concurrently queries and mixes results from both the local Solr index, remote DHT and Solr peers and even OpenSearch hosts...

To my mind it is one of the aspects that makes YaCy quite unique. It might appears sometimes inefficient and can certainly be optimized, but aren\’t performance issues partly due to an undersized p2p network? I mean in my own YaCy usage, I have the feeling that longer search results tend to occur when searching rarely indexed terms or when low bandwidth peers are answering... With more running peers, can\’t we expect p2p operations performances to improve?

Statistik: Verfasst von luc — Fr Sep 09, 2016 1:19 pm


Hilfe für Einsteiger und Anwender • Seite 1 von n crawlen

Date: 2016-09-09 21:14:26

Hi!

Ich nutze yacy für die Suche nach einem guten Gebrauchtwagen. Auf vielen Autohausseiten gibt es dann diese \“Seite 1 von n\“-Darstellung. Der Crawler schafft es nicht auf die Folgeseiten 2 bis n. Meine Einstellungen:

Experten Crawl
Sub-Pfad als Startpunkt
Tiefe: 3
auf Sub-Pfad bleiben
Akzeptiere URLs mit ?: aus

Die dynamisch generierten Pfade der Folgeseiten 2 bis n enthalten Fragezeichen. Wenn ich \“Akzeptiere URLs mit ?: an\” nutze, dann scheint der Crawler in einer Schleife zu landen.
Was mach ich bei den Einstellungen falsch?

Statistik: Verfasst von Maven — Fr Sep 09, 2016 8:14 pm


YaCy Coding & Architecture • Re: Postprocessing: Looking for the code

Date: 2016-09-10 17:55:32

Thank you very much for the detailed explanation.

Statistik: Verfasst von LA_FORGE — Sa Sep 10, 2016 4:55 pm


YaCy Coding & Architecture • git clone

Date: 2016-09-10 18:15:18

Hi,

since the update mechanism in the 1.90 seems to be broken I just did a \‘git clone\’ on our repository. Because I\’m unable to bootstrap YaCy with the startscript, I\’m asking what I\’m doing wrong. The error shown in the log reads: Cannot find main class.

Greetings

LA_FORGE

Statistik: Verfasst von LA_FORGE — Sa Sep 10, 2016 5:15 pm


Off-Topic • \“Porsche\” Jubiläum

Date: 2016-09-11 02:51:26

Hi,

oops, passend zum Thematik habe ich mal ein topic unterfalscher Flagge{.postlink} eröffnet, um nicht gleich in der s3l3kt0r3nl1st3 der \“Firma\” mit den 3 Buchstaben zu landen.


Affirmation statt Kritik: Die \“Church of Free Fall\”

Im August dieses Jahres erhielt ich ein Schreiben mit der Bitte um Rat bei einem Projekt. Da es sich um ein recht ungewöhnliches Vorhaben handelte - die Gründung einer Glaubensgemeinschaft bzw. Kirche -, baten die Unterzeichner darum, ihre Anonymität zu bewahren, falls ich über die Idee berichten würde. Dies aber sei durchaus erwünscht, \“um erste Erfahrungen über die mögliche Akzeptanz zu gewinnen\“. Weiter heißt es in dem Schreiben:

\“Nachdem nun schon fast 15 Jahre vergangen sind, ohne dass die Verbrechen des 11. September 2001 aufgeklärt und die wahren Täter und Hintermänner ermittelt sind, ist eine solche Aufklärung auch in den kommenden Jahrzehnten nicht zu erwarten. So verständlich und legitim es sein mag, die Wahrheit über 911 und eine ordentliche Untersuchung des Massenmordes zu fordern, so illusorisch und unrealistisch ist es leider auch, eine tatsächliche Umsetzung dieser Forderung zu erwarten. Da die offizielle, von Regierungen und Medien verbreitete Legende also weiter Bestand haben wird, macht es aus realpolitischen Gründen wenig Sinn, dagegen weiter argumentativ vorzugehen. Wo Legenden als Realgeschichte etabliert und zur Staatsräson erkoren werden, um auf dieser Basis Machtpolitik zu exerzieren, hat kritische Vernunft ausgedient.
Gedenken 2004: Tribute in Light. Bild: Derek Jensen, Public Domain

Deshalb wollen wir eine Glaubensgemeinschaft gründen, die sich klar und unzweideutig zur offiziellen 911-Geschichte bekennt und die Promotion dieser wunderbaren Ereignisse in den Status soliden, staatlich geprüften Wissens feiert. Weil dabei sowohl die Naturgesetze, wie auch die der Wahrscheinlichkeit, der Logik und des gesunden Menschenverstands teilweise in Frage gestellt werden, haben wir uns (vorläufig) für den Namen \“Church Of Free Fall\” (C.O.F.F.) entschieden und streben mittelfristig die Zulassung als offizielle Religionsgemeinschaft an.

Dass die C.O.F.F. als eigentlich säkulare \“Wissensgemeinschaft\” dabei auf Gründungsmythen und Wunder verweisen kann, die hinter denen der etablierten Kirchen kaum zurückstehen, zeigt unser Glaubensbekenntnis im Anhang. Es wurde von der internationalen Sektion des vorläufigen C.O.F.F.-Episkopats erlassen und soll als Grundlage der Gemeinschaft dienen. An weiteren Glaubensgrundsätzen, Dogmen sowie an kultischen Ritualen wird derzeit noch gearbeitet.

Mit dem C.O.F.F.-Bekenntnis tragen wir der Realpolitik Rechnung, wie sie auf Basis der pulverisierten WTC-Türme in Sachen Krieg, Überwachung und \“Sicherheit\” selbstverständlich geworden ist. Statt Kraft durch Nörgeln bezieht die C.O.F.F. Freude durch Affirmation, sie feiert den Wahnsinn der Realität und den gerechten Great War On Terror. Statt sie zu bekämpfen liebt C.O.F.F. die Feinde einfach an die Wand.

Sie können unser Manifest gerne veröffentlichen.\”

Was hiermit geschieht:

Wir glauben an den einen Koffer Der als einziger von 200 hängenblieb Und der uns alles offenbarte Was wir als Beweis brauchten: Lehrvideos, wie man eine Boeing fliegt, Anleitungen für Flugzeugentführer, Eine Meldebescheinigung aus Hamburg, Prüfungszeugnisse der Technischen Universität Sowie das Testament des Mohammed Atta, Des \“Anführers\” der Hijacker

Wir glauben Dass dieser Mann sein Testament Auf seiner Selbstmordmission dabei haben wollte, Sicherheitshalber, falls sein Todesflug Nicht in einem Feuerball endet. Oder weil er dachte, Dass sein Testament so unkaputtbar sei Wie der Ausweis seins Mitfliegers Al Suqami Der unversehrt neben dem WTC gefunden wurde

Wir glauben Dass zwei Flugzeuge drei Wolkenkratzer Zum Einsturz bringen können Auch wenn in der gesamten Baugeschichte Niemals ein Hochhaus mit Stahlrahmen allein durch Feuer Pulverisiert werden konnte Während ein Ausweis aus Pappe und Plastik Das Inferno überlebt.

Wir glauben An den freien Fall Der ausgelöst durch brennende Büromöbel Das WTC 7 derart schnell zum Einsturz brachte Dass die BBC Den schon 20 Minuten vorher melden konnte

Wir glauben Dass Hani Hanjour zwar keine Kleinflugzeuge beherrschte, Weshalb man ihm auch keine Cessna ausleihen wollte, Dass er aber mit einer Boeing und 800 km/h im Sinkflug Einen derart genialen Bogen fliegen konnte Dass er drei Meter über dem Boden Das Pentagon von hinten traf

Wir glauben Dass er nicht einfach geradeaus in die Frontseite geflogen ist Wo sich die Büros der Pentagon-Chefs befindenbr Weil er mit dem genialen Manöver \“Einmal rundum das bestgesicherte Gebäude der Welt\” In die Geschichte der Luftfahrt eingehen wollte. Neben dem Roten Baron und anderen Fliegerassen

Wir glauben Dass die nicht vorhandene Luftabwehr Nicht nur über dem Pentagon Sondern über dem gesamten Luftraum der USA Nichts aber auch gar nichts Mit den \“War Games\” zu tun hat, Die an diesem Morgen stattfanden.

Wir glauben Dass trotz der Tatsache, dass bei diesen Manövern Genau das simuliert wurde, was dann tatsächlich geschah Nämlich die Entführung von Passagierflugzeugen durch Hijacker \“Niemand damit rechnen konnte, Dass Terroristen Flugzeuge in Gebäude fliegen\” (Condolezza Rice)

Wir glauben, dass Osama Bin Laden diesen \“Überraschungsangriff\” Aus einer Höhle in Afghanistan gesteuert hat Obwohl laut FBI keine Beweise für seine Täterschaft vorliegen Und er selbst in seinem ersten Interview am 18. September 2001 Jede Beteiligung an den Anschlägen abstritt.

Wir glauben, Dass er und seine 19 \“Hijacker\” mit Teppichmessern Ganz alleine für die Tat verantwortlich sind Auch wenn 15 von ihnen wegen völlig fehlerhafter Visa Schon gar nicht hätten einreisen können Wären sie nicht alle vom US-Konsulat in Jiddah/ Saudi-Arabien Einfach durchgewunken worden.

Wir glauben, Dass die CIA davon nichts mitbekommen hat Obwohl der Visa-Beauftragte dieses Konsulats Michael Springman zum Whistleblower wurde Weil seine Dienststelle ständig dazu diente Suspekte arabische \“Freiheitskämpfer\” In die USA einzuschleusen.

Wir glauben, Dass auch der saudische Geheimdienst ahnungslos war Und es aus reiner Mildtätigkeit geschah Dass der \“Terrorlogistiker\” Al Midhar Und sein Kollege Al Hazmi in San Diego Von der Gattin des königlichen US-Botschafters Prinz Bandar monatliche Stipendien erhielten.

Wir glauben, Dass auch der pakistanische Geheimdienst nichts mit 911 zu tun hatte Dessen Chef, General Ahmad, am 11.9. in Washington Mit den Geheimdienstbeauftragten von Senat und Parlament Bob Graham und Porter Goss frühstückte Und kurz darauf geräuschlos zurücktrat als bekannt wurde Dass sein Agent Omar Saeed Sheikh 100.000 Dollar an Mohammed Atta überwiesen hatte

Wir glauben, Dass auch der israelische Mossad nicht involviert war Auch wenn fünf seiner Agenten in New York verhaftet wurden Nachdem sie sich jubelnd und mit Victory-Zeichen Mit den brennenden Türmen im Hintergrund filmten Um nach ihrer stillschweigenden Abschiebung in die Heimat In einer Talkshow zu verkünden, sie seien dort gewesen Um \“die Ereignisse zu dokumentieren\”

Wir glauben, Dass allein Pleiten, Pech und Pannen dafür sorgten Dass die stets wachsamen Geheimdienste allesamt \“versagten\” Und allein die unglückliche Verkettung Unglücklicher Umstände es ermöglichte Dass Osama und 19 Teppichmesserstecher Ganz allein drei Wolkenkratzer pulverisieren Und dreitausend Menschen ermorden konnten.

Wir glauben An George W. Bush’s Warnung an die Vereinten Nationen: \“Wir müssen die Wahrheit über den Terror aussprechen. Lasst uns niemals frevelhafte Verschwörungstheorien Im Zusammenhang mit den Anschlägen des 11. September tolerieren Boshafte Lügen, die bezwecken, Die Schuld von den Terroristen selbst abzulenken, Weg von den Schuldigen.\”

Wir glauben, Dass nur boshafte Lügner, frevelhafte Verschwörungstheoretiker, Unerträgliche Antisemiten und notorische Antiamerikaner Feinde der Freiheit und Freunde des Terrorismus Den Abschlussbericht der 911-Commision bezweifeln können Der doch eindeutige Geständnisse eines Mittäters enthält Mit Namen Khalid Scheich Mohamed

Wir glauben An die Wahrheit dieser Geständnisse Auch wenn sie in 182 Foltersitzungen gewonnen wurden Bei denen man den Gefangenen dem Waterboarding unterzog Denn nur boshafte Frevler und verrückte Verschwörungstheoretiker Die auch an Aliens glauben oder vom Teufel infiziert sind Stellen die 911-Ermittlungen in Frage Oder fordern gar eine komplette Neu-Untersuchung

Wir glauben An unsere demokratischen Qualitätsmedien Die das zersetzende Gift dieser Zweifel erkennen Seine infamen Verbreiter an den Pranger stellen Und unsere Brüder und Schwester im Glauben stärken An die Heilige Schrift des 911-Reports Und an unsere Regierenden die sie verkündigen Um unsere Freiheit und Sicherheit zu verteidigen.

Darum lasset uns beten:

911 Unser Du kamst aus heiterem Himmel Geheiligt werde Dein Name Der GWOT* ist gekommen Sein Wille geschehe Mit Drohnen vom Himmel Und mit Krieg auf der Erde

Unser tägliches Budget gib uns weiter (es stand ja nach dem Ende der Sowjetunion sehr in Frage) Und vergib keinem Terroristen Wie auch wir mit dem GWOT Sie permanent neu erschaffen Auf dass niemand in Versuchung geführt werde Uns vom Übel eines Kriegs Ohne Ziel und ohne Ende zu erlösen

Denn sein ist das imperiale Reich, Und die militärische Kraft Und die \“Full Spectrum Dominance\”** In Ewigkeit. Amen

*Great War On Terror

** Globale militärische Doktrin

© C.O.F.F. Church Of Free Fall

All rites reversed

Quelle: Telepolis / Heise{.postlink}

Statistik: Verfasst von LA_FORGE — So Sep 11, 2016 1:51 am


YaCy Coding & Architecture • Re: git clone

Date: 2016-09-11 11:50:39

Hi LA_FORGE, didn\’t you forgot to compile the sources?

The git repository only contains source code and dependency libraries, so after cloning or pulling changes from git you first have to compile with Apache Ant{.postlink} before running. You can check the Readme related section{.postlink} for compile instructions.

By the way, I don\’t know why since the 1.90 release updates with recent builds are no more available... Maybe Orbiter can tell us more?

Statistik: Verfasst von luc — So Sep 11, 2016 10:50 am


YaCy Coding & Architecture • Re: git clone

Date: 2016-09-11 15:42:27

Hi Luc,

thank you very much. Because of my coding skills are in the beginning :-) I just forgot the compiling process. I did this successfully a few months ago. Now i\’ve to repeat it on the other machine. Thanks for putting in the right direction.

Best greetings

LA_FORGE

Statistik: Verfasst von LA_FORGE — So Sep 11, 2016 2:42 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-12 21:27:48

Nothing dangerous from my side on the way, so I\’m fine with release .…. hm what was it, today ?

Statistik: Verfasst von reger — Mo Sep 12, 2016 8:27 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-12 21:44:10

sixcooler hat geschrieben:\ Maybe we should disable the use the swfParser - I got some cases where it caused ContentScraper.anchors to be filled in GB-range, which may fail in many installations. I think a feature like parsing flash isn\'t worth scaring new user away.\ (I didn\'t had time to fix / workaround that)\



If it realy makes trouble (haven\’t noticed described trouble myself), we could as quick work through list SWF in configs
parser.mime.deny=
parser.extensions.deny=
leaves it available, but switched off

Statistik: Verfasst von reger — Mo Sep 12, 2016 8:44 pm


YaCy Coding & Architecture • Plugin architecture for parsers ?

Date: 2016-09-12 22:26:47

After the 1.92 release and considering this ...

sixcooler hat geschrieben:\ Maybe we should disable the use the swfParser - I got some cases where it caused ContentScraper.anchors to be filled in GB-range, which may fail in many installations. I think a feature like parsing flash isn\'t worth scaring new user away.\ (I didn\'t had time to fix / workaround that)\



How about to adjust the parser config architecture to a plugin system, making it easy to switch parsers on and off (not dealing with all the ext and mimes).
Basically .… one parser = one plugin, easy to switch on, add more or less.
I snooped a little around looking for light weight plugin frameworks and I actually liked this on (which is actively developed) PF4J https://github.com/decebals/pf4j
(with one small thing I don\’t like.…. external/downloaded plugins come by default in zip format :-(
The parsers would be 1a use case for this.
Any arguments to take it on the todo list ?

Statistik: Verfasst von reger — Mo Sep 12, 2016 9:26 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-14 21:44:15

Orbiter hat geschrieben:\ things that I would like to see\



Take your time,
but since 1.90 none of the dev releases have been published, maybe that\’s a quicker thing to do.…. and gives chance for some more testers.

Greetings

Statistik: Verfasst von reger — Mi Sep 14, 2016 8:44 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-15 10:25:12

Great!

Happy playing with YaCy!

Statistik: Verfasst von luc — Do Sep 15, 2016 9:25 am


English • Re: Can\’t index URL with 301 redirection

Date: 2016-09-15 10:34:53

That\’s what I\’ve done :-)
Thank you for your answer

Mickaël

Statistik: Verfasst von mlagneaux — Do Sep 15, 2016 9:34 am


English • Re: Null results from yacysearch.json

Date: 2016-09-15 10:43:43

Hello,

I\’ve configured Yacy to run in \“Intranet indexing\” mode since pages I want to index are local.
I\’m going to try to request directly SolR API.

Statistik: Verfasst von mlagneaux — Do Sep 15, 2016 9:43 am


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-15 11:20:29

Orbiter hat geschrieben:\ ..made by Marc ![:(](http://forum.yacy-websuche.de/images/smilies/icon_e_sad.gif "Sad") sorry Marc!\


No problem, it never worked satisfactory anyway and even though it still twitches every now and then, I think that Flash is pretty much dead (at least for regular websites).

Statistik: Verfasst von Low012 — Do Sep 15, 2016 10:20 am


English • How edit api.bheap with text editor ?

Date: 2016-09-15 15:48:12

Hello,

I have 3600 line Crawler Steering
I need to merge and edit many value of my api.bheap.

It\’s possible to edit this file with notepad ?

Regards

Statistik: Verfasst von Guims — Do Sep 15, 2016 2:48 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-15 19:13:52

:(
after some 24h of running i got the same error again. not everyware but my showing the result!
i checke my apache log but could not find a activity

have a nice day
vinc

Statistik: Verfasst von vikozo — Do Sep 15, 2016 6:13 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-16 08:31:24

Ok, so you get this error but not on every search? Your YaCy install is behind an Apache front?
Again if you could post the end of the error stack trace from your YaCy logs this would certainly help (I am almost sure you can find it in either DATA/LOG/yacy00.log or DATA/LOG/yacy01.log or DATA/LOG/yacyNN.log...)

Statistik: Verfasst von luc — Fr Sep 16, 2016 7:31 am


English • Blob Files in default folder

Date: 2016-09-16 13:02:32

Hello Yacy Team,

What are a blob files in the default folder ?

Regards

Statistik: Verfasst von Guims — Fr Sep 16, 2016 12:02 pm


English • Re: Blob Files in default folder

Date: 2016-09-16 14:18:13

Hi, what do mean exactly by blob files?
Are you speacking about DATA/WORK/*.bheap files rather than the defaults folder?

Statistik: Verfasst von luc — Fr Sep 16, 2016 1:18 pm


English • Re: Blob Files in default folder

Date: 2016-09-16 14:29:40

Hello,

The blob files ( and other files ) is this folder /var/lib/yacy/INDEX/webportal/SEGMENTS/default.
I have trie to delete all files in this folder and my yacy_test work fine.

Regards

Statistik: Verfasst von Guims — Fr Sep 16, 2016 1:29 pm


English • Re: Export to file -no export- failed: number of exported do

Date: 2016-09-16 14:40:28

BuBU ( Dev ) say:

\ That\'s likely nothing that can be fixed in the code base and a Solr index issue.\ Since introduction of docvalues in the YaCy Solr schema (some time ago) [https://github.com/yacy/yacy\_search\_ser \... f5388627cf](https://github.com/yacy/yacy_search_server/commit/87e4abe393d70165e3d7dfaec5be7365ff2ac965#diff-0aebdb8a8b7e1ed37f8db6f5388627cf){.postlink}, \[\^\] documents indexed before the change may produce this error message.\ Solr docvalue references are created at index time, so the docs need to be reindexed to comply with the current sturcture.\ Alternatively the doc\'s creating the error could be deleted.\



I have 25 Million doc\’s in my index, i can\’t reindex !
How i can locate the doc\’s with error ?

Statistik: Verfasst von Guims — Fr Sep 16, 2016 1:40 pm


English • Snippet generation

Date: 2016-09-16 18:00:16

Hi!

Is to possible to have a longer snippet generation? If not, is there any reason for that?

Statistik: Verfasst von Alex — Fr Sep 16, 2016 5:00 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-16 20:04:45

W 2016/09/16 18:04:12 ConcurrentLog java.lang.NullPointerException
java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)
E 2016/09/16 18:04:12 BUSYTHREAD Runtime Error in serverInstantThread.job, thread \‘BusyThread net.yacy.crawler.data.CrawlQueues.autocrawlJob\’: null; target exception: null
java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)
W 2016/09/16 18:04:22 ConcurrentLog java.lang.reflect.InvocationTargetException
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)
Caused by: java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
... 5 more
W 2016/09/16 18:04:22 ConcurrentLog java.lang.NullPointerException
java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)
W 2016/09/16 18:04:22 ConcurrentLog java.lang.NullPointerException
java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)
E 2016/09/16 18:04:22 BUSYTHREAD Runtime Error in serverInstantThread.job, thread \‘BusyThread net.yacy.crawler.data.CrawlQueues.autocrawlJob\’: null; target exception: null
java.lang.NullPointerException
at net.yacy.crawler.data.CrawlQueues.autocrawlJob(CrawlQueues.java:588)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)

Statistik: Verfasst von vikozo — Fr Sep 16, 2016 7:04 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-16 20:08:37

it startet to crash - when changing from own web pages to community web search and back

Statistik: Verfasst von vikozo — Fr Sep 16, 2016 7:08 pm


English • Re: Blob Files in default folder

Date: 2016-09-16 22:00:24

Hi,

these blobs in the default folder are files of word-hashes and their references to the documents, which are used to distribute your index and share it with other peers.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Sep 16, 2016 9:00 pm


English • Re: Blob Files in default folder

Date: 2016-09-16 22:33:12

Hello Sixcooler,

If i use webportable i can delete file ?

regards

Statistik: Verfasst von Guims — Fr Sep 16, 2016 9:33 pm


English • Re: Blob Files in default folder

Date: 2016-09-16 23:25:27

Hi Guims,

its not about the way to search, it is whether you want to share your index or not :-)
if you don\’t want that, you are free to disable the the RWI-index of word-hashes at all (/IndexFederated_p.html).

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Fr Sep 16, 2016 10:25 pm


Hilfe für Einsteiger und Anwender • YaCy crawlt eine (meine) Seite nicht

Date: 2016-09-18 19:29:40

Ich möchte YaCy für themenbezogene Suche verwenden. Es funktioniert alles auch hervorragend, doch eine - leider meine wichtigste - Seite lässt sich nicht crawlen. Es handelt sich um eine WordPress-installation unter https://dampfdruck-presse.de. Ich habe weitere vergleichbare WP installiert (alles bei Strato), die sich völlig problemlos crawlen lassen, aber die Dampfdruck-Presse will nicht. Ich habe die SEO-Einstellungen verglichen… es gibt zu meinen anderen WP-Installationen keine Unterschiede.

ein Crawlin-Versuch bricht IMMER mit der Meldung

\ Crawling von \"https://dampfdruck-presse.de\" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can\'t execute: Received fatal alert: unrecognized\_name duration=86 for url \



ab.

Eine Crawl-Überprüfung (Seite: Zielanalye) ergibt folgendes:

\ URLZugriffRobotsCrawl-VerzögerungSeitenverzeichnis(Sitemap)\ error response: java.io.IOException: Client can\'t execute: Received fatal alert: unrecognized\_name duration=86 for url no robots500 ms\



Nun weiß ich absolut nicht weiter… woran könnte das liegen? Es ist von den Seiten, die ich crawlen wollte, die einzige, bei der es nicht geht.

Statistik: Verfasst von PepeCyB — So Sep 18, 2016 6:29 pm


Hilfe für Einsteiger und Anwender • Re: YaCy crawlt eine (meine) Seite nicht

Date: 2016-09-19 09:00:11

Notiz: hab hier eine mögliche Ursache und Abhilfe gefunden:
http://stackoverflow.com/questions/7615 ... java-1-7-0{.postlink}

\@PepeCyB kannst du mal versuchen die http-Variante (nicht https) zu crawlen? Das würde bestätigen dass es ein Java 7 Problem ist. Wir bauen dann einen patch.

Statistik: Verfasst von Orbiter — Mo Sep 19, 2016 8:00 am


English • Re: Null results from yacysearch.json

Date: 2016-09-19 12:16:24

I\’ve requested directly SolR API and it works perfectly.
Thanks for your help.

Statistik: Verfasst von mlagneaux — Mo Sep 19, 2016 11:16 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-19 18:28:30

Ok vikozo, thank you for the detailed trace. It looks like there definitely is something to fix... It also reminds me some problems I experienced when often switching between the different modes.

Waiting for a better solution, as a workaround I suggest you try restarting your YaCy peer just after switching.

Statistik: Verfasst von luc — Mo Sep 19, 2016 5:28 pm


English • Re: Null results from yacysearch.json

Date: 2016-09-19 18:30:43

You\’re welcome!
Good to know it is working as you expect.

Statistik: Verfasst von luc — Mo Sep 19, 2016 5:30 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-19 18:37:44

\@luc
no Problem, till now it is still working but did not change anything again...
have a nice day
vinc

Statistik: Verfasst von vikozo — Mo Sep 19, 2016 5:37 pm


YaCy Coding & Architecture • Re: Move interface to HTML5

Date: 2016-09-19 18:40:32

Hello everyone, thanks to Orbiter, in the meantime these requests have been merged, so the webclient is now in HTML5.

Any feedback or opinion about progressively switching now the classical YaCy web interface to HTML5?

I would add it could greatly be beneficial to improve accessibility more easily using modern ARIA{.postlink} properties.

Statistik: Verfasst von luc — Mo Sep 19, 2016 5:40 pm


Hilfe für Einsteiger und Anwender • max HD Size?

Date: 2016-09-19 18:40:48

Hello
is the Max Size of space used somewhere fixed?
it when up to +/- 16 GB then it is not filling more.

could this be incrased the disk would go up to 25 GB?!

have a nice day
vinc

Statistik: Verfasst von vikozo — Mo Sep 19, 2016 5:40 pm


Hilfe für Einsteiger und Anwender • Re: max HD Size?

Date: 2016-09-19 22:54:17

Hello vikozo,

there is no limit of HDD space to 16GB.
What is your direct observation on that?
The only limits are configurable at /Performance_p.html according the HDD and Heap (Ram for YaCy) left - did you reach that limits?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Sep 19, 2016 9:54 pm


Hilfe für Einsteiger und Anwender • Re: max HD Size?

Date: 2016-09-19 23:31:48

\@sixcooler
merci,
no it did not reach
16GB reached = 60%
so there would be space to add more...
have a nice day
vinc

Statistik: Verfasst von vikozo — Mo Sep 19, 2016 10:31 pm


Mitmachen • Re: TLS

Date: 2016-09-20 18:47:04

Hello Bostan, I don\’t know if you found an answer to your question in the meantime...

By the way, if you are still wondering, or for those interested, let\’s try to clarify this : the error you get when you first enable HTTPS is probably something like \“SEC_ERROR_UNKNOWN_ISSUER\“. This is because YaCy provides a default certificate which is a self-signed{.postlink} one.
This is not really a problem is you want to test HTTPS mode or only make personnal use of your remote YaCy peer and need encryption but no host identity certification.

But it is a good idea to at least self-sign your own certificate, thus not sharing the same private key as every YaCy peer who still use the default one. It is even better to use a certificate signed by a Certificate Authority{.postlink}, but it may be too expensive for you... Alternatively you can try to get a free and valid automatically signed certificate with a project such as Let\’s Encrypt{.postlink}.

For technical details of how to integrate your own certificate with YaCy, you can read the yacy.init related section{.postlink}.

I hope it was clear enough...

Best reagards,
Luc

Statistik: Verfasst von luc — Di Sep 20, 2016 5:47 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-09-20 20:55:53

Hallo zusammen,

steht der Termin für den Release 1.92 schon in etwa fest?

Gruß
dS810

Statistik: Verfasst von ds810 — Di Sep 20, 2016 7:55 pm


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-21 09:28:02

\@vikozo, I reproduced your error and submitted a new mantis issue : http://mantis.tokeek.de/view.php?id=686

I will check if a fix can be easily applied.

Statistik: Verfasst von luc — Mi Sep 21, 2016 8:28 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-22 09:14:46

Joining efforts with reger (thanks to his reactivity and great job), this issue is now solved!

The fix will be available in the next release or already from latest sources on GitHub.

Statistik: Verfasst von luc — Do Sep 22, 2016 8:14 am


Hilfe für Einsteiger und Anwender • Re: HTTP ERROR 500

Date: 2016-09-22 10:49:43

\@luc
fun it must be the first time i realy found a bug 8-) , normally i just have misconfigured something. ;)

Statistik: Verfasst von vikozo — Do Sep 22, 2016 9:49 am


Solr Support • Query fresh_date_dt:[* TO NOW/DAY-1DAY]

Date: 2016-09-23 16:11:28

Hi,

wie müsste die Query aussehen, wenn ich alles recrawlen will ohne Rücksicht auf das Alter? fresh_date_dt:[* TO NOW/DAY-0DAY] habe ich schon versucht, das funktioniert nicht :-(


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Fr Sep 23, 2016 3:11 pm


Solr Support • Re: Query fresh_date_dt:[* TO NOW/DAY-1DAY]

Date: 2016-09-24 21:17:22

z.B.

sku:[* TO *]

also irgendein Feld sku oder text_t und den all ( [* TO *] ) parameter.

Statistik: Verfasst von reger — Sa Sep 24, 2016 8:17 pm


Solr Support • Re: Query fresh_date_dt:[* TO NOW/DAY-1DAY]

Date: 2016-09-25 10:40:30

Vielen Dank

Statistik: Verfasst von LA_FORGE — So Sep 25, 2016 9:40 am


English • Yacy and Law

Date: 2016-09-27 14:32:32

Hello , sorry in advance for my English but my level of German is very very worse :)
I like the concept of YaCy so I would test it. But I wonder if I will not violate French law by indexing and thus accessing partly has possibly illegal websites see very illegal (porn, weapons, drugs etc).

so , do you know if indexing all kind of website was legal in france ? and what risk I take using YaCy in France?

Thanks in advance.

Ps: it\’s me or search api in this forum was broken ?

Statistik: Verfasst von frenchuser666 — Di Sep 27, 2016 1:32 pm


English • Re: Yacy and Law

Date: 2016-09-28 09:16:01

Hello and welcome frenchuser666!

To my mind there is no legal issue with YaCy use in France, especially for personnal use in peer-to-peer mode. Providing links to some illegal pages among other search results should not be an issue : it really is not the same as publishing an article which contains links to some illegal material you eventually endorse.
What\’s more, YaCy has a black listing feature that allow you to prevent storing links or indexing sites you really don\’t want to. The black lists can be shared and reused between YaCy users.

To my mind an eventually illegal use of YaCy would be to configure it as a search portal publicly available, whose unique purpose would be to provide links to illegal material you index, eventually with a custom main page mentionning the purpose of this portal.

Further readings that might interest you :
- Tim Berners-Lee (the Web \“inventor\“) point of view (1997) about links and law : Links and Law: Myths{.postlink}
- a W3C (Web Standards organization) more recent paper (2013) about Publishing and Linking on the Web{.postlink} helps clarifying the situation
- Lumen (a project collecting cases about online content), and their dedicated page about linking{.postlink}

PS : I also think the forum search is broken. Maybe \@Orbiter can tell us more?

Statistik: Verfasst von luc — Mi Sep 28, 2016 8:16 am


YaCy Coding & Architecture • Adding searx.me to Heuristics proposed examples

Date: 2016-09-28 09:34:36

Hello,
the Searx meta search engine searx.me instance can provide search results in RSS, for example : https://searx.me/?q=yacy&format=rss.

What about adding it to the default examples proposed in YaCy Heuristics page? This would easily demonstrate anyone who would be interested to make YaCy communicate with one\’s own searx instance it is possible and working.

Statistik: Verfasst von luc — Mi Sep 28, 2016 8:34 am


YaCy Coding & Architecture • Re: Adding searx.me to Heuristics proposed examples

Date: 2016-09-28 21:54:49

It looks like searx.me doesn\’t want to be queried by YaCy\’s opensearch bot\’s (fyi: the opensearch interface uses the YaCyInternetAgent identifier in the headers)

test query result with 10 seconds delay between connects shows

Response used Agent

11461byte with Agent: Random Browser
no Answer with Agent: YaCy Internet (cautious)
no Answer with Agent: Googlebot
no Answer with Agent: YaCy Intranet (greedy)
no Answer with Agent: YaCyProxy

Statistik: Verfasst von reger — Mi Sep 28, 2016 8:54 pm


Fragen und Antworten • HTAccess für Admin-seiten abschalten?

Date: 2016-09-29 03:22:14

Hallo allerseits!

Bin vor kurzem über das Projekt gestolpert und finde es eine gute Sache.
Ich habe das Suchinterface nur für mich im Netz verfügbar zu machen.
Kein Problem Apache oder NginX als Reverse-Proxy.
Funktioniert soweit auch gut.
Nun habe ich aber das Problem das ich für die Admin-URLs keine ausnahmen in meiner Sites-Config vom Reverse-Proxy eingeben möchte, und den Zugriffsschutz lieber ganz dem Reverse-Proxy überlassen möchte.
Das kann ich aber nicht machen wenn ich auf Yacy auch einen htaccess-Schutz habe.

Der Browser bekommt 2 mal die Challange für htaccess und übergibt, welches Password, und beim 2.mal denkt er dann das das Password invalide war?

Also wie kann ich das ganze ausschalten? Und muss ich was beachten wenn die IP nicht mehr localhost ist?
Kam mir zumindest so vor als das ganze unter Vagrant lief.
Gruß

leave

P.s.:
Ich hab die Forensuche benutzt aber die gibt keine Ergebnisse zurück.

Statistik: Verfasst von leave — Do Sep 29, 2016 2:22 am


YaCy Coding & Architecture • Re: Adding searx.me to Heuristics proposed examples

Date: 2016-09-29 07:31:35

Arrh thank you \@reger for checking.
I have to say I had configured some months ago a YaCy peer with https://framabee.org/ (which is a searx instance) as OpenSearch heuristics and this was working fine. And I was guessing it was still true, but it also looks like it is no more the case. Too bad...

Statistik: Verfasst von luc — Do Sep 29, 2016 6:31 am


YaCy Coding & Architecture • Re: Move interface to HTML5

Date: 2016-09-29 12:14:58

Ok so after checking carefully, it is obvious that YaCy web interface pages are declared as Strict XHTML 1.0 according to their DTD, but indeed have been long time using many HTML 5 features and syntax.

You can easily check this with the W3C Markup Validation Service{.postlink} on your YaCy peer main search page, and compare how many validation errors are reported in XHTML 1.0 Strict validation mode (automatically detected) and forced HTML5 :
- XHTML 1.0 : 56 Errors, 56 warning(s)
- HTML 5 : 1 Warning and 1 Error

So let\’s fix this!

Statistik: Verfasst von luc — Do Sep 29, 2016 11:14 am


English • Re: Snippet generation

Date: 2016-09-30 17:10:23

Hi Alex,
snippets are generated in different places, an some have definitely a fixed maximum size not configurable in the current YaCy :
- when no snippet was provided by local or remote Solr engine, YaCy tries to generate snippets on its own, with a hard-coded maximum size : see SearchEvent{.postlink} and constant SearchEvent.SNIPPET_MAX_LENGTH{.postlink}
- as far as I know, with results from remote YaCy portal peers, snippets will be generated by remote Solr, but you won\’t have control over their size as it is configured on the remote Solr
- the only case when you may be able to configure your peer (note I didn\’t tested this on mine) for a longer snippet size is probably in your local Solr configuration : see the related section{.postlink} in the default Solr Config and Solr Wiki{.postlink}nstructions for example.

Best regards

Statistik: Verfasst von luc — Fr Sep 30, 2016 4:10 pm


Fragen und Antworten • Installation unter Ubuntu

Date: 2016-10-01 16:45:24

Hallo zusammen,
leider bekomme ich auf meinem Ubuntu-Rechner Yacy nicht zum laufen. Da ich diesbezüglich scheinbar zu wenig Ahnung habe, hoffe ich mal, dass mir hier jemand helfen kann.

Wenn ich mit dem Befehl \“sudo apt-get install yacy\” Yacy installieren möchte, bekomme ich auch die Konfiguration angezeigt.
-> \“name for YaCy-peer\”
-> \“Admin password\”
-> \“Choose network to participate\”
-> \“Initial java memory setting\” = default 180
-> \“Maximum java memory\” = default 600

und dann bekomme anschliessend diese Fehlermeldung:

Code:
sudo apt-get install yacy Paketlisten werden gelesen... FertigAbhängigkeitsbaum wird aufgebaut.       Statusinformationen werden eingelesen.... FertigDie folgenden NEUEN Pakete werden installiert:  yacy0 aktualisiert, 1 neu installiert, 0 zu entfernen und 0 nicht aktualisiert.Es müssen noch 0 B von 49,6 MB an Archiven heruntergeladen werden.Nach dieser Operation werden 66,1 MB Plattenplatz zusätzlich benutzt.N: Datei »yacy.listecho« in Verzeichnis »/etc/apt/sources.list.d/« wird ignoriert, da sie eine ungültige Dateinamen-Erweiterung hat.Vorkonfiguration der Pakete ...Vormals nicht ausgewähltes Paket yacy wird gewählt.(Lese Datenbank ... 288763 Dateien und Verzeichnisse sind derzeit installiert.)Vorbereitung zum Entpacken von .../yacy_1.90.9000_all.deb ...Entpacken von yacy (1.90.9000) ...Trigger für systemd (229-4ubuntu10) werden verarbeitet ...Trigger für ureadahead (0.100.0-19) werden verarbeitet ...ureadahead will be reprofiled on next rebootyacy (1.90.9000) wird eingerichtet ...Job for yacy.service failed because the control process exited with error code. See "systemctl status yacy.service" and "journalctl -xe" for details.invoke-rc.d: initscript yacy, action "start" failed.dpkg: Fehler beim Bearbeiten des Paketes yacy (--configure): Unterprozess installiertes post-installation-Skript gab den Fehlerwert 1 zurückTrigger für systemd (229-4ubuntu10) werden verarbeitet ...Trigger für ureadahead (0.100.0-19) werden verarbeitet ...Fehler traten auf beim Bearbeiten von: yacyN: Datei »yacy.listecho« in Verzeichnis »/etc/apt/sources.list.d/« wird ignoriert, da sie eine ungültige Dateinamen-Erweiterung hat.E: Sub-process /usr/bin/dpkg returned an error code (1)



Und weiter komme ich irgendwie nicht. Ich vermute mal, dass Java irgendwie den Fehler verursacht, aber das ist nur ein \“Bauchgefühl\“.
Kann mir jemand einen Tipp oder vielleicht sogar eine Lösung geben?
Wäre über Hilfe sehr dankbar.

Grüße!

P.S. Ich verwende Ubuntu 16.04

Code:
java -versionopenjdk version "9-internal"OpenJDK Runtime Environment (build 9-internal+0-2016-04-14-195246.buildd.src)OpenJDK 64-Bit Server VM (build 9-internal+0-2016-04-14-195246.buildd.src, mixed mode)

Statistik: Verfasst von elehchr — Sa Okt 01, 2016 3:45 pm


Fragen und Antworten • Re: Installation unter Ubuntu

Date: 2016-10-03 12:21:10

OK hat sich erledigt. Habe mittlerweile aufgegeben und bin auf Windows10 umgestiegen. Jetzt läuft Yacy auch problemlos.

Statistik: Verfasst von elehchr — Mo Okt 03, 2016 11:21 am


Fragen und Antworten • Re: Installation unter Ubuntu

Date: 2016-10-03 12:22:09

Hallo elehchr,

versuche folgendes:
* lade in aktuellste Version herunter und entpacke den Inhalt in ein Verzeichnis (http://yacy.de/release/yacy_v1.90_20160704_9000.tar.gz)
* öffne den Terminal und navigiere in das Verzeichnis mit dem enpackten Inhalt
* stelle sicher, dass java auf deinem System installiert ist
* starte YACY mit folgendem Befehl:

Code:
./startYACY.sh


* nach wenigen Sekunden müsstest du in deinem Browser YACY unter

Code:
127.0.0.1:8090

erreichen können

Statistik: Verfasst von ds810 — Mo Okt 03, 2016 11:22 am


Fragen und Antworten • Re: Installation unter Ubuntu

Date: 2016-10-03 12:32:55

Hallöchen!

elehchr hat geschrieben:\ P.S. Ich verwende Ubuntu 16.04\



Paßt doch, YaCy muß damit funktionieren, aber:

elehchr hat geschrieben:\ Code: : `java -versionopenjdk version "9-internal"OpenJDK Runtime Environment (build 9-internal+0-2016-04-14-195246.buildd.src)OpenJDK 64-Bit Server VM (build 9-internal+0-2016-04-14-195246.buildd.src, mixed mode)` \



Dir ist schon klar, daß [[Java 9]{style=“font-style: italic”}]{style=“font-weight: bold”} noch im Versuchsstadium ist und auf einem produktiven System nichts verloren hat! Trenne dich von diesem Schrott und verwende [[Java 8]{style=“font-style: italic”}]{style=“font-weight: bold”}, dann klappt das auch mit YaCy!

Statistik: Verfasst von TmoWizard — Mo Okt 03, 2016 11:32 am


Fragen und Antworten • Re: Installation unter Ubuntu

Date: 2016-10-05 00:26:21

Hallo,

\ Dir ist schon klar, daß Java 9 noch im Versuchsstadium ist und auf einem produktiven System nichts verloren hat! Trenne dich von diesem Schrott und verwende Java 8, dann klappt das auch mit YaCy!\


kann ich nicht bestätigen.
Hatte auch damit Probleme.
Das Ubuntu-Packet hat also eine Macke.
Und da es keine Man-page hat, die Konfigurationen überall verstreut sind, und man keine Ahnung hat was genau man dort wo eintragen soll, habe ich das ganze aus dem Tar-Archiv installiert und es lief, womit ich dann meine htaccess-Frage stellen konnte.

Gruß

leave

P.s.:
Mir ist klar das man auch im Forum suchen kann, etc.
Aber wenn man 1000 Quellen stückweise selbst zusammensetzten muss kann man es auch gleich einfacher machen, nach dem K.I.S.S.-Prinzip halt. ;)

Statistik: Verfasst von leave — Di Okt 04, 2016 11:26 pm


English • raspberry pi, no start

Date: 2016-10-05 22:16:55

I am trying to get yacy running on a spare raspberry pi I had.
I have followed the instructions here:
http://www.yacy-websearch.net/wiki/inde ... spberry_Pi{.postlink}
But it seems yacy isn\’t running. I can ssh to the raspberry pi and run the startYACY.sh.
I even get the message that I can reach yacy via web

>> YaCy started as daemon process. Administration at http://localhost:8090 <<

Substituting localhost for ip of the raspberry pi, the page is unreachable.
Running top on the raspberry pi doesn\’t show yacy as a running process.

I haven\’t found any logs for yacy,
Does anyone have any ideas where I should look? or what might be the problem?

Statistik: Verfasst von metoo — Mi Okt 05, 2016 9:16 pm


English • Re: raspberry pi, no start

Date: 2016-10-05 22:22:02

java -version shows 1.8.0_101-b13
and I am using the most current yacy package from http://yacy.net/en/ 1.90

Statistik: Verfasst von metoo — Mi Okt 05, 2016 9:22 pm


English • Re: raspberry pi, no start

Date: 2016-10-06 01:09:44

netstat | grep 8090
returns nothing. It sure seems like yacy is not running.

/home/pi/yacy/startYACY.sh
doesn\’t return any errors, and even says yacy has been started.
I still haven\’t figured out what is going on.

Statistik: Verfasst von metoo — Do Okt 06, 2016 12:09 am


English • Re: raspberry pi, no start

Date: 2016-10-06 07:49:03

Hello metoo,
you can try to start YaCy in \“debug\” mode using -d option : startYACY.sh -d

In this mode it will not be launched as a background daemon process. It can be helpful because doing so you will immediately see log messages appearing in your console.

Best regards,
Luc

Statistik: Verfasst von luc — Do Okt 06, 2016 6:49 am


English • Re: raspberry pi, no start

Date: 2016-10-06 15:46:20

Thank you for the tip. I have used that command and get the following error.

Error occurred during initialization of VM
Server VM is only supported on ARMv7+ VFP

So there seems to be a problem with java.
Does anyone know what might be going on here?

Why wouldn\’t yacy give an error when launched?

Statistik: Verfasst von metoo — Do Okt 06, 2016 2:46 pm


English • Re: raspberry pi, no start

Date: 2016-10-06 19:43:37

It looks like the JVM you installed does not work with your processor architecture... Is it a Raspberry version 1, which is ARMv6 according to Wikipedia{.postlink}?

Maybe you can try with the other JVM version provided by Oracle... Or with the java package provided with your distribution?

By the way, I think the error is not logged by YaCy because it occurs too early and the JVM isn\’t even initialized.

Statistik: Verfasst von luc — Do Okt 06, 2016 6:43 pm


English • Re: raspberry pi, no start

Date: 2016-10-06 21:33:01

Using openJDK, but it\’s very slow. I can get to the web interface.
I think I will just test yacy for awhile to see if I want to dedicate more hardware, because currently it is unusably slow.

Thanks for the tips in getting me up and running.

Statistik: Verfasst von metoo — Do Okt 06, 2016 8:33 pm


Hilfe für Einsteiger und Anwender • Lässt sich in Ubuntu 16.04 nicht installieren.

Date: 2016-10-07 08:38:00

Hallo,
ich würde Yacy gerne auf meinem Ubuntu 16.04 System installieren, jedoch schlägt jeder Installationsversuch fehl. Zuerst habe ich versucht Yacy als Debian-Paket zu installieren, bekam jedoch folgende Fehlermeldung(en):

Code:
gerrit@gerrit-macbook:~$ echo 'deb http://debian.yacy.net ./' | sudo tee /etc/apt/sources.list.d/yacy.list[sudo] Passwort für gerrit: deb http://debian.yacy.net ./gerrit@gerrit-macbook:~$ sudo apt-key advanced --keyserver pgp.net.nz --recv-keys 03D886E7Executing: /tmp/tmp.olFdggwnac/gpg.1.sh --keyserverpgp.net.nz--recv-keys03D886E7gpg: Schlüssel 03D886E7 von hkp-Server pgp.net.nz anforderngpg: Schlüssel 03D886E7: Öffentlicher Schlüssel "Michael Peter Christen <mc@yacy.net>" importiertgpg: Anzahl insgesamt bearbeiteter Schlüssel: 1gpg:               importiert: 1  (RSA: 1)gerrit@gerrit-macbook:~$ sudo apt updateOK:1 http://... precise InReleaseOK:2 http://... xenial InRelease                                                Ign:3 http://... stable InRelease                                                           OK:4 http://de.archive.ubuntu.com/ubuntu xenial InRelease                                                              OK:5 http://ppa.launchpad.net/obsproject/obs-studio/ubuntu xenial InRelease                                            OK:6 http://repository.spotify.com stable InRelease                                                                    OK:7 http://security.ubuntu.com/ubuntu xenial-security InRelease                                                       OK:8 http://... stable Release                                                              Holen:9 http://ppa.launchpad.net/oibaf/graphics-drivers/ubuntu xenial InRelease [17,6 kB]                              Ign:10 http://debian.yacy.net ./ InRelease                                                                             Holen:11 http://de.archive.ubuntu.com/ubuntu xenial-updates InRelease [95,7 kB]                                        Ign:12 http://... xenial InRelease                                                 Holen:13 http://debian.yacy.net ./ Release [1.202 B]                                                                   OK:14 http://ppa.launchpad.net/ondrej/php/ubuntu xenial InRelease                                                      Holen:15 http://debian.yacy.net ./ Release.gpg [473 B]                                                         OK:16 http://... xenial Release                                                    OK:17 http://de.archive.ubuntu.com/ubuntu xenial-backports InRelease                                 OK:18 http://... xenial InReleaseOK:19 http://... xenial InReleaseHolen:21 http://debian.yacy.net ./ Packages [602 B]   Holen:22 http://de.archive.ubuntu.com/ubuntu xenial-updates/main amd64 Packages [396 kB]Holen:24 http://de.archive.ubuntu.com/ubuntu xenial-updates/main i386 Packages [391 kB]Holen:25 http://de.archive.ubuntu.com/ubuntu xenial-updates/universe amd64 Packages [335 kB]Holen:26 http://de.archive.ubuntu.com/ubuntu xenial-updates/universe i386 Packages [331 kB]OK:27 https://packagecloud.io/slacktechnologies/slack/debian jessie InReleaseEs wurden 1.567 kB in 2 s geholt (623 kB/s).Paketlisten werden gelesen... FertigAbhängigkeitsbaum wird aufgebaut.       Statusinformationen werden eingelesen.... FertigAktualisierung für 36 Pakete verfügbar. Führen Sie »apt list --upgradable« aus, um sie anzuzeigen.W: http://debian.yacy.net/./Release.gpg: Signature by key 8BD752501CB62448A30EA3EA1F968B3903D886E7 uses weak digest algorithm (SHA1)W: http://.../ubuntu/dists/xenial/Release.gpg: Signature by key ... uses weak digest algorithm (SHA1)gerrit@gerrit-macbook:~$ sudo apt install yacyPaketlisten werden gelesen... FertigAbhängigkeitsbaum wird aufgebaut.       Statusinformationen werden eingelesen.... FertigDie folgenden NEUEN Pakete werden installiert:  yacy0 aktualisiert, 1 neu installiert, 0 zu entfernen und 10 nicht aktualisiert.Es müssen noch 0 B von 49,6 MB an Archiven heruntergeladen werden.Nach dieser Operation werden 66,1 MB Plattenplatz zusätzlich benutzt.Vorkonfiguration der Pakete ...Vormals nicht ausgewähltes Paket yacy wird gewählt.(Lese Datenbank ... 360879 Dateien und Verzeichnisse sind derzeit installiert.)Vorbereitung zum Entpacken von .../yacy_1.90.9000_all.deb ...Entpacken von yacy (1.90.9000) ...Trigger für systemd (229-4ubuntu10) werden verarbeitet ...Trigger für ureadahead (0.100.0-19) werden verarbeitet ...yacy (1.90.9000) wird eingerichtet ...Job for yacy.service failed because the control process exited with error code. See "systemctl status yacy.service" and "journalctl -xe" for details.invoke-rc.d: initscript yacy, action "start" failed.dpkg: Fehler beim Bearbeiten des Paketes yacy (--configure): Unterprozess installiertes post-installation-Skript gab den Fehlerwert 1 zurückTrigger für systemd (229-4ubuntu10) werden verarbeitet ...Trigger für ureadahead (0.100.0-19) werden verarbeitet ...Fehler traten auf beim Bearbeiten von: yacyE: Sub-process /usr/bin/dpkg returned an error code (1)gerrit@gerrit-macbook:~$ systemctl status yacy.service● yacy.service - LSB: Distributed web search engine   Loaded: loaded (/etc/init.d/yacy; bad; vendor preset: enabled)   Active: failed (Result: exit-code) since Fr 2016-10-07 08:15:37 CEST; 9s ago     Docs: man:systemd-sysv-generator(8)Okt 07 08:15:36 gerrit-macbook systemd[1]: Starting LSB: Distributed web search engine...Okt 07 08:15:37 gerrit-macbook yacy[4674]: Starting YaCy P2P Web Search: failed.Okt 07 08:15:37 gerrit-macbook systemd[1]: yacy.service: Control process exited, code=exited status=1Okt 07 08:15:37 gerrit-macbook systemd[1]: Failed to start LSB: Distributed web search engine.Okt 07 08:15:37 gerrit-macbook systemd[1]: yacy.service: Unit entered failed state.Okt 07 08:15:37 gerrit-macbook systemd[1]: yacy.service: Failed with result 'exit-code'.gerrit@gerrit-macbook:~$



Nachdem das fehlgeschlagen ist habe ich das yacy-Archiv (yacy_v1.90_20160704_9000.tar.gz) heruntergeladen und versucht zu starten:

Code:
gerrit@gerrit-macbook:~/Programme/yacy$ java -versionopenjdk version "9-internal"OpenJDK Runtime Environment (build 9-internal+0-2016-04-14-195246.buildd.src)OpenJDK 64-Bit Server VM (build 9-internal+0-2016-04-14-195246.buildd.src, mixed mode)gerrit@gerrit-macbook:~/Programme/yacy$ ./startYACY.sh -d****************** YaCy Web Crawler/Indexer & Search Engine *********************** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ********   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ******  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                ****  STOP         YaCy: execute stopYACY.sh and wait some seconds             ****  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     ********************************************************************************* >> YaCy started as daemon process. Administration at http://localhost:8090 << Fehler: Konfigurationsdatei wurde nicht gefunden: /usr/lib/jvm/java-9-openjdk-amd64/conf/management/management.propertiesgerrit@gerrit-macbook:~/Programme/yacy$ curl http://localhost:8090 curl: (7) Failed to connect to localhost port 8090: Verbindungsaufbau abgelehntgerrit@gerrit-macbook:~/Programme/yacy$ uname -aLinux gerrit-macbook 4.4.0-38-generic #57-Ubuntu SMP Tue Sep 6 15:42:33 UTC 2016 x86_64 x86_64 x86_64 GNU/Linuxgerrit@gerrit-macbook:~/Programme/yacy$



Start über \“strace\”: http://pastebin.com/w30nzZEj

Habe ich etwas falsch gemacht? Kann hier jemand helfen? Vielen Dank.

Statistik: Verfasst von addiks — Fr Okt 07, 2016 7:38 am


Hilfe für Einsteiger und Anwender • Re: Lässt sich in Ubuntu 16.04 nicht installieren.

Date: 2016-10-07 20:44:21

Hello addiks, I hope it is not a problem if I answer you in English, but my german level is still too bad...

It looks like you are using OpenJDK 9, but the currently stable Java version is 8. Why not trying to launch YaCy with the OpenJDK 8?
YaCy is developped and tested with Java 7 and Java 8, so using one of these would increase your chances to launch sucessfully YaCy.

By the way I will have a try with the OpenJDK-9 as soon as I have some time...

Best regards

Statistik: Verfasst von luc — Fr Okt 07, 2016 7:44 pm


Hilfe für Einsteiger und Anwender • Re: technische frage zu inhalten

Date: 2016-10-11 20:22:47

Hallo,

es gibt eine Vervielfältigung des indexes via DHT - alle Dokumente zu einem Wort (Hash) werden an einen passende Peers gesendet.
Von da an gibt es also Redundanz zu dem Wort.

Das mit den passenden Peers ist etwas schwieriger zu erklären - es sorgt aber dafür das sich Inhalte an Peers konzentrieren.
Der Prozess zur DHT-Verteilung arbeitet per default stetig imHintergrund, überträgt aber immer nur geringe Mengen um nicht zu stören.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Okt 11, 2016 7:22 pm


Mitmachen • Re: YaCy funding and development policy

Date: 2016-10-12 07:47:21

Seems to be http://www.business-index.fr/

Statistik: Verfasst von Choey — Mi Okt 12, 2016 6:47 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 12:09:33

Hi ds810,
if it is not a problem for you to continue this discussion in English (I am sorry to still have a so bad German level) I am ok to check what can be done.

I already imported your blacklist (UbuntuServer) on a YaCy peer running in peer-to-peer mode, but I could not reproduce the 100% CPU burn you report... Can you give some examples of search terms that trigger this behavior? Do you also have this problem when using your blacklist on a freshly installed YaCy (with an empty local index)?

Best regards

Statistik: Verfasst von luc — Mi Okt 12, 2016 11:09 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 13:13:39

Have you activated imported blacklists? After import they are disabled.

I tryed it on following systems
* HP N54L (8GB (4GB for yacy)/SSD) - my current system
* DELL Latitude (i5/8GB (4GB for yacy)/SSD)
* Tuxedo (5i/16GB (8GB for yacy)/SSD)
* Raspberry PI 1-3
* vServer - Provided by euserv.de

all systems are on Debian or UbuntuServer with default Java from repository

Statistik: Verfasst von ds810 — Mi Okt 12, 2016 12:13 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 13:50:19

Yes it is activated and effectively performing filtering (I even checked in debug that BlackList.isListed() sometimes return true).

I can try to review code and run some performance measurements, but it would be helpful to know what kind of search make the CPU burn on your peer.

Statistik: Verfasst von luc — Mi Okt 12, 2016 12:50 pm


Mitmachen • Re: YaCy funding and development policy

Date: 2016-10-12 15:33:56

You are probably right Choey and the Linkedin profile of jc gryson seems to confirm that.

At the time he sent the message on this forum he also sent me a private message I also answered approximately the same manner, but I never had an answer, so I considered it as spam...

To complete the updates on this post I also have to say I contacted some months ago the previously mentioned foundations. I received no answer from NLNet, and the Internet Freedom Fund answered they were \“not able to provide financial support for your project at this time\“.

Statistik: Verfasst von luc — Mi Okt 12, 2016 2:33 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 21:27:15

I can create an account for you on my yacy instance... You can test it online...

Statistik: Verfasst von ds810 — Mi Okt 12, 2016 8:27 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 21:34:19

Ok ds810, if you wish you can send me the login details by private message and I will have a try ... But to my mind we will really be able to improve something if we have a reproductible scenario on a development environment.

Statistik: Verfasst von luc — Mi Okt 12, 2016 8:34 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 21:36:17

login: see pm

if you want I can show it via teamviewer (or whatever).

Statistik: Verfasst von ds810 — Mi Okt 12, 2016 8:36 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-12 21:39:07

for reproduce: activate \“Remote Index\” on /ConfigNetwork_p.html

Statistik: Verfasst von ds810 — Mi Okt 12, 2016 8:39 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-13 08:13:49

I indeed had already enabled \“Accept remote Index Transmissions\” in the Network config.

By the way, finally I could reproduce a similar issue on my development peer : it hanged at more than 100% CPU after running many random search queries, becoming totally unresponsive.
In my case I found in the logs the following errors : \“java.lang.OutOfMemoryError: GC overhead limit exceeded\” and then \“java.lang.OutOfMemoryError: Java heap space\“.

Can you check your log and see if you also have these kind of errors?

[Edit :]{style=“font-weight: bold”} After restarting my peer and waiting some time I finally also obtain a continuous CPU usage over 100% without searching anything. I guess my initial dev index data was not large enough to see the problem occurring...
Some profiling indeed reveals the Hot Spot as expected : the transferURL servlet is spending all its time in the call of net.yacy.repository.Blacklist.isListed(). I will report here as soon as I know a little more about what to optimize.

Statistik: Verfasst von luc — Do Okt 13, 2016 7:13 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-13 11:00:49

As I suspected, some specific URLs are really long to process against YaCy BlackList patterns. After modifying my peer to trace long processing times in BlackList.isListed(), I found some examples :
- http://molodezhnaja.ch/../../../../../. ... ndyman.htm{.postlink} is processed in about 15 seconds
- http://molodezhnaja.ch/../../../../../. ... bambi2.jpg{.postlink} is first processed in about 60 seconds, and then this time increase to several minutes the next times it is encountered.

So I think there is definitely something that can be done, maybe fixing the URL normalizing method for this kind of path, I will try to see what is the most appropriate.

Statistik: Verfasst von luc — Do Okt 13, 2016 10:00 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-13 16:25:07

I committed a fix to handle properly these long \‘../\’ URLs (https://github.com/yacy/yacy_search_ser ... 3c4d2bc9d6{.postlink}). On my peer they now pass the Blacklist check in a reasonable amount of time.

ds810, can you test from the latest GitHub sources and check if this fix alone solve your problem?

Statistik: Verfasst von luc — Do Okt 13, 2016 3:25 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-13 19:09:14

Sure, I will check it when I\’m back at home.

Statistik: Verfasst von ds810 — Do Okt 13, 2016 6:09 pm


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2016-10-14 07:32:28

Hi reger and luc,

UX is not really my specialty, but my guess is that to really define \“understandable\” we would have to have some idea of what a user\’s goal is.

Some examples:

1. \“I think YaCy is ranking a website too high or low by accident, I want to figure out how this can be fixed by changing the ranking rules.\”
2. \“I think YaCy is ranking a website too high because that website is using abusive SEO / spam techniques, I want to figure out what the website is doing so we can make YaCy penalize such sites.\”
3. \“I have a new idea for a YaCy ranking method and I want to figure out whether it would be beneficial, and which pages would be most affected.\”
4. \“I have a website and I want to figure out how to change the site to make it rank more highly in YaCy using the default YaCy settings.\”

There may be some information that is beneficial for some of these use cases, but is superfluous for others of these use cases. It might be useful to consider these use cases independently for the purpose of figuring out what information should be highlighted and how it should be visualized. I think a good first step is to simply make the raw data available, since this allows people to experiment with layers on top of it, but I fully agree that making raw data available is not really sufficient by itself for most real-world use cases. (Although for my particular use cases, it\’s sufficient given that I\’m willing to code some Python scripts to do my additional analysis.)

In terms of optimization/learning, a common technique in machine learning is backpropagation. Basically, this uses the partial derivative of an output variable with respect to some input variable, to determine how to change the input variable in order to optimize the output variable. I\’m playing around with this technique in the context of YaCy ranking, but I don\’t have any results to share yet. The important takeaway here is that because backpropagation needs partial derivatives, it needs to know what calculations were used to get the final ranking score.

One potentially useful way to get data for deciding how to optimize ranking would be to use clickthrough data. There\’s not much of a privacy implication to collecting clickthrough data as long as it\’s not shared with peers, but my guess is that multiple nodes\’ clickthrough data would need to be combined in some way to get sufficiently noise-free data. There are some ways that this could be done; I\’m investigating using a social graph method where users\’ own nodes do optimization using their own clickthrough data but share a weighted sum of their own optimizations and their friends\’ optimizations. This is reasonably private (users effectively act as a blind for the users in their social graph), and reasonably Sybil-resistant (social graphs have been reasonably well-studied for Sybil-resistance, including in the context of Freenet, for which the stakes are a lot higher). I don\’t have any practical results to share on that yet.

Cheers!
-Jeremy

Statistik: Verfasst von biolizard89 — Fr Okt 14, 2016 6:32 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-14 22:47:38

hey luc,

it looks very good. I will test it over the night. since 1h CPU doesn\’t get 100%: CPU-Temp ~45° 8-)

Statistik: Verfasst von ds810 — Fr Okt 14, 2016 9:47 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-14 22:49:59

:cry:
just now

CPU: 100%

Code:
Occurrences: 100at java.util.regex.Matcher.matches(Matcher.java:604)at net.yacy.repository.Blacklist.isListed(Blacklist.java:577)at net.yacy.repository.Blacklist.isListed(Blacklist.java:480)at net.yacy.crawler.CrawlStacker.checkAcceptanceChangeable(CrawlStacker.java:451)at net.yacy.crawler.CrawlStacker.stackCrawl(CrawlStacker.java:314)at net.yacy.crawler.CrawlStacker.job(CrawlStacker.java:134)at sun.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:498)at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)at java.util.concurrent.FutureTask.run(FutureTask.java:266)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)at java.lang.Thread.run(Thread.java:745)

Statistik: Verfasst von ds810 — Fr Okt 14, 2016 9:49 pm


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2016-10-14 23:55:40

biolizard89 hat geschrieben:\ One potentially useful way to get data for deciding how to optimize ranking would be to use clickthrough data.\



One quick line about history to above suggestion, a \“clickservlet\” was previously proposed but the idea finally disposed
see comment https://github.com/yacy/yacy_search_server/commit/61ae9d2d1187459ceb695ebc465cd7bd12905f9d
So that I\’d not look into this option (again).

Statistik: Verfasst von reger — Fr Okt 14, 2016 10:55 pm


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2016-10-15 00:29:20

reger hat geschrieben:\ >
> > biolizard89 hat geschrieben:One potentially useful way to get data > for deciding how to optimize ranking would be to use clickthrough > data.\ > >



One quick line about history to above suggestion, a \“clickservlet\” was previously proposed but the idea finally disposed
see comment https://github.com/yacy/yacy_search_server/commit/61ae9d2d1187459ceb695ebc465cd7bd12905f9d
So that I\’d not look into this option (again).



Is there more background on the discussion about the clickservlet? I\’m curious what its intended use case was and why it was removed. The commit you linked only shows it as disabled by default.

Statistik: Verfasst von biolizard89 — Fr Okt 14, 2016 11:29 pm


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2016-10-15 01:06:50

biolizard89 hat geschrieben:\ >
> > reger hat geschrieben: > > >
> > > > biolizard89 hat geschrieben: I\'m curious what its intended use > > case was and why it was removed.\ > > > >
> >



The primary intended use was to make sure a search result that the user found worthwhile to look at (click on) is used to improve the local index.
fyi: intro of the servlet https://github.com/yacy/yacy_search_server/commit/d44d8996d03ecec0e3c78fb54ab39ae22caef7c1
past TODO-List Actions e.g. (0- = not implemented yet)
- crawl/recrawl the url
- crawl all links on page (with depth) / site
0- increase/create rating
0- add to a collection
0- connect query and url
0- learn and classify content - promote rating
0- add to click statistic url/cnt (maybe to use for boost)

P.S. a veto by Orbiter is then good enough for a delete.

Statistik: Verfasst von reger — Sa Okt 15, 2016 12:06 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-15 12:23:17

If I disable proxy (in my case Prefetch Depth: 2) it works fine.

Statistik: Verfasst von ds810 — Sa Okt 15, 2016 11:23 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-15 12:40:35

Ok, at least you have some improvements... As I did on my dev peer, I propose to add some log information that would be activated only with log level = FINE on BlackList, and would thus allow to detect what remaining kind of URL is using too much CPU power.
I will have some time to do it in the coming days.

See you later

Statistik: Verfasst von luc — Sa Okt 15, 2016 11:40 am


Mitmachen • Neuer Peer

Date: 2016-10-15 14:31:20

Moin

Teste nach langer Abstinenz mal wieder Yacy. Hab das zuhause in einer Debian 8 VM laufen lassen, das ganze aber jetzt auf eine extern laufende VM verlegt.
Hab Java 1.8 etabliert.
URL: http://yacy.schwoon.net:8090
oder auch per iptables forward
http://yacy.schwoon.net

--
Rüdiger

Statistik: Verfasst von RudiOnTheAir — Sa Okt 15, 2016 1:31 pm


Hilfe für Einsteiger und Anwender • Memory usage / multithread

Date: 2016-10-15 21:00:25

I noticed that a) the Memory use is above what is assigned to the JAVA-Machine and b) that I have only one CPU running at 100%.
Is this behavior to be expected? Teh configuration Interface is very slow to the point of not responding.
I run YaCy in a VM / Container. JAVA 8.

Statistik: Verfasst von Choey — Sa Okt 15, 2016 8:00 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 14:28:29

Wie ist es eigendlich um die Zukunft dieses Projektes bestellt.?

Gibt es Statistiken bzgl. der Nutzung.?
--
Rüdiger

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 1:28 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 17:34:45

Die Userzahl für Senior Peers bleibt relativ konstant mit 200.
Ich hatte auch mit der Yacy Version 1.82 pausiert, da diese bei mir nicht stabil lief.
Jetzt nutze ich 1.9 und Yacy macht richtig spaß

Ich hoffe, dass Yacy mit der neuen Verison mehr User binden kann.

Statistik: Verfasst von promocore — So Okt 16, 2016 4:34 pm


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2016-10-16 17:47:02

Ich möchte noch einmal den Versuch starten und habe die Links aktualisiert und den Tracker angeschmissen.
Vielleicht haben wir diesmal etwas mehr Erfolg.

Statistik: Verfasst von promocore — So Okt 16, 2016 4:47 pm


Hilfe für Einsteiger und Anwender • Re: YaCy crawlt eine (meine) Seite nicht

Date: 2016-10-16 17:58:05

Sorry… war jetzt ein paar Wochen out-of-order ;)
Werde es mal mit der http-Version testen und das Ergebnis bekannt geben.

Statistik: Verfasst von PepeCyB — So Okt 16, 2016 4:58 pm


Hilfe für Einsteiger und Anwender • Re: YaCy crawlt eine (meine) Seite nicht

Date: 2016-10-16 18:43:13

Auch bei der http-Variante bekomme ich die Fehlermeldung

Code:
Crawling of "http://dampfdruck-presse.de" failed. Reason: scraper cannot load URL: java.io.IOException: Client can't execute: Received fatal alert: unrecognized_name duration=87 for url http://dampfdruck-presse.de//

Statistik: Verfasst von PepeCyB — So Okt 16, 2016 5:43 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 19:02:06

Das Thema eines zentralen Anlaufpunk für die Suche war ja schonmal aktuell. Wie ist denn da der Status.?

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 6:02 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 19:24:54

Wie meinst du das mit dem zentralen Anlaufpunkt?

Statistik: Verfasst von promocore — So Okt 16, 2016 6:24 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 19:46:10

Eine URL, an der alle suchen können. Nicht nur Betreiber eigener Yacy Instanzen...?

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 6:46 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 19:53:06

Die gibt es:
http://search.yacy.net/

Statistik: Verfasst von promocore — So Okt 16, 2016 6:53 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 20:01:30

Die Ergebnisse weichen aber total ab von denen auf meinem eigenen.!?

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 7:01 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 20:06:41

Das kann sein, der Peer ist auch sehr klein und muss so andere Fragen. Da nie Alle gefragt werden, gibt es auch unteschiedliche Ergebnisse.
Sinn ist es ja auch, einen eigenen peer zu betreiben und somit das Netzwerk größer und besser zu machen.

Statistik: Verfasst von promocore — So Okt 16, 2016 7:06 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 20:33:07

Dachte das die Peers sich in einer ruhigen Minute untereinander abgleichen... :)

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 7:33 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 21:03:19

Ja das tun sie auch nur wohl sehr sehr langsam

Also ich habe zwei Nodes am laufen, ich füttere beide mit unterschiedlichen Daten.

Bekomme ein beiden unterschiedliche Ergebnisse mit dem selben such Wörtern

Statistik: Verfasst von konkretor — So Okt 16, 2016 8:03 pm


Hilfe für Einsteiger und Anwender • yacy ist crashing often

Date: 2016-10-16 21:13:19

Hello,

where can i read why is yacy crashed?

i have no infos found in :/var/log/yacy# less yacy00.log
no java stracktrace is written

I found yacy.logging with a lot´s of settings

What can i do for debug this issue?

which settings i need?



Best

Statistik: Verfasst von konkretor — So Okt 16, 2016 8:13 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-16 21:54:02

Aha, interessant. Werde das mal beobachten. Der Yacy ist auf meiner VM ja 247 online...

Statistik: Verfasst von RudiOnTheAir — So Okt 16, 2016 8:54 pm


Hilfe für Einsteiger und Anwender • Re: Memory usage / multithread

Date: 2016-10-16 22:34:43

Hi Choey,

the memory usage you assigned is jut for the Heap-Space, but there are other Memory-spaces used in Java-Applications like YaCy - so thats correct.
I guess we made all processes multithreaded, that take a lot of time. A usage of a single core isn\’t something that should be the case for along time.
You description sound to me, like something is not running in a normal way - maybe we should have a look at your logfiles here.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Okt 16, 2016 9:34 pm


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-16 22:37:50

Hi konkretor,

even when there is no stacktrace in the log - I think having a look there would be only way to identify the cause.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Okt 16, 2016 9:37 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-17 09:41:49

Man kann auch die Indexdaten exportieren und importieren und untereinander tauschen.
Wenn man also genung Speicherplatz hat, wäre das auch einen Möglichkeit die Clients \“schneller\” abzugleichen bzw. sein Index zu vergrößern.

Statistik: Verfasst von promocore — Mo Okt 17, 2016 8:41 am


Hilfe für Einsteiger und Anwender • Wiki veraltet

Date: 2016-10-19 10:53:45

Habe YaCy jetzt seit einer Woche am Laufen und bin seit heute \“Senior\“.
Crawle in bescheidenem Maße, weil das Ganze auf einem leistungsschwachen Rechner nebenher läuft. - Aber vielleicht besser als nichts.
Etwas unangenehm ist mir das Wiki aufgefallen. Hier ist doch ziemlich viel veraltet.

Beispiel: \“Browserintegration\”
Die YaCyBar für Firefox wird, wenn ich jetzt nicht irre, für Firefox 35 angeboten, für 45ESR jedenfalls nicht mehr nutzbar. Gibt es für den Firefox noch Alternativen?

Auch die Wikimitarbeitbeschreibung scheint mir etwas veraltet. (Hätte da eine kurze Anleitung für die Browserintegration (Suche mit YaCy) in QupZilla beizutragen.) ;)
Muß ich mich für die kleinen Änderungen extra im Wiki anmelden, um das direkt zu erledigen?

Statistik: Verfasst von 19102016 — Mi Okt 19, 2016 9:53 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-19 11:40:02

Ok ds810, I had some time to let a peer running with your blacklist and it also hanged on another URL causing 100%CPU burn : http://www.chemgapedia.de/vsengine/tra/ ... vscml.html{.postlink}

I will try to find the reason, and this time I will let my peer run longer after a fix to check everything really works fine.

See you later

Statistik: Verfasst von luc — Mi Okt 19, 2016 10:40 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-19 14:16:01

Hey ds810, this is this kind of pattern \“.*.*/(.*/)*abmw?\.asp.*\” ( with a \“(.*/)*\” capturing group) which is highly CPU consuming against URLs having many segments in their path (see previously mentioned sample URL).

I propose to replace all occurrences of \“(.*/)*\” in your blacklist file, with \“(.*/|)\“, which do the same job but appears to be much much more efficient (at least with JDK 7). I updated the Blacklist unit test{.postlink} with some more examples to confirm this pattern works as expected.

After modifying your blacklist file, you can also immediately check performance by using the /BlacklistTest_p.html page.

Example of concerned patterns :
- your current version :

Code:
.*.*/(.*/)*abmw?\.asp.*.*.*/(.*/)*ads/.*.*.*/(.*/)*adv/.*


- modified version :

Code:
.*.*/(.*/|)abmw?\.asp.*.*.*/(.*/|)ads/.*.*.*/(.*/|)adv/.*



I have been running my peer for two hours with the modified version of your blacklist, and until now the issue didn\’t occurred again.

Statistik: Verfasst von luc — Mi Okt 19, 2016 1:16 pm


Fragen und Antworten • Re: Frage LURL-DB

Date: 2016-10-19 14:37:11

Hi LA_FORGE, are you asking because you saw this kind of message in YaCy logs : \“double in: LURL-DB, oldDate = ...\“.

This message was left mistakenly unchanged : since 2013, it appears the LURL-DB (or \“ZURL data structure\“) has been removed (see this commit{.postlink}) and the information is now in the Solr index.

Best regards

Statistik: Verfasst von luc — Mi Okt 19, 2016 1:37 pm


Fragen und Antworten • Re: Frage LURL-DB

Date: 2016-10-19 14:43:31

Hi Luc,

thank you very much. Is there a query to overwrite all the values of this specific date field in Solr? I\’m unable to recrawl because the date in this solr field is to new.

Greetings

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mi Okt 19, 2016 1:43 pm


Fragen und Antworten • IPv6

Date: 2016-10-19 14:51:55

Auf dem englischem Wikipedia steht, dass YaCy keine ipv6 unterstützung hat. Stimmt das?

Statistik: Verfasst von lugarius — Mi Okt 19, 2016 1:51 pm


Fragen und Antworten • Re: Frage LURL-DB

Date: 2016-10-19 15:16:53

LA_FORGE, what kind of operation are you performing? Recrawl job, advanced crawl ? Instead of overwriting all load date fields it would be preferable to adjust the filtering query...

Statistik: Verfasst von luc — Mi Okt 19, 2016 2:16 pm


Fragen und Antworten • Re: IPv6

Date: 2016-10-19 15:52:38

Hello lugarius I apologize for answering in English because of my poor German level...
Since the IPV6 bug referenced on the wikipedia page, some work related to IPV6 has been done : an example{.postlink}.
And the bug tracker URL changed : now http://mantis.tokeek.de/view.php?id=145

But I personally still have an IPV4 address, so maybe some people can tell if IPV6 is currently well supported by YaCy...

Statistik: Verfasst von luc — Mi Okt 19, 2016 2:52 pm


Mitmachen • Re: yacy Autocrawl

Date: 2016-10-19 18:33:05

Hello Mars, I hope it is not a problem if I reply to you in English...

I just had a review to your script and didn\’t test it, but I like the idea. I planned to code a similar task using the less often updated but quite large DMOZ dumps{.postlink}...

I believe it would be even greater if this kind of import could be made directly with existing YaCy features. I was thinking of a scenario like this :
- in CrawlStartExpert.html one could enter the top-1m.csv.zip (the free alexa dump you use) URL as starting point
- zip and csv parsers would extract links from the dump and propose this as the link-list
- crawl could be started with the usual config options
- YaCy Process Scheduler (Table_API_p.html) then allow to replay the crawl at the desired rate

Theorically there would be not so much to do to make this possible : modifying YaCy csv parser to let it extract http links, and ensure good memory performance to handle the large links list...

What do you think about it?

Statistik: Verfasst von luc — Mi Okt 19, 2016 5:33 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-19 20:44:39

I will replace all patterns im my blacklists. I will report about the result.

Statistik: Verfasst von ds810 — Mi Okt 19, 2016 7:44 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-19 22:09:06

Code:
.*/.*\.exe

doesn\’t work.

Code:
.*.*/.*\.exe

works as expected

test link
https://github.com/getgauge/gauge/relea ... x86_64.exe{.postlink}

Statistik: Verfasst von ds810 — Mi Okt 19, 2016 9:09 pm


Fragen und Antworten • Re: Frage LURL-DB

Date: 2016-10-20 08:02:36

I\’m using the new recrawl feature at the page \‘IndexReIndexMonitor_p.html\’ but the last crawl date is a few hours ago so I want to force a recrawl without respecting the last crawl date.

Statistik: Verfasst von LA_FORGE — Do Okt 20, 2016 7:02 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-20 08:32:32

Ok but this kind of pattern

Code:
.*.*/.*\.exe

was not a problem. The performance problem is really with patterns containing

Code:
(.*/)*



Does your peer has a better behavior now?

Statistik: Verfasst von luc — Do Okt 20, 2016 7:32 am


Fragen und Antworten • Re: Frage LURL-DB

Date: 2016-10-20 12:34:42

Ok, did you noticed the recrawl feature has a date filter you can customize with the \“Edit Solr Query\” field?
Instead of the default \“fresh_date_dt:[* TO NOW/DAY-1DAY]\“, you can use for example \“fresh_date_dt:[* TO NOW/HOUR]\” or even \“fresh_date_dt:*\“.

You will find even more options in the Solr documentation page \“Working with Dates\”{.postlink}.

Statistik: Verfasst von luc — Do Okt 20, 2016 11:34 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-20 20:01:18

Not really. In the morning CPU had 100% and 78°.

I have replased all (.*/)* to (.*/|)*

Statistik: Verfasst von ds810 — Do Okt 20, 2016 7:01 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-21 08:15:55

Hello ds810, apparently you didn\’t apply the fix correctly : you must use (.*/|) and not (.*/)* .It is important to remove the * after the capturing group, because this is what makes the performance issue with URLs having many path segments ( by segment I mean each /nnn/ part).
You can check yourself how (.*/|) is sufficient. You do not need to add the * after the parenthesis. Detailed explanation of the new capturing group (.*/|) :
- .* : captures any characters including /
- / : ensures the capturing group effectively ends with a / character
- | : ensures this capturing group can be empty : we either have .*/ or nothing in the group

So this new capturing group effectively captures the same things that (.*/)* but in a more efficient manner with current JDK Pattern implementations.

Best regards

Statistik: Verfasst von luc — Fr Okt 21, 2016 7:15 am


Hilfe für Einsteiger und Anwender • Dokumenten-Filter beim Experten Crawl

Date: 2016-10-21 20:21:52

Hallo!
Ich würde gern mittels \“Filter auf URL\” und \“Filter on Content of Document\” unnütze Seiten aussortieren.

Wenn ichs richtig verstanden habe, dann sind diese beiden Kriterien mittles [UND]{style=“font-weight: bold”} aneinander gebunden. Das gilt ebenfalls für den Filter \“Lade Filter auf URL\“.

Allerdings ist das ist immer dann ungünstig, wenn sprechende URLs sich von ihrem Inhalt unterscheiden. Beispiele hier sind OnePage- bzw. SinglePage-Seiten (auf der Seite steht \“mehr\” als die Beschriftung der URL vermuten lässt) und dynamische URLs (die ID steht in keinem Zusammenhang mit dem Inhalt).

Frage: Ist es möglich \“Lade Filter auf URL\”[ ODER]{style=“font-weight: bold”} \“Filter on Content of Document\” bzw.
\“Filter auf URL\” [ODER]{style=“font-weight: bold”} \“Filter on Content of Document\” zu formulieren?
[(Der Fall \“Lade Filter auf URL\” ODER \“Filter auf URL\” macht wohl wenig Sinn.)
]{style=“font-style: italic”}
Merci!

Statistik: Verfasst von Andi6181 — Fr Okt 21, 2016 7:21 pm


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2016-10-22 01:39:37

biolizard89 hat geschrieben:\ 1. How do we want to collect information that can be used to improve YaCy\'s results?\ 2. What do we want to do with that information once it\'s collected?\


right, we could divide the topic into the 2 sections/question

biolizard89 hat geschrieben:\ Alternatively, a UI could offer a \"rank this URL more highly\" button next to a search result;\


fyi: for (1)
That what cam to my mind too and I\’m experimenting with it, with focus on the button and effect(but are far from happy with what I\’ve tested so far [(its 2 button up/down, a pie chart and 3 numbers)]{style=“font-style: italic”} but stumpled over other things to look at in the rwi ranking area).
In regards to how to represent (internal structure), I started with the rwi (reverse word index) and deal here just with result pairs for ranking parameter (as that is what machine learning could optimize).
Have to read your nice reply likely a couple times more and probably have to get closer to the ... how to represent details (to fully understand your query, URL, DAG comment/idea but I think will get it ... as with my above sentence .… I\’m in the context of a search which includes query & url).
But spitting out rows of numbers etc. without answer to your question (2) which includes .… \“is handled within YaCy by...... or with Tool xyz\” is not of benefit for me.

Statistik: Verfasst von reger — Sa Okt 22, 2016 12:39 am


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-22 11:32:12

ah.… thanks.

I have replaced it in all regex-items.

I will testing it now.

Statistik: Verfasst von ds810 — Sa Okt 22, 2016 10:32 am


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-23 08:44:39

Hello luc,

no the issue is, yacy ist starting and after maybe 2 minutes the yacy process ist crashing.
I have configured yacy.logging to .level=SEVERE

i´m using this java version

java version \“1.7.0_111\”
OpenJDK Runtime Environment (IcedTea 2.6.7) (7u111-2.6.7-1~deb8u1)
OpenJDK 64-Bit Server VM (build 24.111-b01, mixed mode)


Any idea to see more log details?

Statistik: Verfasst von konkretor — So Okt 23, 2016 7:44 am


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-23 18:55:07

Hi konkretor,
indeed you configured your peer to have the less detailed logs...

Log levels are organized this way : from OFF (no logs at all) to FINE (detailed debugging information), you get more and more detailed logs. The ordered levels list is : OFF, SEVERE, WARNING, INFO, CONFIG, FINE

So I suggest you modify your log level at least to INFO or even FINE, and if no error is reported, at least you will be able to know what the process is doing before crashing.

Statistik: Verfasst von luc — So Okt 23, 2016 5:55 pm


Hilfe für Einsteiger und Anwender • Domain auf richtigen Port \“trimmen\”

Date: 2016-10-23 19:09:36

Hallo liebe YaCy-Community,

ich bin neu hier und seit heute mit dem ersten eigenen Peer dabei! :)
Jedoch habe ich ein Problem: Ich hätte gerne, dass wenn meine Domain suche.lukamb.de aufgerufen wird, meine Instanz von YaCy erscheint. Das tut sie bislang aber nur, wenn man den entsprechenden Port (8090) mit angibt, wobei der SSL Port (8443) lustigerweise zu meinem NAS führt.

Hier eine Übersicht über mein Netzwerk:
Ich habe zwei Geräte im Netz hängen: ein NAS und einen kleinen Server (virtualisiert mit Proxmox).
Auf dem NAS laufen zwei Domains: einmal die Domain, welche vom Hersteller selbst angeboten wird (myqnapcloud) und eine meiner Strato-Domains (finalstagegame.de), über welches ein Forum läuft.
Auf dem kleinen Server laufen zwei VMs: Auf der einen VM ein Teamspeak-Server und ein Minecraft-Server (beide über finalstagegame.de), auf der anderem VM läuft nur YaCy (soll über suche.lukamb.de laufen).
Als Router kommt eine Fritz.Box 7390 zum Einsatz. Die Domains werden mittels eines DynDNS-Dienstes mit der aktuellen IP-Adresse meines Routers versorgt. finalstagegame.de aktualisiert die Fritz.Box selbst, suche.lukamb.de aktualisiert der kleine Server selbst (mittels ddclient).
Portfreigaben sind für alle Dienste, die nach außen funktionieren sollen (NAS-Zugang, TS3, Minecraft, Yacy), gesetzt.



Nun hätte ich gerne, dass wenn man im Browser die Adresse: suche.lukamb.de eingibt, meine Suchinstanz auch erscheint. Derzeit muss ich dazu noch den Port anfügen, der SSL Port scheint falsch geroutet zu sein.

Habt ihr eine Idee, woran es liegen könnte? Falls Ihr noch weitere Angaben braucht, so lasst es mich bitte wissen.


Vielen Dank im voraus und viele Grüße:

Palulukas

Statistik: Verfasst von Palulukas — So Okt 23, 2016 6:09 pm


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-23 19:53:18

i have configured the log to fine and i found no error

i have attached my logfile

that´s my limits for files

Code:
ulimit -acore file size          (blocks, -c) 0data seg size           (kbytes, -d) unlimitedscheduling priority             (-e) 0file size               (blocks, -f) unlimitedpending signals                 (-i) 513494max locked memory       (kbytes, -l) 64max memory size         (kbytes, -m) unlimitedopen files                      (-n) 65536pipe size            (512 bytes, -p) 8POSIX message queues     (bytes, -q) 819200real-time priority              (-r) 0stack size              (kbytes, -s) 10240cpu time               (seconds, -t) unlimitedmax user processes              (-u) 513494virtual memory          (kbytes, -v) unlimitedfile locks                      (-x) unlimited

Statistik: Verfasst von konkretor — So Okt 23, 2016 6:53 pm


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-23 20:17:58

Hardware from my vserver

Debian jessie

3cpu cores
1,5 GB RAM
yacy have 1,4 gb ram

no swap

Code:
Filesystem      Size  Used Avail Use% Mounted on/dev/simfs      100G   32G   69G  32% /devtmpfs        768M     0  768M   0% /devtmpfs           768M   72K  768M   1% /dev/shmtmpfs           768M  8.2M  760M   2% /runtmpfs           5.0M     0  5.0M   0% /run/locktmpfs           768M     0  768M   0% /sys/fs/cgrouptmpfs           768M   64K  768M   1% /tmpnone            768M     0  768M   0% /run/shm

Statistik: Verfasst von konkretor — So Okt 23, 2016 7:17 pm


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-10-23 23:32:50

reger hat geschrieben:\ >
> > Orbiter hat geschrieben:things that I would like to see\ > >



Take your time,
but since 1.90 none of the dev releases have been published, maybe that\’s a quicker thing to do.…. and gives chance for some more testers.

Greetings



I found the possibility to easily download and test a development version a pretty good feature, helping none git users testing and using the latest and greatest ;) Sure, there is a risk to distribute a new introduced bug (but imho, better figure it out early as not and in the past there were very few real issues).

As it looks like no updates of development 1.91 are available, should we make some development releases available again for the update servlet ?

P.S. if it is just a question of having a system run some build scripts (and not intention to go with main releases only) ... I could share a 247 box doing it.

Statistik: Verfasst von reger — So Okt 23, 2016 10:32 pm


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-24 07:47:08

Ok konkretor, I will only have some time to check all this in about one week. Maybe someone else will be able to help you in the meantime.

See you later

Statistik: Verfasst von luc — Mo Okt 24, 2016 6:47 am


English • Yacy is too complex

Date: 2016-10-24 13:13:06

I\’ve tried to use yacy, but first it\’s too difficult for simple users !

And there\’s a lot of problems, i\’ve tried first on a computer with 3gb of memory, celeron 900ghz windows 7 and always memory problem, after sometimes less than one hour it stop saying no enough memory but the problem was the same when i allocate 1500 gb of memory ! And last problem, it doesn\’t want to start, it start, java is started but i never can load it in navigator !

I\’ve tried with another computer aspire v3 731g windows 8, with 6gb if memory and problem is the same, it seem it work good only when i allocate 3gb of memory. But if often cause problem when i use computer with yacy working, computer disk is too often used by yacy and its slow all system, i\’ve tried to reduce priority of java to minimum but it the same problem ! And the same problem than before, i\’ve tried to activate a dictionnary and now it never lauch, i see yacy in status bar bur the navigator interface never load...

And i\’ dont find an option to limit the use of internet connexion (like 20mb max), my connexion is 30mb.

There\’s a lot of problems, i\’ve tried to install it on a unbuntu and with last java 8 it said me an error in crawler, a java exception so it can\’t open url ?


another p2p search is more simple to use and with many more active users :
http://www.faroo.com/hp/p2p/technology.html

Statistik: Verfasst von bubul — Mo Okt 24, 2016 12:13 pm


YaCy Coding & Architecture • Re: Spende für eine Bug-Behebung.

Date: 2016-10-24 22:38:13

since more than 24h

CPU: ~1-10 %
Temp: ~38-42°C

:D

Statistik: Verfasst von ds810 — Mo Okt 24, 2016 9:38 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-29 23:34:15

Ich habe den Eindruck das das erlauben des remote crawlen das ganze yacy in den Abdrund reisst. Hab das mal wieder abgestellt.

jemand auch solche Erfahrungen gemacht...??

Statistik: Verfasst von RudiOnTheAir — Sa Okt 29, 2016 10:34 pm


Mitmachen • Re: Neuer Peer

Date: 2016-10-30 00:42:11

Nachdem jetzt auf meinem externen Produktivsystem der Webserver wegen 100% CPU Last nicht mehr erreichbar war, hab ich den Yacy jetzt auf eine andere VM umgezogen, die weniger wichtig ist... Der Name HINTE ging dann aber nicht... Belegt?
Hab dann Emden als nächste Stadt gewählt... ;)

Statistik: Verfasst von RudiOnTheAir — Sa Okt 29, 2016 11:42 pm


English • Re: Port changing after yacy restart

Date: 2016-10-30 08:24:42

Hi krzyszp,

as a first guess: Did you open the port (9090) on your router? If not, please do so.
If portforwardening on your router is established and working and you set yacy\’s port to \‘9090\’ in the \‘ConfigBasic.html\’ menu, all should be fine.

An other means to permanently set yacy\’s port is by way of the file \’<YACY-HOME>/default/yacy.init\‘.

cheers
lux

Statistik: Verfasst von lux — So Okt 30, 2016 8:24 am


English • Re: Port changing after yacy restart

Date: 2016-10-30 14:40:11

Yes, port 9090 is opened... System status shows:

Code:
Address    Host: []:9090    Public Address: http://89.72.247.126:49158    YaCy Address: http://krzyszp-odroid.yacy


As you can see \“Public address\” shows 49158 and every Yacy restart increase by 1...
I have no idea why. If you go to my IP address with 9090 port you can see search portal, but all communication to other peer go through 49158 port which is obviously wrong...

Statistik: Verfasst von krzyszp — So Okt 30, 2016 2:40 pm


English • Re: Port changing after yacy restart

Date: 2016-10-31 08:17:26

Hi krzyszp,

sorry - I can\’t help. That\’s beyond my \‘expertise\‘. Very strange.

Cheers lux

Statistik: Verfasst von lux — Mo Okt 31, 2016 8:17 am


Hilfe für Einsteiger und Anwender • Re: yacy ist crashing often

Date: 2016-10-31 13:31:18

Hi konkretor, for now I also did not found anything particular in your logs. But if your java process effectively crashes, the JVM probably produces a crash report, a file like hs_err_pid pid .log.
This file could contain valuable information, could you try to locate it? Oracle has some documentation{.postlink} about this that may help you find it or configure your JVM options to generate it at a convenient place.

Statistik: Verfasst von luc — Mo Okt 31, 2016 1:31 pm


Hilfe für Einsteiger und Anwender • Das uralte password-Problem

Date: 2016-10-31 15:11:15

Nach vielen Jahren wollte ich mir mal wieder ein yacy installieren. Und scheitere daran, wo ich auch vor vielen Jahren schon oft gescheitert bin: yacy startet und setzt (irgendwie/wo) ein Password, welches ich kennen muss, wenn ich auf das Admin-Interface zugreifen will. Da ich das Password nicht kenne, sagt yacy mir dann (scheinbar) netterweise: gehe ins yacy/bin-Verzeichnis und mache dort ein ./passwd.sh XYZ. Gesagt - getan, die Antwort des Kommandos passwd.sh ist auch wieder (scheinbar) nett: Password for User Name \‘admin\’ set to \‘XYZ\’

Wenn ich dann dieses Passwort eintippe, kommt nur die Antwort: falsches Passwort.

In früheren yacy-Versionen konnte man das Passwort händisch in yacy.conf eintragen, aber da habe ich nichts mehr dazu gefunden.

... und genau dieses Problem hatten wir mit yacy schon vor 10 Jahren ... hat irgend jmd eine Idee??

Statistik: Verfasst von wsb — Mo Okt 31, 2016 3:11 pm


Hilfe für Einsteiger und Anwender • Re: Das uralte password-Problem

Date: 2016-11-01 18:26:39

Hallo WSB,

versuch mal folgendes:
\$ cd <YACY-HOME>
\$ ./reconfigureYACY.sh

Dort kann man das Passwort dann setzen.

Viele Grüße
lux

Statistik: Verfasst von lux — Di Nov 01, 2016 6:26 pm


YaCy Coding & Architecture • github bin releases

Date: 2016-11-03 00:01:58

How about if we make the github YaCy releases complete (startable / runnable) releases.
The only real part missing is just the lib/yacycore.jar (and of course htroot *.class)

Has anyone tried already if it is a hassle to add files to the right location in a github release ?

By design, github seems to allow/promote complete (bin) releases

see https://help.github.com/categories/releases/
with the note on that page:

\ We don\'t limit the total size of your binary release files, nor the bandwidth used to deliver them. However, each individual file must be under 2 GB in size.\



I like it, as it comes in W. friendly zip format along with tar.gz (and could be a additional update target)

Statistik: Verfasst von reger — Do Nov 03, 2016 12:01 am


Mitmachen • Vorratsdaten...

Date: 2016-11-03 07:12:41

Moin

Nur so ein Gedanke.

Wenn ich Remotecrawlen aktiviert habe, erscheinen die URLs, die da in dem Statusfenster so durchrauschen, auch in einer evtl. vom Provider durchgeführten Vorratsdatensammlung.?

--
Rüdiger

Statistik: Verfasst von RudiOnTheAir — Do Nov 03, 2016 7:12 am


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-03 08:14:12

Hallo Rüdiger,

ja, die von Deinem Peer gecrawlten URLs dürften nach dem was man so von der Vorratsdatenspeicherung hört damit erfasst werden.
Es hat aber auch etwas gutes - so geht der Kram den man selber klickt schon in der Menge unter :-)

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Nov 03, 2016 8:14 am


Hilfe für Einsteiger und Anwender • Re: Das uralte password-Problem

Date: 2016-11-03 09:47:15

Danke LUX! Jetzt funzt es :-)

Und nun kommt das next problem ... aber dazu mache ein neues Thema auf ...

Statistik: Verfasst von wsb — Do Nov 03, 2016 9:47 am


Hilfe für Einsteiger und Anwender • Vom Crawler zum Indexer?

Date: 2016-11-03 09:50:54

Wie ich in meinem laufenden yacy sehe, ist der Crawler fleissig am crawler. Das ist fein. Aber \“unfein\” ist es, dass dabei der Index nie größer wird. Wenn der Crawler immerzu neue Seiten crawlt, wieso wird dann der Index nicht größer? Muss ich da irgendwo noch was anklicken \“nun indexiere bitte mal\“??

(Ich weiss nicht, ob es relevant ist: während yacy lief, hatte ich einige Male den Crawler gestoppt und neu gestartet)

Statistik: Verfasst von wsb — Do Nov 03, 2016 9:50 am


Hilfe für Einsteiger und Anwender • Re: Vom Crawler zum Indexer?

Date: 2016-11-03 10:18:40

wsb hat geschrieben:\ Wie ich in meinem laufenden yacy sehe, ist der Crawler fleissig am crawler. Das ist fein. Aber \"unfein\" ist es, dass dabei der Index nie größer wird. Wenn der Crawler immerzu neue Seiten crawlt, wieso wird dann der Index nicht größer? Muss ich da irgendwo noch was anklicken \"nun indexiere bitte mal\"??\


Ahhh - ich kann meine Frage selber beantworten :-) => ich habe einfach mal den für \“JVM reservierten Speicher\” erhöht ... und nun wird auch der Index größer :-)

Es wäre ja nett, wenn yacy dem \“geneigten Nutzer\” sowas mitteilen würde: \“Kann nicht indexieren, weil zu wenig JVM Speicherplatz\” ... oder sowas ...

Statistik: Verfasst von wsb — Do Nov 03, 2016 10:18 am


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-03 19:19:46

Also sollte jeder Yacy laufen lassen. Dann könnte man die Sammellei gleich wieder lassen.. :)

Statistik: Verfasst von RudiOnTheAir — Do Nov 03, 2016 7:19 pm


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-04 06:41:37

RudiOnTheAir hat geschrieben:\ Also sollte jeder Yacy laufen lassen. Dann könnte man die Sammellei gleich wieder lassen.. ![:)](http://forum.yacy-websuche.de/images/smilies/icon_e_smile.gif "Smile")\



Das kommt davon, wenn man YaCy auf einem öffentlich zugänglichen System installiert, dort gilt dann auch das LSR und anderer Unfug! Außerdem widerspricht das auch dem Grundgedanken von YaCy, Zitat:

\ YaCy ist eine Suchmaschine bei dem die Nutzer selbst zum Betreiber werden. [[Die freie Suchmaschinensoftware YaCy läuft nicht auf einem Server im Internet, sondern auf Ihrem eigenen Rechner.]{style="font-style: italic"}]{style="font-weight: bold"} So können Sie Ihr persönliches Suchportal errichten, bei dem nur Sie bestimmen was die Suchmaschine im Suchindex hat.\ \ Die Besonderheit von YaCy ist aber, dass es sich mit den anderen Benutzern, die ebenfalls eine YaCy Suchmaschine betreiben, verbinden kann. So entsteht ein vollständig dezentrales Peer-to-Peer Suchmaschinennetz welches mit der Anzahl der Nutzer skaliert. Diese, von der Gemeinschaft der Nutzer betriebene Suchmaschine ist nicht zensierbar und speichert auch kein Nutzerverhalten an zentraler Stelle. Das Erreichen von Informationsfreiheit durch freie, dezentrale Suchsoftware ist auch ein Projektziel.\



Mein YaCy läuft hier auf einem alten Ubuntu-Server in der Ecke, da ist also nichts öffentlich! YaCy ist eigentlich nicht dafür gedacht, daß es öffentlich zugängliche Peers hat. Das ist zwar auch möglich, aber man muß dann auch mit den entsprechenden Konsequenzen rechnen! Man muß dort folglich eine gute Blacklist verwenden und ständig prüfen, bevor es der Gesetzgeber macht.

Statistik: Verfasst von TmoWizard — Fr Nov 04, 2016 6:41 am


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-11-04 08:53:48

Hi reger, I also recently saw that some projects such as the Nu Html Checker provide a complete set of binary files with their GitHub releases{.postlink}.

I didn\’t test the release creation process, but I also think it would be a good idea to provide this additional download URL.

Statistik: Verfasst von luc — Fr Nov 04, 2016 8:53 am


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-04 21:22:44

Wenn das Remote Crawlen unterbunden ist, müsste das von extern erreichen dann aber egal sein, oder sehe ich das falsch.?
Ich möchte den ja von extern erreichen können, um den auch dort nutzen zu können... Sonst würde das bei mir keinen Sinn machen,.,,

Statistik: Verfasst von RudiOnTheAir — Fr Nov 04, 2016 9:22 pm


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-05 00:13:27

Hallo,

Vorratsdatenspeicherung und Leistungsschutzrecht sollte man hier nicht verwechseln.

Bei der Vorratsdatenspeicherung werden soweit ich weiß alle Verbindungen über den Internetprovider gespeichert.
Bei dem Remote crawlen werden zu crawlende URLs verteilt. Werden diese dann gecrawlt gelangt die Verbindung zu den Seiten in die Vorratsdatenspeicherung wie jeder andere Crawl im Internet auch.

Das Leistungsschutzrecht betrifft so weit ich das begriffen habe die gewerbsmäßige Veröffentlichung von Urheberrechtlich geschützten Inhalten auch in Teilen wie in den Suchergebnissen, bzw. deren Textsnippets. Das mit der \“gewerbsmäßige Veröffentlichung\” scheint wenig genau zu sein. Auch wenn die Senior-Peers mit dem ins Intenet geöffnetem Port zugänglich sind, muss das noch keine \“gewerbsmäßige Veröffentlichung\” sein. Mir ist nicht bekannt das jemand wegen des Betriebs eines YaCy-Peers mit LSR zu tun hatte.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Nov 05, 2016 12:13 am


Mitmachen • Re: Vorratsdaten...

Date: 2016-11-05 00:36:02

Hmm, hab das remote crawlen jetzt erstmal rausgenommen. Das ging auch echt Tag und Nacht und erzeugte dann doch einiges an Traffic.
Mal schauen wie es so wieter geht...

Statistik: Verfasst von RudiOnTheAir — Sa Nov 05, 2016 12:36 am


YaCy Coding & Architecture • Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2016-11-05 16:19:54

Hi,

I want to increase the priority of the new \’Re-Crawl Index Documents\’ feature implemented at the bottom of the page \‘IndexReIndexMonitor_p.html\‘. I love this feature and I want to give this thread a higher priority since no other crawls are currently running on my main peer.


Greetings from Germany

LA_FORGE

Statistik: Verfasst von LA_FORGE — Sa Nov 05, 2016 4:19 pm


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2016-11-06 10:17:13

Hello LA_FORGE,
you can configure the ReCrawl job performance settings in \“System administration > Performance Settings of Busy Queues\” (/PerformanceQueues_p.html). I guess the \“Maximum of System-Load\” and \“Delay between busy loops\” settings can fit your needs.

Please note the \“ReCrawl\” job line only appears in the table AFTER the job has been launched from /IndexReIndexMonitor_p.html.

Best regards
Luc

Statistik: Verfasst von luc — So Nov 06, 2016 10:17 am


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2016-11-06 16:41:03

Thank you very much. I just applied custom values at this page and saved the new values. But shortly after that the values got reset to their default values. I\’m looking for something in the java code to change the thread priority. At that time we migrated the build-in index to Solr we had a procedure to migrate the old index to Solr. This procedure ran at low priority in the background. I just changed a value of a variable in the java code to take influence of the thread priority and then it ran much faster. Is this also possible in context I described above? If so, in which class should I made the change and whats the exact area of the corresponding code?

Statistik: Verfasst von LA_FORGE — So Nov 06, 2016 4:41 pm


Fragen und Antworten • Exceptions in log

Date: 2016-11-07 06:43:40

Hello,
I did setup an local yacy on my PI 3, I documented the setup here: https://anohitono.wordpress.com/2016/11 ... -pi-notes/{.postlink}
Works quite fine, but when searching I often get some exceptions in the logs, like


I 2016/11/07 06:34:40 Fulltext indexing: YlU-o7oWi3kE http://tedium.co/
E 2016/11/07 06:34:40 org.apache.solr.handler.RequestHandlerBase java.io.IOException: null: NIOFSIndexInput(path=\“/home/pi/yacy/DATA/INDEX/freeworld/SEGMENTS/solr_5_2/collection1/data/index/_40.cfs\“) [slice=_40_Lucene50_0.tim]
at org.apache.lucene.store.NIOFSDirectory\$NIOFSIndexInput.readInternal(NIOFSDirectory.java:189)
at org.apache.lucene.store.BufferedIndexInput.refill(BufferedIndexInput.java:342)
at org.apache.lucene.store.BufferedIndexInput.readByte(BufferedIndexInput.java:54)
at org.apache.lucene.store.DataInput.readVInt(DataInput.java:125)
at org.apache.lucene.store.BufferedIndexInput.readVInt(BufferedIndexInput.java:221)
at org.apache.lucene.codecs.blocktree.SegmentTermsEnumFrame.loadBlock(SegmentTermsEnumFrame.java:157)
at org.apache.lucene.codecs.blocktree.SegmentTermsEnum.seekCeil(SegmentTermsEnum.java:754)
at org.apache.lucene.index.FilterLeafReader\$FilterTermsEnum.seekCeil(FilterLeafReader.java:185)
at org.apache.lucene.index.TermsEnum.seekExact(TermsEnum.java:74)
at org.apache.lucene.index.TermContext.build(TermContext.java:94)
at org.apache.lucene.search.TermQuery.createWeight(TermQuery.java:192)
at org.apache.lucene.search.IndexSearcher.createWeight(IndexSearcher.java:904)
at org.apache.lucene.search.IndexSearcher.createNormalizedWeight(IndexSearcher.java:887)
at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:535)
at org.apache.solr.search.SolrIndexSearcher.buildAndRunCollectorChain(SolrIndexSearcher.java:206)
at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:1792)
at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:1611)
at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:573)
at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:524)
at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272)
at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155)
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219)
at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getDocumentListByParams(EmbeddedSolrConnector.java:369)
at net.yacy.cora.federate.solr.connector.AbstractSolrConnector.getDocumentById(AbstractSolrConnector.java:564)
at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getDocumentById(MirrorSolrConnector.java:191)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.getDocumentById(ConcurrentUpdateSolrConnector.java:304)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:306)
at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:292)
at net.yacy.search.query.SearchEvent.pullOneRWI(SearchEvent.java:1065)
at net.yacy.search.query.SearchEvent.pullOneFilteredFromRWI(SearchEvent.java:1153)
at net.yacy.search.query.SearchEvent\$3.run(SearchEvent.java:1402)
Caused by: java.nio.channels.ClosedChannelException
at sun.nio.ch.FileChannelImpl.ensureOpen(FileChannelImpl.java:109)
at sun.nio.ch.FileChannelImpl.read(FileChannelImpl.java:688)
at org.apache.lucene.store.NIOFSDirectory\$NIOFSIndexInput.readInternal(NIOFSDirectory.java:179)
... 30 more

W 2016/11/07 06:34:40 net.yacy.cora.federate.solr.connector.SolrServerConnector DocListSearcher: no response for query \‘{!cache=false raw f=id}j2NHsSP290EA\’

Can anyone help me to find the cause?

Statistik: Verfasst von morpa — Mo Nov 07, 2016 6:43 am


Off-Topic • Lest ihr Horoskope

Date: 2016-11-07 11:48:56

Hallo zusammen,

jeden Morgen nach dem Aufstehen lese ich als erstes mein Horoskop. Mein Mann meint, dass er langsam an meinen geistigen Fähigkeiten zweifelt. Natürlich glaube ich nicht alles, was da drinnen steht, aber es muss doch mehr Menschen als mich interessieren, sonst würde doch nicht fast jede Zeitung Horoskope drucken.
Mal etwas anderes: Würdet Ihr Lebensmittel online bestellen{.postlink}?

Wie steht ihr dazu?

Viele liebe Grüsse
Tanja

Statistik: Verfasst von tanjaboelle — Mo Nov 07, 2016 11:48 am


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2016-11-07 20:02:49

Ok LA_FORGE, I didn\’t played much with this feature, so it is possible there is something to fix so the performance settings on this task are not so easily lost...

By the way, if you wish to experiment with the Thread priority property, you can modify the RecrawlBusyThread{.postlink} class : just change the line

Code:
this.setPriority(Thread.MIN_PRIORITY);

to

Code:
this.setPriority(Thread.MAX_PRIORITY);

or

Code:
this.setPriority(value);

with a value between 1 and 10 (Max priority).

But please note the only involved code is in the RecrawlBusyThread.job(){.postlink} method performing a Solr request to select documents to recrawl (RecrawlBusyThread.processSingleQuery(){.postlink}) and feeding URLs to the local crawler (RecrawlBusyThread.feedToCrawler(){.postlink}). Then local crawler performance settings applies.

If you really wish, you can also modify the local crawler Thread priority when it is created, in the Switchboard{.postlink}.

Happy hacking!

Statistik: Verfasst von luc — Mo Nov 07, 2016 8:02 pm


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2016-11-08 12:07:36

Thank you very very much. That\’s exactly what I\’m looking for. Since I have only basic skills in programming and java, it\’s a great exercise to play with.

Statistik: Verfasst von LA_FORGE — Di Nov 08, 2016 12:07 pm


Fragen und Antworten • Re: Exceptions in log

Date: 2016-11-08 23:07:36

Hello morpa, do you use a custom Solr configuration?

Your stack trace could let think so : apparently NIOFSDirectory class is involved, whereas in YaCy default config{.postlink}, the NRTCachingDirectoryFactory{.postlink} is used. If this is the case, maybe you could try to switch back to this default config and see if it solves the problem?

Best regards

Statistik: Verfasst von luc — Di Nov 08, 2016 11:07 pm


Fragen und Antworten • Re: HTAccess für Admin-seiten abschalten?

Date: 2016-11-09 00:31:34

Hat sich erledigt.
Gigablast ist da etwas umgänglicher.
Trotzdem danke.

Statistik: Verfasst von leave — Mi Nov 09, 2016 12:31 am


Off-Topic • Re: Lest ihr Horoskope

Date: 2016-11-12 07:53:39

yeah SPAM :D

Statistik: Verfasst von bbtuxi — Sa Nov 12, 2016 7:53 am


Hilfe für Einsteiger und Anwender • RAM läuft voll, egal wieviel Yacy-VM bekommt

Date: 2016-11-15 20:34:47

Liebe Yacy Community,

ich habe ein Problem. Ich weiß nur nicht, an wem es liegt: meinem Hypervisor (Proxmox) oder an der Yacy-VM.

Folgende Situation: auf meinem HP ProLiant G8 Microserver mit 16 GB RAM, einer 500GB Festplatte (leider derzeit nur 5400rpm) und einem Dualcore Celeron läuft Proxmox als Hypervisor. Darauf habe ich ein Debian als VM am laufen. Diese VM nutze ich ausschließlich für Yacy. Die Maschine hatte anfangs 4 GB RAM, dann 8 GB und jetzt 10 GB fest allokiert. Installiert ist neben Yacy lediglich Java8-Oracle und htop zum auslesen der Auslastung.

Anfangs hatte die VM wie gesagt nur 4 GB RAM. Installiert wurde Yacy über den Paketmanager von Debian in der Version 1.90 und während der Installation von Yacy habe ich der Maschine 4 GB RAM zugewiesen. Schnell lief der RAM voll und die IO-Leistung sank rapide, sodass ich mit extremen Latenzen zu kämpfen hatte.
Daraufhin habe ich mehr RAM hineingesteckt, Yacy aber bei 4GB belassen. Nach einem Tag waren auch die 8GB voll. Ich kann es mir nicht erklären. Dasgleiche heute mit 10 GB RAM für die VM.
Es ist doch eigentlich nicht so vorgesehen, dass die Maschine immer bis an den Anschlag des RAMs läuft?

Ich habe keine Ahnung, woran das liegen könnte und hoffe auf eure Hilfe. Falls Ihr weitere Fragen zu Software oder Hardware habt, sagt mir bescheid.


Liebe Grüße:

Palulukas

Statistik: Verfasst von Palulukas — Di Nov 15, 2016 8:34 pm


Hilfe für Einsteiger und Anwender • Re: RAM läuft voll, egal wieviel Yacy-VM bekommt

Date: 2016-11-16 00:43:14

Hallo Palulukas,

don\’t Panik! - alles ist ok so:
YaCy nutzt verschiede \‘Arten\’ von speicher. Der Speicher den man in YaCy configuriert ist der Heap-Speicher in dem die Objekte der Klassen von YaCy sind.
Was Dir da abhängig von den Möglichkeiten des Betriessystems und der Indexgröße den Speicher füllt ist eine Art Puffer um schneller auf die Indexdaten zuzugreifen. Dieser Speicher muss nicht physikalisch vorhanden sein - schneller ists aber wenn viel davon da ist :-)
Hättest Du andere Anwendungen die Speicher nutzen, oder weniger Speicher, würde es ebenso gehen - die Menge richtet sich an den Vorhandenen Möglichkeiten.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Nov 16, 2016 12:43 am


Hilfe für Einsteiger und Anwender • Re: RAM läuft voll, egal wieviel Yacy-VM bekommt

Date: 2016-11-16 01:22:55

Hallo sixcooler,

vielen Dank für deine schnelle und vor allem erleichternde Antwort. :) So ganz habe ich das noch nicht verstanden. Könntest du mir die Art der RAM-Nutzung von Yacy nochmal etwas genauer erklären?
Und wieso sehe ich die Auslastung dann nicht mit htop im Betriebssystem, sondern nur in Proxmox selber?

Dann meine zweite Frage: Was kann ich denn tun, um meine IO-Latenz zu reduzieren? Diese liegt teilweise bei ~50%.


Liebe Grüße:

Palulukas

Statistik: Verfasst von Palulukas — Mi Nov 16, 2016 1:22 am


Fragen und Antworten • Re: Blacklist aufräumen

Date: 2016-11-16 12:41:15

Hallo,

ich würde mich gerne dieser Frage anschließen. Gibt es eine Möglichkeit, den bereits erstellten Index nachträglich nach Blacklist-Einträgen zu filtern und diese Einträge anschließend zu löschen?


Liebe Grüße:

Lukas

Statistik: Verfasst von Palulukas — Mi Nov 16, 2016 12:41 pm


Fragen und Antworten • Re: Exceptions in log

Date: 2016-11-17 08:55:05

luc hat geschrieben:\ Hello morpa, do you use a custom Solr configuration?\ \ Your stack trace could let think so : apparently NIOFSDirectory class is involved, whereas in YaCy [default config](https://github.com/yacy/yacy_search_server/blob/Release_1.90/defaults/solr/solrconfig.xml){.postlink}, the [NRTCachingDirectoryFactory](https://github.com/yacy/yacy_search_server/blob/Release_1.90/defaults/solr/solrconfig.xml#L121){.postlink} is used. If this is the case, maybe you could try to switch back to this default config and see if it solves the problem?\ \ Best regards\



I didn\’t change the config, I had a look and it only used the default settings, i.e. NRTCachingDirectoryFactory - the link you provided says \” solr.StandardDirectoryFactory is filesystem
based and tries to pick the best implementation for the current
JVM and platform. solr.NRTCachingDirectoryFactory, the default,
wraps solr.StandardDirectoryFactory and caches small files in memory
for better NRT performance.
\”
so instead of letting solr pick it\’s implementations (it looks like it picked solr.NIOFSDirectoryFactory which as you says, seems to have problems on my PI) I just did set it to solr.SimpleFSDirectoryFactory and it works without exceptions. Will try to set it to the other option available solr.MMapDirectoryFactory, which should be a little more performant. THANKS for the help.

Statistik: Verfasst von morpa — Do Nov 17, 2016 8:55 am


YaCy Coding & Architecture • FTP crawl depth

Date: 2016-11-26 09:52:39

Hi everyone,
currently when an FTP URL is in a crawl start list, YaCy adds the whole FTP repository files list{.postlink} to the crawl stack, even if crawl depth parameter is set to zero. Isn\’t it a bit excessive?
At least when the crawl depth is zero, couldn\’t we consider to only add files in the specified path level, and not the whole FTP site?

Best regards

Statistik: Verfasst von luc — Sa Nov 26, 2016 9:52 am


English • Re: Yacy is too complex

Date: 2016-11-28 18:25:15

I\’ve tried yacy on different computer and here what i think about it (i\’m yacy peers bubul and bubul2) :

I\’ve tried on two computers:

- I cant run yacy with less than 3gb of memory, if less, it stop a few hours later saying no enough memory, with 3gb it can run without problem multiples days.

- I can use the computer to go to internet, look at video only with the computer windows 7 (celeron 900, 3gb ram) because i\’ve installed a ssd disk and i\’ve installed yacy on the 160gb old disk connect via usb, before that, i can\’t use the computer at the same time than yacy run

- On another, i can\’t use computer even yacy is on another usb data disk (2To, 1To free), it slow all the computer, even with minimal priority, the computer is a aspire v3 731 g (6gb) and java is accelerated via graphic card computer but it seem it the high usage of the disk by yacy wich slow too much the computer.

A good idea will be a version of yacy but without using too much ressource of the computer, because if users can\’t use their computer with yacy on it, they will don\’t use yacy, faroo, another p2p search engine dont seem to have this problem.

Statistik: Verfasst von bubul — Mo Nov 28, 2016 6:25 pm


English • Re: Yacy is too complex

Date: 2016-11-28 23:53:41

Hello bubul,
can you give some complementary details about your typical use case : type of active local crawls, blacklists, dictionaries... ?
As far as I know some users are running YaCy on a Raspberry Pi, and personally I have been running a peer on a virtual machine with 600Mb RAM 7 days a week from the beginning of this year without too many problems. But I admit I experienced crashes when activating geolocalized data or advanced blacklist filtering... And also, to manage disk usage I have configured scheduled tasks to regularly clean old data from my index...
I agree YaCy can be confusing if you are not really technical. By the way it can be easier to improve performances if one can reproduce your typical use case and the related issues, so to my mind any supplementary useful information on your usage could help.

Best regards

Statistik: Verfasst von luc — Mo Nov 28, 2016 11:53 pm


English • Re: Desktop or server?

Date: 2016-11-29 18:34:19

Hi kabads, if you let run continuously a YaCy peer you will see the total number of connected peer varies depending on hours of the day on a regular basis. But as far as know the \‘principal\’ and \‘active senior\’ peers number is quite stable, around a few hundreds.
Running your peer 24 hours a day will probably not let your peer reach a greater total peers number at a time, but this way you will support the network, and your peer will gather more diverse chunks from the globally distributed index.

Given the current size of the network, if you have some basic technical skills, to my mind it makes sense to run continuously a server on a dedicated machine, being either a physical one or a virtual machine hosted somewhere you trust. And what\’s more, this way it won\’t consume resources on your daily used computer/laptop/mobile hardware...

Best regards

Statistik: Verfasst von luc — Di Nov 29, 2016 6:34 pm


YaCy Coding & Architecture • Re: FTP crawl depth

Date: 2016-12-04 00:49:47

Hi,

luc hat geschrieben:\ couldn\'t we consider to only add files in the specified path level, and not the whole FTP site?\



Haven\’t tested it, but I\’d agree,
if there is a crawl depth limit, imho it should apply to FTP, too.

Statistik: Verfasst von reger — So Dez 04, 2016 12:49 am


Hilfe für Einsteiger und Anwender • Re: Run YaCy on a reverse proxy?

Date: 2016-12-06 13:15:21

Here is my configuration for lighttpd (in 10-proxy.conf):

Code:
# /usr/share/doc/lighttpd-doc/proxy.txtserver.modules   += ( "mod_proxy" )server.modules   += ( "mod_rewrite" )$HTTP["host"]=~"yacy.allesehersonerdshier.net" {  proxy.server = ( "" =>                   ( (                       "host" => "127.0.0.1",                       "port" => 8090                     ) )                 )}



Unfortunately my YaCy instance is unaware of this and still advertises its services via port 8090. Now my instance is available via the subdomain on ports 80 and 443 and via the public IP of the server on ports 8090 and 8443.

I don\’t think it is possible to configure YaCy to not advertise port 8090 but only some port configured by myself.

When I reimplemented upnp for YaCy some years ago, I think I added the possibility for upnp to override the \“internal\” port with an \“external\” port. I don\’t think these parameters are used if upnp is disabled though. I don\’t think there is much missing for this functionality, but I\’m not very familiar with YaCy\’s code anymore since I have not contributed in a long time. :(

Statistik: Verfasst von Low012 — Di Dez 06, 2016 1:15 pm


YaCy Coding & Architecture • Checksum of current yacy installation file version

Date: 2016-12-06 23:24:08

In order to be sure not to install a trojan horse by installing yacy,
a text file should be added at the download link
indicating the checksums of at least three checksums (like sha256, sha1 and md5).

The effort for adding this security feature would be very small.

More security:
Additionally the download server should be a https server.
Free https certificates are available at several hosts (e. g. novatrend.ch)

When can we expect the checksum text file on the download page?

Statistik: Verfasst von Checksum — Di Dez 06, 2016 11:24 pm


English • Re: Yacy is too complex

Date: 2016-12-07 02:22:51

bubul hat geschrieben:\ another p2p search is more simple to use and with many more active users :\ \



I assume you\’re already aware of this, but for anyone else reading this thread, Wikipedia says FAROO isn\’t free software. https://en.wikipedia.org/wiki/FAROO

Statistik: Verfasst von biolizard89 — Mi Dez 07, 2016 2:22 am


English • Re: Desktop or server?

Date: 2016-12-07 02:26:15

luc hat geschrieben:\ Given the current size of the network, if you have some basic technical skills, to my mind it makes sense to run continuously a server on a dedicated machine, being either a physical one or a virtual machine hosted somewhere you trust. And what\'s more, this way it won\'t consume resources on your daily used computer/laptop/mobile hardware\...\



Worth noting that hosting a significant number of YaCy instances in VPS providers causes the network to become more centralized. This may be a necessary evil in some cases (a lot of computers can\’t really run YaCy), but it\’s still an evil.

Statistik: Verfasst von biolizard89 — Mi Dez 07, 2016 2:26 am


YaCy Coding & Architecture • Re: Checksum of current yacy installation file version

Date: 2016-12-07 02:41:53

Checksum hat geschrieben:\ In order to be sure not to install a trojan horse by installing yacy,\ a text file should be added at the download link\ indicating the checksums\



It\’s not clear to me that adding unsigned hashes to the YaCy website (which doesn\’t have TLS) would be useful; anyone doing a MITM attack could change the hashes just as easily as changing the download binaries.

Enabling TLS on the YaCy website would be a much more important improvement; signing the downloads with PGP would also be useful (though less important than TLS).

Checksum hat geschrieben:\ of at least three checksums (like sha256, sha1 and md5).\



SHA1 and MD5 have been known to be insecure for years. If you want to get some insurance against SHA2 being broken in the future, SHA3 would make sense.

Checksum hat geschrieben:\ More security:\ Additionally the download server should be a https server.\ Free https certificates are available at several hosts (e. g. novatrend.ch)\



Let\’s Encrypt is an excellent gratis CA, and last I heard they\’re libre too.

Statistik: Verfasst von biolizard89 — Mi Dez 07, 2016 2:41 am


English • Re: Desktop or server?

Date: 2016-12-07 14:58:13

Good point biolizard89, considering there is not that much choice for VPS providers. But I think we can still find some ones managed by small and even non-profit organizations... In the end I agree it is a better choice to own your hardware, and know the software it runs.

Statistik: Verfasst von luc — Mi Dez 07, 2016 2:58 pm


Hilfe für Einsteiger und Anwender • Re: Run YaCy on a reverse proxy?

Date: 2016-12-08 08:17:41

Hello, some work has been done recently to make reverse proxy integration a little easier by ensuring purely relative URLs are used in the web UI (see http://mantis.tokeek.de/view.php?id=106 where you can also find some configuration samples). But as far as I know some tricky points remain :
- RSS feeds and OpenSearch descriptions URLs are absolute, so may need to be rewritten by the reverse proxy
- in the peer to peer protocol, YaCy advertises others it is listening on port 8090 as default, or as defined in the port configuration property{.postlink}

So currently you still need connections on ports 8090 (or the one you configured) and eventually 8443 to be accepted by your reverse proxy.

Improving this and allowing YaCy to bind on a local port and to advertise peers about the reverse proxy public port for p2p operations is not that far, a bindPort{.postlink} config property is even already existing, but unfortunately not actually used...

Statistik: Verfasst von luc — Do Dez 08, 2016 8:17 am


Hilfe für Einsteiger und Anwender • Re: Run YaCy on a reverse proxy?

Date: 2016-12-08 08:52:59

\@luc: Thank you for your reply!

Even though I\’m not actively developing at the moment I still try (failing most of the time though) to follow development by reading the git commit notes whenever possible. I actually saw the [bindPort]{style=“font-weight: bold”} commit, but I forgot about it.

Statistik: Verfasst von Low012 — Do Dez 08, 2016 8:52 am


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2016-12-08 22:24:49

Neue Indexdatei Verfügbar!

Statistik: Verfasst von promocore — Do Dez 08, 2016 10:24 pm


YaCy Coding & Architecture • Search Engine or Site Search Tool

Date: 2016-12-09 10:07:45

Search engines are one area that many privacy-conscious people complain about. YaCy is a project meant to fix the problem of search engine providers using your data for purposes you did not intend. YaCy is a peer-to-peer search engine, meaning that there is no centralized authority or server where your information is stored. It works by connecting to a network of people also running YaCy instances and crawling the web to create a distributed index of sites.

Statistik: Verfasst von margaritalewis — Fr Dez 09, 2016 10:07 am


YaCy Coding & Architecture • Which steps do I need to perform to install YaCy?

Date: 2016-12-09 10:14:13

I want to install YaCy search engine, but could not find a way to do this on Ubuntu 13.04.
Which steps do I need to perform to install YaCy?Many people rightfully have concerns about their personal information and privacy being at the liberty of large companies. While there are many different projects whose goals are to allow users to reclaim ownership of their data, there are still some areas of normal computing that have been difficult for users to break free from business-controlled products. Go to essay writing service reviews{.postlink} if you have any doubt regarding essay writing.

Statistik: Verfasst von margaritalewis — Fr Dez 09, 2016 10:14 am


Fragen und Antworten • Re: A Few Tips for Windows Peers/Servers +

Date: 2016-12-09 20:58:28

Update:
The program source website has gone.

The ServiceExe.zip is stored here and I have a copy and anybody else who has downloaded it and still has it.

I have been forced to change my free subdomain a few times for various reasons.
Thanks

Statistik: Verfasst von smokingwheels — Fr Dez 09, 2016 8:58 pm


Hilfe für Einsteiger und Anwender • Re: Run YaCy on a reverse proxy?

Date: 2016-12-09 22:41:07

Just an idea.

The Apache server in a cloud with an Iframe linked to a Squid proxy caching server internally.
UFW A firewall installed on a server so we are not a free proxy to the world, only allow our own Yacy Peer IP and ports and Apache but block Squid.

Also to experiment with List:
Polipo is an http proxy caching server (no longer maintained) https://www.irif.fr/~jch/software/polipo/
A flexible Low foot print webserver in QB64 a useful tool if in Windows. Wont compile in Ubuntu 14.0.4 yet. yacyfrontend.bas.tar.gz
Has plenty of options that need filling out, I will pass on that one at the moment.

Setup information to try:
Squid Proxy https://www.liquidweb.com/kb/search/squid+proxy/
Squid Proxy Caching https://www.liquidweb.com/kb/how-to-install-squid-caching-proxy-on-ubuntu-14-04-lts/
UFW Setup https://www.digitalocean.com/community/tutorials/how-to-setup-a-firewall-with-ufw-on-an-ubuntu-and-debian-cloud-server

Statistik: Verfasst von smokingwheels — Fr Dez 09, 2016 10:41 pm


Hilfe für Einsteiger und Anwender • Re: Bot Name

Date: 2016-12-09 22:46:52

Ich würde eher mit der Masse mischen.

Statistik: Verfasst von smokingwheels — Fr Dez 09, 2016 10:46 pm


English • Re: Load Balance of API Crawls Timer problem.

Date: 2016-12-09 22:58:43

With the scheduler fixes recently you can add offsets by actually waiting pausing in real-time a pre-set time before adding another site to crawl.

Thankyou for you time.

Statistik: Verfasst von smokingwheels — Fr Dez 09, 2016 10:58 pm


YaCy Coding & Architecture • Re: Which steps do I need to perform to install YaCy?

Date: 2016-12-09 23:53:14

Try this. I am not sure if it will work on you version of Ubuntu 13.04
Its what I use everywhere for Ubuntu and Debian.

If you have java already installed the start at \“apt-get -y install git\”

Its Double spaced for a reason. If you highlight the code the move to the blank line and copy you add a Carriage return to the clip board data. If you don\’t wish this to happen then copy from the same line that you highlighted. Note It won\’t work with sudo apt-get install -y **** commands

Open a Terminal as root, I\’m open to discussion on the method, but it is harder for a causal user to mess things up.

cd /usr

echo \“deb http://ppa.launchpad.net/webupd8team/java/ubuntu precise main\” | tee /etc/apt/sources.list.d/webupd8team-java.list

echo \“deb-src http://ppa.launchpad.net/webupd8team/java/ubuntu precise main\” | tee -a /etc/apt/sources.list.d/webupd8team-java.list

apt-key adv --keyserver hkp://keyserver.ubuntu.com:80{.postlink} --recv-keys EEA14886

sudo apt-get update

sudo apt-get install oracle-java7-installer

Note: You can change \“java7\” to \“java8\” if needed and you have to also have to agree to the license so the double space stops at this point.


sudo apt-get -y install git

sudo apt-get -y install ant

sudo apt-get -y install curl

To a directory/folder of your choice. I use /usr

cd /usr

git clone https://github.com/yacy/yacy_search_server

cd yacy_search_server

ant clean all

./startYACY.sh

Optional:
To set admin password but once familiar you could have any name in the admin account for higher security level.
bin/passwd.sh Space + Yourpassword

You can also shorten the \“yacy\” path to make it easy on the keystrokes.[ Must be Done when Stopped.]{style=“font-weight: bold”}
The above install can also be started from / by typing /usr/yacy_search_server/startYACY.sh and then edit start to stop in the console by deleting 3 \“art\” and adding 2 \“op\“.

Statistik: Verfasst von smokingwheels — Fr Dez 09, 2016 11:53 pm


YaCy Coding & Architecture • Re: Which steps do I need to perform to install YaCy?

Date: 2016-12-10 00:23:59

Ok, if it works run a test on any site but the on in question to become familiar with Yacy.
Change the mode to Webportal and untick \“Configure your router for YaCy for PnP\”
Run another crawl (advanced) and learn how to use it.
Then Use Index Import Export and determine which type of data you need. I use \“Fulltext of Search Index Text\“, most times and depends what I want to see and process.

If you can get a spare box specs P3 3GHz HT with 1 GB of memory it is possible to run Yacy headless eg no desktop interface on Debian 8.5 32 bit but crawling will be slow.
Debian 8.5 as a headless server has a memory foot print ~ 88 MB after startup.

Statistik: Verfasst von smokingwheels — Sa Dez 10, 2016 12:23 am


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-15 11:43:14

Hello, I experimented a bit more with the process by creating a release on my own YaCy fork (Release_1.91.9411-alpha{.postlink}). The process is really simple, and as you can see the release include the usual sources packages but also the tar.gz and debian binary files I added. The most problematic part would finally to have MS Windows, Mac OS and Linux build machines if we would like to include binaries for these platforms and not only a cross platform standard tar.gz or zip.

So what about releasing minor versions of YaCy binary builds on a more regular basis?

I also tested if the release page could be used as an alternative update location, by adding a

Code:
network.unit.update.location3 = http://github.com/luccioman/yacy_search_server/releases

line in the defaults/yacy.network.freeworl.unit of a 1.90 peer. YaCy updater effectively find my alpha release... but unfortunately, with 1.90 and also with latest current code it doesn\’t work. Worse, it seems to work but indeed fails and lets YaCy in a state where it can no more boot. The root cause is that for some reason, downloading the release with a browser works, but YaCy updater is rejected : GitHub redirects to Amazon S3 (correctly handled by YaCy HTTPClient), but then returns a HTTP 403 status.
The next steps to fix are the following :
- HTTP 403 status is ignored and YaCy creates a DATA/RELEASE/...tar.gz file containing the HTTP message
- The install button is then enabled : when launching the install process, tar.gz extraction failure is ignored and the update script is launched, deleting all the YaCY lib/*.jar files, then preventing any restart...

To conclude, using the GitHub release page as an alternative update location looks promising, but some work is still needed ;)
Best regards
Luc

Statistik: Verfasst von luc — Do Dez 15, 2016 11:43 am


English • Re: Desktop or server?

Date: 2016-12-15 21:22:22

i run yacy on a server :

http://109.238.10.103:8090/index.html

It can run on debian linux:
http://www.yacy-websuche.de/wiki/index. ... _on_Debian{.postlink}

From ikoula now with reduction code (-50%):
https://express.ikoula.com/fr/serveur-dedie

Green G3900 :
1 CPU (2C/2T) \@2,8 GHz 8 Go DDR4 2 To SATA 3

Statistik: Verfasst von bubul — Do Dez 15, 2016 9:22 pm


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-16 20:48:44

Good news : all the previously mentioned issues are now fixed{.postlink}.

Consequently, setting the YaCy GitHub release page as an additional update location should be possible!

Dear maintainer, when will be released that awaited 1.91 version?

Statistik: Verfasst von luc — Fr Dez 16, 2016 8:48 pm


Fragen und Antworten • Possible to ignore robot.txt

Date: 2016-12-21 02:11:42

Hello,

I\’m crawling the websites of a company my employer recently acquired. I setup a list of around 12,000 sites inside yacy to crawl the sites. Yacy is crawling the sites without issue. However, a number of them have robots.txt set to noindex and nofollow. How can I change all sites to ignore robots.txt? The advanced crawler has options for this, but it doesn\’t seem to work for sites already in the index/crawler.

Thank you.

Statistik: Verfasst von DNcrawler — Mi Dez 21, 2016 2:11 am


Fragen und Antworten • Crawl/Index all files found

Date: 2016-12-21 02:15:10

Hello,

I\’d like to setup a crawl to collect all images, videos, pdfs, Word documents, etc found on some intranet sites. I don\’t see any options in any config file to allow for this to be completed. Storage space is not an issue. Even if yacy cannot parse the file (such as video files), I\’d like the name and location on the site indexed. Currently, I\’m parsing the log files to find files the indexer refused to create a list on a wiki, which is then indexed by the crawler.

Thank you.

Statistik: Verfasst von DNcrawler — Mi Dez 21, 2016 2:15 am


Fragen und Antworten • Keep snapshots and never purge content

Date: 2016-12-21 02:17:24

Hello,

I\’d like to configure yacy to always store snapshots (per the advanced crawler options) for every site in the system (over 12,000 intranet sites). And if possible, to never delete content even if the crawler cannot contact the site again. All help is appreciated. Thank you.

Statistik: Verfasst von DNcrawler — Mi Dez 21, 2016 2:17 am


Fragen und Antworten • HTTP ERROR 401

Date: 2016-12-26 00:31:41

Hallöchen zusammen!

Seit ein paar Tagen habe ich hier das Problem daß ich nicht mehr in die Administration [(https://192.168.178.38:8443/Status.html - also eine [gesicherte]{style=“font-weight: bold”} Verbindung!)]{style=“font-style: italic”} von YaCy komme. YaCy ist hierbei auf einem eigenen Rechner [(direkter Zugriff möglich, das Ding steht auf Armlänge neben mir und war mal vor langer Zeit ein Geschenk an mich!)]{style=“font-style: italic”} installiert, hat bis jetzt auch einwandfrei funktioniert. Nun kommt nur noch folgende Meldung:

\ [HTTP ERROR 401]{style="font-size: 200%; line-height: 116%;"}\ \ Problem accessing /Status.html. Reason:\ \ \



Wenn ich nun YaCy ungesichert, also [[http://]{style=“font-style: italic”}]{style=“font-weight: bold”} aufrufe, dann geht das zwar soweit, bei einer Anmeldung besser gesagt dem Versuch dazu als Admin kommt dann aber ebenfalls die obige Meldung! Ich kann praktisch keine weiteren Einstellungen oder so vornehmen, ohne daß diese Meldung kommt.

Kann mir hier vielleicht irgend jemand dabei helfen, daß ich mein YaCy wieder normal verwenden kann? Und bitte [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} auf englisch, denn für solche Dinge reichen meine Kenntnisse in dieser Sprache einfach nicht aus!

Sollte es wichtig sein:

Das installierte Betriebssystem ist Ubuntu Server [14.04]{style=“font-weight: bold”} LTS, also ohne Desktop. Konsole kein Problem, das bin ich gewohnt.


Vielen Dank schon mal im Voraus.

Weihnachtliche Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Dez 26, 2016 12:31 am


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-26 13:52:26

luc, that is a great idea and I was more than extremely lazy in the last time while you and reger worked hard.
If you want to provide the unstable releases using your github account, I will be very happy to support that.
I just added your update location but that was possibly a bit too early, as:

Code:
E 2016/12/26 13:48:34 UNTAR failedjava.io.IOException: Error detected parsing the header   at org.apache.commons.compress.archivers.tar.TarArchiveInputStream.getNextTarEntry(TarArchiveInputStream.java:286)   at net.yacy.utils.tarTools.unTar(tarTools.java:74)   at net.yacy.peers.operation.yacyRelease.deployRelease(yacyRelease.java:477)   at Steering.respond(Steering.java:83)

Statistik: Verfasst von Orbiter — Mo Dez 26, 2016 1:52 pm


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-26 14:05:27

oh ok, just checked that this error only comes with the 1.90 main release which does not have your latest fix in the http redirect. With your fix it works just fine.
That means your release will only be available for the public after a main release. I will work on that.

Statistik: Verfasst von Orbiter — Mo Dez 26, 2016 2:05 pm


English • Yacy Html Portal Page

Date: 2016-12-26 20:10:40

A good option to yacy portal configuration and apparence will be to have the source code of the homepage and search result page to add more customization, and with an option \“reset to default\” in case of problem ! In fact i\’m trying to add links to add to bookmarks or to add yacy search engine to firefox search bar.

Statistik: Verfasst von bubul — Mo Dez 26, 2016 8:10 pm


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-27 03:00:18

..and I made the main release 1.92 including this update location

Statistik: Verfasst von Orbiter — Di Dez 27, 2016 3:00 am


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-12-27 03:03:24

..and the Release 1.92 is finally out! The Mac release is also now public.
Sorry for my laziness.

Statistik: Verfasst von Orbiter — Di Dez 27, 2016 3:03 am


Hilfe für Einsteiger und Anwender • cheap dedicated servers

Date: 2016-12-27 07:15:25

Usually Dedicated Servers{.postlink} are being used by those who know system administration and want to manage their server by themselves. Risk factor is always there in any case but fortunately right moves and preventive measures make you safe from any untoward incident.
https://www.serverbasket.com/products/d ... d-servers/{.postlink}

Statistik: Verfasst von mathewwben — Di Dez 27, 2016 7:15 am


English • Re: Yacy Html Portal Page

Date: 2016-12-27 10:38:00

Hi bubul, do you know you can put your customized pages such as the index.html in your DATA/HTDOCS folder? Do you mean this way is not user-friendly enough?

Statistik: Verfasst von luc — Di Dez 27, 2016 10:38 am


YaCy Coding & Architecture • Re: github bin releases

Date: 2016-12-27 10:51:24

Hi Orbiter, great to read you again on this forum!

Thank you for your confidence, I hope this won\’t concentrate too much responsibility on one developer account, and that reger or other active developers will not hesitate to remind me if in the future if a new developer release would have to be build.

Have a nice day

Statistik: Verfasst von luc — Di Dez 27, 2016 10:51 am


Fragen und Antworten • Re: HTTP ERROR 401

Date: 2016-12-27 11:03:46

Hallo allerseits,

ein kleines Update zu meinem Posting:

Nach dem heutigen Update auf Version [[1.92.9000]{style=“font-style: italic”}]{style=“font-weight: bold”} komme ich zwar nun auch über HTTPS auf die [[/Status.html]{style=“font-style: italic”}]{style=“font-weight: bold”}, in die Administration aber immer noch nicht!

Nur so zur Info, mehr nicht.

Statistik: Verfasst von TmoWizard — Di Dez 27, 2016 11:03 am


English • Re: Yacy Html Portal Page

Date: 2016-12-27 18:43:19

Yes, yacy is not really user friendly and difficult to use expect for simple crawling !

Statistik: Verfasst von bubul — Di Dez 27, 2016 6:43 pm


English • Re: Yacy is too complex

Date: 2016-12-27 18:44:57

biolizard89 hat geschrieben:\ >
> > bubul hat geschrieben:another p2p search is more simple to use and > with many more active users :\ > \ > >



I assume you\’re already aware of this, but for anyone else reading this thread, Wikipedia says FAROO isn\’t free software. https://en.wikipedia.org/wiki/FAROO



Yes, it\’s not the same concept than yacy but i talk about software for people using yacy not on a server but on windows desktop.

Statistik: Verfasst von bubul — Di Dez 27, 2016 6:44 pm


English • Big Probleme With yacy installation on debian

Date: 2016-12-27 19:04:28

I\’ve said i\’ve installed yacy on a debian server and since 3 ou 4 days, it\’s said me yacy can\’t be reached via port 8090, but before it worked good and i\’ve not changed anything to configuration:
http://109.238.10.103:8090/index.html

Finally i\’ve found the problem, i\’ve set the option to protect all pages but it protect the search page too, i want protect all systems page, not the public search page ! Is there an option for that only ?


And a big problem, i\’ve tried to change option to \“search portal for your own web pages\” and it unload all page crawled, i\’ve changed again to Community-based web search and it show me millions of urls but the problem is now that yacy don\’t find anything often and it take one minute or more to show search page ?! What is the problem ? Before when i search for \“alice miller\” (i\’ve crawled website http://alice-miller.com/) if find without problem links but not now, last search it show me nothing :
http://109.238.10.103:8090/yacysearch.h ... Offset=-60{.postlink}

Same problem with \“laine de bois\” (french word for isolation tool) , a few days before it find links but nothing now
http://109.238.10.103:8090/yacysearch.h ... Offset=-60{.postlink}

And why it\’s soo slow, my server is 2To , 6gb for yacy memory and it never do more than 200 or 300 page maximum / minute ?

Statistik: Verfasst von bubul — Di Dez 27, 2016 7:04 pm


Fragen und Antworten • Re: HTTP ERROR 401

Date: 2016-12-28 03:47:23

Nochmal ich:

Habe gerade bemerkt, daß es mit dem Chromium-Browser funktioniert, das scheint also ein Problem hier mit dem SeaMonkey zu sein! Das ist dann allerdings merkwürdig, denn bisher hatte ich damit nie Ärger und SeaMonkey ist schon seit Jahren Standard bei mir. Ich werde mir das also mal noch genauer ansehen, denn das ist so nicht in Ordnung.

Statistik: Verfasst von TmoWizard — Mi Dez 28, 2016 3:47 am


English • Re: Big Probleme With yacy installation on debian

Date: 2016-12-28 08:33:39

Hi bubul :
- your admin protected pages require admin authentication to be used, and you configured your search main page to not display the administration button but to be publicly accessible : isn\’t it what you wanted?
- when you switch between modes, you also switch your internal index so it is normal behavior you do not see anymore the crawled pages in other modes : each mode has its own index data.
- in 1.90 release, switching between modes doesn\’t work properly (see mantis 686{.postlink} ), but this issue has been fixed in the latest 1.92 release. So you should upgrade, or restart your peer after every mode switch.
- regarding crawl efficiency, it is quite difficult to analyze, but network can also be a limiting factor, among many others...

Best regards

Statistik: Verfasst von luc — Mi Dez 28, 2016 8:33 am


YaCy Coding & Architecture • Re: YaCy Release 1.92

Date: 2016-12-28 16:46:48

Orbiter hat geschrieben:\ ..and the Release 1.92 is finally out! The Mac release is also now public.\ Sorry for my laziness.\



Cool Very Nice surprise.
From the front panel LED, I cant tell the difference between a MP3 and \“YaCy\“.. :)
Um there is no light for USB.…

Statistik: Verfasst von smokingwheels — Mi Dez 28, 2016 4:46 pm


English • Re: Big Probleme With yacy installation on debian

Date: 2016-12-28 17:53:21

thanks but i\’ve already restarted and it seem to work now in p2p normal mode but still nothing in search results !

Statistik: Verfasst von bubul — Mi Dez 28, 2016 5:53 pm


English • Re: Big Probleme With yacy installation on debian

Date: 2016-12-28 18:19:34

I\’ve in attachment pictures used by yacy but optimized in size.

Statistik: Verfasst von bubul — Mi Dez 28, 2016 6:19 pm


Fragen und Antworten • Re: [GELÖST!] HTTP ERROR 401

Date: 2016-12-29 07:07:59

Guten Morgen zusammen!

Nachdem ich einiges ausprobiert habe wegen dem Problem dachte ich mir, daß ich das mal mit verschiedenen Profilen im Browser versuchen sollte. Das hat dann zwar einige Zeit gedauert, aber das Ende vom L(i)e(i)d könnt ihr [[>hier im Camp Firefox<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} nachlesen!

Zudem werde ich dazu auch einen Artikel auf meinem Blog verfassen [(Link folgt dann!)]{style=“font-style: italic”}, damit andere auch davon profitieren können. Nicht jeder sucht da gleich in Foren, außerdem kursiert mein Blog auch bei Twitter und Facebook, so daß er eine gute Reichweite hat! 8-)


Viele Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Do Dez 29, 2016 7:07 am


English • Re: Yacy is too complex

Date: 2016-12-29 10:44:52

There is a limitation of Java maximum heap size will range ~1.4G on 32-bit machines if that is your case.
Register here http://mantis.tokeek.de/my_view_page.php or just have a look at http://mantis.tokeek.de/view.php?id=473

Statistik: Verfasst von smokingwheels — Do Dez 29, 2016 10:44 am


English • Favicons not showing in allip mode

Date: 2016-12-29 12:48:57

I have the latest version of Yacy running on Ubuntu VPSs. I noticed the icons weren\’t showing in search results. I had searched the net for a solution and couldn\’t find any. By chance I noticed the icons show when Yacy functions as in webportal network type. Meanwhile in network type allip, it doesn\’t.

Does anyone know what I need to do to sort this?

Statistik: Verfasst von priest2 — Do Dez 29, 2016 12:48 pm


English • Yacy display no search results !

Date: 2016-12-29 18:13:58

i run yacy on a server : http://109.238.10.103:8090/index.html

But since a week, it doesn\“t display any search result, i\’ve said in a post i\’ve changed option to \“Search portal for your own web pages\” and after again to \“Community-based web search\“, i\’ve restarted yacy but it don\’t display search results, before, i\’ve got a lot of results and i\’ve near 4 millions of urls !

I don\“t know what to do.

Statistik: Verfasst von bubul — Do Dez 29, 2016 6:13 pm


English • Re: Yacy display no search results !

Date: 2016-12-31 18:07:19

Hey bubul, in the Peer-toPeer network page (/Network.html) your peer appears as not receiving DHT index. You should check in your Network Configuration page (/ConfigNetwork_p.html) that \“Index distribution\” and \“Index receive\” are enabled. The bug occurring when switching mode might have broken this part of your config.

And again I would suggest you to upgrade to the last version (backup your DATA folder if you want to be sure not to loose some data) as it includes many bug fixes and support will be easier for the currently limited number of active developers.
More generally, when you encounter some unwanted behavior, having a look at your logs and looking for errors is a good idea.

Happy new year!

Statistik: Verfasst von luc — Sa Dez 31, 2016 6:07 pm


English • Re: Yacy display no search results !

Date: 2016-12-31 20:38:14

Yes, it work again, thanks !

But results are strange, when searching alice miller (i\’ve crawled website), the website names (alice-miller.com) is not shown before more than ten results the first search and the second seem better

Same probleme with peter beter, i\’ve crawled website but it\’s not shown in first results, but second search and it find it:

http://109.238.10.103:8090/yacysearch.h ... Offset=-60{.postlink}

But third search and his website is not shown again !

And about the problem of speed in another post, when i used yacy at home with a 30mb it show sometimes 4000 ppm but often 200 or 300 maximum (a few mb), connexion is never really used, why not an option like memory max, but connexion max for yacy to set maximum use of connexion ?)

Yacy is very complex to use, what are LF and MH in /Crawler_p.html near (Speed / PPM) ?

Statistik: Verfasst von bubul — Sa Dez 31, 2016 8:38 pm


English • Re: Yacy display no search results !

Date: 2017-01-01 15:06:38

Good to know it works again.

When you search in peer to peer mode, unfortunately results are not very determinist given the nature of YaCy network and the implementation of the federated search algorithm... If you prefer to obtain results from your own local index for some search requests, you should preferably use the \“Privacy mode\” aka \“Stealth mode\” (the switch button is visible on a local YaCy peer or only when you are authenticated on a remote YaCy server).

You do not exactly have a \“connection max\” option setting, but something approaching in \“System Administration > Performance Settings of Busy Queues\” (/PerformanceQueues_p.html page) : in the Thread Pool Settings table, \“Crawler Pool\” maximum active value indeed controls how many crawling connexions are concurrently active at a given time.

I agree, YaCy can be quite complex to use and to adapt for one own needs and also to maintain. To my mind much has still to be done, but your feedback itself is also useful.

In Crawler_p.html, LF means Latency Factor, and MH means Max same Host in queue. I won\’t have time to detail today the precise role of these parameters on the crawler behavior, but if you are interested I can do it later. And I note a descriptive title should be added there in the user interface.

Have a nice day

Statistik: Verfasst von luc — So Jan 01, 2017 3:06 pm


Hilfe für Einsteiger und Anwender • Crawling limit fuer eigenen Server aufheben

Date: 2017-01-01 20:02:15

Hallo!

wenn ich es richtig verstanden habe, ist das crawlen fuer ein einzelnes Zielsystem \“meineseite.domain.tld\” auf 2 hits / sek limitiert.
Stimmt das so?

Ich muss es hinkriegen, dass der Index [ein wenig schneller]{style=“font-style: italic”} aufbaut.

Warum:
Ich hab so ein Bastelprojekt, im Prinzip das Geocities Archiv per IPv6-only wieder online zu bringen.
Es gibt schon ein paar Mirrors, aber nur wenige und fuer mich ist es ein interessantes Projekt.
Suche hat keiner!
Bisher machen die das auch so, dass sie nur per Request Seiten wieder loeschen.

Ich will generell ne Suche davor tun, zum richtig \“Internet surfen\” hat ja heute eh keiner mehr Zeit.
Ausserdem wird mir die Suche auch ermoeglichen, schon vorab das (fuer die, die\’s mal online getan haben / Ersteller) das peinlichste Zeug zu loeschen.

Ich hab eine Gruppe kleine Serverchen, ein paar werden fuer YaCy sein, ein paar Caches und ein paar Webserver.
Und, keine Ahnung, ein paar Mio Seiten, die in den Index sollen.

Ich will die Server zumindest auf Volllast fahren, aber - wenn ich es richtig verstehe - limitiert YaCy eben pro Zielserver den Scan.
Das ist in meinem Fall wohl einer!

Wie sollte ich vorgehen?

Statistik: Verfasst von darkfader — So Jan 01, 2017 8:02 pm


YaCy Coding & Architecture • Re: FTP crawl depth

Date: 2017-01-02 10:30:59

Ok I pushed some changes (commits part 1{.postlink} and part 2{.postlink}) to produce a behavior on FTP starting point crawl URLs I hope to be as close as possible as the HTTP crawl start points behavior.

Statistik: Verfasst von luc — Mo Jan 02, 2017 10:30 am


Hilfe für Einsteiger und Anwender • Re: Crawling limit fuer eigenen Server aufheben

Date: 2017-01-02 20:10:22

Hallo darkfader,

man kann sich eine robots.txt schreiben in der man ein zügigeres crawlen gestattet - siehe : PPM limitations in YaCy?{.postlink}

cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 02, 2017 8:10 pm


Hilfe für Einsteiger und Anwender • Re: Crawling limit fuer eigenen Server aufheben

Date: 2017-01-03 12:12:38

sixcooler hat geschrieben:\ Hallo darkfader,\ \ man kann sich eine robots.txt schreiben in der man ein zügigeres crawlen gestattet - siehe : [PPM limitations in YaCy?](http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5444&p=31286&hilit=robots.txt#p31282){.postlink}\ \ cu, sixcooler.\



Vielen Dank, ich werd\’s probieren!
(Der robots-wait wird aber immer mit 0ms angezeigt. Aber versuchen kostet schliesslich nix :-)

Statistik: Verfasst von darkfader — Di Jan 03, 2017 12:12 pm


Solr Support • Hinzufuegen eines solr Nodes

Date: 2017-01-03 13:05:20

Hi,

mein Index waechst langsam vor sich hin.
Aktuell erst 3GB, aber ich hab grob gerechnet und am Ende muesste ich auf ca. 70GB gesamt kommen.
Da mein Spielprojekt auf mehreren relativ kleinen Computern aufbaut, muesste ich den Index auf mehrere Systeme aufspalten.
Jedes haette dann eine Solr-Instanz und 16-32GB platz.


Was ich verstanden habe, unter anderem Anhand des Wiki Artikels:
[*]Ich muss auf jedem Solr unter Tomcat einrichten.
[*]Kann ich den Tomcat auch weglassen theoretisch und einfach per java -jar ... starten oder derlei?
[*]Zookeeper brauche ich laut Artikel auch, aber auch auf jeden Node?

Aber wo ist denn die [genaue]{style=“font-style: italic”} Stelle in meiner laufenden YaCy Instanz, in der ich die weiteren Nodes hinzufuege?
Ist das nur in Zookepper und dann gut?


Oder ist der Ansatz falsch, und ich muesste ein peer2peer Setup machen? Das scheint im Intranet mode auch zu gehen, die Beschreibung auf der Config-Page war fuer mich zu unklar, um das zu verstehen.

ich weiss, dass das jetzt eine ziemliche Anfaenger-Frage ist. Aber bisher ist sie in diesem Subforum nicht drin, also vielleicht hilft es doppelt, wenn sie hier steht...

Statistik: Verfasst von darkfader — Di Jan 03, 2017 1:05 pm


YaCy Coding & Architecture • Renovating P2P ranking challenge - proposal

Date: 2017-01-04 04:07:46

IMHO we\’ve a unsolved challenge with the result ranking and I think it\’s time (between now and v2.0) to tackle this issue.

[What challenge do we have]{style=“font-weight: bold”}



[Proposal for a solution]{style=“font-weight: bold”}
If we do a local search, in one index only we don\’t have any issue, because we just keep the order the search process supplies the results. Hm.…. that\’s pretty simple, why not expanding on this procedure.
Means if we do a search in 2 indexes (A and B), why not keeping the order too and simply display A1, B1, A2, B2 …. and if remote peers come into play were we basically need to behaive a bit like a metasearch engine joining many already ordered search results into a final result list expanding it to [A..Z]1 [A..Z]2 …. etc.

That\’s probably the simplest metasearch merge strategy available, see a description e.g. here (with some tuning ideas)
http://www.technicaljournalsonline.com/ ... 12231.pdf{.postlink}

The nice part is … it is relative simple and actually I don\’t have found any similar easy but good one without to do the whole ranking (the search process did already) again what is not really possible without having all ranking data (means loading the resource).

Here a nice understandable overview of other methods http://ijcsi.org/papers/IJCSI-9-4-3-239-251.pdf

[What is now the proposal:]{style=“font-weight: bold”}


[Comment:]{style=“font-weight: bold”}
I did some rudimentary verification testing of the 1st basic part (position ranking). The result was not THAT great (best result not the first …. but in the 1st 20) but also not worse as current 1st pages (tested without any fine tuning and post-ranking). What makes sense as today the quickest available solr & rwi results are shown in turns what is basically a position ranking from the first 2 available peer-results.

[P.S.]{style=“font-weight: bold”} To not beak everything with unknown (not completely tested) outcome we could/should apply changes to a clone or branch and have it tested, adjusted and fine tuned by all interested.

Any better idea... let me know...

Statistik: Verfasst von reger — Mi Jan 04, 2017 4:07 am


English • YaCy on the Raspberry Pi

Date: 2017-01-10 14:12:04

I found these instructions on the Wiki:

http://www.yacy-websearch.net/wiki/inde ... spberry_Pi{.postlink}

but there is already a Debian-based distro that comes with an optimised setup so you don\’t have to remove a lot of crap before you get cracking with your search portal!

DietPi: http://dietpi.com/

I\’m about to try YaCy on a Pi3 (wish me luck!) using this excellent distro and if would be great if a few more of you are able to join me. DietPi already handles a bunch of stuff for me including my entire music and video library, radio, advert blocking (PiHole) and a bunch of other stuff. Decentralised search is more important than ever before and if we can get a few more people to join us with the Pi (and if it works) we can potentially build an open appliance to take the web back from the Google cancer.

EDIT: Well it worked (using the Debian installer - the instructions on the Wiki are way out of date). Predictably perhaps, bloody Java sent the poor little quad-core ARM7 spinning up so hard it hit 67C before I chickened out and hit the brakes. I\’ve ordered some coolers so I can give it another go though. All that said, it seemed to work rather well, but I won\’t know for sure until it\’s been running for at least 24 hours without a hitch.

I wish someone would convert it to a better language like RUST, C or C++. I\’ve never really understood why people think Java is suitable for these tasks: portable it may be, but efficient it aint!

Statistik: Verfasst von marcdraco — Di Jan 10, 2017 2:12 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-10 19:40:44

Obviously these APIs lack documentation. I will try to clarify their usage and update the related Javadoc and wiki entries after checking everything works as expected.

Statistik: Verfasst von luc — Di Jan 10, 2017 7:40 pm


English • Re: YaCy on the Raspberry Pi

Date: 2017-01-10 20:09:22

Hi marcdraco, dont\’ hesitate to update the wiki instructions with your own experience.

Regarding Java efficiency : IMHO performance issues are not so much tied to a programming language or another... Solr or ElasticSearch are examples of Java projects dedicated to indexing and are not really exotic choices for these tasks. What\’s more adopting Java has other advantages than portability, one example can be its extended core library (the JDK).

But of course, in a better world there would be multiple implementations of YaCy concepts in many languages ;)

Statistik: Verfasst von luc — Di Jan 10, 2017 8:09 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-10 20:28:02

Thanks.

Originally, I read the docs and found

\ http://yacy.net/en/API.html\

which suggests webstructure.xml under

\ Retrieval of the web page link structure\

section. This wiki page seems fairly well documented as well,

\ http://www.yacy-websuche.de/wiki/index.php/Dev:API\

Statistik: Verfasst von DNcrawler — Di Jan 10, 2017 8:28 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-10 21:41:35

Yes indeed I also missed the comments in the webstructure.xml stream itself which are rather detailed. But I was thinking to the the wiki page http://www.yacy-websuche.de/wiki/index.php/Dev:APIwebstructure and Java class Javadoc which would deserve a little update.

Statistik: Verfasst von luc — Di Jan 10, 2017 9:41 pm


Fragen und Antworten • Lazy question about FINAL_LOAD_CONTEXT and must-match filter

Date: 2017-01-10 22:46:27

Hi, I\’ve started reading through the source code to see where this message originates, but I haven\’t found it quite yet.

\ FINAL\_LOAD\_CONTEXT url does not match must-match filter (smb\|ftp\|https?)://(www.)?(\\Qexample.com\\E.\*)\



I think it\’s here,

\ https://github.com/yacy/yacy\_search\_server/blob/c1401d821e2141fd3d1e1a1ec03ec8b20f8fcd86/source/net/yacy/crawler/CrawlStacker.java\#L522\



I\’m wondering where I can change the parameters to include http or really re-write the code to (smb|ftp|http|https) as it appears the regex

Code:
(smb|ftp|https?)

is supposed to match http or https, but it doesn\’t seem to do so in practice.

Thank you.

Statistik: Verfasst von DNcrawler — Di Jan 10, 2017 10:46 pm


English • Re: YaCy on the Raspberry Pi

Date: 2017-01-11 14:27:10

I\’m not great with Wiki\’s Luc (I\’m so old I started programming while we were just phasing out punched cards).

Actually, the debian package pretty much did everything on its own - it\’s case of


* Make a fresh install of DietPi (dietpi.com) for your SBC. (You\’re probably going to want a hard drive to.)
* Let it update, etc.
* Change the swapfile size to something a little larger - perhaps 600Mb (this is all available via DietPi\’s menus).
* Install YaCy from the debian package - that makes sure you get the right JVM.
* Optionally: link the YaCy store to the hard drive. I used a large (128Gb) MicroSD for my test.
* Stick a fork in it, it\’s done! :)
If you\’re using a Pi or similar, put a BIG cooler on that beast. There\’s a lovely metal case over at DietPi that will do the trick and allow the machine to throttle up to 1.2GHz 100% of the time without getting hot enough to keep your granny\’s feet toasty.

Statistik: Verfasst von marcdraco — Mi Jan 11, 2017 2:27 pm


English • Re: Yacy Update to 1.92 Problem (Debian)

Date: 2017-01-11 14:50:53

yes, but what are the file exactly do you want ?

Statistik: Verfasst von bubul — Mi Jan 11, 2017 2:50 pm


English • Yacy Sitemaps

Date: 2017-01-11 15:37:09

Sitemaps are a good idea but yacy use sitemap like website crawling, i think a good idea will be to add option to add a sitemap like a rss feed (/Load_RSS_p.html) with option to reload it every x period of time.

Statistik: Verfasst von bubul — Mi Jan 11, 2017 3:37 pm


Fragen und Antworten • Re: Lazy question about FINAL_LOAD_CONTEXT and must-match fi

Date: 2017-01-12 10:04:33

Hello,
the message can also originate a few lines upper{.postlink} when you use the \“Load Filter on URLs\” filter on the /CrawlStartExpert.html page.

Indeed I just checked and had no problem with your regular expression filter. I used

Code:
(smb|ftp|https?)://(www.)?(\Qen.wikipedia.org\E.*)

as a \“must-match\” \“Load Filter on URLs\” and used

Code:
"https://en.wikipedia.org/wiki/Main_Page

as start URL with a crawl depth set to 1:
- URLs such as https://meta.wikimedia.org/wiki/Main_Page are successfully rejected
- URLs such as https://en.wikipedia.org/wiki/January_12 are successfully crawled

Another example with http://yacy.net as start URL and

Code:
(smb|ftp|https?)://(www.)?(\Qyacy.net\E.*)

as filter also worked as expected :
- URLs such as http://player.vimeo.com/video/102122237 are rejected
- URLs such as http://yacy.net/release_notes/ are successfully crawled

Did one of use missed something?

Statistik: Verfasst von luc — Do Jan 12, 2017 10:04 am


English • Re: Yacy Update to 1.92 Problem (Debian)

Date: 2017-01-12 10:11:13

I was thinking to these ones :
- /var/lib/yacy/LOG/yacy00.log and eventually /var/lib/yacy/LOG/yacy01.log (copy them just after you performed an example search query)
- /var/lib/yacy/SETTINGS/yacy.conf

Statistik: Verfasst von luc — Do Jan 12, 2017 10:11 am


Fragen und Antworten • Re: Lazy question about FINAL_LOAD_CONTEXT and must-match fi

Date: 2017-01-12 14:45:34

Once again luc, thank you for the response.

As far as I can tell, the expert crawls were started with:

\ Load Filter on URLs\ must-match\ \ Use filter.\*\ (must not be empty)\ must-not-match\


\ Document Filter\ These are limitations on index feeder. The filters will be applied after a web page was loaded.\ \ Filter on URLs\ \ must-match.\*\ (must not be empty)\ must-not-match\ \ Filter on Content of Document\ (all visible text, including camel-case-tokenized url and title)\ \ must-match.\*\ (must not be empty)\ must-not-match\



I\’ll keep digging. As there is no easy way to use an API to re-create the expert crawls, I\’ll have to restart a few of them to see if it changes.

Statistik: Verfasst von DNcrawler — Do Jan 12, 2017 2:45 pm


Fragen und Antworten • Re: Lazy question about FINAL_LOAD_CONTEXT and must-match fi

Date: 2017-01-12 17:30:25

Indeed yes there is a way to re-create expert crawls : in the Process Scheduler page (/Table_API_p.html) in \“Type\” column, \“crawler\” entries have a \“clone\” link opening the /CrawlStartExpert.html page with the same previously used parameters.

Statistik: Verfasst von luc — Do Jan 12, 2017 5:30 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-12 18:17:20

Hey DNcrawler, for now I updated{.postlink} the webstructure Javadoc to reflect as much as possible the current usage and implementation.

With my own tests it looks like it worked as expected, even if at first the \“latest\” parameter can be a little confusing.

Regarding your remark

\ I also notice I can only find inbound links, not outbound links.\

could it be that you crawled example.net and example.ru but not example.com (because of crawl depth setting for example)?
In that case it is normal behavior that the api only report inbound links from example.net and example.ru to example.com because YaCy doesn\’t know links coming out from example.com until you crawl it...

Regarding performance, I have some ideas to explore, but it will take some time to measure and test.

Statistik: Verfasst von luc — Do Jan 12, 2017 6:17 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-12 21:59:17

Wow thank you so much for the updates.

I\’m spelunking the logs and solr to figure out what\’s crawled or not.

Thank you for the quick response, they are appreciated.

Statistik: Verfasst von DNcrawler — Do Jan 12, 2017 9:59 pm


YaCy Coding & Architecture • Re: Renovating P2P ranking challenge - proposal

Date: 2017-01-14 11:54:01

As I mentioned on GitHub, if we consider it acceptable to run Javascript in the browser, it\’s feasible to re-sort the results in JS after some of them have been sent to the browser. (Based on my initial testing of the branch I pushed, doing this results in much better ranking and IMO much better UX.) RWI post-ranking could presumably be recalculated as needed and any changed results pushed to the browser again; I\’m not sure how badly that would affect CPU usage.

Statistik: Verfasst von biolizard89 — Sa Jan 14, 2017 11:54 am


Fragen und Antworten • Suchtrefferanzeige unvollständig

Date: 2017-01-15 17:10:47

Hi zusammen,

ein Problem begleitet mich nach wie vor durch meine \“Yacy-Karriere\” :( .

Szenario:
Ich suche etwas und Yacy legt los. Nach ca. 10-12 Sekunden ist Yacy mit der Suche fertig und will
auf der Clientseite die Ergebnisse anzeigen.
Yacy behauptet dann auf der Client-Seite es zeigt z.b die Suchtreffer 19-36 aus 906 Treffern an.
Tatsächlich sieht der Client in seinem Browser (FF) nur die von 19-25 und der Rest bis 36 fehlt :( .

Drückt man dann nochmal auf \“Search\” erscheint die komplette Liste der Suchtreffer.
Das ist extrem nervig :evil: .

Ich denke das hängt mit irgendeinem Timeout zusammen, habe aber keine Ahnung wo ich da
drehen muß.

HELP

Gruß Alex

Bei mir läuft zur Zeit die 1.99000 Version. Den Effekt kenne ich auch aus früheren Yacy Versionen bis hinunter
zur 1.839356.

YacySuchergebnisse.jpg

Statistik: Verfasst von Crystalgazer — So Jan 15, 2017 5:10 pm


Hilfe für Einsteiger und Anwender • Reducing the SOLR index

Date: 2017-01-15 20:32:15

Hi all,

as I need some hard drive space, I was thinking about ways to reduce the size of the index.
So I removed some fields from the schema and started a re-indexing.
To my surprise the size of the index was quickly INcreasing not decreasing.
What can I do?

Andreas

Statistik: Verfasst von otter — So Jan 15, 2017 8:32 pm


Hilfe für Einsteiger und Anwender • Re: Reducing the SOLR index

Date: 2017-01-16 08:00:11

Hi otter,
an easy way to quickly gain some disk space can be to delete older documents in the Index Administration (/IndexDeletion_p.html) page, \“Delete by Age\” section.

Best regards

Statistik: Verfasst von luc — Mo Jan 16, 2017 8:00 am


Fragen und Antworten • NoSuchMethodError

Date: 2017-01-16 11:28:09

Hallo,

ich hab Probleme mit meiner Yacy-Installation. Ich habe, nachdem die Suche gar nicht mehr lief, versucht mit update/install von yacy alles wieder zu richten. Leide ging das schief. Ich erhalte jetzt folgende Fehlermeldung:

Code:
W 2017/01/16 10:21:43 org.eclipse.jetty.servlet.ServletHandlerjavax.servlet.ServletException: /usr/share/yacy/htroot/yacy/hello.html        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:840)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:325)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:387)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:745)W 2017/01/16 10:21:43 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.GeneratedMethodAccessor4.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:606)        at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:670)        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:836)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:325)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:387)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.NoSuchMethodError: net.yacy.cora.protocol.RequestHeader.getRemoteAddr()Ljava/lang/String;        at hello.respond(hello.java:60)



Woran, mag das liegen?

Statistik: Verfasst von rvs75 — Mo Jan 16, 2017 11:28 am


English • Re: Yacy Update to 1.92 Problem (Debian)

Date: 2017-01-16 18:15:36

I can\’t send txt or log files with a message on the forum, i\’ve send you a private message to ask you how to do .

Statistik: Verfasst von bubul — Mo Jan 16, 2017 6:15 pm


Hilfe für Einsteiger und Anwender • Re: Reducing the SOLR index

Date: 2017-01-16 20:07:48

Hi,

in order to see the effect of less hdd usage,try to merge the index at /IndexControlURLs_p.html into one.
This will force to write the content into a new index file (which may be huge!) without Documents or Fields that are just marked as deleted.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jan 16, 2017 8:07 pm


YaCy Coding & Architecture • Re: Renovating P2P ranking challenge - proposal

Date: 2017-01-17 00:09:51

biolizard89 hat geschrieben:\ it\'s feasible to re-sort the results in JS after some of them have been sent to the browser\


That is not the intention of this proposal to present best/good ranking only by after-treatment (e.g. via JS).
I strongly belief that this is one of the main and important task for the engine to spit things out in the desired order.

P.S. as mentioned elsewhere.… maybe have a look at the unmaintained JS search interface under htroot/yacy/ui/* if the aftertreatment path can be incorporated there to revitalize that route.

Maybe I\’d read your github article again, because the algorithm (criteria) for re-sorting via JS to improve ranking order might be what\’ve overlooked but is what I\’m after.

Statistik: Verfasst von reger — Di Jan 17, 2017 12:09 am


Hilfe für Einsteiger und Anwender • Re: Reducing the SOLR index

Date: 2017-01-18 21:18:45

Thanks, sixcooler!
I reduced the number of segments step-by-step (from 14 to 7) and already gained 40GB!!

Two follow-up questions:
a) Does the number of segments have any impact on performance?
b) Wouldn\’t it be useful to have a feature that rewrites an index segment without merging them?

Thanks and have fun, Andreas

Statistik: Verfasst von otter — Mi Jan 18, 2017 9:18 pm


Hilfe für Einsteiger und Anwender • Re: Reducing the SOLR index

Date: 2017-01-18 23:40:03

Hi Andreas,

a) according the docs and my experience the less the count of segments, the better will be the performance - but I didn\’t really benchmark that
b) there was such a feature,but we decided to remove that, because solr does its job during merge better than an optimize after crawls
A manual Optimize is usefull only when a change was done at index, like removing Fields or deleting a lot of documents.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mi Jan 18, 2017 11:40 pm


Fragen und Antworten • Re: NoSuchMethodError

Date: 2017-01-19 08:47:04

Hallo rvs75,
as you had no answer in German, let me try in English.
The error you report suggests your

Code:
/usr/share/yacy/htroot/yacy/hello.class

file was successfully updated with recent modifications but the

Code:
/usr/share/java/yacy/yacycore.jar

main library was not.

You may compare these files last modification date. Did you upgrade using a package manager?

Statistik: Verfasst von luc — Do Jan 19, 2017 8:47 am


Hilfe für Einsteiger und Anwender • Re: Reducing the SOLR index

Date: 2017-01-21 12:16:44

Thanks, sixcooler!
After I reduced to four segments, all old segments were replaced by new ones. So I stopped there and gained 50GB in total.
Take care!

Statistik: Verfasst von otter — Sa Jan 21, 2017 12:16 pm


YaCy Coding & Architecture • Re: Renovating P2P ranking challenge - proposal

Date: 2017-01-22 04:16:53

reger hat geschrieben:\ >
> > biolizard89 hat geschrieben:it\'s feasible to re-sort the results in > JS after some of them have been sent to the browser\ > >


That is not the intention of this proposal to present best/good ranking only by after-treatment (e.g. via JS).
I strongly belief that this is one of the main and important task for the engine to spit things out in the desired order.

P.S. as mentioned elsewhere.… maybe have a look at the unmaintained JS search interface under htroot/yacy/ui/* if the aftertreatment path can be incorporated there to revitalize that route.

Maybe I\’d read your github article again, because the algorithm (criteria) for re-sorting via JS to improve ranking order might be what\’ve overlooked but is what I\’m after.



I was unaware of the existence of htroot/yacy/ui/* ; I\’ll look at it and see if it\’s a good fit for Javascript re-sorting.

The algorithm used for re-sorting in Javascript isn\’t particularly complex; all it does is look at the score returned for each result (using the existing \“ranking\” field in the YaCy JSON API) and inserts each result into the HTML DOM so that the results are in descending score.

I think it\’s probably impossible to have the sorting done solely server-side, unless we\’re willing to accept inaccurate sorting or significant delay in getting the results. This is because different peers return results with different latencies -- unless you can re-sort client-side, you have to live with a tradeoff on the server-side between low latency and accurate sorting.

Statistik: Verfasst von biolizard89 — So Jan 22, 2017 4:16 am


Fragen und Antworten • http://search.yacy.de - 404 There isn\’t a GitHub Pages site

Date: 2017-01-23 09:52:25

Hallo,

http://search.yacy.de -Link von der Startseite http://www.yacy.de meldet

\ 404 There isn\'t a GitHub Pages site\

Statistik: Verfasst von flegno — Mo Jan 23, 2017 9:52 am


English • Re: Yacy Update to 1.92 Problem (Debian)

Date: 2017-01-23 09:53:13

For anyone that could be interested, the analysis of log files provided by bubul revealed that its local index was effectively requested, but was too slow to answer within the /yacysearch.html hard-coded timeout{.postlink} (requesting directly through the /solr/select api returns results, but it takes more than one minute).

The best advice I could give him was to switch to an external Solr Server rather than the default embedded one, given the quite huge size of its local index.

But maybe someone more experienced with large Solr indexes would have some better advice to share here...

Statistik: Verfasst von luc — Mo Jan 23, 2017 9:53 am


YaCy Coding & Architecture • same sku diff id (you too)?

Date: 2017-01-24 23:35:52

Recently I notice redundant search results in list.

I\’m curiouse if you notice similar?

Description of my observation:
- URL = sku is the same
- ID is different (otherwise it wouldn\’t show up as redundant result)
- all belong to dht collection (so not my own crawls)

on search and afterwards looking at the metadata on test peer 1 brought

Code:
ID                     SKUr6aMoSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=10&calView=2 AhblkSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=11&calView=2 WbA7gSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=14&calView=2



same search on a 2nd peer

Code:
ID                    SKUr6aMoSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=10&calView=2AhblkSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=11&calView=2WIIk_SiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=13&calView=269ojMSiLDDWi  https://www.uni-stuttgart.de/hkom/termine/index.html?calYear=2014&calMonth=11&calDay=12&calView=2



P.S. local recrawling brings ID=AhblkSiLDDWi

Statistik: Verfasst von reger — Di Jan 24, 2017 11:35 pm


Fragen und Antworten • Re: http://search.yacy.de - 404 There isn\’t a GitHub Pages s

Date: 2017-01-25 12:23:49

thank you for the hint, the site has moved and is now at http://search.yacy.net
I also fixed the link

Statistik: Verfasst von Orbiter — Mi Jan 25, 2017 12:23 pm


YaCy Coding & Architecture • Re: same sku diff id (you too)?

Date: 2017-01-26 09:46:41

Hi reger for now I didn\’t notice that behavior on my peers. I also tried with search terms related to Stuttgart Universität website, in P2P and then local searches but did not get duplicates...

Statistik: Verfasst von luc — Do Jan 26, 2017 9:46 am


Wunschliste • Re: Suche nach genauer Wortgruppe (exact phrase)

Date: 2017-01-26 23:29:50

Ich unterstütze diesen Vorschlag. Gerade auf YaCy gestoßen. Installiert. War begeistert.

Leider ist eine Suche ohne \“Phrasensuche\” für mich fast wertlos. Habe deswegen YaCy wieder deinstalliert.

Wenn eine Phrasensuche bei euch möglich ist, bin ich wieder dabei. Finde das Konzept ansonsten genial.

Statistik: Verfasst von Zarathustra — Do Jan 26, 2017 11:29 pm


YaCy Coding & Architecture • Re: same sku diff id (you too)?

Date: 2017-01-26 23:34:29

After more debugging I found, differences in new calculated hash and received hash happens. Not very frequent but one or two occurence approx. during 4 to 5 searches (from different peers and versions).

Most often it is only the difference in the last hash character coming from hashing different protocols (http instead of the actual https) like 1st example

Code:
newCalculated    received Hash                URL exampleZJRfs4eCdSU8 ZJRfs4eCdSU4  https://www.land.nrw/de/landesregierung/staatssekretaerinnen-und-staatssekretaere/ludwig-

hecke

But also found/received hashes differing from the supplied URL in the beginning part, like the next 2 examples

Code:
kSxEbrYaIN6S 5fARtrYaIN6S  http://permaculturenews.org/forums/index.php?threads/hello-from-northern-spain.15648/=


Code:
TD48LEckm6GY BGXH9Eckm6GY http://forum.detik.com/ridwan-kamil-lelang-kaus-di-twitter-untuk-bantu-bobotoh-t1064476p2.html?s=1d4ae3ab77d03b574cc833038032f231



So far the findings from the test session. With this it looks random and spread over Numeros peers. Looking at the URLs I see recognize only all have at least one = in search part (at least the 15 I checked.…)

P.S. Some time ago I added already a check in \“URIMetadataNode(final SolrDocument doc)\”... looks like that didn\’t prevent this.

Statistik: Verfasst von reger — Do Jan 26, 2017 11:34 pm


Wunschliste • Re: Suche nach genauer Wortgruppe (exact phrase)

Date: 2017-01-27 05:58:23

Phrasensuche gibts schon lange, sie ist nur seltener erfolgreich.
z.B.
http://search.yacy.net/yacysearch/index ... ffset=-60#{.postlink}

Statistik: Verfasst von Orbiter — Fr Jan 27, 2017 5:58 am


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2017-01-27 11:32:40

Hi Luc,

you helped me very much last time to find what I\’m looking for. Now I\’m looking for the code that does this:

Code:
I 2017/01/27 11:31:03 CollectionConfiguration convergence step 1 for host www.midnighttrader.com ...I 2017/01/27 11:31:03 CollectionConfiguration convergence for host www.midnighttrader.com after 1 steps



Is this related to the postprocessing? If so, can you help me to locate the code?

Thank you very much in advance


Greetings

LA_FORGE

Statistik: Verfasst von LA_FORGE — Fr Jan 27, 2017 11:32 am


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-30 09:20:29

Hello, in the end there were some points to fix on the the webstructure.xml API and the HostBrowser.html page.

Improvements and eventually fixes are still possible, but I already pushed some modifications on GitHub, notably related to https/http{.postlink}. I also added{.postlink} a supplementary optional parameter on the webstructure.xml api to control if you want or not to reload and parse the document at the \‘about\’ url. This option may be interesting for your performance issue, as I did not found valuable optimizations on the core of the webstructure.xml algorithm without breaking its compressed memory data structure .

Best regards

Statistik: Verfasst von luc — Mo Jan 30, 2017 9:20 am


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2017-01-30 09:31:50

Hi LA_FORGE,
you are right, the log traces you mention are from the postprocessing task.
More precisely, the related code from version 1.92 is in the CollectionConfiguration.createRankingMap() private function called by the postprocessing one : see the first trace{.postlink} and the next{.postlink}.

Have a nice day

Statistik: Verfasst von luc — Mo Jan 30, 2017 9:31 am


YaCy Coding & Architecture • Re: Increase the priority of the \’Re-Crawl Index Documents\’

Date: 2017-01-30 13:05:16

Thank you very much!!

Statistik: Verfasst von LA_FORGE — Mo Jan 30, 2017 1:05 pm


Fragen und Antworten • Re: Exporting the list of sites and related urls

Date: 2017-01-30 16:04:16

Thank you luc.

Statistik: Verfasst von DNcrawler — Mo Jan 30, 2017 4:04 pm


Hilfe für Einsteiger und Anwender • Hilfe bei der Konfiguration Win 10 und YaCy

Date: 2017-01-31 17:13:10

Hallo kann mir jemand bei der Konfiguration von Win 10 helfen? Ich bin absoluter Neueinsteiger und möchte weg von google und co. YaCy will nicht sofort starten. Und Wie muss ich YaCy einstellen damit meine Ergebnisse dann allen zur Verfügung stehen.

Statistik: Verfasst von Roland Sorg — Di Jan 31, 2017 5:13 pm


Hilfe für Einsteiger und Anwender • YaCy startet nur einmal

Date: 2017-02-01 06:59:02

Hallo. Wer kann mir helfen Yacy startet nur einmal nach einer installation, auch eine Neuinstallation hilft nicht.

Statistik: Verfasst von Roland Sorg — Mi Feb 01, 2017 6:59 am


YaCy Coding & Architecture • Re: Ranking Transparency Roadmap

Date: 2017-02-01 09:19:50

Greetings! Whereas you feel uncomfortable with composing an essay, or something confuses you to start a new paper from scratch, it means that you might like our article - click here!{.postlink} for more details!

Statistik: Verfasst von anthonywillis — Mi Feb 01, 2017 9:19 am


English • About GigaBlast Open Source Search Engine

Date: 2017-02-01 20:08:21

There\’s another open source search engine (no p2p), maybe it\’s a good idea to look at it :

http://www.gigablast.com/
Source:
https://github.com/gigablast/open-source-search-engine

Statistik: Verfasst von bubul — Mi Feb 01, 2017 8:08 pm


English • Re: Yacy Update to 1.92 Problem (Debian)

Date: 2017-02-01 23:32:42

I don\’t know why but the yacy sample server seem to work very good:

http://search.yacy.net/yacysearch/index.html?

What is is configuration ?

Statistik: Verfasst von bubul — Mi Feb 01, 2017 11:32 pm


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2017-02-02 00:46:44

Open Semantic Search
https://www.opensemanticsearch.org/de/
https://github.com/opensemanticsearch

Statistik: Verfasst von David — Do Feb 02, 2017 12:46 am


English • Re: About GigaBlast Open Source Search Engine

Date: 2017-02-02 13:23:40

bubul hat geschrieben:\ There\'s another open source search engine (no p2p), maybe it\'s a good idea to look at it :\ \ \ Source:\ \



It\’s written in C/C++, which suggests that it\’s likely to have memory safety problems.

Statistik: Verfasst von biolizard89 — Do Feb 02, 2017 1:23 pm


Hilfe für Einsteiger und Anwender • IPv6 oder IPv4

Date: 2017-02-03 07:07:02

Weleches Protokoll soll ich verwenden. Ich habe gesehen die meisten verwenden für das Programm IPv4. Könnt ihr mir hier helfen?

Statistik: Verfasst von Roland Sorg — Fr Feb 03, 2017 7:07 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-06 11:36:05

Hallo promocore,

danke für deine Antwort.
Auf der VM läuft ein Debian 8.7.1 und Java als build 1.8.0_121-b13.


Liebe Grüße

Palulukas

Statistik: Verfasst von Palulukas — Mo Feb 06, 2017 11:36 am


YaCy Coding & Architecture • Privacy and Referer http header

Date: 2017-02-06 13:19:20

Hi everyone,
I am sure some YaCy users once opened a browser console and had a look at the HTTP headers transmitted when opening a search result link. By the way if you do that you will see that the \‘Referer\’ header sent to the visited website contains the full YaCy search URL including request parameters (at least with default major browsers settings, and except when your peer is requested with https and the target link is http...).
To my mind it can be quite an issue regarding privacy. Having a look at other major search engines related strategy, it looks like most of them redirect their search result links and take the opportunity to fill this header only with the search engine host name.

What about YaCy? I believe many users are not only concerned by decentralization but also privacy. So why not set that \“Referer\” header empty as default for P2P and web portal modes (in Intranet mode it probably makes sense to let it as it is), and add a configuration setting for those who still want to send this header filled (some rare websites may block visitors with an empty Referer header).

Technically I propose to add a \“rel=\‘noreferrer\’\” attribute{.postlink} to search results links in yacysearch.html. Eventually finer settings will become standard (see W3C Referer Policy{.postlink} Candidate Recommendation).

So what do you think about it? Where would you see that new configuration setting?

Statistik: Verfasst von luc — Mo Feb 06, 2017 1:19 pm


YaCy Coding & Architecture • Re: Privacy and Referer http header

Date: 2017-02-06 14:17:28

luc hat geschrieben:\ Hi everyone,\ I am sure some YaCy users once opened a browser console and had a look at the HTTP headers transmitted when opening a search result link. By the way if you do that you will see that the \'Referer\' header sent to the visited website contains the full YaCy search URL including request parameters (at least with default major browsers settings, and except when your peer is requested with https and the target link is http\...).\ To my mind it can be quite an issue regarding privacy. Having a look at other major search engines related strategy, it looks like most of them redirect their search result links and take the opportunity to fill this header only with the search engine host name.\ \ What about YaCy? I believe many users are not only concerned by decentralization but also privacy. So why not set that \"Referer\" header empty as default for P2P and web portal modes (in Intranet mode it probably makes sense to let it as it is), and add a configuration setting for those who still want to send this header filled (some rare websites may block visitors with an empty Referer header).\ \ Technically I propose to add a [\"rel=\'noreferrer\'\" attribute](https://html.spec.whatwg.org/multipage/semantics.html#link-type-noreferrer){.postlink} to search results links in yacysearch.html. Eventually finer settings will become standard (see W3C [Referer Policy](https://www.w3.org/TR/2017/CR-referrer-policy-20170126/){.postlink} Candidate Recommendation).\ \ So what do you think about it? Where would you see that new configuration setting?\



DuckDuckGo has some interesting documentation{.postlink} about various methods of hiding this private data.

DuckDuckGo\’s solution is to implement a redirect, which is its own privacy problem if you don\’t trust DuckDuckGo\’s server not to spy on you. However, I don\’t think this is really a problem for YaCy, since it\’s just trusting a locally running free software application that you can inspect to make sure it\’s not doing something sketchy.

According to a WordPress plugin\’s documentation{.postlink}, rel=\“noreferrer\” is supported by Firefox since version 33 and Chromium since 2009. Referrer policy meta elements are supported by Firefox since version 37 and Chromium since 2011. Mozilla\’s documentation{.postlink} says that Firefox prior to version 37 incorrectly handled rel=\“noreferrer\“. This means that the Firefox ESR releases (upon which Tor Browser is based) and the ~1.5-year-old Chromium releases (upon which Replicant WebView is based) should handle both of them without trouble. (I haven\’t tested this myself.)

(Coincidentally, this topic came up a few days ago on #yacy on Freenode. Cool to see that you\’ve been thinking about this topic too. :) )

Statistik: Verfasst von biolizard89 — Mo Feb 06, 2017 2:17 pm


English • Re: YaCy on the Raspberry Pi

Date: 2017-02-06 18:09:59

Greetings to all,

Last week I did a sucessful manual Headless install of yacy 1.92 on Raspberry Pi B+ using Raspian \“Jessie\”
using online instructions

http://www.yacy-websearch.net/wiki/inde ... spberry_Pi{.postlink}

everything seems to work ok. But it is a bit clunky (slow).

I am guessing that the main choke point is available RAM.
I will try a new install using DietPi to see what I can get in the way of perfomance.

I want a yacy install that can sit on a low power board and run 247

Best Regards from the center of the multiverse
_44-4N

Statistik: Verfasst von _44-4N_26-1E_ — Mo Feb 06, 2017 6:09 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-06 20:24:44

Ich habe auch Debian 8 in einer VM, allerdings mit Java 1.7.0_111. Sowohl der Export wie auch der Import funzen prima. Der Rest sowieso.
Auf der Yacy Seite steht auch für den Linux Download folgendes:

Code:
YaCy 1.92 für GNU/LinuxGenerisches Package fü alle Systeme. nur auspacken und das Startscript starten, dann die Seite http://localhost:8090 öffnen. Benötigt OpenJDK7. Schau dir das Linux Installation Tutorial Video an!Es gibt auch ein Debian-Package: YaCy für Debian



Von daher habe ich mal dran gehalten, auch wenn unter Windows Yacy mit Java 8 geht.

Statistik: Verfasst von promocore — Mo Feb 06, 2017 8:24 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-07 08:05:00

\@promocore
Hatte gerade das gleiche Problem, Yacy \“frisst\” in einem tag rund 20GB, das ist schon ein wenig beängstigend. Ich nutze ja VMWare ESXi, aber ich habe es folgendermaßen gemacht. VM runterfahren, dann die Festplattengröße in VMware erhöhen. gparted live Image{.postlink} als CD
einbinden und davon starten. Partition mit gparted auf Maximum vergrößern. VM normal neu starten.
Das gilt allerdings nur, wenn du Linux ohne LVM Unterstützung in der VM installiert hast.

Edit: Hatte überlesen, dass du komplett auf eine neue Platte umziehen willst, bei mir ist es etwas einfacher, da alle VMs auf einen RAID Pool zugreifen und (noch) genügend Platz vorhanden ist.

Statistik: Verfasst von Vertux — Di Feb 07, 2017 8:05 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-07 13:15:30

Hallo promocore, hallo Vertux,

danke für eure Antworten.
Ich weiß jetzt nicht genau, was ich mit deiner Aussage anfangen soll, promocore. Ich habe Yacy über eigebundene Paketquellen installiert und nicht als heruntergeladenes Archiv.
Allerdings werde ich mir den Abschnitt und vielleicht auch das Video nochmal genauer anschauen.
Bezüglich Java 8: Also ich noch das OpenJDK mit einer früheren VM und Yacy genutzt habe stand in Yacy immer die Warnung, dass ich noch Java 7 verwende und Yacy bald auf Java 8 setzen wird.
Daher habe ich dann mit einer neuen VM den Wechsel vollzogen.

Leider sind alle meine VMs mit LVM eingerichtet. Die GParted-Methode wird daher wohl kaum funktionieren. Es wäre mir nur wichtig, alle VMs zu sichern, damit sie mir beim Plattentausch nicht verloren gehen.
Ich wäre sogar bereit, den Hypervisor neu zu installieren, solange ich mit der neuen Instanz meine VMs wieder benutzen kann.

Trotzdem bin ich auch an einer Lösung des Yacy-Export Problemes interessiert.


Liebe Grüße

Palulukas

Statistik: Verfasst von Palulukas — Di Feb 07, 2017 1:15 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-08 19:22:02

Palulukas hat geschrieben:\ Leider sind alle meine VMs mit LVM eingerichtet. Die GParted-Methode wird daher wohl kaum funktionieren. Es wäre mir nur wichtig, alle VMs zu sichern, damit sie mir beim Plattentausch nicht verloren gehen.\ Ich wäre sogar bereit, den Hypervisor neu zu installieren, solange ich mit der neuen Instanz meine VMs wieder benutzen kann.\


Wenn du ohnehin LVM benutzt, dann könntest du einfach eine neue Festplatte installieren und z.B. das LVM Volume deiner Yacy VM damit [url=https://www.thomas-krenn.com/de/wiki/LVM_vergrößern]vergrößern[/url], darin liegt gerade der Vorteil von LVM.

Statistik: Verfasst von Vertux — Mi Feb 08, 2017 7:22 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-08 19:29:25

Andere Möglichkeit ist noch mit einer LIve CD zu booten und ein HDD-Image aus der VM heraus zu machen.
Danach eine Virtuelle HDD mit neuer Größer anlegen und das Image drüberbügeln und der Yacy VM austauschen.

Statistik: Verfasst von promocore — Mi Feb 08, 2017 7:29 pm


Wunschliste • Re: Add Url

Date: 2017-02-09 14:16:03

Hey everyone! I\’m interested in adding the URL of my main website https://webbingbcn.es/ in Yacy, but i don\’t know how to do it. Is there any Webmaster Tools or sth like that so i can add and manage my sites?

Many thanks!

Statistik: Verfasst von webbingbcn — Do Feb 09, 2017 2:16 pm


Wunschliste • Re: Add Url

Date: 2017-02-09 18:49:14

Hi webbingbcn ,
as said earlier in this thread YaCy is decentralized.
So if you would like your content to be indexed and present in this p2p network, I believe the best thing to do is to set up your own YaCy peer and then crawl your own website! You can run YaCy in the so called \“WebPortal\” mode if you want only to expose your own indexed content and don\’t want to share some parts of the globally distributed index.
Alternatively you can ask someone else to do so...

Best regards

Statistik: Verfasst von luc — Do Feb 09, 2017 6:49 pm


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2017-02-09 20:06:05

Ich hab mich mal an den Torrent mit ran gehängt und Seede jetzt auch. Das Interesse scheint aber wirklich nicht groß zu sein.

Im Moment läuft noch der Import. Sobald dieser fertig ist, werde ich den gemergten Index auch mal per Torrent zur Verfügung stellen.

Statistik: Verfasst von webproject — Do Feb 09, 2017 8:06 pm


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2017-02-09 20:51:56

Ich hoffe auch, dass wir bald einen größeren Stamm an Leute haben. Sobald wir mal 4-5 aktive hätten, würde der Austausch schon recht flott gehen.
Von daher erstmal super, dass du mit Seedest.
#Hast du den Port in deiner Firewall freigeschaltet? Heute bei einem Testdownload ist mir aufgefallen, dass ich zu einem 2ten Seed (Transmission 2.84) keine Verbindung aufbauen konnte und für einen Seed muss der entsprechende Port freigeschaltet sein.

Statistik: Verfasst von promocore — Do Feb 09, 2017 8:51 pm


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2017-02-09 23:14:26

Ich häng mich hier mal mit ran, denn [[2]{style=“font-style: italic”}]{style=“font-weight: bold”} Peers sind wirklich zu wenig! Ich weiß zwar noch nicht, wie ich das Ding dann auf meinen YaCy-Server übertragen kann, wird aber schon irgendwie klappen und zur Not gibt\’s ja hier das Forum! :mrgreen:

Statistik: Verfasst von TmoWizard — Do Feb 09, 2017 11:14 pm


Mitmachen • Re: Torrent Download ( YaCy , Indexdatei , YaCy für Virtualb

Date: 2017-02-10 11:39:39

TmoWizard hat geschrieben:\ Ich häng mich hier mal mit ran, denn [[2]{style="font-style: italic"}]{style="font-weight: bold"} Peers sind wirklich zu wenig! Ich weiß zwar noch nicht, wie ich das Ding dann auf meinen YaCy-Server übertragen kann, wird aber schon irgendwie klappen und zur Not gibt\'s ja hier das Forum! ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green")\



Das ist recht einfach. Die Datei einfach in DATA/SURROGATES/in kopieren und warten :D Den freien Speicherplatz im Auge behalten :lol:

Statistik: Verfasst von webproject — Fr Feb 10, 2017 11:39 am


Fragen und Antworten • Re: PROXY: Indexed web page... obwohl PROXY nicht verwendet

Date: 2017-02-11 07:12:49

The Bullet cameras are long, narrow cylindrical style cameras. They are basically not well thought-out to be inconspicuous, but they do serve to their purpose well and good. Most of these cameras present a 92° angle of view but some have interchangeable lenses. The simplest of these systems can be plugged into an electrical outlet as well as fed into a television or video recorder without the use of very special configurations or software. In low lighting situation it\’s very essential to select a camera that features an auto iris functions. These are few of the most and more affordable home security cameras.
Thanks& regards,
Lindsey nicole
security cameras toronto{.postlink} | security cameras vancouver{.postlink}

Statistik: Verfasst von lindseynicole010 — Sa Feb 11, 2017 7:12 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-13 14:17:51

Hallo promocore, halo Vertux,

danke für eure Antworten. Das klingt nach einer guten Lösung für mich.
Jedoch würde es mich jetzt auch interessieren, die Export-Funktion wieder zum laufen zu bekommen.


Liebe Grüße

Palulukas

Statistik: Verfasst von Palulukas — Mo Feb 13, 2017 2:17 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-14 00:35:19

Ich vermute, dass es an der Java Version liegt.
Unter debian lief mit yacy 1.92 und Java 8 auch nicht richtig. Daher bin ich auf nun Java 7 zurück,.… und nun ist alles bestens.

Statistik: Verfasst von promocore — Di Feb 14, 2017 12:35 am


YaCy Coding & Architecture • Re: Privacy and Referer http header

Date: 2017-02-14 08:43:58

According to caniuse.com, the referrer meta tag is indeed already supported by many browsers{.postlink}.

It is far more flexible than the \“rel=noreferrer\” link attribute, and would allow to easily (without much refactoring, using the metas.template) set this policy not only for YaCy search results but for any link to external. Personnally I think I would favor this over a redirection solution.

Statistik: Verfasst von luc — Di Feb 14, 2017 8:43 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-16 00:15:48

Hallo promocore,

denkst du, es ist nur eine temporäre Inkompatibilität, welche die Yacy-Entwickler später fixen können?
Oder meinst du, dass es noch ewig dauern könnte?
Ich könnte mir vorstellen, dies Festplatte von Yacy auf mein NFS Storage auszulagern, dann den Hypervisor mit neuen Platten aufzuspielen und dann die VM vom NFS zurückholen und anschließend über LVM-Befehle vergrößern.


Liebe Grüße

Palulukas

Statistik: Verfasst von Palulukas — Do Feb 16, 2017 12:15 am


Hilfe für Einsteiger und Anwender • Exclusion of some directories from robots impact SEO

Date: 2017-02-16 07:04:51

I want to know, if we exclude some of the directories from the robots txt file, so does it impact the search engines to index the pages. What is it\’s impact?

Thanks,
Online Store of Leather Products{.postlink}

Statistik: Verfasst von buyleatherbagsonline — Do Feb 16, 2017 7:04 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-16 08:00:11

Hi, sorry to post in English but my German is still too poor...
I just wanted to say I also reproduced this Index Export bug on Debian 8 with both Java 7 and 8, so definitely there are chances for it to be fixed. Just a matter of time!
Best regards

Statistik: Verfasst von luc — Do Feb 16, 2017 8:00 am


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-02-17 11:24:18

\@Palulukas, does your Index Export also fail when setting a value in the \“maximum age\” field? On my own peer this workaround works, as the cause of the issue is that some documents on my index have an empty load_date_dt field.

Another possibility that worked for me : using \“Delete by Solr Query\” in /IndexDeletion_p.html with the following query : -load_date_dt:*
Then all documents with empty \“load_date_dt\” where deleted and export could successfully run without maximum age restriction.

By the way I also pushed a fix{.postlink} on GitHub to solve this Export failure case.

Statistik: Verfasst von luc — Fr Feb 17, 2017 11:24 am


Hilfe für Einsteiger und Anwender • Port ist mal offen, mal nicht

Date: 2017-02-18 17:54:36

Hallo in die Runde,

ich nutze seit ein bis zwei Wochen yacy auf meinem Rechner, habe aber das Problem, dass mir ab und an die Fehlermeldung ausgegeben wird, dass meine Ports nicht offen sind. Ein Neustart bringt nichts und dieser Fehler tritt nur sporadisch auf. Jemand ne Idee woran das liegen könnte?

MIt freundlichem gruß

94bb494nd41f

Statistik: Verfasst von 94bb494nd41f — Sa Feb 18, 2017 5:54 pm


Fragen und Antworten • Migration der daten von PC zu Raspberry

Date: 2017-02-19 12:55:15

Hallo in die Runde,

durch crawlen habe ich mir an meinem Rechner einen beachtlichen Index zusammen gesucht, den ich natürlich der allgemeinheit zur verfügung stellen möchte. Nun ist es mir nicht möglich meinen Rechner den gesamten tag lauf zu lassen, daher die Idee einfach den Index auf meinen RP zu überspielen. Hat da jemand erfahrung/tips wie ich das anstellen könnte?

Mit freundlichem Gruß

94bb494nd41f

Statistik: Verfasst von 94bb494nd41f — So Feb 19, 2017 12:55 pm


Fragen und Antworten • Re: Migration der daten von PC zu Raspberry

Date: 2017-02-19 17:15:51

Durch die import/Export Funktion sollte es funktionieren. Allerdings scheint es aktuell, je nach Version, einen Bug zu geben, wodurch der Export nicht funktioniert.
Früher hatte ich selber auch schon mal das Data Verzeichnis über die frische Installation kopiert, das hatte auch funktioniert. Allerdings war es auch das gleiche BS, bei unterschieflichen dürfte es vermutlich nicht funktionieren.

Statistik: Verfasst von promocore — So Feb 19, 2017 5:15 pm


Hilfe für Einsteiger und Anwender • Re: Port ist mal offen, mal nicht

Date: 2017-02-22 19:33:48

Nach einem Neustart dauert es ein wenig, bis die Meldung weg ist, vorallem wenn das Index schon etwas größer ist.
ist die Meldung auch noch nach 1-2 Stunden zu sehen?

Statistik: Verfasst von promocore — Mi Feb 22, 2017 7:33 pm


Hilfe für Einsteiger und Anwender • Creating a private peer-to-peer network [full P2P and DHT.]

Date: 2017-03-02 00:09:25

HI...
We need to build [[a new private peer-to-peer network, with full P2P and DHT.]{style=“text-decoration: underline”}]{style=“font-weight: bold”}
It must be totally separate from all other networks.
[We will import old YaCy data, from many previous instances we ran in Robinson mode.]

Can someone show us [[Best Practices current configurations / instructions]{style=“text-decoration: underline”}]{style=“font-weight: bold”} for sr + jr mode machines, please?
>for YaCy version: 1.929000 in Ubuntu
Or guide us on what makes good seed instructions [[for a rugged installation]{style=“text-decoration: underline”}]{style=“font-weight: bold”}.

Thank you, [very much]{style=“text-decoration: underline”}. :)

Statistik: Verfasst von xioc752 — Do Mär 02, 2017 12:09 am


Hilfe für Einsteiger und Anwender • Re: Creating a private peer-to-peer network [full P2P and DH

Date: 2017-03-02 00:43:38

You need a new Net definition with own Seedlist.

I fond only a german Wiki:
http://www.yacy-websuche.de/wiki/index.php/De:Netzdefinition

But setup Yacy for the Onion Network Tor (Darknet) is nealy the same Part for the Netconfiguration:
http://www.yacy-websuche.de/wiki/index.php/En:YaCy-Tor#Defining_the_YaCy-Tor-network

Statistik: Verfasst von promocore — Do Mär 02, 2017 12:43 am


Fragen und Antworten • Site count and indexed sites

Date: 2017-03-02 01:56:56

Hi,

Two questions, one easy and one perhaps not so easy:

1. Is there a way to get a count of sites/domains in the index? I notice http://localhost:8090/api/status_p.html nor .xml lists such a stat.

2. I seem to max out at 2,530 sites in the index. When dumping out all sites from hostbrowser.html or .xml, I only ever see 2,530 sites/domains. I request this url, \“http://localhost:8090/HostBrowser.xml?admin=true&hosts=" which should dump all sites in the index. Once I noticed this, I created 50 new vhost1.example.com, vhost2.example.com, etc all with a single html page serving up \“this is vhost #\“. These sites are crawled, but not showing up in the hostbrowser.xml site dump. Am I doing something wrong or misunderstanding what should be in the index?

I\’ve started looking at the solr engine directly to see if there is something there to get me a feel for what\’s in the index.

Thank you for any pointers.

Statistik: Verfasst von DNcrawler — Do Mär 02, 2017 1:56 am


Hilfe für Einsteiger und Anwender • YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-02 14:38:30

Moin,

ich habe YaCy in aktueller Version mal wieder auf einem Windows-Server laufen, und war erst mal angetan, weil aus aussah, als könne man nun bezüglich RAM und Plattenplatz Grenzen vorgeben, aber irgendwie ist das alles nix.

Jedenfalls ist nach einem halben Tag oder so DHT-in und crawling deaktivert, weil angeblich RAM und HD voll wären. Dazu ist zu sagen, auf der HD sind 1.4TB Platz frei, und das RAM von 8 GB bewegt sich um 4-5 GB Belegung. Alles weit entfernt von kritischen Werten.

Was will mir das also sagen? Ich hatte gehofft, YaCy nun endlich mal halbwegs unbeaufsichtigt mit voller Kraft laufenlassen zu können, aber irgendwie mag mir das immer noch nicht gelingen :)
Danke, und viele Grüße!

Ralph.

Statistik: Verfasst von dk5ras — Do Mär 02, 2017 2:38 pm


Fragen und Antworten • Re: Site count and indexed sites

Date: 2017-03-02 14:57:32

Hi DNcrawler,
indeed I am also not sure if there is some api returning directly the global domain names count.

About the HostBrowser page/api, there is a hardcoded{.postlink} maximum number of items : 2520 for authenticated users, 360 for unauthenticated.

But if you want to get the whole domain names list of your index without requesting Solr directly, the /IndexControlURLs_p.html page may help you : in the \“Statistics about top-domains in URL Database\” section, you can explicitly fill the maximum number of domains you want.

Have a nice day

Statistik: Verfasst von luc — Do Mär 02, 2017 2:57 pm


Fragen und Antworten • Re: Site count and indexed sites

Date: 2017-03-03 07:33:44

luc hat geschrieben:\ Hi DNcrawler,\ About the HostBrowser page/api, there is a [hardcoded](https://github.com/yacy/yacy_search_server/blob/Release_1.92/htroot/HostBrowser.java#L204){.postlink} maximum number of items : 2520 for authenticated users, 360 for unauthenticated.\ \ But if you want to get the whole domain names list of your index without requesting Solr directly, the /IndexControlURLs\_p.html page may help you : in the \"Statistics about top-domains in URL Database\" section, you can explicitly fill the maximum number of domains you want.\ \ Have a nice day\



Once again, thank you luc. I may figure out a patch to make the maxcount a config file variable of some sort. I really want the hostbrowser.xml output per domain for all domains in the index, which should be more than 2520 at this point. Thank you.

Statistik: Verfasst von DNcrawler — Fr Mär 03, 2017 7:33 am


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-03 12:35:32

In Bezug auf den RAM kann man Grenzen vorgeben. Default, glaub ich, liegts bei 600 MB. Bei starker Crawlaktivität hilft eine Erhöhung. Ich hab bei mir 6GB zugeteilt und habe aktuell keine Probleme.

Statistik: Verfasst von promocore — Fr Mär 03, 2017 12:35 pm


Hilfe für Einsteiger und Anwender • RSS und Jobtransfer

Date: 2017-03-05 00:05:13

Hallo zum 1. Mal.
Bin leider kein Programmierer - eher laienhafter Bastelprogrammierer wenn\’s sein muss und enthusiastischer User mit starkem Interesse an semantic web und Web(Teilen) als Korpus bzw. Textmining zwecks Ontologieerstellung u.w., Statistikkenntnisse vorhanden.
Yacy gestern zum ersten Mal auf einem Macbook installiert - Begeisterung.

Info: nach zusätzlicher Installation von Java JDK 8 (Tip aus dem Forum hier) lief es dann auch gut auf dem Mac - ohne ging nix.

Input: Ca. 200 RSS Feeds zu Nachrichtenthemen gesucht und in den Feedreader einzeln von Yacy eingetragen inkl. Wiederholungsregeln (ja, auch Zwanghaftigkeit kann Vorteile haben).

Heute: Yacy auf Windows System installiert. Läuft gut. - Möchte den Mac vom Netz nehmen - Dosdose ist schneller.
Versuch den Index zu portieren von Mac auf Win hat funktioniert mit \“Dump und Wiederherstellen des Solr Index\“.
Allerdings: Beim Versuch \“Content Export\” \“Export geladener URLs\” mit Einstellung \“XML (RSS)\” wird eine Datei mit 0 Byte erzeugt - also leer. Auch andere Einstellungen hier liefern leere Dateien.
Einstellung \“Komplette Datensätze\” liefert einmal eine Datei mit Inhalt, wird diese gelöscht, erzeugt ein erneuter Speicherversuch eine sehr viel kleinere Datei.

Frage1: Was sind das für Exporte/Backups? - Inkrementell??
Frage 2: (Wie) kann ich die RSS-Aufträge samt Wiederholungsregeln übertragen? Dachte, die \“XML (RSS)\” Einstellung diente dazu. Falsch?
Suche im Forum und im Wiki nach RSS gab keine Antwort.
Muss ich ein Skript o.ä. basteln? Wenn ja, gibt es Codeschnipsel irgendwo? Oute ich mich gerade als Volldepp?
Bitte keine Anfänger schlagen für doofe Fragen.

Dank für Antwort!
Grüße MetaTom

Statistik: Verfasst von MetaTom — So Mär 05, 2017 12:05 am


Hilfe für Einsteiger und Anwender • Was macht YaCy im Idle-Zustand?

Date: 2017-03-05 15:08:06

Hallo!

Ich bin YaCy-Neuling und habe mal ganz einfach mit dem \“Suchportal für eigene Internetseiten\” begonnen. Dabei ist wir aufgefallen, dass im Idle-Zustand (Indexierer ist untätig) der benutzte RAM sowie der Crawler eine schwankende Auslastung (ohne Daten-Traffic) haben. Zu diesem Zeitpunkt habe ich ca. 5.000 Seiten im Index.

Daher meine Frage: Was macht macht das System im Idle Zustand?

Danke.

Statistik: Verfasst von Laa-Laa — So Mär 05, 2017 3:08 pm


Hilfe für Einsteiger und Anwender • Re: Was macht YaCy im Idle-Zustand?

Date: 2017-03-05 16:06:08

Es gibt in YaCy sog. ‚Busy Jobs’ die alle paar Sekunden nachgucken, ob es was zu tun gibt. Die sehen dann dass es nichts gibts und schlafen wieder. Eine andere Stelle ist der embedded Solr, der macht ggf. sehr viel mehr: da sind caches die ein ‚warm up’ bekommen, da gibts es Index-Optimiertungsvorgänge, bei denen Index Files gemerged werden. Auch wenn nicht viel läuft werden immer wieder ein paar Java Objekte initialisiert und die werden dann beim Garbage Collection wieder frei. Das erzeugt immer so eine Sägezahnfigur in der Speicherbelegung, und das ist ganz normal.

Statistik: Verfasst von Orbiter — So Mär 05, 2017 4:06 pm


Hilfe für Einsteiger und Anwender • Re: Was macht YaCy im Idle-Zustand?

Date: 2017-03-05 20:00:46

Danke für die Antwort.

Statistik: Verfasst von Laa-Laa — So Mär 05, 2017 8:00 pm


Fragen und Antworten • Re: Site count and indexed sites

Date: 2017-03-06 08:05:58

Hi,

Thanks again. I did a quick patch to HostBrowser.java and now I\’m seeing all the expected sites, beyond the 2520 limit in the code. I don\’t have the patch as a config file option yet, just a new hardcoded limit. It doesn\’t appear to have impacted performance in any way.

Statistik: Verfasst von DNcrawler — Mo Mär 06, 2017 8:05 am


Off-Topic • Re: e-book Reader Umfrage

Date: 2017-03-06 09:44:35

Also operating on the \“badge of honor\” principle are the buttons general to every kinds of politics, from nationwide elections to class president. Again, like signage, these buttons serve to more of a purpose of labeling existing believers in the brand as well as using them as walking free advertising rather than trying to win on over new clients through giving them a useful promotional item they\’ll take to their cubicle at work. The now-popular and famous lapel pins are the same thing, too. There are some pretty wasteful political promotional items, too.
Thanks& regards,
Angel anave
election equipment{.postlink}|ballot boxes{.postlink}

Statistik: Verfasst von Admin010 — Mo Mär 06, 2017 9:44 am


Off-Topic • Re: Alternative usage idea

Date: 2017-03-06 09:54:56

The \‘green\’ car industry in China is recognized to have bright prospects. In 2006, The car consumes to only 1.03 kg hydrogen for every 100 kilometres. As well as this has been possible due to 5 years of hard work of China\’s car industry. As part of its 10th five-year plan, China took the choice to put electric car research as well as development at the top of its agenda. This took place in 2001. All aspects of electric cars were given to special attention containing to manufacturing, research, development of electric cars, as well as technology to drive them.
Thanks& regards,
Angel anave
Importer De Chine{.postlink} |Import Export Chine{.postlink}

Statistik: Verfasst von Admin010 — Mo Mär 06, 2017 9:54 am


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-06 10:50:37

Hmm, wo stellt man das ein? Ich finde auf die Schnelle nur die Einstellung, wieviel RAM mindestens frei bleiben muß.

Danke, und viele Grüße!

Ralph.

Statistik: Verfasst von dk5ras — Mo Mär 06, 2017 10:50 am


Hilfe für Einsteiger und Anwender • Kein Start nach Arbeitsspeichererhöhung

Date: 2017-03-06 12:38:24

Hallo.
Gleiches Problem wie bei Thema :\“Zu wenig Arbeitsspeicher!\”
Eingetragen in \“Memory reserved for JVM\” = 2000 MB, dieser Wert lässt sich nicht erhöhen, Yacy stellt von allein diesen Höchstwert ein, wenn ein größerer Wert eingegeben wurde (vorhandener Arbeitsspeicher im System: 16 GB).
Nach Eingabe des höheren Arbeisseichers fordert Yacy Neustart. Aber: Nach herunterfahren von Yacy lässt dieses sich nicht mehr starten. Es passiert einfach nix.
Ergebnis also: Neuinstallation von Yacy. Bisher 3 x getestet mit versch. MB. Das nervt.
Muss ich evtl im Win-System noch eine Arbeitsspeicheranpassung machen?

Danke.

Edit:
Könnte es etwas damit zu tun haben?:
In der startYACY.bat steht:

REM Please change the \“javastart\” settings in the web-interface \“Basic Configuration\” -> \“Advanced\”
set jmx=
set jms=
set javacmd=-Xmx600m -Xms180m <---- das hier, trotz Änderung zuvor im web-interface auf 2000MB.
set priolvl=10
set priority=/BELOWNORMAL
if exist DATA\SETTINGS\httpProxy.conf GoTo :RENAMEINDEX
if exist DATA\SETTINGS\yacy.conf GoTo :GETSTARTOPTS

Danke.

Edit:
Änderung: set javacmd=-Xmx2000m -Xms180m (Wie zuvor im web-interface eingestellt) bringt auch keinen Start des Yacy Servers.

Statistik: Verfasst von MetaTom — Mo Mär 06, 2017 12:38 pm


Hilfe für Einsteiger und Anwender • Re: Kein Start nach Arbeitsspeichererhöhung

Date: 2017-03-06 15:45:54

Hatte ich auch; in der config habe ich diese Xmx2000m in Xmx1024m zurückeditiert, waren AFAIR zwei Vorkommen, dann lief wieder alles.

Ralph.

Statistik: Verfasst von dk5ras — Mo Mär 06, 2017 3:45 pm


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-06 18:06:29

3. Punkt : \“Ram und Diskbelegung\” und dann \” Für JVM reservierter Speicher\”
yacy1.JPG

Statistik: Verfasst von promocore — Mo Mär 06, 2017 6:06 pm


Hilfe für Einsteiger und Anwender • Re: Kein Start nach Arbeitsspeichererhöhung

Date: 2017-03-07 00:45:34

Danke Ralph!

Das hat nach einigem Gesuche funktioniet.
Es waren folgende Dateien und Einträge, die beide auf 1024 geändert wurden:

yacy.conf
Line 10: javastart_Xmx=Xmx1024m

yacy.init
Line 700: javastart_Xmx=Xmx1024m

Danke & Grüsse

Statistik: Verfasst von MetaTom — Di Mär 07, 2017 12:45 am


Fragen und Antworten • Re: Site count and indexed sites

Date: 2017-03-07 09:24:18

Great!
For the future, I believe an interesting option could be to add the possibility to paginate through the host browser items with some usual parameters such as offset and page size. Thus you could set offset to zero and a large/unlimited page size (when authenticated) to get all items if desired.

Statistik: Verfasst von luc — Di Mär 07, 2017 9:24 am


YaCy Coding & Architecture • Re: Privacy and Referer http header

Date: 2017-03-07 12:37:13

Hello, for those interested, you can check latest YaCy sources on GitHub
now is included a new{.postlink} advanced settings page related to the referrer policy, available on your peer at /Settings_p.html?page=referrer.

Statistik: Verfasst von luc — Di Mär 07, 2017 12:37 pm


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-07 15:33:41

Hallo.
Habe das gleiche Problem.
Win7 64 Bit, FP 500 GB frei, Ram 16GB - Arbeitsspeicher für JAVA in Jacy (in yacy.conf und yacy.init) erhöht auf 1024 MB (bei Eingabe von mehr, wird Yacy nicht gestartet oder es erscheint Win-Meldung: Error: Could not create the Java Virtual Machine. Error: A fatal excerption has ocurred. Program will exit.).
Mit 1024 läuft Yacy kurze Zeit ordentlich, dann das gleiche wie Ralph.
Meldungen in der \“Application Status\” Seite während eines Crawlings/Indexierens:

- Es steht weniger als 50 MB Arbeitsspeicher zur Verfügung. DHT Empfang wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.
schlecht
- Crawling wurde pausiert! Wenn das Crawling automatisch pausiert wurde, prüfen Sie bitte Ihrer Festplattenspeicher.

Mehrmals den Pausemodus manuell gestartet - nach kurzer Zeit erneuter Abbruch (schon klar, wenn YACY nicht den Speicher erkennt/nutzen kann). Einmal mit dabei: komplettes Aufhängen von Jacy bzw. Windows. Neustart von Win nötig. Nerv, nerv, nerv.

Hat jemand eine Idee, woran das liegen kann?

Danke.

Grüsse

Statistik: Verfasst von MetaTom — Di Mär 07, 2017 3:33 pm


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-07 16:18:44

Ja, die Einstellung mit Java zeigt bei mir die gleichen Effekte, geht nur bis 1024, mehr nicht. Dachte, da gibt es noch weitere Optionen, die ich nicht gefunden habe, oder die man händisch in der config anpassen muß.

Schade, ich würde gerne das System stärken, indem ich YaCy einfach auf dem server mitlaufen lasse, aber so wird das nix. Seltsam...

Viele Grüße!

Ralph.

Statistik: Verfasst von dk5ras — Di Mär 07, 2017 4:18 pm


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-07 16:45:32

Hallo Ralph.
Habe evtl. eine Lösung für unser Problem gefunden: Hab im Netz nach Ram-Nutzung von Online-Spielern gesucht - die brauchen ja auch möglichst viel davon und folgendes bei mir im Win-System bei Java eingestellt:

Server mehr RAM zuweisen:

Hab ihr z.B. 1 GB Ram, nutzt Minecraft durch Java aber z.b. nur 0.5 GB Ram.
[Um Java mehr Speicher zur Verfügung zu stellen macht folgendes:]{style=“color: #0000FF”}
Systemsteuerung -> Java (Control Panel)- > Java -> Anzeigen
Gibt in dem Runtime-Parametern diesen Code ein
[-Xmx2048m]{style=“color: #0000FF”}
Vergest das \“-\” nicht
Je nachdem wie viel Speicher ihr habt bzw. wie viel ihr Minecraft geben wollt, gibt ihr die Zahl dort ein, bei 1 GB = 1024, bei 4 GB = 4096 usw.
Dann einfach auf Anwenden und danach auf Ok klicken
(Quelle gutefrage.net)

-- Was ist der Unterschied zwischen 32 und 64 Bit?
Bei einem 32 Bit Betriebssystem kann man maximal 3,5 GB RAM einstellen*.
Bei einem 64 Bit Betriebssystem kann man maximal so viele GB einstellen, wie der Computer maximal bietet.

Habe erst einmal 4096 eingestellt. Dieser Wert erscheint auch kurzzeitig bei Start von Yacy bei \“Systemstatus\” unter Punkt \“RAM maximal:\“, verschwand dann aber wieder. Das Ganze läuft jetzt sehr schnell seit einer Stunde und arbeitet fleißig: Graph unter \“Performanceeinstellungen für Speicher\” ist deutlich tätig und voll, Grafik \“Server Zugriffsnetz\” zeigt viel Aktivität.

Lasse alles mal einen Tag laufen & hoffe, Yacy geht nicht wieder in den Schlafmodus.

Viele Grüße

Statistik: Verfasst von MetaTom — Di Mär 07, 2017 4:45 pm


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-08 09:00:03

Danke für diese Tips, habe das nachvollzogen und Java bei der Gelegenheit auch erst mal auf 64bit gebracht, nun teste ich :)
Viele Grüße!

Ralph.

Statistik: Verfasst von dk5ras — Mi Mär 08, 2017 9:00 am


Hilfe für Einsteiger und Anwender • Re: YaCy unter Windows - RAM und HD voll?!

Date: 2017-03-08 23:43:46

Hallo.

Kurze Rückmeldung: Das System scheint nun stabiler zu laufen. Habe zusätzlich noch JDK installiert (weiss nicht, ob das was bringt. Bei Erstinstallation auf Mac war das nötig, damit Yacy lief.)

Was nicht gut war: Eintrag von 8 versch. Urls im \“Experten Crawl\” mit diversen Einschränkungen und einer Crawlingtiefe von 4. Dachte, die würden sukzessive abgearbeitet. Ergebnis jedoch war, dass irgendwann die lokale Crawler Queue eine gigantische Größe hatte, die wahrscheinlich für die dauernden Pausenmodi bei Lokaler und Entfernter Crawler verantworlich war. Da ich die Einheiten nicht erkennen kann, aber annehme, dass es die gesamten bisher gecrawlten Websiten des aktuellen Auftrags sind, die mit den neuen Crawls verglichen werden, ist eine Anzahl mehrerer Seiten mit geringer Tiefe beim Start oder eine Seite mit eben höherer Crawlingtiefe möglich, damit kein Pausenmodus entsteht.

Musste zwischendurch Yacy noch einmal neu installieren. Hatte vorher den Ordner DATA (mehrere GB) gesichert. Mit dem kann man tatsächlich bei einer Neuinstallation den bestehenden ersetzen und hat so wieder alle Daten und Einstellungen der alten Version.

Viele Grüße.

Statistik: Verfasst von MetaTom — Mi Mär 08, 2017 11:43 pm


Hilfe für Einsteiger und Anwender • Lern-Kurs in Yacy möglich?

Date: 2017-03-09 17:52:55

Liebe Yacy Entwickler.

Vielen Dank für dieses tolle Tool.
Vielen Dank auch für die klasse Lehr-Videos.
Und vielen Dank für die detallierten Angaben im Admin-Bereich zu den einzelnen Optionen.
Ich wüsste gern SCHNELLER mehr, über Einstellungen, Anwendungsmöglichkeiten und Datenaustausch mit bzw. Anbindungsmöglichkeiten an andere Software. Kurz: Dieses Tool bietet so viele Möglichkeiten, die mir für die Nutzung und Weiterverarbeitung der Daten und für Addons zur Datenanalyse einfallen - aber ich mühe mich (trotz zwischenzeitlicher AHA-Erlebnisse) ganz schön ab, einen fundierten Einblick zu bekommen. Viel Trial and Error.
Habt ihr mal über Yacy-Kurse nachgedacht? Natürlich gegen Geld.
Ich habe Interesse.

Viele Grüße.

Statistik: Verfasst von MetaTom — Do Mär 09, 2017 5:52 pm


Hilfe für Einsteiger und Anwender • Index Export XML funktioniert nicht

Date: 2017-03-11 16:30:16

Hallo.
Dump und Wiederherstellen des Solr Index funktioniert.
Alle anderen Optionen wie z.B. Export Format Komplette Datensätze XML erzeugen Fehlermeldung:

\ HTTP ERROR 500\ \ Problem accessing /IndexExport\_p.html. Reason:\ \ Server Error\ \ Caused by:\ \ javax.servlet.ServletException: C:\\Users\\user01\\YaCy\\DATA\\LOCALE\\htroot\\de\\IndexExport\_p.html\ at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:895)\ at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)\ at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)\ at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)\ at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)\ at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)\ at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)\ at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)\ at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)\ at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)\ at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)\ at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)\ at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)\ at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)\ at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)\ at org.eclipse.jetty.server.Server.handle(Server.java:499)\ at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)\ at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)\ at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)\ at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)\ at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)\ at java.lang.Thread.run(Unknown Source)\ \ \ YaCy 1.92 - powered by Jetty -\



Suche im Forum hier zeigte nur, dass auch andere Probleme mit dem Export haben, aber keine Lösung.
Hat jemad eine Idee, woran das liegen kann, was man ausprobieren kann?

Danke!

Statistik: Verfasst von MetaTom — Sa Mär 11, 2017 4:30 pm


English • Re: YaCy on the Raspberry Pi

Date: 2017-03-12 11:52:33

The \” sudo apt-get dist-upgrade \” is important because it reduces the memory required.

Try \” sudo apt-get install openjdk-8-jre-headless \” Java, it supports multi-core processors if that\’s what you have.

I would also install these 3 to clone from \” git clone https://github.com/yacy/yacy_search_server \”

sudo apt-get -y install git

sudo apt-get -y install ant

sudo apt-get -y install curl

A Big swap file like 2Gb is worth doing. That way you can push the CPU Load Higher without it loosing the plot..

Statistik: Verfasst von smokingwheels — So Mär 12, 2017 11:52 am


Hilfe für Einsteiger und Anwender • Re: Index Export XML funktioniert nicht

Date: 2017-03-12 23:07:57

Komplette Datensätze herstellen/speichern funktoniert bei mir mit Yacy 1.92 unter Debian 64bit stable und der default openjdk7 aus dem Main Repositoriy.
Das wäre dann Java 1.7.0_121.
Zumindestens wäre das ein Workaround.

Statistik: Verfasst von promocore — So Mär 12, 2017 11:07 pm


English • Re: YaCy on the Raspberry Pi-3B (ARM8 Quad Core)

Date: 2017-03-13 10:50:04

Re: YaCy on the Raspberry Pi-3B (ARM8 Quad Core 1GB RAM)

Greetings to all

I have been wanting to use YaCy as my primary search engine for years. To make that wish into a reality,

I bought a Raspberry Pi 3 to run YaCy 247 connected to my cable modem like an appliance.

DietPi V145 Running java jdk8 works very fine running YaCy. 1.92. It is a dream come true.

Now all I need is to find some good documentation on how to get the most out of YaCy.

For example, I would like to know how to move the directory structure around so that I could get YaCy to save its data to one of my larger capacity usb drives.

Right now I am getting an error message that I do not know how to fix.

Free memory is lower than 50 MB. DHT-in has been disabled. Please fix it as soon as possible and restart YaCy.

Crawling is paused! If the crawling was paused automatically, please check your disk space.



Best Regards

Statistik: Verfasst von _44-4N_26-1E_ — Mo Mär 13, 2017 10:50 am


Hilfe für Einsteiger und Anwender • Re: Index Export XML funktioniert nicht

Date: 2017-03-13 11:19:07

Hallo MetaTom,
vielleicht das gleiche Problem{.postlink} wie Palulukas ...
mit die gleiche{.postlink} Lösung ?

Statistik: Verfasst von luc — Mo Mär 13, 2017 11:19 am


English • Need help with reaching peer from outside. Bug?

Date: 2017-03-13 23:57:15

Hello everyone,

I have a spare linux (ubuntu) server that\’s been online for few years and I thought it would make an excellent crawler/Yacy node. I installed and configured the machine - everything according to the YouTube video. Nearly everything works perfectly.

One major problem: \“Your peer cannot be reached from outside (which is not fatal, but would be good for the YaCy network); please open your firewall for this port and/or set a virtual server option in your router to allow connections on this port. Opening a router port is not a YaCy-specific task; you can see instruction videos everywhere in the internet, just search for Open Ports on a <our-router-type> Router and add your router type as search term. However: if you fail to open a router port, you can nevertheless use YaCy with full functionality, the only function that is missing is on the side of the other YaCy users because they cannot see your peer.\”

The problem: I do not have any type of firewall on the system (I\’m 100% certain), and the machine is on DMZ with 8090 open, guaranteed. There is no firewall on the router, and nothing is blocking the port. CanYouSeeMe.org verifies that the port is open, and just about any port scanner says the same. Yet I\’m unable to contribute my crawl to the network.

Any suggestions would be greatly appreciated.

Statistik: Verfasst von paul89 — Mo Mär 13, 2017 11:57 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-14 18:46:32

Hi paul89,
do you get something when you try the URL

Code:
http://[host]:[port]/yacy/hello.html

for example in a browser, and replacing host and port exactly with what is displayed in your /Status.html page at \“Public Address:\“?

Statistik: Verfasst von luc — Di Mär 14, 2017 6:46 pm


Hilfe für Einsteiger und Anwender • Nur lesenswerten Content indexieren?

Date: 2017-03-14 19:36:38

Hallo!

Wie indexiere ich eine Webseite inkl. aller ausgehenden Links ohne Social Media und Werbe-Zeug? Nutzt ihr dafür die Ad Block Filterlisten? Oder mistet Ihr den index im nachhinein aus?

Danke.

Statistik: Verfasst von Laa-Laa — Di Mär 14, 2017 7:36 pm


Fragen und Antworten • APICrawler question/clarification

Date: 2017-03-15 03:05:49

Hi,

I\’m trying to submit urls via advanced crawler API call per http://www.yacy-websearch.net/wiki/index.php/Dev:APICrawler documentation. I call like this:

Code:
curl "http://localhost:8090/Crawler_p.html?deleteold=off&range=wide&snapshotsMustnotmatch=&indexMedia=on&snapshotsReplaceOld=off&recrawl=nodoubles&storeHTCache=on&timezoneOffset=300&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&snapshotsMaxDepth=-1&crawlingURL=http://exampleAPITEST.com/"



That\’s a fake URL, but you get the point, it\’s unique and not in the database yet.

Yacy spins for a few seconds, and then returns an html dump from curl which looks like the Crawler_p.html page.

I tried

Code:
curl -X POST

and the same url with the same result. I\’ve also tried proper curl format of

Code:
curl -data "/Crawler_p.html?deleteold=off&range=wide&snapshotsMustnotmatch=&indexMedia=on&snapshotsReplaceOld=off&recrawl=nodoubles&storeHTCache=on&timezoneOffset=300&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&snapshotsMaxDepth=-1&crawlingURL=http://exampleAPITEST.com/"  http://localhost:8090



I don\’t see the url being crawled in the Crawler Monitor nor setup in the Process Scheduler. Am I calling it wrong?

Thanks in advance for hints.

Statistik: Verfasst von DNcrawler — Mi Mär 15, 2017 3:05 am


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2017-03-15 23:18:01

\@Michael - ich melde mich mal aus dem Energiesparmodus zurück ;-) - ist hier schon was passiert?

Gruß
Thomas

Statistik: Verfasst von Vega — Mi Mär 15, 2017 11:18 pm


Fragen und Antworten • windows 7 und yacy

Date: 2017-03-16 15:15:37

warum startet yacy unter windows 7 nicht.? :mrgreen:
system 4 x 2.3 GHZ mit 4 GB ram 500 Gb Festplatte

Statistik: Verfasst von ww1com — Do Mär 16, 2017 3:15 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-16 21:48:24

Yes, I reach a page with my IP, version, uptime and other info.
I even checked iptables - it\’s not running, the port is open.

Statistik: Verfasst von paul89 — Do Mär 16, 2017 9:48 pm


English • Disk quota problem - new partition not available to Yacy

Date: 2017-03-17 23:10:12

I installed Yacy on a cloud server with 25GB available. When Yacy reached the maximum disk quota, the crawling has been suspended. So I\’ve upgraded my cloud and have now 80GB available. The problem is that Yacy do not see the new partition and the disk quota availability has not changed (e.g. Yacy can see only 2,5 GB of free disk when actually there is 62,5 GB).
I was said that a new installation of Yacy is required. I\’m not sure this is the only option. May be there is another way to solve this problem changing some config settings to see the new partition.

May be the creation of a symbolic link between partitions a possible solution ? In this case what\’s the directory to link and what should be the name of the target directory in the larger partition ?

Somebody can help me ?

Thank you in advance.

Kind regards

Mario

Statistik: Verfasst von irnerio — Fr Mär 17, 2017 11:10 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-18 09:49:43

The same problem here.

version=1.92 uptime=6300 yourip=myipnumber yourtype=virgin mytime=20170318083932 message=no post or no enviroment

I\’d like to share my index with other peers without receiving (it\’s a specific topic search engine).

Kind regards.

Mario

Statistik: Verfasst von irnerio — Sa Mär 18, 2017 9:49 am


English • Re: Yacy Html Portal Page

Date: 2017-03-18 09:54:19

luc hat geschrieben:\ Hi bubul, do you know you can put your customized pages such as the index.html in your DATA/HTDOCS folder? Do you mean this way is not user-friendly enough?\



Hi luc !
I\’ve installed Yacy on a Debian and there is an index.html located in /usr/share/yacy/htroot . Can you confirm that changing this index.html file will be ok ?

Kind regards

Mario

Statistik: Verfasst von irnerio — Sa Mär 18, 2017 9:54 am


English • Re: Yacy Html Portal Page

Date: 2017-03-22 08:01:49

Hi Mario, and sorry for this late answer.

Even if possible, I would not recommend modifying directly the /usr/share/yacy/htroot/index.html file as it is part of the distributed YaCy debian package : it would be later overridden when upgrading your YaCy version, and it is generally not a good idea to modify files that are part of a package because doing so you break the interest of using a package manager.

So I would rather suggest you to copy the /usr/share/yacy/htroot/index.html file to /usr/share/yacy/DATA/HTDOCS and then modify it. I just checked to be sure and it works as expected.

Best regards

Statistik: Verfasst von luc — Mi Mär 22, 2017 8:01 am


English • Re: Disk quota problem - new partition not available to Yacy

Date: 2017-03-22 09:18:20

Hi Mario, to my mind using a symbolic link to move your YaCy data folder is a safe option, furthermore if you consider that on Debian the DATA folder is already distributed as a symbolic link between /usr/share/yacy/DATA and /var/lib/yacy.

I just checked on a Debian YaCy peer that the following steps works properly :
- stop the YaCy peer
- copy the data folder and important, keep ownership to yacy user (-p option) : cp -Rp /var/lib/yacy /newPart/newFolder
- rename the existing data folder to keep it as backup : mv /var/lib/yacy /var/lib/yacy.back
- make a new symbolic link to your new data folder : ln -s /newPart/newFolder /var/lib/yacy
- links chain to the data folder should now be : /usr/share/yacy/DATA -> /var/lib/yacy -> /newPart/newFolder
- start your peer : you should find your settings and indexed data unchanged. Hopefully the new partition freed disk space is also successfully taken into account : this step worked for me on Debian.

Good luck

Statistik: Verfasst von luc — Mi Mär 22, 2017 9:18 am


English • Re: Yacy Html Portal Page

Date: 2017-03-22 09:25:46

luc hat geschrieben:\ Hi Mario, and sorry for this late answer.\ \ Even if possible, I would not recommend modifying directly the /usr/share/yacy/htroot/index.html file as it is part of the distributed YaCy debian package : it would be later overridden when upgrading your YaCy version, and it is generally not a good idea to modify files that are part of a package because doing so you break the interest of using a package manager.\ \ So I would rather suggest you to copy the /usr/share/yacy/htroot/index.html file to /usr/share/yacy/DATA/HTDOCS and then modify it. I just checked to be sure and it works as expected.\ \ Best regards\



Thx Luc. It worked !

One last question. How to change the favicon ?

Ciao

Mario

Statistik: Verfasst von irnerio — Mi Mär 22, 2017 9:25 am


English • Re: Disk quota problem - new partition not available to Yacy

Date: 2017-03-22 10:58:12

Great ! Eventually I decided to make a new setup of my server to clean install Yacy again. Everything is ok now but your suggestions will be useful in the future. Thank you again luc ;)

Statistik: Verfasst von irnerio — Mi Mär 22, 2017 10:58 am


English • Re: Yacy Html Portal Page

Date: 2017-03-22 11:25:41

Ah yes as you may have realized, overriding resources in the DATA/HTDOCS folder is currently only supported for files with an associated server template : for example htroot/index.html, feed by htroot/index.java. Overriding purely static resources such as the favicon.ico image is not supported.

But there is still a way to customize your favicon by customizing your own htroot/env/templates/metas.template file : this file is a small template header part included in almost every other yacy templates, and this is where the favicon url is set (at line 2 : <link rel=\“shortcut icon\” type=\“image/x-icon\” href=\”#[relativeBase]#favicon.ico\” />)
So supposing you are using a debian install, what you have to do is :
- copy the /usr/share/yacy/htroot/env/templates/metas.template file to /var/lib/yacy/HTDOCS/env/templates/metas.template
- put your own favicon file in /var/lib/yacy/HTDOCS with a custom name (not favicon.ico)
- customize the metas.template line 2 : <link rel=\“shortcut icon\” type=\“image/x-icon\” href=\”#[relativeBase]#yourcustomfavicon.ico\” />
- done! No YaCy restart is needed

Statistik: Verfasst von luc — Mi Mär 22, 2017 11:25 am


English • Re: YaCy on the Raspberry Pi

Date: 2017-03-23 08:54:34

Hello _44-4N_26-1E_,
maybe this will help you : I detailed on another thread{.postlink} possible steps to move your YaCy data folder to another partition.

Best regards

Statistik: Verfasst von luc — Do Mär 23, 2017 8:54 am


English • Re: Yacy Html Portal Page

Date: 2017-03-23 09:36:03

Thank you luc ! Mario

Statistik: Verfasst von irnerio — Do Mär 23, 2017 9:36 am


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-24 09:15:06

Hi do you still encounter this problem?
If so I suggest you to have a look at your logs (yacy*.log files in DATA/LOG) and to search for lines containing \“seed-list URL\” : there should at least be some lines like \”...YACY BOOTSTRAP: N seeds from seed-list URL http://somePeer...
Looking for log lines containing \“yacyClient.hello\” or \“hello/client\” could also be instructive.

Statistik: Verfasst von luc — Fr Mär 24, 2017 9:15 am


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-24 21:13:32

I looked through the files - I\’m still stuck. I checked the logs and with the string \“yacyClient.hello\” I usually get these errors:

exception: Client can\’t execute: Connection refused duration=163 for url http://...

as well as ping errors, \“network unreachable\” and etc. Each error is different, and it does not bring me any closer to diagnosing the issue. If I can\’t get it up and running, I think I\’ll shut down the service soon. Too bad, it would have been fun.

Statistik: Verfasst von paul89 — Fr Mär 24, 2017 9:13 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-24 21:31:29

For sure it\’s annoying. What is strange is that your peer can crawl websites, but apparently can not reach other YaCy peers...
Do you get \“remote\” results when you search something, or only \“local\” results from your own peer?

By the way, if you whish to give here or by private message your peer hostname or IP, maybe I could find a way to understand what\’s going wrong.

Statistik: Verfasst von luc — Fr Mär 24, 2017 9:31 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-26 12:18:41

luc hat geschrieben:\ Hi do you still encounter this problem?\ If so I suggest you to have a look at your logs (yacy\*.log files in DATA/LOG) and to search for lines containing \"seed-list URL\" : there should at least be some lines like \"\...YACY BOOTSTRAP: N seeds from seed-list URL .\ Looking for log lines containing \"yacyClient.hello\" or \"hello/client\" could also be instructive.\



I have a specific topic search portal so I\’d like to share my index without receiving from the outside world. Is it possible to setup a one way option ?

Kind regards

Mario

Statistik: Verfasst von irnerio — So Mär 26, 2017 11:18 am


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-27 09:03:36

\ I have a specific topic search portal so I\'d like to share my index without receiving from the outside world. Is it possible to setup a one way option\



To my mind this is the meaning of the \“Search portal for your own web pages\” setting in /ConfigBasic.html (\“Robinson Mode\” in /ConfigNetwork_p.html) : your peer is know by other peers, answers to search requests and has its index shared through the /solr/select api. Of course it also exposes itself as an OpenSearch system trough the descriptor at /opensearchdescription.xml.

If you started your peer in Peer To Peer mode (\“Community-based web search\” setting in /ConfigBasic.html) and already indexed data, you can also disable \“Index Receive\” in the /ConfigNetwork_p.html page.

Statistik: Verfasst von luc — Mo Mär 27, 2017 8:03 am


Fragen und Antworten • Re: APICrawler question/clarification

Date: 2017-03-27 09:35:06

Hi DNCrawler, maybe you noticed in the meantime, by the way you just forgot the \“crawlingstart\” parameter. Without it, even if you effectively filled all the other parameters, no crawl will start.

So you just have to add \“crawlingstart=\” somewhere in your url.

Have a nice day

Statistik: Verfasst von luc — Mo Mär 27, 2017 8:35 am


Fragen und Antworten • Re: windows 7 und yacy

Date: 2017-03-28 14:52:44

Hallo ww1com,
mit eine Windows 7 32 bits Virtuelle Maschine und Oracle Java 1.8.0_121, YaCy 1.929000 funktioniert sehr gut für mich...
Hast du kontrolliert die Log-Dateien (DATA/LOG/yacy[nn].log)?

Statistik: Verfasst von luc — Di Mär 28, 2017 1:52 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-28 21:54:43

Yes, I can see the results from other peers. Any keyword that I type in, I get results from the \“freeworld\” network. I simply cannot contribute and I cannot be seen. :/
Here\’s the DDNS URL: mountainchalet.dlinkddns.com; the IP address of the server is 98.177.212.167.

I can make the machine work password-less, if that will help in troubleshooting. Please let me know.

Statistik: Verfasst von paul89 — Di Mär 28, 2017 8:54 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-03-29 09:48:37

Ok finally I think we got it!
The problem is that when you set \“Protection of all pages\” to \“On\” in the /ConfigAccounts_p.html page, it effectively prevents visiting every pages of your peer, including those used for peer-to-peer communication such as /yacy/hello.html... I checked on my peers with this setting, and yes after restart they pass in the so called \“Junior\” mode.
I guess you previously had a result when requesting your own /yacy/hello.html because credentials were in your browser cache. But when I requested it on your peer from my browser, I got the authentication popup.

So I would suggest you to just set this to Off and restart your peer, that should then hopefully be reachable by others.

I don\’t know if this was the initial intent of the \“Protection of all pages\“, but for sure it should at least be clarified in the page that setting this to \“On\” prevents running YaCy in Senior mode...

Statistik: Verfasst von luc — Mi Mär 29, 2017 8:48 am


YaCy Coding & Architecture • The YaCy Grid

Date: 2017-03-29 10:58:46

I\’m actually working hard to make a YaCy/2, now called \“YaCy Grid\“.
The main idea is currently, that this becomes a large-scale search appliance -- for the first step.
In a second step, we can do two things: replace the old code parts in \“Legacy YaCy\” with the grid elements and secondly, turn the YaCy Grid into a peer-to-peer architecture (again).
YaCy Grid is therefore a \‘professional YaCy\’ with the vision that it stays a modern piece of software that may power the next-generation p2p search.

I posted a milestone plan and an architecture picture here:
https://twitter.com/yacy_search/status/ ... 1844357120{.postlink}
Bild

Statistik: Verfasst von Orbiter — Mi Mär 29, 2017 9:58 am


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-03-29 11:02:25

\“Legacy YaCy\” (YaCy/1) will benefit from the milestone 2: we will get a WARC parser which produces elasticsearch-like JSON index files and YaCy will get a surrogate parser to read those files.
Then it will be easy to use outside-of-YaCy crawlers like you have with wget:

Code:
wget "http://yacy.net" --warc-file="yacy"


..will generate a WARC file which YaCy/1 then can index using the Grid Parser.

Statistik: Verfasst von Orbiter — Mi Mär 29, 2017 10:02 am


English • Cache deletion needed.

Date: 2017-03-29 17:18:18

[Hi!]{style=“font-weight: bold”} :-)

I\’m running out of space and I temporarily need to delete Yacy\’s cache.
I went to RAM/Disk -> Web Cache -> Cleanup and indeed worked.
However I can see the directory /var/lib/yacy/INDEX/ holds >1.5GB data.

Do I have to delete this as well (and how this can be done), or just leave it be?
[TIA!]{style=“font-weight: bold”} ;) G.

Statistik: Verfasst von Giorgos — Mi Mär 29, 2017 4:18 pm


English • Re: Cache deletion needed.

Date: 2017-03-30 09:15:42

Hi Giorgos,

Web Cache and Index are two different things :
- /var/lib/yacy/HTCACHE/ : the web cache that stores data downloaded by the crawler, for faster next crawls, as would do a browser cache.
- /var/lib/yacy/INDEX/ : this is the file storage for your local Solr Index and YaCy internal Reverse Word Index. These are the main data, used for searching. You should not delete manually files here, but if you are running out of space, some administration pages can help you :
- in \“Index Administration\” > \“Index Deletion\” (/IndexDeletion_p.html) you will find various options and criteria to clean your Solr Index (related folder is /var/lib/yacy/INDEX/freeworld/SEGMENTS/solr_5_5)
- in \“Index Administration\” > \“Reverse Word Index\” (/IndexControlRWIs_p.html) you can for example limit the number of references per word (related folder is /var/lib/yacy/INDEX/freeworld/SEGMENTS/default)
- more radically : in \“Index Administration\” > \“URL Database Administration\” (/IndexControlURLs_p.html) in the \“Cleanup\” section you can delete completely your Solr Index and/or RWI Index

Complementary notes :
- if you are regularly running out of space you can schedule these tasks using the Process Scheduler (/Table_API_p.html)
- wait a little or restart your peer to see changes on your disk usage as Solr can take some time before completing its deletion task

Have a nice day

Statistik: Verfasst von luc — Do Mär 30, 2017 8:15 am


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-03-31 01:50:00

Uups,

was parallel looking into a warc importer and read your post to last, see commit https://github.com/yacy/yacy_search_ser ... fd248d51f3{.postlink}

P.S. looked at your grid prototype, haven\’t grap\’d all the communication details so far but was a little surprised by the prerequisite (rabbit & ftp) currently without a way around/out,
at least for the ftp I implemented for my first testing Apache embedded (https://mina.apache.org/ftpserver-proje ... erver.html{.postlink}). Maybe something to consider.

Statistik: Verfasst von reger — Fr Mär 31, 2017 12:50 am


English • Re: Cache deletion needed.

Date: 2017-03-31 22:47:38

[THANK YOU VERY MUCH]{style=“font-weight: bold”} luc, for your help[!!!]{style=“font-weight: bold”} ;)
Just one side question:
Is it possible to move these 2 directories (HTCACHE and INDEX) to another location?
My primary partition holds everything (except swap) and it isn\’t a very big one.
On the other hand, I have plenty of room on another partition (which holds various bits and bytes and it\’s intented mostly for data storage).
So, is it possible through Yacy administration to change the location of these 2 dirs (or if this isn\’t possible, maybe compiling Yacy from source)?
G.

Statistik: Verfasst von Giorgos — Fr Mär 31, 2017 9:47 pm


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-04-01 01:37:54

great work with the WARC importer!

reger hat geschrieben:\ prerequisite (rabbit & ftp) currently without a way around/out,\


Well actually if the MCP does not find a FTP service, it will host files itself. Same with the queue, if there is no rabbitMQ, it will handle queues with a poor-mans-queue implementation using an embedded MapDB

reger hat geschrieben:\ at least for the ftp I implemented for my first testing Apache embedded ([https://mina.apache.org/ftpserver-proje \... erver.html](https://mina.apache.org/ftpserver-project/embedding_ftpserver.html){.postlink}). Maybe something to consider.\


I considered that as well but we can that as add-on later. Same with SMB or other protocols, any file sharing should be usable. Idea is that everyone can choose their own place to share warc/index files.

Statistik: Verfasst von Orbiter — Sa Apr 01, 2017 12:37 am


English • Re: Cache deletion needed.

Date: 2017-04-01 09:16:21

Do you HDD space elsewhere?

I need someone to Second and translate this.

1. Do a Clean Shutdown of YaCy
2. Copy to new Location
3. Start YaCy in new Location

I have run YaCy on USB\’s and Phone\’s (Via PC).

You can\’t do it any more with a Phone because someone revoked FAT32 USB Mass Storage Device.

Statistik: Verfasst von smokingwheels — Sa Apr 01, 2017 8:16 am


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-04-01 12:11:45

\@Orbiter: Thanks for sharing your plan! Looks great!

Statistik: Verfasst von Huppi — Sa Apr 01, 2017 11:11 am


Suchmaschinen • Re: Noch ein Suchmaschine!

Date: 2017-04-01 12:15:01

Suchmaschine mit Förderung von Projekten:
http://search.lilo.org

Das Finanzierungsmodell habe ich noch nicht vollständig verstanden, die Idee finde ich nett.

Statistik: Verfasst von Huppi — Sa Apr 01, 2017 11:15 am


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2017-04-01 12:19:22

Ich auch :-)

Statistik: Verfasst von Huppi — Sa Apr 01, 2017 11:19 am


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2017-04-01 12:48:18

Hallo Thomas, Hallo Volker,
Super dass ihr immer wieder vorbeischaut!
Für eine modernere, industrie-typsiche Implementierung einer Search Appliance arbeite ich ja gerade an YaCy Grid.
Es gibt da noch ein paar ungelegte Eier, aber ich brüte noch darüber. Wird spannend.

Statistik: Verfasst von Orbiter — Sa Apr 01, 2017 11:48 am


Fragen und Antworten • Import Mediawiki

Date: 2017-04-01 14:17:12

Hallo,

ich möchte gerne das aktuelle Wikipedia importieren, aber über die Importfunktion funktioniert es nicht [ IndexImportMediawiki_p.html ]

Yacy läuft bei mir auf Debian ohne Desktop.
Muss die Importdatei auf Localhost liegen oder kann sie auch auf dem Client liegen, worüber ich das Webinterface aufrufe.
Kann ich über die Debian Konsole/Shell den Import auch anstoßen?
Hat jemand die Importfunktion schon erfolgreich getestet?



Gruß promocore

Statistik: Verfasst von promocore — Sa Apr 01, 2017 1:17 pm


English • Re: Cache deletion needed.

Date: 2017-04-01 15:07:28

As said smokingwheels copying a YaCy install (eventually compiled from sources) and its DATA folder to a new location will work.

But given your previously mentioned paths I guess you installed the Debian package, so copying the various installed files is maybe not your best option.

By the way, both HTCACHE and INDEX folders can be configured.
- HTCACHE :
- with the administration page \“RAM/Disk Usage & Updates\” > \“Web Cache\” (/ConfigHTCache_p.html) : you can modify the field \“The path where the cache is stored\”
- or with the generalist administration page \“System Administration\” > \“Advanced Properties\” (/ConfigProperties_p.html) : \“proxyCache\” property
- or by editing manually the \“proxyCache\” property in your /etc/yacy/yacy.conf file
- INDEX :
- with the generalist administration page \“System Administration\” > \“Advanced Properties\” (/ConfigProperties_p.html) : \“indexPrimaryPath\” property
- or by editing manually the \“indexPrimaryPath\” property in your /etc/yacy/yacy.conf file

You will need to restart YaCy after modifying these settings.

Happy customization.

Statistik: Verfasst von luc — Sa Apr 01, 2017 2:07 pm


English • Re: Cache deletion needed.

Date: 2017-04-02 01:01:15

luc hat geschrieben:\ But given your previously mentioned paths I guess you installed the Debian package\


Correct! :) I\’m on Debian Jessie x64 KDE and I have installed the version from Yacy repository.

luc hat geschrieben:\ By the way, both HTCACHE and INDEX folders can be configured.\ - HTCACHE :\ - with the administration page \"RAM/Disk Usage & Updates\" \> \"Web Cache\" (/ConfigHTCache\_p.html) : you can modify the field \"The path where the cache is stored\"\ - or with the generalist administration page \"System Administration\" \> \"Advanced Properties\" (/ConfigProperties\_p.html) : \"proxyCache\" property\ - or by editing manually the \"proxyCache\" property in your /etc/yacy/yacy.conf file\ - INDEX :\ - with the generalist administration page \"System Administration\" \> \"Advanced Properties\" (/ConfigProperties\_p.html) : \"indexPrimaryPath\" property\ - or by editing manually the \"indexPrimaryPath\" property in your /etc/yacy/yacy.conf file\


Somehow, changing one or both directories (either from web interface or from the config file), resulting yacy unable to start.
Giving from root terminal \“/etc/init.d/yacy start\“, does nothing.
Actually (as I could see at KSysGuard), java starts running and it autounloads from memory, after 3-4 secs.

On the other hand, compiling from source is pretty straightforward and really fast! :D (So I\’ll uninstall the already installed version and delete the repository and I\’ll keep the compiled version).

[THANKS A LOT]{style=“font-weight: bold”} guys for your help[!!! ]{style=“font-weight: bold”} :D G.

Statistik: Verfasst von Giorgos — So Apr 02, 2017 12:01 am


Off-Topic • 1. April

Date: 2017-04-03 11:44:55

https://www.youtube.com/watch?v=hgrunnL ... tu.be&t=15{.postlink}

Eigentlich ist schon seit 16 Jahren der 1. April :D

Statistik: Verfasst von LA_FORGE — Mo Apr 03, 2017 10:44 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-04-03 16:58:48

Hello promocore, I hope an answer in English is better than nothing.
Indeed the MediaWiki Dump Import works but the user interface is a currently bit confusing/buggy. To make it work, you must either :
- put the dump file in your YaCy server install folder and then choose it with the browser upload field : only works if your YaCy server is running on the same computer as your browser
- OR call directly the url this way :

Code:
http://peerhost:8090/IndexImportMediawiki_p.html?file=file:///absolute/server/path/to/yourdump.xml.bz2

(the importmediawiki.sh script runs this way)

In both cases, the dump file has to be on the same computer as the YaCy peer.

One last confusing thing : the browser then regularly refreshes the /IndexImportMediawiki_p.html page, showing the progress, but never clearly indicates when the task is terminated (at least on my last import test).

It also bothered me last time I used this feature. I will try to find some time to improve these points.

Have a nice day

Statistik: Verfasst von luc — Mo Apr 03, 2017 3:58 pm


English • Greetings, Salutations, & A Plea For Help

Date: 2017-04-04 05:50:45

First off hello, I am happy to be here. I tried messing about with yacy some time ago, but gave up on it with very little effort. A bit part of my issue is that I am not much of a joiner and asking for help on forums is not something I regularly do, but I really like the project and would love to make a real go of it this time around. My primary aim is to use yacy as my goto general purpose search engine. With that in mind I have a few questions.

What are the realistic hardware requirements for this? A lot of the discussions and tutorials seem to focus on specific use cases.

Are there any simple tricks or tips to improve results and relevance for general search?

Is there any encryption or anonymity in peer searches? Is any planned? (that would be great)

Don\’t let the name fool you, I actually try to be kind and courteous and helpful. I can\’t spend long hours on forums, but I will try to reply to anything anyone posts here. I may be away from the computer so, if I don\’t get back right away please accept my apologies in advance and know that I will as soon as possible. Thanks for any help. Look forward to hearing from you.

Statistik: Verfasst von jerk — Di Apr 04, 2017 4:50 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-04-04 09:36:34

hy luc, thank for your reply.
I undestand, i can only import wikidumps, if i have a browser on my Yacy server.
In my case, Yacy run on Linux and I have only a shell to controll Yacy on the local maschine.

Do you know a solution to import wikidumps without a browser?

Statistik: Verfasst von promocore — Di Apr 04, 2017 8:36 am


Fragen und Antworten • Re: Seed Upload will nicht mehr

Date: 2017-04-04 10:59:17

Ein freundliches Hallo in die Runde! Ich habe hier genau dieses Problem. Gibt es nach fast 10 Jahren eine Lösung?

Grüße

Statistik: Verfasst von shni — Di Apr 04, 2017 9:59 am


Fragen und Antworten • Re: Seed Upload will nicht mehr

Date: 2017-04-04 12:02:59

Ich gehe mal von einem Konfigurationsfehler aus.

Wie hast du denn deinen Seedupload konfiguriert?

Statistik: Verfasst von promocore — Di Apr 04, 2017 11:02 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-04-04 13:26:13

From a linux shell you can proceed as follow :
- get the dump on your Linux machine, for example with curl, wget, or scp
- on a debian install, go to /usr/share/yacy/bin
- then run

Code:
sh importmediawiki.sh /yourpath/yourdump.xml.bz2
/IndexImportMediawiki_p.html?file=file:///absolute/server/path/to/yourdump.xml.bz2)
what is important is just to first download the dump on your Linux machine and then feed the \“file\” parameter with the dump file path as it appears on the remote Linux machine.
dump.xml.bz2)
what is important is just to first download the dump on your Linux machine and then feed the \“file\” parameter with the dump file path as it appears on the remote Linux machine.

Statistik: Verfasst von luc — Di Apr 04, 2017 12:26 pm


Fragen und Antworten • Re: Seed Upload will nicht mehr

Date: 2017-04-04 19:04:08

Hi Promocore, das ist sehr weise, bestimmt/hoffentlich liegt es an mir! :D
Upload-Methode: Ftp
URL: https://yacy.unbubble.eu/seed.txt

Die Angaben unter \“Upload per FTP\” sollten eigentlich stimmen, der Upload klappte jedenfalls eben gerade. Trotzdem kommt die Meldung:

\ Seed Einstellungen wurden geändert, aber etwas stimmt nicht.\ \ SaveSeedList: Seed upload failed (IO error): Server returned status: HTTP/1.1 400 Bad Request\

Statistik: Verfasst von shni — Di Apr 04, 2017 6:04 pm


English • Re: Greetings, Salutations, & A Plea For Help

Date: 2017-04-04 22:26:58

Hi there,
I\’m pretty new to Yacy myself, so I don\’t think I can be much help to you. Just wanted to say: \“Hello\“, mainly.
The forums seem awfully quit, to be honest. I am hoping for some new interest and enthusiasm in Yacy.
Greetings,

Statistik: Verfasst von itchigo — Di Apr 04, 2017 9:26 pm


English • Re: Greetings, Salutations, & A Plea For Help

Date: 2017-04-05 09:37:42

Hi guys, yes these times you won\’t be annoyed by plenty of messages on this forum...
By the way welcome! I hope you will find your way through this amazing but no so simple tool. If you want to make YaCy your main search application to my mind it requires a bit of learning time. My advice would be to experiment and play regularly with it, not expecting from it to replace immediately your usual favourite search engines.

\ What are the realistic hardware requirements for this? A lot of the discussions and tutorials seem to focus on specific use cases.\


From my (partial) own experience, I would say the following is a good start for a small (no more than a few millions indexed documents) general purpose peer :
- 1GB RAM, a few dedicated GB space disk, 2 Ghz processor
Important : if you don\’t have that much disk space, you should regularly clean the index, manually or with a scheduled task (see this other thread{.postlink} for some more details)

\ Are there any simple tricks or tips to improve results and relevance for general search?\


- you can struggle with ranking parameters, but another way that can work fine in many cases is to crawl the websites you are interested in, even just their index page. Of course you don\’t want to crawl the whole internet and that is not the idea of this project, but having in your own local index enough websites that are relevant especially for you will help. Improving the relevance of results from other peers is not an easy task.

\ Is there any encryption or anonymity in peer searches? Is any planned? (that would be great)\


- Peer to peer communication is not exactly clear text, but basically base 64 encoded. Strong encryption between peers is something to consider, and https could do the job. But we have to be careful : I mean, does it really makes sense to encrypt communications with untrusted peers if users have no more way to analyse what is going in and out on their network? Private information retrieval{.postlink} techniques could also be promising, but I am not sure whether it is already accessible apart to cryptography specialists.

See you soon

Statistik: Verfasst von luc — Mi Apr 05, 2017 8:37 am


Fragen und Antworten • Re: Seed Upload will nicht mehr

Date: 2017-04-05 11:57:15

Soweit scheint es dann ok zu sein.
Die Indexdatei ist ja auch aus dem Internet erreichbar.
Hast du schon anstatt https <-> http ausprobiert?

Statistik: Verfasst von promocore — Mi Apr 05, 2017 10:57 am


English • Re: Greetings, Salutations, & A Plea For Help

Date: 2017-04-05 15:23:22

Nice to meet you itchigo, I was thinking the same thing. It\’s terrible when you see a great p2p technology, die due to lack of participation. I was thinking that one good way to do this would be to get all the google-blocked urls from those \“chilling effects\” reports and add them to our indices. Then we could make a sort of \“Here\’s what google is hiding from you\” pitch. The issue would be making sure that those results came up the top of a search.

Statistik: Verfasst von jerk — Mi Apr 05, 2017 2:23 pm


English • Re: Greetings, Salutations, & A Plea For Help

Date: 2017-04-05 15:46:47

Nice to meet you luc. I have no delusions about the difficulty or time involved in this one. I\’m sure I\’ll always have to go back to big data for some things. Right now I\’m running yacy on a vm with a single core cpu and 1 GB of RAM. I did have a crawler going at one point just to see how it would work, the system ran out of memory and crashed after one day. Works fine without the crawler though. I can probably throw it one more gig from my work station, we\’ll see.

Crawling sites that I like would indeed improve my index, but it seems like adding sites you already know about to your search database kind of defeats the purpose of web search anyway. Probably going to have to figure out the ranking thing

One of the things I love about yacy is that my searches do not have to leave my own local network. This means that, malware aside, I don\’t have to worry about any sort of MITM attack. When it leaves my LAN the data would be vulnerable. In the U.S. there is new legislation being discussed that would allow all ISPs to monitor all internet traffic and sell the information off to whomever they choose. Strong encryption would be useful in preventing this.

Anyhow, I appreciate all the advice. I will definately check out the links. Have a great day and thanks for getting back.

Statistik: Verfasst von jerk — Mi Apr 05, 2017 2:46 pm


Fragen und Antworten • Re: Seed Upload will nicht mehr

Date: 2017-04-05 20:32:28

Mit HTTP klappt es nun. Vorher war auch das gescheitert, aber da ware dann wohl noch DNS- oder FTP-Probleme im Weg.

Danke für die Anteilnahme ;)

Statistik: Verfasst von shni — Mi Apr 05, 2017 7:32 pm


English • Progress indicator?

Date: 2017-04-05 20:43:22

[Hi!]{style=“font-weight: bold”} :D
Is there any progress bar (or any other - similar kind of indicator, for crawling process?
I started crawling a website and after ~10h yacy is still crawling.
Can someone predict, when the process will be completed?

[TIA!]{style=“font-weight: bold”} ;) G.

Statistik: Verfasst von Giorgos — Mi Apr 05, 2017 7:43 pm


English • Re: Progress indicator?

Date: 2017-04-06 01:51:38

I only joined these forums recently myself, so I am not certain how much help I can be to you. It would seem to me however that in order for the crawler to produce a progress bar, it would have to know how long the process should take. Since that determination cannot be made until the site has been crawled, I would think that a crawler progress bar would be impossible. Just a thought though.

Statistik: Verfasst von jerk — Do Apr 06, 2017 12:51 am


English • Re: Progress indicator?

Date: 2017-04-06 09:43:54

Hello,
I also agree with jerk, YaCy can not predict itself the end of a crawl task because it depends on the links found in the crawled pages... unknown before crawling. But maybe an approximation could be calculated when re-crawling a known website...

By the way, I believe that currently the best estimation will come from your knowledge of the website content, the \“Crawling Depth\” and eventual URLs filters you used, and the monitored \“Crawler PPM\” value on the first hours.

If your crawl appears to be too long for you, maybe some of your crawl parameters should be re-adjusted.

Statistik: Verfasst von luc — Do Apr 06, 2017 8:43 am


English • Re: Progress indicator?

Date: 2017-04-06 15:45:01

[THANKS]{style=“font-weight: bold”} guys[!!!]{style=“font-weight: bold”} ;) I\’ll look at it, again.
G.

Statistik: Verfasst von Giorgos — Do Apr 06, 2017 2:45 pm


English • Does YaCy supports p2p over different net types?(i2p/tor/cl)

Date: 2017-04-07 05:25:34

Hi all,
I\’ve been reading docs and can\’t grasp the idea - suppose my node is running as a tor hidden service and is not able to access clearnet, also the crawling is limited to *.onion only. So all my peers are eventually discovered on tor.

If there\’s also another network running in i2p, and another network running on top of clearnet, and some of the nodes (not mine) are present on 2 or 3 networks at some time (I believe its possible?), will I be able to somehow utilize the benefit of having these peers to access the data while not leaving the privacy of tor-only access for me? Or these nodes and their content will be basically unavailable?

How is YaCy supposed to work over mixed network types?

Statistik: Verfasst von igorastds — Fr Apr 07, 2017 4:25 am


Fragen und Antworten • RegEx, Problem mit Eingabe und Verhalten

Date: 2017-04-07 11:44:45

Hi,

ich versuche gerade, alle Crawls mittels Blacklist einzuschränken. Dabei stoße ich auf diverse Probleme bei der Eingabe des Regex.

Folgender Ausdruck soll in die Blacklist: \^https?://(www\.)?[\^\.]+\.[\^\./]+(/[\^/]){0,2}/?\$

Wenn man so etwas speichern möchte, wird es von YaCy komplett geschreddert. Ich habe es am Ende per Hand in die Blacklist eingetragen, selbst dann verwandelt blacklist_p.html alle Plus (+) in Leerzeichen. Das mag ein optisches Problem sein, aber wenn man dann dasselbe speichern möchte, via blacklist_p.html, dann wird daraus:

.*.*/.*.*\^https?://(www\.)?[\^\.] \.[\^\./] (/[\^/]){0,2}/?\$.*/.*.*

Da gibt es offensichtlich ein totales Missverständnis des * und + Quantifiers. Ähnliche Probleme gab es auch zum Beispiel beim Löschen von Index-Einträgen. Auch da lässt sich nicht mit echten regulären Ausdrücken arbeiten. Gibt es vielleicht eine Best-Practice, wann man * als Wildcard und wann als Regex-Quantifier nimmt?

Grüße

Statistik: Verfasst von shni — Fr Apr 07, 2017 10:44 am


Fragen und Antworten • Re: API to change Process Scheduler

Date: 2017-04-09 01:59:00

Hi,

I can\’t find documentation on the autocrawl settings in yacy.init, https://github.com/yacy/yacy_search_ser ... .init#L547{.postlink}

If it does what it implies, all submitted sites would be crawled every day. Seem correct?

Thank you.

Statistik: Verfasst von DNcrawler — So Apr 09, 2017 12:59 am


English • YaCy searching Openbazaar

Date: 2017-04-10 14:38:21

Hello to all,

OpenBazaar https://openbazaar.org/ is an Open Source p2p marketplace employing Kademlia style DHT.

How can I use YaCy to search the OpenBazaar namespace to list all vendors?

I have no idea if this is possible.

And if it is possible; I am asking someone to please tell me how.

I am currently using two Raspberry Pi boards 247 to run YaCy + OpenBazaar.

This looks like it could be a match made in heaven.


All the Best
[ _44-4N_26-1E_ ]

Statistik: Verfasst von _44-4N_26-1E_ — Mo Apr 10, 2017 1:38 pm


English • Re: YaCy searching Openbazaar

Date: 2017-04-11 09:32:21

As you\’ve set up both, aren\’t there any listing pages provided by the OpenBazaar client to start crawling with?

Statistik: Verfasst von shni — Di Apr 11, 2017 8:32 am


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2017-04-11 10:05:03

Unbubble.eu{.postlink} greift unter anderem auf eine private YaCy-Instanz zurück. Deren Suchtreffer sind unterhalb durch einen YaCy-Link gekennzeichnet.

Statistik: Verfasst von shni — Di Apr 11, 2017 9:05 am


English • Recrawling

Date: 2017-04-11 15:32:02

I\’m not sure if the recrawling is a working function in Yacy. For recrawling I mean the action to crawl again the websites of the index and so add new pages and/ or delete the old not working ones.

In http://websitename.com/IndexReIndexMonitor_p.html there is a \“Re-Crawl Index Documents\” function that I activated but:
1) the number of documents to process do not correspond to the real number of total indexed documents;
2) it has not indexed all new documents published in websites I\’m monitoring

Kinf regards.

Mario

Statistik: Verfasst von irnerio — Di Apr 11, 2017 2:32 pm


English • Re: YaCy searching Openbazaar How to do it

Date: 2017-04-11 16:11:12

Thank you for your reply,

Would that there were.

Since OpenBazaar is open source; it would seem easy enough to trawl through the code looking for some hook.

But for me that is not the case. I have been searching high and low for a solution.

The last time that I looked, OpenBazaar had less than 300 Vendors. I want to repeat a vendor search as that total number of vendors grows.

I want to use YaCy to search the OpenBazaar NameSpace so that I might have control instead of allowing search control to someone else.

I have a great distrust of authority in all of its forms.

Here is my little monkey story for illustration.

Some good time ago using a tablet from my home ip address I searched internet for \“hatay\” using a search engine provided by one of the largest companies in the world.

I know that word \“hatay\” very well and I knew what I was looking for. The search returned more than several million results. So I skimmed through 30 pages of results; to see who was reporting what.

On that same day at a friend,s house using my same tablet via my friend\’s ip address (same Internet service provider ) I searched for \“hatay\” and got different results. I was somewhat surprised and I studied the listing closely.

Later at my home a search for \“hatay\” gave me the same results that I had seen five hours earlier. WTF !!! Being curious now, I fired up a TOR browser and searched again.

Lo and Behold; Different results for different ip addresses.

That\’s my story and Im sticking to it.

And so finally will having some sense of control over searching a small space really make any difference?

Maybe not; but I will think that it does.

Stop me if you have heard this joke.

A guy goes to the doctor.

The doctor tells him that he has to give up smoking + drinking + sex.

The guy asks \“Doctor will I live longer? \”

The doctor says \“No you will not live longer, But you will think that it is longer.\”

--Best Regards and thank you to the producers of YaCy-

Statistik: Verfasst von _44-4N_26-1E_ — Di Apr 11, 2017 3:11 pm


Solr Support • Feature \‘Restart Solr\’

Date: 2017-04-11 16:18:32

Hi,

wollte heute das builtin Solr neustarten und habe dafür auf \‘Restart Solr\’ gedrückt. Danach wurden zahlreiche NPEs geworfen und das Webinterface war nicht mehr erreichbar.

Code:
W 2017/04/11 16:05:19 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.GeneratedMethodAccessor267.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)Caused by: java.lang.NullPointerException        at net.yacy.search.schema.CollectionConfiguration$CRHost.<init>(CollectionConfiguration.java:1913)        at net.yacy.search.schema.CollectionConfiguration.createRankingMap(CollectionConfiguration.java:1641)        at net.yacy.search.schema.CollectionConfiguration.postprocessing(CollectionConfiguration.java:1227)        at net.yacy.search.Switchboard.cleanupJob(Switchboard.java:2579)        ... 5 moreW 2017/04/11 16:05:19 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException        at net.yacy.search.schema.CollectionConfiguration$CRHost.<init>(CollectionConfiguration.java:1913)        at net.yacy.search.schema.CollectionConfiguration.createRankingMap(CollectionConfiguration.java:1641)        at net.yacy.search.schema.CollectionConfiguration.postprocessing(CollectionConfiguration.java:1227)        at net.yacy.search.Switchboard.cleanupJob(Switchboard.java:2579)        at sun.reflect.GeneratedMethodAccessor267.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)W 2017/04/11 16:05:19 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException        at net.yacy.search.schema.CollectionConfiguration$CRHost.<init>(CollectionConfiguration.java:1913)        at net.yacy.search.schema.CollectionConfiguration.createRankingMap(CollectionConfiguration.java:1641)        at net.yacy.search.schema.CollectionConfiguration.postprocessing(CollectionConfiguration.java:1227)        at net.yacy.search.Switchboard.cleanupJob(Switchboard.java:2579)        at sun.reflect.GeneratedMethodAccessor267.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)E 2017/04/11 16:05:19 BUSYTHREAD Runtime Error in serverInstantThread.job, thread 'BusyThread net.yacy.search.Switchboard.cleanupJob': null; target exception: nulljava.lang.NullPointerException        at net.yacy.search.schema.CollectionConfiguration$CRHost.<init>(CollectionConfiguration.java:1913)        at net.yacy.search.schema.CollectionConfiguration.createRankingMap(CollectionConfiguration.java:1641)        at net.yacy.search.schema.CollectionConfiguration.postprocessing(CollectionConfiguration.java:1227)        at net.yacy.search.Switchboard.cleanupJob(Switchboard.java:2579)        at sun.reflect.GeneratedMethodAccessor267.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)E 2017/04/11 16:05:19 BLOCKINGTHREAD Internal Error in serverInstantThread.job: nullE 2017/04/11 16:05:19 BLOCKINGTHREAD shutting down thread 'java.lang.reflect.Method.transferDocumentIndex.7'W 2017/04/11 16:05:19 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.GeneratedMethodAccessor45.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)        at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)        at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.NullPointerException        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:319)        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:311)        at net.yacy.peers.Protocol.transferURL(Protocol.java:1649)        at net.yacy.peers.Protocol.transferIndex(Protocol.java:1518)        at net.yacy.peers.Transmission$Chunk.transmit(Transmission.java:220)        at net.yacy.peers.Dispatcher.transferDocumentIndex(Dispatcher.java:372)        ... 10 moreW 2017/04/11 16:05:19 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:319)        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:311)        at net.yacy.peers.Protocol.transferURL(Protocol.java:1649)        at net.yacy.peers.Protocol.transferIndex(Protocol.java:1518)        at net.yacy.peers.Transmission$Chunk.transmit(Transmission.java:220)        at net.yacy.peers.Dispatcher.transferDocumentIndex(Dispatcher.java:372)        at sun.reflect.GeneratedMethodAccessor45.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)        at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)        at java.lang.Thread.run(Thread.java:745)W 2017/04/11 16:05:19 ConcurrentLog java.lang.NullPointerExceptionjava.lang.NullPointerException        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:319)        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:311)        at net.yacy.peers.Protocol.transferURL(Protocol.java:1649)        at net.yacy.peers.Protocol.transferIndex(Protocol.java:1518)        at net.yacy.peers.Transmission$Chunk.transmit(Transmission.java:220)        at net.yacy.peers.Dispatcher.transferDocumentIndex(Dispatcher.java:372)        at sun.reflect.GeneratedMethodAccessor45.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)        at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)        at java.lang.Thread.run(Thread.java:745)E 2017/04/11 16:05:19 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.transferDocumentIndex.7': nullE 2017/04/11 16:05:19 org.apache.solr.handler.RequestHandlerBase org.apache.solr.common.SolrException: Exception during facet.field: host_s        at org.apache.solr.request.SimpleFacets$3.call(SimpleFacets.java:721)        at org.apache.solr.request.SimpleFacets$3.call(SimpleFacets.java:706)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at org.apache.solr.request.SimpleFacets$2.execute(SimpleFacets.java:660)        at org.apache.solr.request.SimpleFacets.getFacetFieldCounts(SimpleFacets.java:731)        at org.apache.solr.handler.component.FacetComponent.getFacetCounts(FacetComponent.java:294)        at org.apache.solr.handler.component.FacetComponent.process(FacetComponent.java:256)        at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155)        at org.apache.solr.core.SolrCore.execute(SolrCore.java:2102)        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:178)        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149)        at org.apache.solr.client.solrj.SolrClient.query(SolrClient.java:942)        at org.apache.solr.client.solrj.SolrClient.query(SolrClient.java:957)        at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getResponseByParams(EmbeddedSolrConnector.java:339)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getResponseByParams(MirrorSolrConnector.java:272)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.getResponseByParams(ConcurrentUpdateSolrConnector.java:317)        at net.yacy.peers.Protocol.solrQuery(Protocol.java:1054)        at net.yacy.peers.RemoteSearch$2.run(RemoteSearch.java:349)Caused by: org.apache.lucene.index.ExitableDirectoryReader$ExitingReaderException: Interrupted while iterating over terms. TermsEnum=org.apache.lucene.codecs.blocktree.SegmentTermsEnum@e640ffc        at org.apache.lucene.index.ExitableDirectoryReader$ExitableTermsEnum.checkAndThrow(ExitableDirectoryReader.java:171)        at org.apache.lucene.index.ExitableDirectoryReader$ExitableTermsEnum.next(ExitableDirectoryReader.java:178)        at org.apache.lucene.index.MultiTermsEnum.pushTop(MultiTermsEnum.java:275)        at org.apache.lucene.index.MultiTermsEnum.next(MultiTermsEnum.java:301)        at org.apache.solr.request.SimpleFacets.getFacetTermEnumCounts(SimpleFacets.java:935)        at org.apache.solr.request.SimpleFacets.getTermCounts(SimpleFacets.java:442)        at org.apache.solr.request.SimpleFacets.getTermCounts(SimpleFacets.java:382)        at org.apache.solr.request.SimpleFacets$3.call(SimpleFacets.java:715)        ... 18 moreI 2017/04/11 16:05:19 org.apache.solr.update.DirectUpdateHandler2 closing DirectUpdateHandler2{commits=12308,autocommit maxTime=15000ms,autocommits=11919,soft autocommits=0,optimizes=0,rollbacks=0,expungeDeletes=0,docsPending=0,adds=0,deletesById=0,deletesByQuery=0,errors=0,cumulative_adds=6239691,cumulative_deletesById=3942,cumulative_deletesByQuery=3,cumulative_errors=0,transaction_logs_total_size=77548,transaction_logs_total_number=5}W 2017/04/11 16:07:35 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.GeneratedMethodAccessor450.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:670)        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:881)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:745)Caused by: java.lang.NullPointerException        at net.yacy.search.index.Fulltext.getLoadTime(Fulltext.java:533)        at transferRWI.respond(transferRWI.java:238)        ... 30 moreW 2017/04/11 16:07:35 org.eclipse.jetty.servlet.ServletHandlerjavax.servlet.ServletException: /mnt/3200gb/yacy2/htroot/yacy/transferRWI.html        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:895)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)        at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:745)



v1.929000


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Apr 11, 2017 3:18 pm


Mitmachen • Re: Mein \“Geschenk\” an die Community

Date: 2017-04-11 16:32:27

Hi,

nach längeren Monaten Analyse meines Peers Endeavour im \‘freeworld\’ habe ich den Flaschenhals bei einer Indexgröße von fast 200 Mio. Dokumenten ausgemacht: Zu wenig RAM ist überhaupt kein Problem mehr - vielmehr ist die Zugriffszeit der Festplatte zumm Hauptproblem geworden: Obwohl ich eine Enterprise SAS 2.0 Festplatte mit 3,4 ms Zugriffszeit und 32 MB Cache verwende kommt es zur folgenden Problematik: Ticket Nr. 736 im Mantis{.postlink}

<spass>
Villeicht will mir ja jemand eine 4 TB PCIe SSD{.postlink} spendieren.
</spass>

:D :D :D :D

Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Apr 11, 2017 3:32 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-04-12 12:56:16

Hello luc,

sorry for my late reply. Thank you very much for your help but your workarounds didn\’t work for me.
I hope that this... bug will be fixed in the near future.


Best regards

Palulukas

Statistik: Verfasst von Palulukas — Mi Apr 12, 2017 11:56 am


Fragen und Antworten • Ranking... (Solr vs. RWI)

Date: 2017-04-13 15:48:22

Hallo,

ich muss erstmal sagen, dass ich von YaCy recht begeistert bin, auch, wenn die erste Lernkurve extrem mühsam war. Aktuell läuft YaCy als privater Peer auf meinem Testserver und crawlt rund um die Uhr das www. Ich experimentiere dafür mit autmatisch aus einer anderen Datenbank erzeugten URL-Listen, um das Crawling zu optimieren und nicht so viel unnützen Ballast \“aufzusaugen\“. Das klappt momentan ganz gut.

Was mich an YaCy in meinem Use-Case leider überhaupt nicht mehr überzeugt, ist das Ranking der Suchtreffer. Zwei Fragen dazu:

[[1. Stimmt meine Einschätzung, dass RWI-Ranking grundsätzlich für private Peers abgeschaltet ist und darum der Citation Reference Index inaktiv ist?]{style=“font-style: italic”}]{style=“font-weight: bold”}

[[2. Kann man das RWI-Ranking vielleicht mit einfachen Mitteln für private Peers aktivieren? (z. Bsp. Code- oder Config-Änderung?)]{style=“font-style: italic”}]{style=“font-weight: bold”}

Ich bin für jede Antwort und Hilfestellung dankbar! Auch, falls jemand noch Ideen hat, wie man die Qualität der Suchergebnisse anderweitig verbessern kann... gerne immer her damit!

Grüße

Statistik: Verfasst von shni — Do Apr 13, 2017 2:48 pm


Fragen und Antworten • Re: Ranking... (Solr vs. RWI)

Date: 2017-04-14 11:59:09

Hi,

lass mich die drei Dinge kurz auseinanderknoten:
- RWI-Ranking: das war unser vor-Solr Ranking, welches auf dem disttributed Index angewendet wurde. Ist immer noch aktiv für p2p Suche
- Solr Ranking: unser Default für lokale Suche. Bei einem privaten Peer gibt es keinen RWI-Index für p2p-Sharing und damit auch kein RWI Ranking, nur Solr Ranking
- Citation Reference: das war (ist) ein zweiter Index, welcher durch postprocessing angereichert wurde. Das Postprocessing war ein übler Ressourcenfresser und wurde daher wieder abgeschaltet. Prinzipiell ist die Funktion da, aber inaktiv. Das Ranking wird dann über Settings beim Solr Index aktiviert. Das ist aber kompliziert.

Insgesamt ist es wahr dass die Qualität der Suche mit dem Ranking korreliert. Ich empfehle da mal in /RankingSolr_p.html nachzugucken und in https://wiki.apache.org/solr/FunctionQuery nachzulesen was eine Funktion Query ist, denn damit hat man die flexibelste Art, das Ranking zu verändern. Die dazu notwendigen Attribute für die Funktionen findet man im Index Schema, das ist in /IndexSchema_p.html zu finden.

Statistik: Verfasst von Orbiter — Fr Apr 14, 2017 10:59 am


English • Re: Recrawling

Date: 2017-04-14 15:26:13

Hi Mario,
the Re-Crawl feature re-crawls and updates already indexed documents, but the crawl depth is there set to zero : this means if an indexed page has new links in a new published version (not yet known by your YaCy peer), their content won\’t be crawled and added to your local index.
To my mind, if you want to be sure to keep a fresh index of a website you have better regularly run a full crawl (/CrawlStartExpert.html), eventually scheduled with the YaCy internal Process Scheduler (/Table_API_p.html) or with a cron task or any convenient external scheduler.

Best regards,
Luc

Statistik: Verfasst von luc — Fr Apr 14, 2017 2:26 pm


English • Re: Recrawling

Date: 2017-04-14 22:10:18

Hi Luc ! I\’m trying now the full recrawl plan. For full recrawl I mean that I\’ve inserted again all the websites of the index and recrawled it. I don\’t understand how to cron this. It\’s a shame that there isn\’t a way to keep the index automatically updated. I\’m not a programmer and there is probably a big issue about this functionality.

Thank you again for your response. If somebody will donate me few bucks I will have the money to pay a programmer :-D

Mario

Statistik: Verfasst von irnerio — Fr Apr 14, 2017 9:10 pm


Hilfe für Einsteiger und Anwender • Re: HDD läuft voll -> Umzug auf eine größere HDD?

Date: 2017-04-15 09:38:50

Ok Palulukas,
some other people also have issues with the Export feature (see https://github.com/yacy/yacy_search_server/issues/116 and http://mantis.tokeek.de/view.php?id=682).

Could you check your YaCy logs to see if you have a similar error message (\“java.lang.IllegalStateException: unexpected docvalues type NONE for field \‘load_date_dt\’ (expected=NUMERIC). Use UninvertingReader or index with docvalues.\“) or any another one?

Statistik: Verfasst von luc — Sa Apr 15, 2017 8:38 am


English • Re: Recrawling

Date: 2017-04-15 10:00:38

With the YaCy Process Scheduler (/Table_API_p.html) you just have to :
- find your last crawl start action(s) : in that page you can search for \“crawl\” or sort by \“Recording Date\” by clicking on that column for example
- in the \“Scheduler\” column, select the \“activate scheduler\” combo box option and then the appropriate periodicity.

With cron on a linux machine it is also quite simple :
- first try to start your crawl from command line : for example with the help of YaCy bin/apicall.sh script and using the parameters recorded in the /Table_API_p.html
- then schedule this command line as a cron job : see for example the related Debian documentation{.postlink}

But of course I agree it is not super user friendly : why not share here some ideas of which feature would make it easier? Some ideas :
- an option in the crawl start page to tell directly that you will want to run this task regularly?
- a new specific page with a list of websites/URLs whose index should be maintened up-to-date?
...

Statistik: Verfasst von luc — Sa Apr 15, 2017 9:00 am


Fragen und Antworten • Re: Ranking... (Solr vs. RWI)

Date: 2017-04-15 11:56:36

Hi Orbiter,

Orbiter hat geschrieben:\ Citation Reference: das war (ist) ein zweiter Index, welcher durch postprocessing angereichert wurde. Das Postprocessing war ein übler Ressourcenfresser und wurde daher wieder abgeschaltet. Prinzipiell ist die Funktion da, aber inaktiv. Das Ranking wird dann über Settings beim Solr Index aktiviert. Das ist aber kompliziert.\


Ist Citation Reference das, was beim Crawling unter \“Citations (reverse link index)\” steht? Nach einer Woche ist der Index bei mir schon auf über 30 Mio Einträge angewachsen. Wenn ich nicht irre, kan man den in den Einstellungen abschalten: ist das ratsam, um Ressourcen zu schonen, oder hat er noch irgend eine andere wichtige Funktion?

Danke jedenfalls für die Infos!

Statistik: Verfasst von shni — Sa Apr 15, 2017 10:56 am


English • Re: Recrawling

Date: 2017-04-15 15:47:47

I\’ve just scheduled a process to recrawl all index at 00:00 am every day. :shock:

But I\’ve noticed that when you recrawl the index is canceled. Could be useful a way to add only new pages to database without deleting the old index.

I.e. 1) you recrawl; 2) the robot finds new pages; 3) it adds new pages to archive and deletes not working ones.

Yes, a new specific page where you may edit a list of webpages to mantain updated would be great.

My Yacy engine is: http://irnerio.sabatino.pro and is a search engine on the topic of Italian law.


luc hat geschrieben:\ With the YaCy Process Scheduler (/Table\_API\_p.html) you just have to :\ - find your last crawl start action(s) : in that page you can search for \"crawl\" or sort by \"Recording Date\" by clicking on that column for example\ - in the \"Scheduler\" column, select the \"activate scheduler\" combo box option and then the appropriate periodicity.\ \ With cron on a linux machine it is also quite simple :\ - first try to start your crawl from command line : for example with the help of YaCy bin/apicall.sh script and using the parameters recorded in the /Table\_API\_p.html\ - then schedule this command line as a cron job : see for example the related Debian [documentation](https://www.debian.org/doc/manuals/debian-handbook/sect.task-scheduling-cron-atd.en.html){.postlink}\ \ But of course I agree it is not super user friendly : why not share here some ideas of which feature would make it easier? Some ideas :\ - an option in the crawl start page to tell directly that you will want to run this task regularly?\ - a new specific page with a list of websites/URLs whose index should be maintened up-to-date?\ \...\

Statistik: Verfasst von irnerio — Sa Apr 15, 2017 2:47 pm


Fragen und Antworten • Re: Crawldauer

Date: 2017-04-17 20:26:36

Ich antworte mir jetzt mal selbst:

Crawl wurde gerade beendet, also 20:11 Uhr. Das Ganze hat folglich bei einer Tiefe von [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} etwas über [[8]{style=“font-style: italic”}]{style=“font-weight: bold”} Stunden gedauert, die Anzahl der Dokumente sind dabei von [[~2.600]{style=“font-style: italic”}]{style=“font-weight: bold”} auf [[124.464]{style=“font-style: italic”}]{style=“font-weight: bold”} gestiegen, das hat schon was! :mrgreen:

Nun muß ich mir nur meine alte Anleitung wieder zusammensuchen, so daß die Verbindung wieder per SSH verschlüsselt wird, da fühle ich mich dann doch wieder etwas wohler. Ein paar Teile habe ich schon und wenn ich fertig bin gibt es für YaCy und SSH unter Ubuntu ein entsprechendes Tutorial auf meinem Blog! Leider ist mir da ein spezieller Link abhanden gekommen, dauert also wohl ein paar Tage!


Schönen Abend wünsche ich noch allen!

Mike

Statistik: Verfasst von TmoWizard — Mo Apr 17, 2017 7:26 pm


Fragen und Antworten • Crawldauer [erledigt]

Date: 2017-04-17 20:27:30

Hallöchen zusammen,

ich hätte da interessehalber mal folgende Frage:

Wie lange [[könnte]{style=“font-style: italic”}]{style=“font-weight: bold”} ein [[\“Experten Crawl\“]{style=“font-style: italic”}]{style=“font-weight: bold”} bei der Standardeinstellung [(einzige Ausnahme: es ist ein Principal-Peer)]{style=“font-style: italic”} von YaCy ungefähr dauern?

Folgendes System ist gegeben:


Auf diesem Rechner bzw. [[\“Server\“]{style=“font-style: italic”}]{style=“font-weight: bold”} läuft ansonsten nichts anderes, da ich ihn erst vor ein paar Tagen speziell für YaCy eingerichtet habe. Gecrawlt wird seit heute ca. 12:00 Uhr nur [[mein eigenes Blog{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, bei welchem es jedoch eine ziemliche Menge Links zu anderen Seiten gibt!

Wie geschrieben dient das nur der Interesse, da der Server 247 läuft und nur bei entsprechenden Updates neu gestartet werden muß.

Fröhliche Ostergrüße nun aus Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Mo Apr 17, 2017 12:24 pm


Mitmachen • Ein Tutorial für YaCy!

Date: 2017-04-20 10:27:24

Hallöchen liebe YaCy-Gemeinde!

Ich habe mich tatsächlich dazu entschlossen, daß ich ein YaCy-Tutorial schreibe! Es war zwar eine Menge an Arbeit, aber nun ist es geschafft und veröffentlicht:

[[[P2P-Tutorial – #YaCy und HTTPS: Die sichere Suchmaschine!{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}]{style=“font-size: 150%; line-height: 116%;“}

Es wird allerdings nochmal überarbeitet, da ich es auch noch bebildern möchte. Da es derzeit jedoch Probleme mit meinem Blog gibt dauert das noch eine Weile, bis dahin könnt ihr es euch ja mal ansehen und entsprechende Kommentare dazu abgeben. Über Lob und Kritik freue ich mich jederzeit, Verbesserungsvorschläge sind erwünscht und erlaubt! :mrgreen:

Ich hoffe, daß mir nicht zu grobe Fehler unterlaufen sind. Allerdings denke ich, daß ich das Tutorial gut hingebracht habe. Ist ja nicht das Erste, welches ich auf meinem Castle veröffentlicht habe! ;)

Viele Grüße nun aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Do Apr 20, 2017 9:27 am


Mitmachen • Re: Ein Tutorial für YaCy!

Date: 2017-04-20 22:56:30

:D super!

Statistik: Verfasst von Orbiter — Do Apr 20, 2017 9:56 pm


Mitmachen • Re: Ein Tutorial für YaCy!

Date: 2017-04-21 07:56:16

Orbiter hat geschrieben:\ :D super!\



Tja, so ein Blog kann nützlich sein! 8-) Da mir das Schreiben zudem Spaß macht dachte ich mir [[\“Mach doch einfach!\“]{style=“font-style: italic”}]{style=“font-weight: bold”}. So trage ich nicht nur zum Index bei, sonder mache YaCy auch noch meinen Leserinnen und Lesern auf dem Blog und auch meinen Followern bei Twitter und Facebook bekannt! ;)
Wie geschrieben hoffe ich daß mir keine groben Schnitzer unterlaufen sind, da ich es ja schlecht nochmal testen kann. Hab ja nur diesen einen zusätzlichen Rechner, aber auf dem ollen AMD Athlon 64 läuft YaCy recht flott!

Statistik: Verfasst von TmoWizard — Fr Apr 21, 2017 6:56 am


English • Re: Greetings, Salutations, & A Plea For Help

Date: 2017-04-21 19:17:26

jerk hat geschrieben:\ Running yacy on a vm with a single core cpu and 1 GB of RAM.\



https://www.digitalocean.com/community/tutorials/how-to-add-swap-on-ubuntu-14-04

If you manually Create a Swap File for VM you will find it much more reliable.
My Forum is down but just create a Text file with the command sequence that you got working, then next time its copy and paste.

Note some of the articles online beat around the bush but they are more educational now.

Statistik: Verfasst von smokingwheels — Fr Apr 21, 2017 6:17 pm


English • Re: Recrawling

Date: 2017-04-21 19:30:49

In /CrawlStartExpert.html
You may have to set the [\“Clean-Up before Crawl Start?\“]{style=“font-weight: bold”} options before before you schedule gets set in place.

Also it maybe possible if using RSS Feeds to overload your system (coming from the point of a P4) if you have lots schedules too close together.

Statistik: Verfasst von smokingwheels — Fr Apr 21, 2017 6:30 pm


English • Re: Progress indicator?

Date: 2017-04-21 19:45:34

The Creator of Yacy does have a sense humour, if you depth set to 99, I thinks it displays the Text [Eternity]{style=“font-weight: bold”} somewhere.

Statistik: Verfasst von smokingwheels — Fr Apr 21, 2017 6:45 pm


English • Re: Progress indicator?

Date: 2017-04-21 19:58:37

:lol: :lol: :lol:

Statistik: Verfasst von Giorgos — Fr Apr 21, 2017 6:58 pm


English • Black Lists Lets see what you have?

Date: 2017-04-21 20:43:15

After many years of Fun, Learning and Games with The [YaCy Search Engine]{style=“font-weight: bold”}.
I came up with a short list.
Sorry if you are listed. A [#Freedom Choice]{style=“font-weight: bold”}, I have over My Own Peer.
Its [Web Search by the People, for the People]{style=“font-weight: bold”} or [If the Signal is there Why not Tune in.]{style=“font-weight: bold”}

The data for your Default Black List file can be found at in the subfolder of /DATA/LISTS/url.default.black (Linux), \DATA\LISTS\url.default.black (windows).
This list can be Shared or Not Shared and you can have more than 1 (But its confusing sometimes).
Use at own Risk.
Modify, add, remove, copy and paste. If you Wish.

.*.*/.*.*.pl.*/.*.*
.*.*/.*.*doubleclick.net.*/.*.*
.*.*/.*.*blog.pandora.com.*/.*.*
.*.*/.*.*www.baudot.net.*/.*.*
.*.*/.*.*37.120.174.88.*/.*.*
.*.*w.interiowo.pl/.*
.*w.interiowo.pl/.*
xomrt.w.interiowo.pl/.*
tasxz.w.interiowo.pl/.*
ylghm.w.interia.pl/.*
kbgyp.w.interiowo.pl/.*
dlgjp.w.interiowo.pl/.*
jxmtq.w.interiowo.pl/.*
locxe.w.interiowo.pl/.*
qlhld.w.interiowo.pl/.*
nkitn.w.interiowo.pl/.*
iuiyj.w.interiowo.pl/.*
ftwlz.w.interiowo.pl/.*
dyrrg.w.interiowo.pl/.*
.*.*/.*.*interiowo.pl.*/.*.*
.*.*/.*.*interia.pl.*/.*.*
.*.*/.*.*pl.*/.*.*
.*.*/.*.*54.230.96.129.80.*/.*.*
.*.*/.*.*127.0.0.1 facebook.com.*/.*.*
.*.*/.*.*127.0.0.1 twitter.com.*/.*.*
.*.*/.*.*127.0.0.1 google.com.*/.*.*
.*.*/.*.*wondershaper clear eth0 use oftern in loop with sleep.*/.*.*
http://www.google.com/.*
accounts.google.com/.*
feedproxy.google.com/.*
http://www.facebook.com/.*
itunes.apple.com/.*
http://www.amazon.com/.*
open.spotify.com/.*
blogs.technet.microsoft.com/.*
play.google.com/.*
http://www.microsoft.com/.*
channel9.msdn.com/.*
technet.microsoft.com/.*
msdn.microsoft.com/.*
blogs.msdn.microsoft.com/.*
c.s-microsoft.com/.*
plus.google.com/.*
support.microsoft.com/.*
.*.*/.*.*www.msxfaq.de.*/.*.*
http://www.msxfaq.de/.*
http://www.land.nrw/.*
.*.*/.*.*leonet.ddns.net.*/.*.*
.*.*/.*.*2001:0:5ef5:79fd:10d9:3b08:3f57:7f9b:8090.*/.*.*
.*.*/.*.*37.24.146.128.*/.*.*
blogs.office.com/.*
gallery.technet.microsoft.com/.*
products.office.com/.*
http://www.wictorwilen.se/.*
images-eu.amazon.com/.*
download.microsoft.com/.*
http://www.linkedin.com/.*
http://www.cdc-germany.de/.*
msevents.microsoft.com/.*
support.office.com/.*
m.windowsitpro.com/.*
windowstechpro.com/.*
developers.google.com/.*
docs.microsoft.com/.*
.*.*/.*.*ad.doubleclick.net.*/.*.*
.*.*/.*.*ads.ebay.com.*/.*.*
.*.*/.*.*adserver.adtechus.com.*/.*.*
.*.*/.*.*adserver.*/.*.*
.*.*/.*.*addserver.*/.*.*
.*.*/.*.*books.google.com.*/.*.*
.*.*/.*.*chrome.google.com.*/.*.*
.*.*/.*.*deals.ebay.com.au.*/.*.*
.*.*/.*.*es.shopify.com.*/.*.*
.*.*/.*.*news.google.com.*/.*.*
.*.*/.*.*zmvck.w.interiowo.pl/best-search-engine.html.*/.*.*
http://www.android.com/.*
smarturl.it/.*
mbuf.de/.*
s.ch9.ms/.*
http://www.huffingtonpost.de/.*
http://www.amazon.de/.*
social.technet.microsoft.com/.*
http://www.huffingtonpost.es/.*
http://www.surveymonkey.com/.*
translate.google.com/.*
windowspbx.blogspot.com.au/.*
login.live.com/.*
.*.*/.*.*127.0.0.1 127.0.0.1:32793.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:32794.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:40711.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:40712.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:41064.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:41065.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:41624.*/.*.*
.*.*/.*.*127.0.0.1 127.0.0.1:41625.*/.*.*
thumb-cc.s3.envato.com/.*
.*.*/.*.*0.0.0.0 185.65.134.79.*/.*.*
.*.*/.*.*0.0.0.0 94.75.112.242.*/.*.*
lh3.googleusercontent.com/.*
partner.microsoft.com/.*
login.microsoftonline.com/.*
news.microsoft.com/.*
http://www.cafepress.com/.*
http://www.apple.com/.*
alhamdservices.net/.*
http://www.merrillsdetail.com/.*
http://www.forsan-almadinah.com/.*
http://www.rehab-almadinah.org/.*
support.apple.com/.*
http://www.elsefarat.com/.*
abdaa3.com/.*
mobile.twitter.com/.*
http://www.g100g.com/.*
privacy.truste.com/.*
http://www.4-casinos.net/.*
music.google.com/.*
api.jqueryui.com/.*
en.wikipedia.org/.*
sites.google.com/.*
meta.wikimedia.org/.*
.*.*/.*.*37.252.166.209.*/.*.*
.*.*/.*.*210.0.146.27.*/.*.*
.*.*/.*.*117.18.237.70.*/.*.*
.*.*/.*.*104.244.42.129.*/.*.*
.*.*/.*.*104.244.43.199.*/.*.*
.*.*/.*.*104.244.43.167.*/.*.*
.*.*/.*.*192.229.237.96.*/.*.*
.*.*/.*.*104.244.43.39.*/.*.*
.*.*/.*.*45.56.156.7.*/.*.*
.*.*/.*.*117.18.237.29.*/.*.*
.*.*/.*.*104.244.73.43.71.*/.*.*
.*.*/.*.*210.0.146.186.*/.*.*
.*.*/.*.*66.117.25.197.*/.*.*
.*.*/.*.*202.79.210.118.*/.*.*
.*.*/.*.*www.ict-mplane.eu.*/.*.*
.*.*/.*.*bidr.trellian.com.*/.*.*
.*.*/.*.*fsf.org.in.*/.*.*
.*.*/.*.*donate.wikimedia.org.*/.*.*
.*.*/.*.*donate.wikimedia.org/w/index.php.*/.*.*
.*.*/.*.*thesis.lib.nccu.edu.tw.*/.*.*
.*.*/.*.*sid.*/.*.*
.*.*/.*.*www.eliteanimes.com/details/318/ Ashita-no-Yoichi.html.*/.*.*
.*.*/.*.*www.dormagen.de.*/.*.*
.*.*/.*.*wsj.com.*/.*.*
.*.*/.*.*fonts.*/.*.*
.*.*/.*.*dell.com.*/.*.*
.*.*/.*.*www.walmart.com.*/.*.*
.*.*/.*.*amazon.*/.*.*
.*.*/.*.*barnesandnoble.*/.*.*
.*.*/.*.*ad.apps.fm.*/.*.*
.*.*/.*.*compare-canada-credit-card-offers.*/.*.*
.*.*/.*.*e30-talk.*/.*.*

Statistik: Verfasst von smokingwheels — Fr Apr 21, 2017 7:43 pm


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-04-24 16:47:41

YaCy Grid: Parser Microservice

you can now send a WARC file to a yacy_grid_parser microservice
and get the parsed fulltext and links as JSON:

Code:
wget https://www.ffii.org --warc-file=ffii.orgcurl -X POST -F "sourcebytes=@ffii.org.warc.gz"  http://yacygrid.com:8500/yacy/grid/parser/parser.json



Here we stil use wget as loader. That component will be replaced soon with a headless browser which
generates WARC files.

Statistik: Verfasst von Orbiter — Mo Apr 24, 2017 3:47 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-04-24 22:05:49

Holy smokes! This actually solved it! Wonderful!!! Yacy uptime: 31 days, server uptime: up 993 days, 2:52 :) Happy to contribute!
PS. Sorry for the late reply, I was traveling. Thank you once again for the answer, luc!

Statistik: Verfasst von paul89 — Mo Apr 24, 2017 9:05 pm


English • Re: About Yacy

Date: 2017-05-04 17:29:27

luc hat geschrieben:\ Hi bubul,\ >
> > when adding an new website to crawl, it take sometimes more than one > hour for the advanced crawler load the website and show the crawler > monitor page\ > >


Do you also have some examples to provide for this case : it could be valuable when digging for future performances improvements.

\ And why no option like rss to crawl sitemap every x time ?\


Do you mean a Schedule option directly in the Advanced Crawler page (/CrawlStartExpert.html)? Because there is already the generic Process Scheduler page (/Table_API_p.html) to schedule crawls from website or Sitemaps. There is also the \“Scheduler and Profile editor\” (CrawlProfileEditor_p.html) page dedicated to crawls scheduling.

<span>One last question : did you find a way to solve your search performance issue mentioned [url=<a href=\“http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5928]earlier[/url]?" class=\“smarterwiki-linkify\”>http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5928]earlier[/url]?</span>



About crawling, it\’s all the websites in fact i add.

About sitemaps, the problem is they are not listed in the scheduled process when using the option sitemap when adding a new crawl , there\’s only \“sitemap loader for: xxxx\” but not listed in \“recorded action\”

And no, the only way i\’ve found is to send often my urls to others peers so urls become available on network !

Yacy is a very good idea but it need a new programmation, maybe in c/c++/asm and with another database, maybe mysql or other, it need some testing.


And i\’ve looked at the page loaded with crawler monitor, and often it crawl a lot of the same websites, no more of 3 or 4 websites different for a lot of time (i\’ve many more website added to crawl with option to crawl linked websites too...), so i think there\’s a problem here about how are selected urls to crawl because with only a few websites it can have a lot of urls crawled at the same time. I\’ve seen recently it was 2000 ppm and more and in fact i don\’t know why, it was the same website crawled each time and not a website i\’ve added, but a website discovered when crawling the web ! There\’s a problem here with how url are loaded and selected !

Statistik: Verfasst von bubul — Do Mai 04, 2017 4:29 pm


English • \“Error: webgraph Solr index not enabled\”

Date: 2017-05-04 17:32:42

I\’ve tried to active opensearch \“discover from index\” from ConfigHeuristics_p.html but it show me the error:
[Error: webgraph Solr index not enabled]{style=“font-style: italic”}

How to fix it ?

Statistik: Verfasst von bubul — Do Mai 04, 2017 4:32 pm


Fragen und Antworten • Re: Timeout-Variable für Remotesearch

Date: 2017-05-04 18:53:33

Hi, Sixcooler,

Daumen hoch für diesen Tipp :D . Ein Index mit 6.2 Millionen Urls wurde in ca. 2 Stunden zusammengefasst zu einem Segment.
Die Suche ist nun spürbar schneller geworden.
Während des Zusammenfassens ist jedoch parallel keine Suche möglich. Das ist vermutlich systembedingt so, vermute ich mal.

Gruß Alex

Statistik: Verfasst von Crystalgazer — Do Mai 04, 2017 5:53 pm


Fragen und Antworten • Re: RegEx, Problem mit Eingabe und Verhalten

Date: 2017-05-04 20:02:21

Hello shni,
sorry to answer in English, but I hope this can still be useful. With your example I identified four issues, and could fix three of them :
- bad HTML rendering of \‘+\’ characters when there is a \‘?\’ before : fixed{.postlink}
- wrongly added \“.*.*/.*\” because expecting at least one wildcard \’*\’ chararacter without considering \‘?\’ and \‘+\’ chars which are also wildcards : fixed{.postlink}
- bad identification of the URL protocol part when the regex starts with \’\^\’ or when the protocol part contains a \‘?\’ : fixed{.postlink} (note : by the way, the protocol is then ignored by the BlackList engine which only consider the domains names and paths)
- bad identification of the host (domain name) part when it contains the slash \‘/\’ character in a characters class (\”[\^\./]\” in your example) : not fixed. Internally YaCy Blacklist engine splits the blacklist entries between host and path parts, relying on the first \‘/\’ character to identify the end of the host part. So your example should be modified only a little bit to keep working : from \”\^https?://(www\.)?[\^\.]+\.[\^\./]+(/[\^/]){0,2}/?\$\” to \“(www\.)?[\^\.]+\.[\^\.]+/([\^/]){0,2}/?\$\”

The fixes are now available in the latest sources on GitHub. If you have some time to test and still encounter issues don\’t hesitate to report!

Statistik: Verfasst von luc — Do Mai 04, 2017 7:02 pm


Fragen und Antworten • Re: Timeout-Variable für Remotesearch

Date: 2017-05-04 21:32:31

Hi Alex,

vielen Dank für die Blumen :-)
Ja - während des Optimierens ist wenig anderes möglich. Das ist auch der Grund weswegen das nicht (mehr) automatich ausgeführt wird.
Will man es doch automatisch haben kann man es aber fein im \‘Prozess Planer\’ (/Table_API_p.html) als wiederkehrenden Task planen.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Mai 04, 2017 8:32 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-05 09:57:54

For information, I pushed a few improvements related to Mediawiki dump import, hopefully making it a bit more reliable and easier to handle without command line operations (notably direct import from dump http URL and scheduling).

They are already available on latest YaCy sources on GitHub or as a developer system update (\”dev 1.929199 (unsigned){.postlink}\” entry in /ConfigUpdate_p.html), for those who don\’t use a package manager.

Statistik: Verfasst von luc — Fr Mai 05, 2017 8:57 am


Panorama • Re: 10 Jahre DMOZ...

Date: 2017-05-05 10:55:44

Jetzt ist es weg und keiner hats gemerkt.

Statistik: Verfasst von Low012 — Fr Mai 05, 2017 9:55 am


Hilfe für Einsteiger und Anwender • Fehlermeldung 503 Service Unavailable

Date: 2017-05-05 15:19:37

Werte Forenmitglieder,

ich muss leider mal wieder um Hilfe schreien :-( .

Ich habe gestern Abend meinen neuen Internetserver im Schrankj versenkt, nachdem zuvor alles eionwandfrei gelaufen ist. Nachdem ich die Maschine eingebaut und hochgefahren habe, liess sich YACY nicht mehr im Browser öffnen (Fehlermedlung 503 Server unavailable.)

Beim Einbau war mir allerdings auch die Panne passiert, dass scih der Rechner ubeabsichtigt eingeschaltet hat - vermutlich mit dem Bauch beim Kabeleinstecken, als ich mich über die Maschine im engen Serverschrank rüberbeugen musste. DEr Server ist dann in einem undefinierbaren Zustand stehen geblieben und ich musste ihn resetten. Beim Booten sah alles einwandfrei aus, ich habe jede3nfalls nur grüne OK-Meldungen gesehen. Ansonsten verhält sich die Maschie absolunt unauffällig, bloss Yacy ist nicht mehr per Browser ansprechbar.

Bei einem manuellen Startversuch behauptete die Maschine, dass YACY bereits läuft. Ein Restart funktionierte den Bildschirmmeldungen nach unauffällig, änderte das Problem aber nicht. Auch der Port 8090, auf dem YACY liegen soll, liess sich ystemseitig nicht ansprechen:
manfred\@aldebaran:/etc\$ curl localhost:8090
curl: (7) Failed to connect to localhost port 8090: Verbindungsaufbau abgelehnt

hier der error.log des apache vom fraglichen Zeitraum:

[Wed May 03 06:25:03.074339 2017] [mpm_prefork:notice] [pid 1774] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Wed May 03 06:25:03.074356 2017] [core:notice] [pid 1774] AH00094: Command line: \‘/usr/sbin/apache2\’
[Wed May 03 20:25:51.333340 2017] [mpm_prefork:notice] [pid 1774] AH00169: caught SIGTERM, shutting down

[Fri May 05 00:15:44.242426 2017] [mpm_prefork:notice] [pid 2022] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Fri May 05 00:15:44.332587 2017] [core:notice] [pid 2022] AH00094: Command line: \‘/usr/sbin/apache2\’
[Fri May 05 00:19:35.971108 2017] [mpm_prefork:notice] [pid 2022] AH00169: caught SIGTERM, shutting down

[Fri May 05 00:21:30.122332 2017] [mpm_prefork:notice] [pid 1822] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Fri May 05 00:21:30.140521 2017] [core:notice] [pid 1822] AH00094: Command line: \‘/usr/sbin/apache2\’
[Fri May 05 00:24:46.875966 2017] [mpm_prefork:notice] [pid 1822] AH00169: caught SIGTERM, shutting down
[Fri May 05 00:34:14.767002 2017] [mpm_prefork:notice] [pid 1814] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Fri May 05 00:34:16.060447 2017] [core:notice] [pid 1814] AH00094: Command line: \‘/usr/sbin/apache2\’
[Fri May 05 00:58:14.305822 2017] [mpm_prefork:notice] [pid 1814] AH00169: caught SIGTERM, shutting down
[Fri May 05 01:15:07.485243 2017] [mpm_prefork:notice] [pid 1843] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Fri May 05 01:15:07.502867 2017] [core:notice] [pid 1843] AH00094: Command line: \‘/usr/sbin/apache2\’
[Fri May 05 01:40:18.284772 2017] [proxy:error] [pid 1860] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:40:18.284801 2017] [proxy_http:error] [pid 1860] [client 109.193.21.167:56763] AH01114: HTTP: failed to make connection to backend: localhost, referer: https://internzone.net/yacy/Blacklist_p.html
[Fri May 05 01:40:22.162019 2017] [proxy:error] [pid 1861] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:40:22.162086 2017] [proxy_http:error] [pid 1861] [client 109.193.21.167:56765] AH01114: HTTP: failed to make connection to backend: localhost, referer: https://internzone.net/yacy/Blacklist_p.html
[Fri May 05 01:40:27.529838 2017] [proxy:error] [pid 1863] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:40:27.529909 2017] [proxy_http:error] [pid 1863] [client 109.193.21.167:56767] AH01114: HTTP: failed to make connection to backend: localhost
[Fri May 05 01:47:01.161734 2017] [proxy_http:error] [pid 1864] [client 109.193.21.167:57581] AH01114: HTTP: failed to make connection to backend: localhost
[Fri May 05 01:47:36.421535 2017] [proxy:error] [pid 1860] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:47:36.421594 2017] [proxy_http:error] [pid 1860] [client 109.193.21.167:57603] AH01114: HTTP: failed to make connection to backend: localhost, referer: https://internzone.net/
[Fri May 05 01:52:51.161729 2017] [proxy:error] [pid 3118] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:52:51.161805 2017] [proxy_http:error] [pid 3118] [client 109.193.21.167:57698] AH01114: HTTP: failed to make connection to backend: localhost
[Fri May 05 01:54:16.476281 2017] [mpm_prefork:notice] [pid 1843] AH00169: caught SIGTERM, shutting down
[Fri May 05 01:55:23.697083 2017] [mpm_prefork:notice] [pid 1879] AH00163: Apache/2.4.25 (Ubuntu) OpenSSL/1.0.2g configured -- resuming normal operations
[Fri May 05 01:55:23.767703 2017] [core:notice] [pid 1879] AH00094: Command line: \‘/usr/sbin/apache2\’
[Fri May 05 01:56:57.576374 2017] [proxy:error] [pid 1972] (111)Connection refused: AH00957: HTTP: attempt to connect to 127.0.0.1:8090 (localhost) failed
[Fri May 05 01:56:57.576445 2017] [proxy_http:error] [pid 1972] [client 109.193.21.167:57752] AH01114: HTTP: failed to make connection to backend: localhost

Bis zum ersten Reboot in der letzten Nacht tat alles, wie es sollte, leider kann ich als absoluter LINUX-Newbee mit den Meldungen noch nicht allzu viel anfangen. Ich habe in diesem Log einige redundante meldungen rausgeschmissen, um die Kopie nicht zu lang werden ztu lassen, den ich leider überhaupt nicht interpretieren kann.

Hier der Vollständigkeit halber noch der YACY-Log

2017/05/05 04:26:47 Domain Init local host address: 127.0.1.1 (local)
I 2017/05/05 04:26:47 Domain Init local host address: 127.0.0.1 (local)
I 2017/05/05 04:26:47 Domain Init local host address: 0::1 (local)
I 2017/05/05 04:26:47 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)
I 2017/05/05 04:26:47 Domain Init local host address: fe80:0:0:0:4ecc:6aff:feb0:b8fa (local)
I 2017/05/05 04:26:47 Domain Init local host address: fe80::4ecc:6aff:feb0:b8fa (local)
I 2017/05/05 04:26:47 Domain Init local host address: 10.53.113.30 (local)
I 2017/05/05 04:26:47 HeapReader saturation of admin_bookmarks.bheap.XV_KIVdHUNg_.idx: keylength = 4, vallength = 3, size = 1856, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:47 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap.
I 2017/05/05 04:26:47 HeapReader BLOB /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap: merged 0 free records
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap
I 2017/05/05 04:26:47 HeapReader saturation of stats.bheap.Cd9CKXoo-7Mi.idx: keylength = 11, vallength = 2, size = 515, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:47 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/stats.bheap.
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/stats.bheap
I 2017/05/05 04:26:47 HeapReader saturation of rss.bheap.dUxjoQwnD_KT.idx: keylength = 4, vallength = 3, size = 12938, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:47 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/rss.bheap.
I 2017/05/05 04:26:47 HeapReader BLOB /usr/share/yacy/DATA/WORK/rss.bheap: merged 0 free records
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/rss.bheap
I 2017/05/05 04:26:47 HeapReader generating index for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 0 MB. Please wait.
I 2017/05/05 04:26:47 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 1 entries, 0 gaps.
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/pkcounter.bheap
I 2017/05/05 04:26:47 HeapReader saturation of robots.bheap.lEz0dQrzbc4x.idx: keylength = 0, vallength = 2, size = 10, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:47 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/robots.bheap.
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/robots.bheap
I 2017/05/05 04:26:47 HeapReader saturation of api.bheap.1hUtAdQ4EwBH.idx: keylength = 11, vallength = 2, size = 78, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:47 HeapReader using a dump of the index of /usr/share/yacy/DATA/WORK/api.bheap.
I 2017/05/05 04:26:47 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheap
I 2017/05/05 04:26:47 Word hashCache.size = 20000
I 2017/05/05 04:26:47 SWITCHBOARD Initializing Segment \‘/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS.
I 2017/05/05 04:26:51 HeapReader saturation of text.index.20170423230250609.blob.DQmMlYpDFyRe.idx: keylength = 6, vallength = 5, size = 2023423, maximum saving for index-compression = 11 MB, exact saving for value-compression = 9 MB
I 2017/05/05 04:26:51 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170423230250609.blob.
I 2017/05/05 04:26:51 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170423230250609.blob: merged 0 free records
I 2017/05/05 04:26:51 UPNP no device found
I 2017/05/05 04:26:51 HeapReader saturation of text.index.20170505005348723.blob.uEuR0mDOInaw.idx: keylength = 6, vallength = 4, size = 427300, maximum saving for index-compression = 2 MB, exact saving for value-compression = 1 MB
I 2017/05/05 04:26:51 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170505005348723.blob.
I 2017/05/05 04:26:53 HeapReader saturation of text.index.20170428082458339.blob.SXir3yugP8Qo.idx: keylength = 7, vallength = 5, size = 4649092, maximum saving for index-compression = 31 MB, exact saving for value-compression = 22 MB
I 2017/05/05 04:26:53 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170428082458339.blob.
I 2017/05/05 04:26:53 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170428082458339.blob: merged 0 free records
I 2017/05/05 04:26:53 HeapReader saturation of text.index.20170505004848483.blob.RyXeJ9sAWGzn.idx: keylength = 4, vallength = 3, size = 19695, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:53 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170505004848483.blob.
I 2017/05/05 04:26:53 HeapReader saturation of text.index.20170505010253344.blob.Ks9JOSnagqUi.idx: keylength = 5, vallength = 4, size = 149588, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:53 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170505010253344.blob.
I 2017/05/05 04:26:54 HeapReader saturation of text.index.20170503074051911.blob.aPasRpoyJ0yu.idx: keylength = 7, vallength = 5, size = 3014651, maximum saving for index-compression = 20 MB, exact saving for value-compression = 14 MB
I 2017/05/05 04:26:54 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170503074051911.blob.
I 2017/05/05 04:26:54 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170503074051911.blob: merged 0 free records
I 2017/05/05 04:26:54 HeapReader saturation of text.index.20170503160856440.blob.iUoF6d2B7v6Y.idx: keylength = 6, vallength = 4, size = 1160851, maximum saving for index-compression = 6 MB, exact saving for value-compression = 4 MB
I 2017/05/05 04:26:54 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170503160856440.blob.
I 2017/05/05 04:26:54 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170503160856440.blob: merged 0 free records
I 2017/05/05 04:26:54 HeapReader saturation of text.index.20170504224314804.blob.4b1ar8ZKYV15.idx: keylength = 5, vallength = 3, size = 23976, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:26:54 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170504224314804.blob.
I 2017/05/05 04:26:54 HeapReader saturation of citation.index.20170503140310954.blob._lEwqbsRLm8N.idx: keylength = 5, vallength = 4, size = 356264, maximum saving for index-compression = 1 MB, exact saving for value-compression = 1 MB
I 2017/05/05 04:26:54 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170503140310954.blob.
I 2017/05/05 04:26:55 HeapReader saturation of citation.index.20170503064404652.blob.1qYovWmdIocC.idx: keylength = 7, vallength = 4, size = 3025102, maximum saving for index-compression = 20 MB, exact saving for value-compression = 11 MB
I 2017/05/05 04:26:55 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170503064404652.blob.
W
2017/05/05 04:26:56 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 25846200 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 92294096 free at Fri May 05 04:26:56 CEST 2017
net.yacy.cora.util.SpaceExceededException: 25846200 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 92294096 free at Fri May 05 04:26:56 CEST 2017
at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)
at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)
at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)
at net.yacy.kelondro.index.RowHandleMap.<init>(RowHandleMap.java:104)
at net.yacy.kelondro.blob.HeapReader.initIndexReadDump(HeapReader.java:179)
at net.yacy.kelondro.blob.HeapReader.<init>(HeapReader.java:91)
at net.yacy.kelondro.blob.HeapModifier.<init>(HeapModifier.java:58)
at net.yacy.kelondro.blob.ArrayStack.<init>(ArrayStack.java:209)
at net.yacy.kelondro.rwi.ReferenceContainerArray.<init>(ReferenceContainerArray.java:68)
at net.yacy.kelondro.rwi.IndexCell.<init>(IndexCell.java:99)
at net.yacy.search.index.Segment.connectCitation(Segment.java:188)
at net.yacy.search.Switchboard.<init>(Switchboard.java:563)
at net.yacy.yacy.startup(yacy.java:201)
at net.yacy.yacy.main(yacy.java:773)
I 2017/05/05 04:26:56 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170425192618245.blob, 1083 MB. Please wait.
W 2017/05/05 04:26:59 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 6727940 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 74578784 free at Fri May 05 04:26:59 CEST 2017
net.yacy.cora.util.SpaceExceededException: 6727940 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 74578784 free at Fri May 05 04:26:59 CEST 2017
at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)
at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)
at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)
at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)
at net.yacy.kelondro.index.RowHandleMap.putUnique(RowHandleMap.java:268)
at net.yacy.kelondro.index.RowHandleMap\$initDataConsumer.call(RowHandleMap.java:472)
at net.yacy.kelondro.index.RowHandleMap\$initDataConsumer.call(RowHandleMap.java:411)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
I 2017/05/05 04:27:00 ConcurrentLog shutdown of ConcurrentLog.Worker: injection of poison message
I 2017/05/05 04:27:00 HeapReader using existing gap dump instead of writing a new one: citation.index.20170503064404652.blob.1qYovWmdIocC.gap
I 2017/05/05 04:27:00 HeapReader using existing idx dump instead of writing a new one: citation.index.20170503064404652.blob.1qYovWmdIocC.idx
I 2017/05/05 04:27:00 ConcurrentLog terminating ConcurrentLog.Worker with 0 cached loglines.
I 2017/05/05 04:27:00 ConcurrentLog shutdown of ConcurrentLog.Worker: terminated
E 2017/05/05 04:27:00 UNCAUGHT-EXCEPTION * Thread main: GC overhead limit exceeded
java.lang.OutOfMemoryError: GC overhead limit exceeded

java.lang.OutOfMemoryError: GC overhead limit exceeded
E 2017/05/05 04:27:00 ConcurrentLog GC overhead limit exceeded
java.lang.OutOfMemoryError: GC overhead limit exceeded
I 2017/05/05 04:27:00 HeapReader * close HeapFile citation.index.20170503064404652.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:87) -> net.yacy.kelondro.blob.HeapModifier.finalize(HeapModifier.java:92) -> java.lang.System\$2.invokeFinalize(System.java:1270) -> java.lang.ref.Finalizer.runFinalizer(Finalizer.java:98) -> java.lang.ref.Finalizer.access\$100(Finalizer.java:34) -> java.lang.ref.Finalizer\$FinalizerThread.run(Finalizer.java:210)
I 2017/05/05 04:27:00 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170503140310954.blob._lEwqbsRLm8N.gap
I 2017/05/05 04:27:00 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170503140310954.blob._lEwqbsRLm8N.idx
I 2017/05/05 04:27:00 HeapReader * close HeapFile citation.index.20170503140310954.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:87) -> net.yacy.kelondro.blob.HeapModifier.finalize(HeapModifier.java:92) -> java.lang.System\$2.invokeFinalize(System.java:1270) -> java.lang.ref.Finalizer.runFinalizer(Finalizer.java:98) -> java.lang.ref.Finalizer.access\$100(Finalizer.java:34) -> java.lang.ref.Finalizer\$FinalizerThread.run(Finalizer.java:210)
I 2017/05/05 04:27:54 HeapReader * close HeapFile text.index.20170505004848483.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:323) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkBestSmallFiles(ReferenceContainerArray.java:403) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:191) -> net.yacy.kelondro.rwi.IndexCell.access\$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.run(IndexCell.java:122)
I 2017/05/05 04:27:54 HeapReader * close HeapFile text.index.20170504224314804.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:324) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkBestSmallFiles(ReferenceContainerArray.java:403) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:191) -> net.yacy.kelondro.rwi.IndexCell.access\$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.run(IndexCell.java:122)
I 2017/05/05 04:27:54 RICELL-shrink1 * unmountBestMatch(2.0, 67108864)
I 2017/05/05 04:27:54 IODispatcher * appended merge job of files text.index.20170504224314804.blob, text.index.20170505004848483.blob to text.index.20170505022754640.blob
I 2017/05/05 04:27:54 BLOBArray * merging text.index.20170504224314804.blob with text.index.20170505004848483.blob
I 2017/05/05 04:27:54 HeapWriter * wrote a dump for the 35147 index entries of text.index.20170505022754640.blob in 12 milliseconds.
I 2017/05/05 04:27:54 HeapReader * saturation of text.index.20170505022754640.blob.ciAdDvLlxw4g.idx: keylength = 5, vallength = 3, size = 35147, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB
I 2017/05/05 04:27:54 HeapReader * using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170505022754640.blob.
I 2017/05/05 04:27:54 BLOBArray * merged text.index.20170504224314804.blob with text.index.20170505004848483.blob into /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170505022754640.blob

Hat jemand von Euch eine Idee, was mit meiner Installation los sein könnte?

Vielen Dank für Eure Hilfe!

LG, Manfred

Statistik: Verfasst von Manfred — Fr Mai 05, 2017 2:19 pm


Hilfe für Einsteiger und Anwender • Re: Fehlermeldung 503 Service Unavailable

Date: 2017-05-05 20:17:20

Hallo Manfred,

das sieht so aus als sei mindestens eine Deiner Blobs gerade geschrieben worden, als der Prozess gekillt wurde und ist nun derart kaputt das es beim Einlesen falsch interpretiert wird.
Ich würde auf /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170503064404652.blob tippen.
Versuche mal diese Datei aus seinem Verzeichniss heraus zu nehmen und dann YaCy zu starten.

Viel Glück!

Cu, Sebastian.

Statistik: Verfasst von sixcooler — Fr Mai 05, 2017 7:17 pm


Panorama • Re: 10 Jahre DMOZ...

Date: 2017-05-05 21:52:38

AAAhhh neiin! Ok hab da schon lange nicht mehr rein geschaut, aber das war doch mal ein Dreh- und Angelpunkt des Web.
Hier ist wohl ein Mirror: http://dmoztools.net/

Hab auch ein Mirror der RDF Dumps gefunden: https://curlz.org/dmoz_rdf/
Kopie machen!

Oho, das ist auch der Ort für einen Nachfolger: https://curlz.org/

Statistik: Verfasst von Orbiter — Fr Mai 05, 2017 8:52 pm


Hilfe für Einsteiger und Anwender • Re: Fehlermeldung 503 Service Unavailable

Date: 2017-05-06 00:14:15

Hallo Sebastian,

danke für Deine schnelle Antwort. Ich habe die Datei in mein /home Verzeichnis gemoved und anschliessend einen yacy-restart durchgeführt. Hat nach ca. 5 Minuten gefunzt :-), die letzten meiner Einstellungen sind aber auf Standard zurückgesetzt worden .Sage mir altem Linux-Newbee mal bitte, was der Sinn der *.blob-Dateien ist. Zusammen mit den Dateien *.gab und *.idx sieht das ganze aus wie Datenbanktabellen. Hätte ich eigentlich diese dazu gehörenden Dateien auch wegmoven sollen?

Macht es eigentlich Sinn, diese ganzen Dateien regelmäßig woanders hin wegzusichern, um ggf. nach einem Crash restoren zu können?

LG, Manfred

Statistik: Verfasst von Manfred — Fr Mai 05, 2017 11:14 pm


Hilfe für Einsteiger und Anwender • Re: Fehlermeldung 503 Service Unavailable

Date: 2017-05-06 00:29:47

Also, _lupus ist wieder online :-)

Statistik: Verfasst von Manfred — Fr Mai 05, 2017 11:29 pm


English • Re: \“Error: webgraph Solr index not enabled\”

Date: 2017-05-06 09:06:36

Hello bubul,
as you may already have realized, after switching the required fields to on and activating the webgraph Solr core (regarding the message you have, you surely did it correctly, but you can check selected Solr cores in /IndexFederated_p.html - \“Web Structure Index\” section), you MUST restart YaCy for the discover operation to succeed.

Statistik: Verfasst von luc — Sa Mai 06, 2017 8:06 am


English • Re: \“Error: webgraph Solr index not enabled\”

Date: 2017-05-06 13:17:21

Thanks, i\’ve checked \“use webgraph search index (rich information in second Solr core)\” and it work now.

Statistik: Verfasst von bubul — Sa Mai 06, 2017 12:17 pm


Panorama • Re: 10 Jahre DMOZ...

Date: 2017-05-06 14:00:16

Siehe auch : https://curlie.org{.postlink} (Offizieller Nachfolger?)

Statistik: Verfasst von luc — Sa Mai 06, 2017 1:00 pm


English • Re: About Yacy

Date: 2017-05-06 14:12:20

Yes YaCy need testing and feedback, and here you provide some which is a good thing.

Given the current size of the project, personally I prefer to spend the little time I have to improve the existing code base rather than restarting from scratch with a completely different technology stack...

By the way, if in the coming weeks I could find and publish some improvements to the points you mention you will find my report here...

Statistik: Verfasst von luc — Sa Mai 06, 2017 1:12 pm


Hilfe für Einsteiger und Anwender • Re: Fehlermeldung 503 Service Unavailable

Date: 2017-05-06 14:26:21

Hallo Manfred,

die .blob-Dateien sind Speicher einer YaCy-Eigenentwickelten Datenbank.
Die citation.index.-Dinger enthalten Verknüpfungen von Seiten untereinander und die text.index. Dinger Verknüpfungen von Worten zu Seiten.

Es ist schon etwas her das ich da so tief hineingeschaut habe, aber im groben enthalten Einträge dort immer einen Schlüssel und eine Angabe wie viele Bytes dann folgend dazu gehören.
Ich nehme an, das bei Dir die Größenangabe \‘kaputt\’ geschrieben wurde oder irgendwelche anderen Daten als Größenangabe gelesen wurden. In der Folge, mit einer Größenangabe die irgendeine Zahl war, versuchte YaCY demensprechend die Daten zu lesen - bis der Speicher voll war.

Die gap und idx Dateien zu den Blobs sowas wie ein Inhaltsverzeichniss. Sie werden von YaCy eh gelöscht wenn die Blobs nicht mehr da sind.

Man kann natürlich diese Blobs wegsichern und friert damit einen Stand ein.
Bei dem Verteilenn von Worten werden diese aber ständig geändert.
Zudem gibt es einen Prozess der Blobs zusammenfasst.
Die Blobs sind also nicht sehr statisch.

Gut ist halt das die Datenbanken auch weiter nutzbar sind wenn ein Blob mal kaputt geht, was glücklicherweise nur noch selten vorkommt.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Sa Mai 06, 2017 1:26 pm


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-05-07 00:10:09

Orbiter hat geschrieben:\ YaCy Grid: Parser Microservice\ \ you can now send a WARC file to a yacy\_grid\_parser microservice\ and get the parsed fulltext and links as JSON:\



If you want to test the feature without wget/curl you could use the sourceurl parameter and a online stored warc

Code:
http://yacygrid.com:8500/yacy/grid/parser/parser.json?sourceurl=https://archive.org/download/warc-www_c-l-o-u-d_us/www.c-l-o-u-d.us-2016-10-03-bd9783dc-00000.warc.gz

Statistik: Verfasst von reger — Sa Mai 06, 2017 11:10 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-08 19:30:03

hy luc, thanks for the Information.

I will try to import the wiki in the future again. With 1.92.000, the import starts on my Yacy, but stop after importing 10-15 documents.

Statistik: Verfasst von promocore — Mo Mai 08, 2017 6:30 pm


English • Crawling big websites by different users

Date: 2017-05-09 15:37:40

I think crawling big websites like youtube, archive.org, archive.is, dailymotion, pinterest, etc can be good because yacy provide different search results but because yacy is limited and user disk space too, it can be done only if different user crawl theses websites.

Statistik: Verfasst von bubul — Di Mai 09, 2017 2:37 pm


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-05-10 00:06:08

good idea!

Statistik: Verfasst von Orbiter — Di Mai 09, 2017 11:06 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-11 06:43:48

Ok, if you would like to tell here which exact dump file failed I can already check now if it works with the latest modifications (I tested mostly with french and english wiki dumps from dumps.wikimedia.org).

Statistik: Verfasst von luc — Do Mai 11, 2017 5:43 am


English • Yacy won\’t re-start

Date: 2017-05-12 15:50:03

Hi,

I\’ve installed Yacy on a rather powerful server (48 cores, 256 GB RAM, Ubuntu 14.04, Java 1.7).

It ran smoothly for about two days, and I started a large crawl of the Italian web (I used about 10.000 URLs as seeds, I\’m working on a Corpus Linguistics project at the University of Bologna).

I launched the crawl yesterday afternoon, but this morning I realized that maybe the 16GB of RAM I had assigned to Yacy was too small, so I decided to stop the server, increase the amount of RAM in the configuration file and then start the service again).

Here\’s what I did:

- I stopped the server using the web interface
- I waited for a few minutes for the Java process to terminate gracefully
- I changed this setting in /etc/yacy/yacy.conf: javastart_Xmx=Xmx32768m (the original amount was 16384)
- I restarted the service using: service yacy start

Now Yacy won\’t start. I waited for 30+ minutes and then I manually killed the Java process and tried again but to no avail. From what I can see, the problem seems to be here:

Code:
java.io.FileNotFoundException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/toni.org-#gctLmQ.80/0003.stack (Too many open files)   at java.io.FileInputStream.open(Native Method)   at java.io.FileInputStream.<init>(FileInputStream.java:146)   at net.yacy.kelondro.table.ChunkIterator.<init>(ChunkIterator.java:65)   at net.yacy.kelondro.table.Table.<init>(Table.java:161)   at net.yacy.kelondro.index.OnDemandOpenFileIndex.getIndex(OnDemandOpenFileIndex.java:61)   at net.yacy.kelondro.index.OnDemandOpenFileIndex.size(OnDemandOpenFileIndex.java:153)   at net.yacy.kelondro.index.BufferedObjectIndex.size(BufferedObjectIndex.java:152)   at net.yacy.crawler.HostBalancer$1.run(HostBalancer.java:101)W 2017/05/12 14:30:22 ConcurrentLog net.yacy.kelondro.util.kelondroException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/toni.org-#gctLmQ.80/0003.stack (Too many open files)net.yacy.kelondro.util.kelondroException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/toni.org-#gctLmQ.80/0003.stack (Too many open files)   at net.yacy.kelondro.table.Table.<init>(Table.java:228)   at net.yacy.kelondro.index.OnDemandOpenFileIndex.getIndex(OnDemandOpenFileIndex.java:61)   at net.yacy.kelondro.index.OnDemandOpenFileIndex.size(OnDemandOpenFileIndex.java:153)   at net.yacy.kelondro.index.BufferedObjectIndex.size(BufferedObjectIndex.java:152)   at net.yacy.crawler.HostBalancer$1.run(HostBalancer.java:101)



But I don\’t know how to fix it.

The directory /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/ contains 180330 files, that seems like a lot, but it shouldn\’t be a problem on a EXT4 filesystem.

I tried changing the RAM value back to the initial setting but it didn\’t help. I tried moving the data directory but in that case Yacy won\’t start.

During one (just one!) of the various page refreshes I did, I got this error page on the web browser:

Code:
HTTP ERROR 500Problem accessing /. Reason:    Server ErrorCaused by:javax.servlet.ServletException: /usr/share/yacy/htroot/index.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:895)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:595)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.Dispatcher.forward(Dispatcher.java:191)   at org.eclipse.jetty.server.Dispatcher.forward(Dispatcher.java:72)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:349)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:745)



Any suggestions?

Thanks in advance,
Eros

Statistik: Verfasst von eros — Fr Mai 12, 2017 2:50 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-13 09:41:11

Hi eros,
the error you report suggests there might be a leak somewhere in YaCy (maybe some missing InputStream.close() or OuputStream.close() instructions) or a too low \“file-max\” setting on you machine (I guess you already checked \“/proc/sys/fs/file-max\” and ulimit, but checking \“/proc/sys/fs/file-nr\” when YaCy is running could also be interesting).

I am not sure this is directly related to your new memory setting. Maybe it was rather caused by the fact that you stopped the server while running a large crawl.

Which version do you use : 1.929000?

Did you try to remove part or all files from your \“/usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks\” folder (after eventually backing them up for later re-insert)?

There is also a setting that might help you in yacy.conf : \“crawler.onDemandLimit\“. Its default value is 1000, meaning that when more than 1000 hosts are in the crawler stack, each queue backing file will be open, read and closed each time it is needed rather than loading in memory only once. Maybe increasing this value could help you, moreover with the large memory available you have.

[Edit :]{style=“font-weight: bold”} if you can check your logs around the \“HTTP ERROR 500\” log trace there may be additional details that could be aslo interesting.

Best regards

Statistik: Verfasst von luc — Sa Mai 13, 2017 8:41 am


English • Re: Yacy won\’t re-start

Date: 2017-05-13 21:28:44

Thanks for your reply Luc.

Code:
cat /proc/sys/fs/file-max26251184cat /proc/sys/fs/file-nr1248   0   26251184ulimit unlimited



it looks like the crawl was within the limits. In any case I deleted the \“freeworld\” directory in the index and I was able to start yacy. I then restarted the crawl from scratch, but I\’m afraid it will happen again in case yacy crashes or if I need to reboot the machine. I\’ll try and terminate (or at least pause) the crawl before shutting down yacy, but what worries me is that the whole application doesn\’t seem to be very robust, if a system crash can compromise days of crawling.

Also: does the crawl ever really end on it\’s own? I suppose it could go on potentially forever, do I need to stop it manually after a while?

I\’ll experiment some more.

Statistik: Verfasst von eros — Sa Mai 13, 2017 8:28 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-14 10:52:50

For sure it is very annoying to loose your work. At least if this would happen again, you should try keeping or backing up your /freeworld/SEGMENTS/ folder which holds the data you already indexed in your local Solr and RWI indexes.

The main parameter to control the end of a crawl is the \“Crawling depth\“, i.e. the number of links followed in the webgraph starting from your crawl starting point. So if you set a too high value (over 8 according to Yacy help), it is likely you are indeed trying to crawl the whole Internet, and you should certainly stop it manually after some time.

Statistik: Verfasst von luc — So Mai 14, 2017 9:52 am


English • Re: Yacy won\’t re-start

Date: 2017-05-14 11:50:52

Yup, it happened again.

I let the crawler run for about 14 hours, then I paused it before shutting down the server. It didn\’t help and I got the same error message:

Code:
java.io.FileNotFoundException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/toni.org-#gctLmQ.80/0003.stack (Too many open files)



I moved the /INDEX/freeworld/QUEUES/ directory: the system started in no time and the index seems to be safe.

BTW, this is the size of QUEUES:

Code:
root@amelia:/storage# ls -R QUEUES/| wc -l536442



I\’ll try increasing the \“crawler.onDemandLimit\” value to 50000, any suggestions on suitable values? Currently I assigned 64 GB of RAM to Yacy, but I could bump it up to 96 GB.

I\’m using the default Crawling depth of 3 for now, so that shouldn\’t be the problem. I don\’t need to restart the server that often, but I\’m experimenting to see if Yacy is a viable solution to the problems I\’m having with my research project, so I need to know that I can rely on it.

Unfortunately, most of the documentation is is German and I don\’t speak German, so I need to do a bit of trial and error and use Google Translate... ;)
Thanks for your help Luc!

Statistik: Verfasst von eros — So Mai 14, 2017 10:50 am


YaCy Coding & Architecture • Re: The YaCy Grid

Date: 2017-05-14 21:22:28

The yacy_grid_loader{.postlink} is ready, running and able to act as listener on the mcp event queue!

The rabbitmq message server attached to the mcp is able to dispatch work tasks for the YaCy grid microservices. The yacy_grid_loader service is the first one which actually listens on such a queue and acts on messages.

The yacy_grid_loader is now running at yacygrid.com:8200. It has a servlet interface but it gets interesting if it is accessed using a message. To do that, store first a message object named \‘job.json\’ with the following content:

Code:
{  "metadata": {    "process": "yacy_grid_loader",    "count": 1  },  "data": [{"collection": "test"}],  "actions": [{    "urls": ["http://yacy.net"],    "collection": "test",    "targetasset": "test3/yacy.net.warc.gz",    "type": "loader",    "queue": "webloader"  }]}



Then upload the message with

Code:
curl -X POST -F "message=@job.json" -F "serviceName=loader" -F "queueName=webloader" http://yacygrid.com:8100/yacy/grid/mcp/messages/send.json



The result is an asset in test3/yacy.net.warc.gz containing the web page that was loaded with a [headless browser]{style=“font-weight: bold”}, thus containing executed javascript code!

To check the content, you can parse the asset with

Code:
curl http://yacygrid.com:8500/yacy/grid/parser/parser.json?sourceasset=test3/yacy.net.warc.gz

Statistik: Verfasst von Orbiter — So Mai 14, 2017 8:22 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-15 07:15:48

\ I\'ll try increasing the \"crawler.onDemandLimit\" value to 50000, any suggestions on suitable values?\


With the amount of RAM you have I guess you can even increase this value, but that\’s only a supposition : personally I always run YaCy on mid-range desktop machines or on low-end Virtual Machines so I am not really experienced with large scale crawls on high performance servers...
But I can say that some months ago I ran successfully some crawls with 100 000 links by crawl start file, needing some days to end, but working rather well on a machine with only 2GB RAM. I have to admit that I didn\’t try to restart YaCy while these crawls where running. And I was not aware that so many files could be created in the QUEUES folder... It looks like there is definitely something to do, at least at start to avoid exhausting the file descriptors made available by the OS.

Statistik: Verfasst von luc — Mo Mai 15, 2017 6:15 am


English • Re: Yacy won\’t re-start

Date: 2017-05-15 14:48:28

Increasing \“crawler.onDemandLimit\” to 50000 didn\’t work: I started getting \“Too many open files\” error in the web frontend, I decreased it to 5000 and again I got errors, so I reverted the value to 1000 since I figured that probably that wasn\’t the problem anyway.

I tried terminating the crawler before restarting the service and this time it worked. I then started a new crawl using the same seed URLs but, after 24 hours no new pages had been indexed, so I removed the index and I started over. Now I\’m going to let the crawler run for a few days.

I noticed that Yacy uses *a lot* of memory: I assigned 96 GB to stay on the safe side, after 24 hours it was running steadily on 20 GB and now (after a restart and 3 hours of crawling) it\’s already using 19 GB. I guess it\’s normal for Java to use large amounts of memory when it\’s available, I just wanted to let you know my experience.

Another question: I installed Yacy on my laptop too, and I tried submitting the same query on the server and on the laptop. The results are different (I get less results on the laptop) even though theoretically the server\’s index should be reachable since it\’s running in \“senior mode\” (i.e. port 8090 is open on the firewall and the server claims to be \“senior\“). Is that a behaviour to be expected?

Statistik: Verfasst von eros — Mo Mai 15, 2017 1:48 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-15 19:16:20

Thanks for sharing your experience. It looks like there is really something to dig regarding this problem with file descriptors... I will try to reproduce your scenario when having some time.

\ I guess it\'s normal for Java to use large amounts of memory when it\'s available, I just wanted to let you know my experience.\


For sure Java lets more easily fill the available memory when using some structures without limitations. But in the end to my mind this really depends on how the application code is organized an is not so much related to Java. In YaCy there are many places where controls are performed on the available memory, so it is not a surprise to me that it uses much when much is available... which doesn\’t mean that YaCy necessarily needs so large amounts of memory to run fine.

\ I installed Yacy on my laptop too, and I tried submitting the same query on the server and on the laptop. The results are different\


Yes, in peer-to-peer mode this may sound a bit surprising but it is the expected behavior, at least with the current YaCy architecture. When performing a search in p2p mode, some peers among the network are selected to be requested and to aggregate results from, and the selection rules even include some Randomness. Thus we can not obtain a deterministic behavior (like in Solr Cloud) in this p2p mode because each node has its own index and its own blacklisting and crawling rules, and is not supposed to obey to some master(s) node rules. The index distribution over the nodes accepting to receive remote index parts (DHT-in) is made to homogenize a bit the whole distributed index, but in the end the behavior is not deterministic... but after a long running time of your two YaCy peers I guess you should obtain more similar results.
I hope this answer a bit to your question.

Statistik: Verfasst von luc — Mo Mai 15, 2017 6:16 pm


English • Yacy can\’t see the open port.

Date: 2017-05-16 17:24:21

[Hi!]{style=“font-weight: bold”} :)
I have a new router (ZXHN H108N V2.5), but seems like Yacy is not happy with it. :D I have done port forwarding for the port at router\’s setup and also I opened it at firewall\’s rules.

a) At Win 10 x64 Yacy reports the port as closed, but enabling UPnP, solves the problem.
b) At Debian Jessie x64 KDE, UPnP is not successful, so the problem remains.

I\’ve checked the port at Windows, with pfportchecker and it reports it as open. Also other P2P software (eg. Azureus) don\’t have any problem with it.
At Linux (since I don\’t have pfportchecker and I don\’t trust web based solutions), I pointed Azureus to this port and it reported it as open (OK).
I already have whitelisted for TCP this port at UFW.

What do you think? Is it a bug?
Seems like Yacy have difficulties communicating to ports.

Statistik: Verfasst von Giorgos — Di Mai 16, 2017 4:24 pm


Fragen und Antworten • WARC-Import

Date: 2017-05-16 21:47:40

Hi,

ich habe mein erstes WARC-Archiv erstellt und wollte es in einen meiner Peers importieren mit der neuen Funktion die ihr eingebaut habt. Irgendwo hängt es noch. Hier mein WARC:

https://archive.org/details/commandlinefu.warc

Auszug aus dem Log:

Code:
I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cd/rss - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/view/11186/bytebeat - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/tagged/2292/bytebeat - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cc/rss - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/425 - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/50 - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/25 - Denied_(pragma_no_cache)I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/view/13653/search-system-log-for-spamassassin-score-and-list-only-15th-column - Denied_(pragma_no_cache)



Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Di Mai 16, 2017 8:47 pm


English • Re: Need help with reaching peer from outside. Bug?

Date: 2017-05-17 09:07:16

Hello, for information I pushed a fix available{.postlink} on latest GitHub sources.
So you can now use again this \“Protection of all page\” feature and being reached by other peers when running from latest sources, or when upgrading to the next available YaCy release.

Statistik: Verfasst von luc — Mi Mai 17, 2017 8:07 am


English • Re: Yacy can\’t see the open port.

Date: 2017-05-17 09:13:38

Hello,
I also had difficulties with YaCy when I was previously running it behind a router without UPnP... What is strange is that this method works on your windows machine but not on your Debian one (on my own current Debian YaCy install, using UPnP works fine). Are you sure there are no firewall rules activated on your Debian that you could have missed?

Statistik: Verfasst von luc — Mi Mai 17, 2017 8:13 am


English • Re: Yacy can\’t see the open port.

Date: 2017-05-17 12:04:21

Well...I\’m not an expert on Uncomplicated Firewall and I\’m using (as it\’s front end) UFW settings (the KDE control panel module), but I double (and triple and mutiple) checked it :D and I believe it\’s well configured.

I\’ll try to look at UPnP settings. I think something\’s broken there.

[THANKS]{style=“font-weight: bold”} luc[!!!]{style=“font-weight: bold”} ;)

Statistik: Verfasst von Giorgos — Mi Mai 17, 2017 11:04 am


English • Re: About Yacy

Date: 2017-05-17 13:03:01

Maybe a good option can be to use Visual C#, i don\’t know enough programming to make a program like yacy but it\’s more simple than c++, i think java is not good for yacy because java is not made to do big application like yacy.

Statistik: Verfasst von bubul — Mi Mai 17, 2017 12:03 pm


English • Re: About Yacy

Date: 2017-05-17 13:19:10

Mmmh I understand anyone has its own programming language preferences, but I think you are misinformed about Java and big applications. Just one example : Apache Hadoop{.postlink} is written in Java and is used by many large companies for high performances operations. Just check their \“Powered By\”{.postlink} page : Amazon is the first entry of a rather long list...

Statistik: Verfasst von luc — Mi Mai 17, 2017 12:19 pm


Hilfe für Einsteiger und Anwender • Porgammupdate

Date: 2017-05-18 09:57:52

Liebe Forumsmitglieder,

ich habe wahrscheinlich ein kleines Problem mit den Updates und ich glaube anhand der Fehlermeldungen, dass kein kain Update durchgeführt wurde.

Hier der Protokollmitschnitt:

Last login: Thu May 18 09:18:37 2017 from 10.53.113.111
manfred\@aldebaran:~\$ sudo apt-get update && apt-get install yacy
[sudo] Passwort für manfred:
OK:1 http://de.archive.ubuntu.com/ubuntu zesty InRelease
Ign:2 http://debian.yacy.net ./ InRelease
Holen:3 http://debian.yacy.net ./ Release [1.202 B]
OK:4 http://de.archive.ubuntu.com/ubuntu zesty-updates InRelease
OK:5 http://de.archive.ubuntu.com/ubuntu zesty-backports InRelease
OK:6 http://security.ubuntu.com/ubuntu zesty-security InRelease
Holen:7 http://debian.yacy.net ./ Release.gpg [473 B]
Ign:7 http://debian.yacy.net ./ Release.gpg
OK:8 http://debian.yacy.net ./ Packages
Es wurden 1.675 B in 0 s geholt (3.930 B/s).
Paketlisten werden gelesen... Fertig
W: GPG-Fehler: http://debian.yacy.net ./ Release: Die folgenden Signaturen konnten nicht überprüft werden, weil ihr öffentlicher Schlüssel nicht verfügbar ist: NO_PUBKEY 1F968B3903D886E7
E: Sperrdatei /var/lib/dpkg/lock konnte nicht geöffnet werden. - open (13: Keine Berechtigung)
E: Sperren des Administrationsverzeichnisses (/var/lib/dpkg/) nicht möglich, sind Sie root?
manfred\@aldebaran:~\$

Was muss ich tun, damit es durchläuft?

Wenn ich ein komplettes Update mache, sieht es ähnlich aus und ich bin mir nicht sicher, ob überhaupt die anderen updates durchgeführt werden. Hier das Protokoll:

manfred\@aldebaran:~\$ sudo apt-get update
Ign:1 http://debian.yacy.net ./ InRelease
Holen:2 http://debian.yacy.net ./ Release [1.202 B]
OK:3 http://security.ubuntu.com/ubuntu zesty-security InRelease
OK:4 http://de.archive.ubuntu.com/ubuntu zesty InRelease
OK:5 http://de.archive.ubuntu.com/ubuntu zesty-updates InRelease
OK:6 http://de.archive.ubuntu.com/ubuntu zesty-backports InRelease
Holen:7 http://debian.yacy.net ./ Release.gpg [473 B]
Ign:7 http://debian.yacy.net ./ Release.gpg
OK:8 http://debian.yacy.net ./ Packages
Es wurden 1.675 B in 0 s geholt (1.992 B/s).
Paketlisten werden gelesen... Fertig
W: GPG-Fehler: http://debian.yacy.net ./ Release: Die folgenden Signaturen konnten nicht überprüft werden, weil ihr öffentlicher Schlüssel nicht verfügbar ist: NO_PUBKEY 1F968B3903D886E7
manfred\@aldebaran:~\$

Ansonsten habe ich noch die Frage, ob man im YACY selbst irgendwo sehen kann, ob die Installation auf dem aktuellen Stand ist.

Liebe Grüße, Manfred

Statistik: Verfasst von Manfred — Do Mai 18, 2017 8:57 am


Hilfe für Einsteiger und Anwender • Sortierung Suchergebnisse

Date: 2017-05-18 10:22:01

Werte Forumsmitglieder,

wie schaffe ich es eigentlich, dass die Suchergebnisse nach absteigendem Datum sortiert werden?

Ich wollte zuerst in der Solr Ranking Konfiguration das Profil \“Date Profile: sort by date in descending order for a \‘/date\’ usage\” einstellen, aber ich habe keine Möglichleit gefunden, die Änderung zu speichern und zu übernehmen. Auch die Funktion \“Sort by Date\” scheint nicht immer einwandfrei zu tun, ausserdem sehe ich nicht, wie ich dabei aufsteigende bzw. abhsteigende Reihenfolge einstellen kann.

Kann mir jemand dabei helfen bnzw. gibt es zu Sortierung und Ranking ein Turorium (am liebsten auf Deutsch)?

Liebe Grüße, Manfred

Statistik: Verfasst von Manfred — Do Mai 18, 2017 9:22 am


English • Re: Yacy won\’t re-start

Date: 2017-05-19 07:19:02

Hello eros, did you keep a copy of the full log file containing the \“(Too many open files)\” error? If you would like to share it it may be helpful for a deeper analysis of the issue.

Indeed I have run again some tests with large crawl queues (around 100000 to 220000 files in the QUEUES folder), on a Debian Jessie with its file-max system setting value default set at 404027. But until now, after many stops and restarts of YaCy, including change of the memory settings, I did not reproduce the error you had.

I was running with at max 2GB RAM memory dedicated to YaCy on a domestic DSL connection, so not really in the same conditions as you. But if you wish, I am still interested to have a look at your full log trace before the error to find some clue about what was going wrong.

Statistik: Verfasst von luc — Fr Mai 19, 2017 6:19 am


Fragen und Antworten • Re: WARC-Import

Date: 2017-05-19 11:12:43

Hi LA_FORGE,
it looks like this is because currently Warc Import is using the same indexing rules as YaCy proxy. I am not sure this was the intention of reger. I asked him on GItHub for more details (see commit 510f11d comment{.postlink}).

Best regards

Statistik: Verfasst von luc — Fr Mai 19, 2017 10:12 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-20 00:13:10

Hy luc,

I use a german Wikipedia dump for my import, but I delete the file from my drive in the past.

I have installed now my Yacy client from Source and the import from actual german Wikipedia dump works like a charm.
Thanks for your great improvement.

My Yacy have only faults, if I import and Indexing together ore if Yacy has huge crawlings.
If it happens, the GC Memory ist out of the range and Import und Indexing fail, but It might well be that i have no optimized RAM settings.

Statistik: Verfasst von promocore — Fr Mai 19, 2017 11:13 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-20 12:13:43

Thank you promocore for your feedback, and glad to know the import worked with the German Wikipedia dump.

What are your memory settings? If you wish to share your log traces when the import and indexing processes failed it can always be interesting for further improvements.

Have a nice day

Statistik: Verfasst von luc — Sa Mai 20, 2017 11:13 am


Hilfe für Einsteiger und Anwender • Re: Porgammupdate

Date: 2017-05-21 12:00:58

Hallöchen Manfred!

Es scheint mir so, daß Du bei Linux ein Neuling bist! Als erstes machst Du mal folgendes:

Manfred hat geschrieben:\ W: GPG-Fehler: ./ Release: Die folgenden Signaturen konnten nicht überprüft werden, weil ihr öffentlicher Schlüssel nicht verfügbar ist: NO\_PUBKEY [[1F968B3903D886E7]{style="font-style: italic"}]{style="font-weight: bold"}\



Du mußt diesen Schlüssel übernehmen, das geht mit folgendem Befehl:

\ sudo apt-key adv \--keyserver keyserver.ubuntu.com \--recv-keys 1F968B3903D886E7\



Dann gilt [[\“sudo\“]{style=“font-style: italic”}]{style=“font-weight: bold”} immer nur für einen Befehl, folglich war das hier falsch:

Manfred hat geschrieben:\ manfred\@aldebaran:\~\$ sudo apt-get update && apt-get install yacy\



Das sieht man auch an folgender Meldung:

Manfred hat geschrieben:\ E: Sperren des Administrationsverzeichnisses (/var/lib/dpkg/) nicht möglich, [[sind Sie root?]{style="font-style: italic"}]{style="font-weight: bold"}\



Richtig wäre das hier:

\ sudo apt-get update && [[sudo]{style="font-style: italic"}]{style="font-weight: bold"} apt-get install yacy\



Beim Update selbst, also deinem zweiten Versuch sollte dann jetzt eine entsprechende Meldung kommen, ob alles aktuell ist.

Manfred hat geschrieben:\ Ansonsten habe ich noch die Frage, ob man im YACY selbst irgendwo sehen kann, ob die Installation auf dem aktuellen Stand ist.\



Zum Einen siehst Du [[>hier<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} die derzeit aktuelle Version [(1.929000)]{style=“font-style: italic”}, zum Anderen sieht man in YaCy unter Systemstatus die verwendete Version, wenn man als Administrator angemeldet ist. Da Du aber die Debian-Quellen verwendest nehme ich doch schwer an, daß Du wie auch ich eben die aktuelle Version von YaCy verwendest!

Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Mai 21, 2017 11:00 am


Fragen und Antworten • Re: WARC-Import

Date: 2017-05-22 03:03:35

teste nach letztem commit (mit den von \@luc empfohlenen Korrekturen) Dein
https://archive.org/download/commandlin ... fu.warc.gz{.postlink}

.… läuft.

Statistik: Verfasst von reger — Mo Mai 22, 2017 2:03 am


Fragen und Antworten • Re: WARC-Import

Date: 2017-05-22 08:53:04

Thank you very much / Vielen Dank

Statistik: Verfasst von LA_FORGE — Mo Mai 22, 2017 7:53 am


English • Re: Yacy won\’t re-start

Date: 2017-05-22 12:21:14

Hi Luc,

unfortunately I don\’t have the logs. I suspect the problem might be tied to the version of Java I was using (the server had Java 1.7)

So I tried running 2 crawls on a regular PC (Ubuntu 16.04.2, 4 GB RAM, Java 1.8.0_131) and I noticed that:

1. the crawl is running much faster
2. I didn\’t have any problems restarting the server

Caveats: for these new crawls I started from a single URL https://it.wikipedia.org/wiki/Portale:Portali for the first and https://en.wikipedia.org/wiki/Portal:Contents/Indices for the second. Both were set with a crawling depth of 6, they are still running (and much faster than the crawls on the server ever did) and have indexed about 1.1 million pages from wikipedia.

Now I upgraded Java to version Java 1.8.0_131 on the server (I obviously stopped the crawls before restarting Yacy) and it started without incident. The problem now is that I cannot export the large server\’s index to XML, whenever I try (using the default settings) I get this error message:

Code:
HTTP ERROR 500Problem accessing /IndexExport_p.html. Reason:    Server ErrorCaused by:javax.servlet.ServletException: /usr/share/yacy/htroot/IndexExport_p.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:895)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)YaCy 1.92 - powered by Jetty -



Any ideas?

Statistik: Verfasst von eros — Mo Mai 22, 2017 11:21 am


English • Re: Yacy won\’t re-start

Date: 2017-05-22 12:33:17

Update, these are the errors I get on the log file:

Code:
I 2017/05/22 12:30:04 Fulltext HOT DUMP dump path = /usr/share/yacy/DATA/ARCHIVEW 2017/05/22 12:30:04 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)   at java.lang.reflect.Method.invoke(Method.java:498)   at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:670)   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:881)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)Caused by: java.lang.NullPointerExceptionW 2017/05/22 12:30:04 org.eclipse.jetty.servlet.ServletHandler javax.servlet.ServletException: /usr/share/yacy/htroot/IndexExport_p.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:895)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:374)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)I 2017/05/22 12:30:08 SWITCHBOARD dhtTransferJob: no selection, too many entries in transmission buffer: 17I 2017/05/22 12:30:08 SWITCHBOARD dhtTransferJob: result from dequeueing: true



I see a NullPointerException, which is never good...

Statistik: Verfasst von eros — Mo Mai 22, 2017 11:33 am


Mitmachen • Re: OpenTechSummit 2017

Date: 2017-05-22 19:09:03

FREITICKETS!

wer sich noch kurzfristig entscheiden will zu kommen: hier ist der Code für kostenlosen Eintritt:
https://eventyay.com/e/5642d9a1/?code=WELOVEYACY

Statistik: Verfasst von Orbiter — Mo Mai 22, 2017 6:09 pm


Hilfe für Einsteiger und Anwender • Erfahrungen mit Raspi und anderen ARM Boards

Date: 2017-05-22 22:12:21

Hallo zusammen

Erstmal ein grosses Lob und vielen Dank an die Entwickler von Yacy.

Ich habe schon lange, lange ein Projekt wie dieses hier gesucht, aber offenbar immer in die falsche Richtung gekuckt :arrow: . Vor über einem Jahr habe ich dann bei Boinc https://boinc.berkeley.edu/ begonnen mitzurechnen mit einem Cubietruck und einem Raspi. Es kam dann das eine und andere Board dazu und inzwischen ist der erste 16 Port Switch voller Arm Boards aller Arten und bin voller eifer am suchen von Ausserirdischen, komischen Zahlen etc.

Dann stolperte ich im Heise Forum über diesen Beitrag : https://www.heise.de/forum/heise-online/News-Kommentare/Kommentar-Microsoft-moechte-offizieller-Ausruester-von-Big-Brother-werden/Re-Das-Amerikanische-Verstaendnis-von-Freiheit/posting-30377556/show/ und so kam ich zu Yacy.

Gerne würde ich meinem \“Arm Board only\” treu bleiben.

Beim ersten überfliegen der Wikis und des Forums, bin ich immer wieder auf das Thema \“RAM\” gestossen (kaum ein Thema bei Boinc), weshalb mir dann ein Tinker Board (2GB RAM) besorgt habe (kostet in der Schweiz bei Digitec auch deutlich weniger als ein Raspi).

Seit einer Woche bin ich nun am Crowlen aktiv dabei .. musste aber nochmals neu starten .. Yacy ist ein zartes Pflänzchen ... Immer schöne und gute Backups machen ...


So kommen wir zum Punkt :
(1) Was macht ihr mit euren Raspis und Arm Boards bei Yacy. Braucht ihr sie eher/nur als Crawler oder eher/nur als DHT Empfänger/Portal, oder beides gleichzeitig.

(2) Wie viele Seiten kann man denn ca. Crawlen mit einem 1GB Board? Wie viele Seiten / Wörter?

(3) Mit welchen Einstellungen lasst ihr euer Board (?stabil?) laufen? Wie oft müsst ihr neu starten?

(4) Erfahrung allgemein Arm Board / PC. Lohnt sich das oder soll man nicht lieber ein schnuckligen PC nehmen mit mehr RAM?

zu (1):
Mein Ziel ist es mehrere Arm Boards als reine Crawler zu haben und ein, zwei Boards als reine DHT Empfänger bzw. Suchportal. Begonnen habe ich aber ganz normal mit Crawler und DHT Empfänger. Inzwischen habe ich aber den DHT Empfang ausgeschalten bei meinem ersten Yacy Board (also ein reiner Crawler jetzt mit ca. 100\‘000 Links aus der DHT).

zu (2):
Im Moment habe ich 995\‘000 Dokumente / knapp 1.4 Mio Wörter. Mit zwei aktiven Crawls bewege ich mich im Moment in der Region 60-150 Seiten pro Minute.

zu (3):
Meine Einstellungen habe ich von hier https://greplacement.fherb.de/2015/10/17/stabilitaet-mit-yacy-yacy-und-solr-no-2/.

zu (4):
noch nicht so viele mit Yacy, habe es nur mal kurz in einer VM auf einem aktuellen i7 laufen lassen (Betonung auf *kurz*), als ich das Tinker Board zum zweiten mal aufgesetzt habe. Im ersten Moment war da kein grosser Unterschied.

Ein grosser Unterschied macht aber die Java Runtime. Habe schon lange nichts mehr mit Java gemacht, habe aber natürlich die Open Source Runtime zuerst installiert ... danach jene von Oracle .. das sind Welten. Oracle läuft wirklich deutlich, deutlich besser (zumindest auf dem Tinker Board mit dem aktuellen Armbian).

So freue mich auf eure Rückmeldungen und Erfahrungen :)

Ihr findet meinen Peer im Yacy Freeworld Netzwerk als \“viva\” oder viva :idea: ddnss :idea: ch : 8090


viva und grüsse

Statistik: Verfasst von viva — Mo Mai 22, 2017 9:12 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-23 07:50:21

Hi eros,
thanks for your feedback, this is interesting to know that the upgrade to Java 1.8 seems to solve your initial problem.

Regarding the error on index export, I recently fixed some issues with this feature notably a NullPointerException case (see commit e5858bc{.postlink} on the GitHub repository). So if you want to have a try... you just have to build and install your own deb{.postlink} package from latest source. Not very difficult, and you will also benefit from all the other fixes and improvements made since release 1.929000.

Statistik: Verfasst von luc — Di Mai 23, 2017 6:50 am


English • Re: Yacy won\’t re-start

Date: 2017-05-23 16:31:12

I tried building a deb package but apparently something went wrong, do I need to use Java 7 to compile it?

Code:
Buildfile: /home/eros/yacy_search_server/build.xmlbuildGitRevTask:   [delete] Deleting: /home/eros/yacy_search_server/libbuild/GitRevTask.jar      [jar] Building jar: /home/eros/yacy_search_server/libbuild/GitRevTask.jardetermineGitRevision:   [gitRev] SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".   [gitRev] SLF4J: Defaulting to no-operation (NOP) logger implementation   [gitRev] SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.readBuildProperties:init:     [echo] YaCy Branch:      [echo] YaCy Version number: 1.92     [echo] YaCy Release number: 9216   [delete] Deleting: /home/eros/yacy_search_server/classes/net/yacy/peers/operation/yacyBuildProperties.java     [copy] Copying 1 file to /home/eros/yacy_search_server/classes/net/yacy/peers/operation     [copy] Copying 1 file to /home/eros/yacy_search_server/classesdeb:     [exec] dpkg-buildpackage: source package yacy     [exec] dpkg-buildpackage: source version 1.92.9216     [exec] dpkg-buildpackage: source distribution unstable     [exec] dpkg-buildpackage: source changed by Michael Peter Christen <mc@yacy.net>     [exec]  dpkg-source --before-build yacy_search_serverdpkg-buildpackage: host architecture amd64     [exec]      [exec] dpkg-checkbuilddeps: error: Unmet build dependencies: openjdk-7-jdk debhelper (>= 5) m4     [exec] dpkg-buildpackage: warning: build dependencies/conflicts unsatisfied; aborting     [exec] dpkg-buildpackage: warning: (Use -d flag to override.)     [exec] Result: 3BUILD SUCCESSFUL

Statistik: Verfasst von eros — Di Mai 23, 2017 3:31 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-24 08:50:05

Yes that\’s it : currently openjdk-7-jdk is the required dependency needed to build the Debian package. But this doesn\’t prevent you to then install and run with openjdk-8!
If this is a problem, you can modify this dependency for your own use in the file

Code:
yacy_search_server/debian/control

.

And for the build, as stated in the message, you also need the \“debhelper\” and \“m4\” packages.

Statistik: Verfasst von luc — Mi Mai 24, 2017 7:50 am


English • Re: Yacy won\’t re-start

Date: 2017-05-24 11:00:12

Thank you Luc, I was able to compile the deb package and I started the server, but when I try to authenticate on the web interface I get this error message:

Code:
Ops!Message: nulljava.lang.NullPointerException   at org.eclipse.jetty.security.authentication.DigestAuthenticator$Digest.check(DigestAuthenticator.java:353)   at net.yacy.http.YaCyLegacyCredential.check(YaCyLegacyCredential.java:68)   at org.eclipse.jetty.security.MappedLoginService$KnownUser.authenticate(MappedLoginService.java:320)   at org.eclipse.jetty.security.MappedLoginService.login(MappedLoginService.java:226)   at org.eclipse.jetty.security.authentication.LoginAuthenticator.login(LoginAuthenticator.java:61)   at org.eclipse.jetty.security.authentication.DigestAuthenticator.validateRequest(DigestAuthenticator.java:229)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:512)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)



Below you can see the log file on the server side (/var/log/yacy/yacy00.log)

Code:
W 2017/05/24 10:52:21 ConcurrentLog java.lang.reflect.InvocationTargetExceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:498)        at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:672)        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:883)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:748)Caused by: java.lang.NullPointerException        at org.eclipse.jetty.security.authentication.DigestAuthenticator$Digest.check(DigestAuthenticator.java:353)        at net.yacy.http.YaCyLegacyCredential.check(YaCyLegacyCredential.java:68)        at org.eclipse.jetty.security.MappedLoginService$KnownUser.authenticate(MappedLoginService.java:320)        at org.eclipse.jetty.security.MappedLoginService.login(MappedLoginService.java:226)        at org.eclipse.jetty.security.authentication.LoginAuthenticator.login(LoginAuthenticator.java:61)        at org.eclipse.jetty.security.authentication.DigestAuthenticator.validateRequest(DigestAuthenticator.java:229)        at org.eclipse.jetty.security.authentication.DeferredAuthentication.authenticate(DeferredAuthentication.java:68)        at org.eclipse.jetty.server.Request.isUserInRole(Request.java:1553)        at net.yacy.cora.protocol.RequestHeader.isUserInRole(RequestHeader.java:353)        at net.yacy.search.Switchboard.adminAuthenticated(Switchboard.java:3618)        at net.yacy.search.Switchboard.verifyAuthentication(Switchboard.java:3710)        at feed.respond(feed.java:28)        ... 30 moreW 2017/05/24 10:52:21 org.eclipse.jetty.servlet.ServletHandlerjavax.servlet.ServletException: /usr/share/yacy/htroot/api/feed.rss        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:909)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)        at org.eclipse.jetty.server.Server.handle(Server.java:499)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)        at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)        at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)        at java.lang.Thread.run(Thread.java:748)



I\’m running version 1.92.9216

Statistik: Verfasst von eros — Mi Mai 24, 2017 10:00 am


Mitmachen • Re: OpenTechSummit 2017

Date: 2017-05-24 13:08:14

OpenTechSummit 2017 ist MORGEN!

Die Location ist toll, das ist im freiLand Potsdam
http://freiland-potsdam.de/

Statistik: Verfasst von Orbiter — Mi Mai 24, 2017 12:08 pm


Mitmachen • Re: OpenTechSummit 2017

Date: 2017-05-24 13:13:07

Brauchen wir noch etwas, was ich mitbringen kann?

Statistik: Verfasst von sixcooler — Mi Mai 24, 2017 12:13 pm


Hilfe für Einsteiger und Anwender • yacy stürzt ab ...

Date: 2017-05-24 13:48:53

hab yacy installiert ... hab es ne weile (teilw. über 6 std.) laufen lassen ... dann mach ich ne suchanfrage ... ein paar ergebnisse werden gefunden und dann geht das programm einfach aus ... und ab und zu lässt es sich nur nach einem rechnerneustart neu starten ... die suchanfragen mache ich über´s LAN ...

was muss ich prüfen ?

Statistik: Verfasst von jojoslf — Mi Mai 24, 2017 12:48 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-24 17:46:07

After 3 Days Yacy up running, i got the Memory Error: Caused by: java.lang.OutOfMemoryError: Java heap space

I only indexing with 50PPM at 1 Domain.

My yacy PC has 15 GB Ram and Yacy can use up to 8GB.

If I do something simultaneously, like import and crawling ore only only heavy crawling, I got the Error within a few hours.
Have I set something grossly wrong?


RAM-Settings.JPG

yacylog.zip

Statistik: Verfasst von promocore — Mi Mai 24, 2017 4:46 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-24 19:01:30

Arrh sorry! I forgot to mention that the authentication method switched in the meantime from Basic HTTP to Digest HTTP, thus encoding differently the admin password.
So, after upgrading from 1.929000, you currently (this may be improved for the next official release, as well as the error message you got...) have to explicitely run

Code:
dpkg-reconfigure yacy

and enter again your admin password. Then it should be ok!

Statistik: Verfasst von luc — Mi Mai 24, 2017 6:01 pm


Mitmachen • Re: OpenTechSummit 2017

Date: 2017-05-24 19:41:54

Hab die Standdeko, ggf. brauchen wir noch nen Dreierstecker.

Statistik: Verfasst von Orbiter — Mi Mai 24, 2017 6:41 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-25 15:23:37

OK, now it works, thanks!

Statistik: Verfasst von eros — Do Mai 25, 2017 2:23 pm


Hilfe für Einsteiger und Anwender • Crawl nur auf xpath

Date: 2017-05-25 20:53:51

Ahoi

Ich würde Stacy gerne für eine Art Intranetsuche verwenden und bin sehr angetan von der Software. Nun ist es so, dass als zu indizierenden Seiten eine einheitliches DOM aufweisen und ich daher sehr gut die Bereiche mit dem eigentlichen Content per XPath identifizieren kann. Ich brauche die Indizierung von Navigation usw nicht, das verhagelt mir hinterher nur das Ergebnis. Geht das? Also den Crawler auf nen bestimmten XPath trimmen?

Dahin und Gruß

Statistik: Verfasst von stbc — Do Mai 25, 2017 7:53 pm


Hilfe für Einsteiger und Anwender • Re: yacy stürzt ab ...

Date: 2017-05-26 01:32:11

Kenne ich auch. Besonders wenn man neu beginnt mit einer leeren Datenbank. Eigentlich dachte ich nach einer Woche laufe mein Yacy nun stabil, bzw. es lief auch. Habe dann aber festgestellt, dass die Datenbank bei einem Absturz wohl schaden nahm, da die Suchergebnisse teilweise komplett falsch waren.

Habe dann nach einer Woche ein drittes mal neu gestartet. Zuvor habe ich extra alle Einstellungen notiert gehabt, wie es nach einer Woche stabil läuft. Als ich die Werte dann so eingetragen habe, ist es auch gar nicht gelaufen. Obwohl nur ein Crawl aktiv war, war die Prozessorauslastung extrem hoch. Ich habe dann den RAM ein wenig runtergeschraubt und die /PerformanceQueues_p.html \“Maximale Wortzahl im Cache:\” von 50\‘000 auf 40\‘000 gesetzt. Das hat dann geholfen.

Ein anderes Problem, welches ich danach hatte, war, dass dauern die Meldung wegen zuwenig Platz auf der HD, sowie Meldung zuwenig freier RAM kam und das Crawlen stoppte. Da ich weiss, dass ich noch 100GB frei habe auf der HD, habe ich bei /Performance_p.html \“Deaktivere Crawls unter xxMB\” einfach 0 MB eingetragen und bei /Performance_p.html \“Deaktivere eingehende DHT Transfers unter \” auch 0MB eingetragen.

jetzt läuft es seit drei Tagen stabil.

Als ich heute auf Github unterwegs war um zu schauen, wie dass abgefragt wird wegen dem freien Speicher und so, habe ich auf der Frontseite von Yacy Search Server auf Github https://github.com/yacy/yacy_search_server gesehen, dass man zu beginn sogar nur 200MB RAM einstellen soll.

Im Moment lasse ich auch nur einen Crawler laufen .. lieber etwas langsamer, dafür (hoffentlich) stabil.

Ich hoffe das hilft ein wenig ...

.. ich bin aber auch erst eine Woche bei Yacy dabei.

Statistik: Verfasst von viva — Fr Mai 26, 2017 12:32 am


Hilfe für Einsteiger und Anwender • Re: yacy stürzt ab ...

Date: 2017-05-26 01:37:20

Textstelle aus Github https://github.com/yacy/yacy_search_server

\ YaCy can scale up to many millions of web pages in your own search index. The default assignment of RAM is 600MB which is assigned to the java process but not permanently used by it. The GC process will free the memory once in a while. If you have a small index (i.e. about 100000 pages) then you may assign less memory (i.e. 200MB) but if your index scales up to over 1 million web pages then you should start to increase the memory assignment. Open and set a higher/lower memory assignment. If you have millions of web pages in your search index then you might habe gigabytes of disk space allocated. You can reduce the disk space i.e. setting the htcache space to a different size; to do that open and set a new size.\

Statistik: Verfasst von viva — Fr Mai 26, 2017 12:37 am


Hilfe für Einsteiger und Anwender • Re: yacy stürzt ab ...

Date: 2017-05-26 09:31:10

Hallo \@jojoslf,

willkommen im Forum! [(<-- ist doch schön, wenn man begrüßt wird, oder??)]{style=“font-style: italic”}

jojoslf hat geschrieben:\ hab yacy installiert \... hab es ne weile (teilw. über 6 std.) laufen lassen \... dann mach ich ne suchanfrage \... ein paar ergebnisse werden gefunden und dann geht das programm einfach aus \... und ab und zu lässt es sich nur nach einem rechnerneustart neu starten \... die suchanfragen mache ich über´s LAN \...\ \ was muss ich prüfen ?\



Wie wäre es mit ein paar Angaben zum verwendeten System? Dann könnte man es besser abschätzen, welche Werte Du wo setzen kannst! Du kannst dich aber [[ungefähr]{style=“font-style: italic”}]{style=“font-weight: bold”} an mein folgendes Tutorial halten und die Werte an dein System anpassen:

[[[P2P-Tutorial – #YaCy und HTTPS: Die sichere Suchmaschine! « TmoWizard\’s Castle{.postlink}]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Bei einer Forensuche hättest Du das Tutorial übrigens auch [[selbst finden können{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Der \“Server\” läuft seit dem letzten Kernel-Update nun [[12]{style=“font-style: italic”}]{style=“font-weight: bold”} Tage durch ohne Probleme und machte auch zuvor keinen Ärger, inzwischen komme ich auf knapp [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} Mio. Dokumente im eigenen Index.

Wie geschrieben muß man das natürlich auf sein eigenes System anpassen, da es natürlich speziell für diesen Server geschrieben wurde!

Statistik: Verfasst von TmoWizard — Fr Mai 26, 2017 8:31 am


English • Re: Yacy won\’t re-start

Date: 2017-05-27 01:39:54

Have you allocated a SWAP file in your VM?

https://www.digitalocean.com/community/tutorials/how-to-add-swap-on-ubuntu-14-04
I recommend a large one because you can load the CPU up to a higher average load and increase stability, from my experience.

Have you increased any of the settings on the /PerformanceQueues_p.html page?

Statistik: Verfasst von smokingwheels — Sa Mai 27, 2017 12:39 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-27 10:30:14

Ok, as far as I know your settings look fine, and 8GB dedicated to YaCy should be enough. When having some time I will try to run a similar scenario as the one your describe (MediaWiki import while crawling) and check what happens.

For information, a tip that may be useful to help debugging that kind of failure case : run YaCy with the

Code:
-XX:+HeapDumpOnOutOfMemoryError

advanced JVM option (present as a comment in YaCy sources build.xml{.postlink} file), will produce a heap memory dump once the OutOfMemoryError occurs. This dump can be then opened with a tool such as JVisualVM and it can really help finding what part of the code is using too much memory.

Statistik: Verfasst von luc — Sa Mai 27, 2017 9:30 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-27 13:14:41

I find the file and the options.

Code:
  <java classname="net.yacy.yacy" fork="yes">      <classpath>        <pathelement location="${build}"/>        <pathelement location="${htroot}"/>        <pathelement location="${lib}" />        <fileset dir="${lib}" includes="**/*.jar" />      </classpath>      <arg line="-start"/>      <jvmarg line="-Xdebug"/>      <jvmarg line="-Xnoagent"/>      <jvmarg line="-Djava.compiler=none"/>      <jvmarg line="-Xrunjdwp:transport=dt_socket,address=8000,server=y,suspend=y"/>      <!-- Dump memory heap when an OutOfMemoryError occurs -->      <!-- <jvmarg line="-XX:+HeapDumpOnOutOfMemoryError"/> -->      <!-- Dump path -->      <!-- <jvmarg line="-XX:HeapDumpPath=/your_path/"/> -->      <!-- Log JAXP XML parsers Debug information -->      <!-- <jvmarg line="-Djaxp.debug=1"/> -->    </java>



I comment out and edit path from these settings now.

<jvmarg line=\“-XX:+HeapDumpOnOutOfMemoryError\“/>
<jvmarg line=\“-XX:HeapDumpPath=/your_path/\“/>

Statistik: Verfasst von promocore — Sa Mai 27, 2017 12:14 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-28 13:06:17

I got the \“java.lang.OutOfMemoryError: GC overhead limit exceeded\” error again, but i don´t find a dump in the given folder from yacy.
Do i still have to do something?

Statistik: Verfasst von promocore — So Mai 28, 2017 12:06 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-28 15:32:14

It looks like I confused you a little with the example in the build.xml file : this one is only useful if you run YaCy in debug mode from compiled sources with Apache Ant. If you run YaCy using the startYACY.sh or startYACY.bat script, this is in that script that you have to add the JVM option \“-XX:+HeapDumpOnOutOfMemoryErro\” at the appropriate place to get the dump generated...

Statistik: Verfasst von luc — So Mai 28, 2017 2:32 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-29 11:20:09

Hi,

I\’m not running Yacy on a Virtual Machine, the OS has 256 GB RAM (96 GB are dedicated to Yacy) and a 64 GB SWAP partition.

Since I installed version 1.929218 I noticed some improvements: I can now restart Yacy without messing up the index or the crawl, and the crawl seems to be somewhat faster, at least for some time after the restart.

Unfortunately there are still problems: I\’ve been forced to restart the server a couple of times because, after about 20 hours, the crawls slow down considerably to 5-10 pages per minute until they basically stop and the web interface becomes unresponsive. Restarting the server every 10 hours or so seems to fix the problem. The log reported multiple Solr exception, unfortunately the logs got wiped when I restarted the server, I\’ll post them next time it happens.

I\’m running multiple crawls simultaneously as suggested in the documentation and I get an indexing speed of about 100 to 800 pages per minute (at least after a yacy restart, then it slows down), is that a reasonable speed? Bandwidth shouldn\’t be a bottleneck since I\’m on a fast gigabit fiber connection at the University.

BTW: the server I\’m experimentig with is http://amelia.sslmit.unibo.it:8090/

Statistik: Verfasst von eros — Mo Mai 29, 2017 10:20 am


Panorama • Re: 10 Jahre DMOZ...

Date: 2017-05-29 12:09:22

Ich weiß nicht ob Ihr\’s wusstet. DMOZ hatte mal einen prominenten Mirror namens Google-Directory. Google hatte früh begriffen, dass man die ehrenamtliche Arbeit der DMOZ-Redakteure prima als Seed des (Pagerank-)Linkgraph ausbeuten kann. So gesehen unrechtmäßige Aneignung - also Diebstahl.

Kurze Zeit später war Google groß genug geworden, um ohne die ehrenamtlichen Redakteure auszukommen, und schaltete seinen DMOZ-Mirror ab. Ein paar Jahre später verhängte Google eine \“Penalty\” über die gesamte Webkatalog-Branche, weil sie den Pagerank-Algorithmus stören würde. Ein Hohn, aber die Macht macht es möglich. Google ist Meister darin, Brücken abzureißen und Quellen zu vergiften, damit niemand nach Ihnen von einer solchen Ressource profitieren kann. Ein anderes Beispiel dafür ist Firefox, wo Google sich als \“Haussuchmaschine\” einkaufte, um später mit Chrome den Browsermarkt zu übernehmen und auch diese Brücke abzureißen. Das ist noch nicht ganz gelungen, aber denkt mal in ein paar Jahren an diese These zurück.

Der Untergang von DMOZ ist also nicht der Zeit geschuldet. DMOZ war nicht überflüssig geworden! DMOZ fiel dem Machterhalt und der Monopolisierung des ehemals freien Internet zum Opfer, wie so viele zuvor und so viele nach ihm.

Statistik: Verfasst von shni — Mo Mai 29, 2017 11:09 am


Suchmaschinen • Re: Nichts neues zu YaCy?!

Date: 2017-05-29 12:37:36

Hi TmoWizard und alle,

ich kenne auch diese Idee, dass mehr Werbung bei stagnierenden Projekten schon helfen wird. Das setzt aber voraus, dass das Produkt von seiner primären Zielgruppe gut angenommen werden wird, man sie also nur noch darauf aufmerksam machen muss. Bei YaCy habe ich den Eindruck, dass es einfach zu kantig ist. Hier und da findet sich zwar ein Technologieliebhaber, der mit regelmäßigen Aufhängern (bzw. Neustarts) und langsamen Suchergebnissen bei mittlerer Qualität gut leben kann. Aber solche Menschen sind die Ausnahme. Wenn solche Nerds die primäre Zielgruppe ausmachen, dann ist diese sehr klein.

Nimmt man als Zielgruppe den durchschnittlichen Internet-User an, dann tippe ich für den aktuellen Zustand der Software auf eine Absprungrate binnen eines Monats von >99%. Spätestens beim dritten Aufhänger oder wenn man regelmäßig doch zu Google ausweichen muss, schwindet die Lust. Damit ist jede Werbung im Massenmarkt vergebene Liebesmüh. Es sei denn, man möchte jeden Nutzer richtig teuer einkaufen.

Als positive Fazit würde ich ziehen wollen, dass Werbung vielleich noch im universitären Umfeld fruchten könnte. Weil dort die nötige Muße, ein entsprechendes Bewusstsein und ein relativ gutes Qualitätsbewusstsein herrscht.

So schade es ist!

LG

Statistik: Verfasst von shni — Mo Mai 29, 2017 11:37 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-05-29 13:07:26

Thx luc, I got the dump.
Maybe you or somebody else can take a look of the dump.
It would be realy grate to find out, why I get the error.

Download Log{.postlink}
Download Dump{.postlink}

Statistik: Verfasst von promocore — Mo Mai 29, 2017 12:07 pm


Fragen und Antworten • Re: Ignore Tags

Date: 2017-05-29 15:58:07

Gibt es Neuigkeiten hierzu?

Wir benötigen dringend die Möglichkeit nur das Content-Element unserer TYPO3 Seiten zu crawlen. Es macht einfach keinen Sinn die Sitebars und Navigations-Elemente mit zu crawlen... :)
VG

Statistik: Verfasst von marxist — Mo Mai 29, 2017 2:58 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-29 19:18:54

Network Bandwidth Guidelines?

Have you considered a RAM disk to do the initial crawl with scheduled task to backup contents (Yacy would have to be stopped and started)?
Do you have any logs lines that say similar HostQueue forcing crawl-delay of 673 milliseconds for http://www.zxyyy.net: minimumDelta = 250, flux = 0, host.average = 1683 ?
A lot of sites are protected I think by DDos protection providers this could be an issue for you.
What sort of increments do you get on the Traffic (Crawler) counter per update?
Did you have over 11 mb/s when cloning from github?

I have done a few stress tests and java spikes my CPU not sure for the reason. https://twitter.com/smokingwheels/status/868477414178865152
This one asks for a peak nearly 25 x the power of my CPU, open both pics you will see the scale the one on the right is the load averages. https://twitter.com/smokingwheels/status/868705075778117632
Searching was performed over the period.

You can define you own network and have lots of peers on it doing remote crawls [I have never tried it]{style=“font-weight: bold”}.

Statistik: Verfasst von smokingwheels — Mo Mai 29, 2017 6:18 pm


Suchmaschinen • Re: Nichts neues zu YaCy?!

Date: 2017-05-30 13:11:22

Hallo \@shni,

das verstehe ich jetzt nicht:

\ der mit regelmäßigen Aufhängern (bzw. Neustarts)\



Wie Du an meinem Registrierungsdatum hier im Forum sehen kannst verwende ich YaCy nun seit beinahe [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahren, aber Aufhänger hatte ich in dieser Zeit höchstens zwei oder drei mal. Da blieb so manches von mir verwendete Programm wesentlich öfter hängen, sogar mein Kubuntu mußte ich wesentlich öfter neu starten!

Mein [[neuer YaCy-Server{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} läuft nun seit mehr als [[16]{style=“font-style: italic”}]{style=“font-weight: bold”} Tagen [[247]{style=“font-style: italic”}]{style=“font-weight: bold”} durch, der mußte nur wegen einem neuen Kernel mal neu gestartet werden. Ich habe inzwischen mehrere Websites indexiert, der Rest ging über meine zahlreichen Feeds, so daß ich nun auf über [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente komme.

Da liegt der Fehler doch dann eindeutig am Nutzer, welcher irgend was falsch eingestellt hat. Anders kann ich mir es einfach nicht erklären, warum manche so oft Ärger mit YaCy haben.

\ \... langsamen Suchergebnissen bei mittlerer Qualität gut leben kann.\ \ \<\-\-- snip \-\--\>\ \ Damit ist jede Werbung im Massenmarkt vergebene Liebesmüh.\



Auch hier sind doch die Nutzer selbst schuld, wenn es keine guten Suchergebnisse gibt! Es ist bekannt, daß YaCy seinen eigenen globalen Index hat. Dieser kann aber nur größer und besser werden, je mehr Leute bei YaCy mitmachen. Da hilft alles meckern gar nichts, wenn man YaCy keine Chance läßt! Man muß schon selbst was dafür tun, damit das besser wird.

Außerdem ist es bei einer Werbung für YaCy wichtig, daß man richtig wirbt! In jedem meiner Artikel über YaCy erkläre ich den Lesern explizit, daß der Index nur mit genügend Peers besser werden kann. Wenn ich mir dagegen andere Artikel darüber ansehe, dann fehlt oftmals genau dieser Punkt und das ist nun mal eich ganz böses Foul!!

Ein zensurfreies Internet geht nur mit Peer-to-Peer, das gilt auch für Suchmaschinen und YaCy ist hierfür eindeutig prädestiniert. Daß mit P2P auch Schindluder betrieben wird kennt man ja von Torrent, daran wird man wohl nichts ändern können. Ich werde aber trotzdem versuchen, daß ich diese Idee weiter bewerbe. Ich arbeite derzeit weitere P2P-Tutorials hierzu aus, wozu auch E-Mails und ein Netzwerk ala Facebook gehören! Ich bin nur nicht sicher, ob mein alter [\“Server\“]{style=“font-style: italic”} das überhaupt gebacken kriegt oder ob ich einen Teil davon hier auf meinem Arbeitstier verwirklichen muß.

Übrigens halte ich es für absolut lächerlich, wenn die Leute von [[\“Datenkraken\“]{style=“font-style: italic”}]{style=“font-weight: bold”} reden, dann aber nichts dagegen unternehmen!

[[...]{style=“font-style: italic”}]{style=“font-weight: bold”}

Irgendwie höre ich gerade ein paar Leute nach der Cloud brüllen, klappt aber nicht bei mir! Je mehr Daten man auslagert, desto schlimmer wird man von Konzernen abhängig. Wenn ich einen vernünftig Rechner bzw. Server hier hätte, dann würde ich sogar mein Blog selbst hosten. Den YaCy-Blog [(/Blog.html)]{style=“font-style: italic”} kann man ja nur erreichen, wenn man YaCy selbst installiert hat und das ist nicht in meinem Sinn! Außerdem gefällt mir [[Markdown{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} ganz und gar nicht, das ist ja echt grauenhaft! Bild Die Idee für solch ein Blog an sich ist gut, die Umsetzung jedoch einfach nur als mangelhaft zu bezeichnen.

Das eigentliche Problem sehe ich eigentlich nur bei der Datensicherung, da hier gerade im privaten Bereich einfach die Möglichkeiten fehlen. Das bemerke ich derzeit sogar bei mir, da sich tatsächlich mein Backup-System verabschiedet hat! Platte defekt --> Daten futsch! :o Das ist nicht nur für mein normales System ärgerlich, sondern natürlich auch für mein YaCy. Beide Rechner sind ja nicht gerade auf dem neuesten Stand der Technik, da kann jederzeit etwas kaputt gehen und das ist gar nicht gut.

Bild

Wie schon geschrieben kommt es auf die [[\“richtige\“]{style=“font-style: italic”}]{style=“font-weight: bold”} Werbung an, wenn sich YaCy weiter verbreiten soll. Man sollte auf jeden Fall auch die Nachteile erwähnen, sonst verärgert und vergrault man neue Nutzer! Bei [[keinem]{style=“font-style: italic”}]{style=“font-weight: bold”} meiner Artikel lasse ich es unerwähnt, daß die Suchergebnisse derzeit nicht gerade berauschend sind, da einfach zu wenig Leute mitmachen. Viele Leute scheinen das aber nicht zu begreifen und lassen es in ihren Artikeln unerwähnt, so daß YaCy dadurch zum Teil leider einen unberechtigt schlechten Ruf hat! :cry:

Das ist auch der Hauptgrund, warum ich diesen Thread gestartet habe. Nicht nur, daß es zu wenig Werbung für YaCy gibt, die vorhandene Werbung ist schlicht unzureichend und das muß sich endlich ändern! Wir alle hier im Forum und auch alle Teilnehmer in der Gemeinschaft müßen mehr Werbung für YaCy machen, aber eben [[richtig]{style=“font-style: italic”}]{style=“font-weight: bold”} und genau das sehe ich nicht! Such doch mal bei Google oder so nach [[\“yacy tutorial\“]{style=“font-style: italic”}]{style=“font-weight: bold”} und Du wirst staunen, denn als eines der ersten Ergebnisse ist mein oben verlinktes Tutorial!

Hier kommen wir dann auch schon zu einem riesigen Problem, denn bei YaCy selbst wird dieses Tutorial nur über Umwege gefunden! Das halte ich dann schon für eine ziemlich schwache Leistung, denn natürlich war mein Blog das Erste, was ich in meinen eigenen Index aufgenommen habe! Andererseits ist das aber auch irgendwie verständlich, denn wer sucht schon [[bei]{style=“font-style: italic”}]{style=“font-weight: bold”} YaCy nach einem Tutorial [[für]{style=“font-style: italic”}]{style=“font-weight: bold”} YaCy, wenn es bereits auf dem eigenen System läuft? :mrgreen:

\ Als positive Fazit würde ich ziehen wollen, dass Werbung vielleich noch im universitären Umfeld fruchten könnte. Weil dort die nötige Muße, ein entsprechendes Bewusstsein und ein relativ gutes Qualitätsbewusstsein herrscht.\



Das halte ich nun für alles andere als positiv, denn dann läuft wirklich gewaltig was daneben für YaCy! Auch in diesem Umfeld gibt es ja wohl genügend Leute mit entsprechendem Bekanntschafts- und Verwandtschaftskreis, damit man YaCy einem größeren Umfeld schmackhaft machen kann. Aber wieder kommt es hierbei darauf an, daß man eben [[\“richtig\“]{style=“font-style: italic”}]{style=“font-weight: bold”} wirbt! Ich sehe das ja bei SeaMonkey, welcher in meinem eigenen Umfeld durch mich und meine Tutorials sehr beliebt wurde.

Leider ist es immer wieder so, daß einfach alles mögliche viel zu kompliziert erklärt wird. Das beste Beispiel dazu dürfte wohl die Verschlüsselung von E-Mails mit GPG sein, denn einen einfachen Nutzer interessiert nicht die Mathematik dahinter, sondern das Endergebnis! Deswegen gehe ich in [[meinem entsprechenden Tutorial{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} auch gar nicht darauf ein, denn das verwirrt die Nutzer nur statt ihnen zu helfen. Warum soll man über etwas zwei Stunden lang ein für Laien völlig unverständliches Referat halten, was man in knapp [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Minuten funktionsfähig installieren kann?

[[[Werbung ist wichtig,
aber bitte richtig!]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Grüße nun aus TmoWizard\’s Castle zu Augsburg

Mike

Statistik: Verfasst von TmoWizard — Di Mai 30, 2017 12:11 pm


English • Re: Yacy can\’t see the open port.

Date: 2017-05-30 17:23:49

To test you Yacy server do a private test here https://www.webpagetest.org/ just 1 go the default is 3.

Statistik: Verfasst von smokingwheels — Di Mai 30, 2017 4:23 pm


English • Re: Yacy won\’t re-start

Date: 2017-05-31 11:07:32

I\’m still having problems when the crawl gets too large, here\’s what I did:

- last Friday I did a fresh install of yacy, removing all configuration files and indexes

- I started 5 separate crawls (4 of them had a starting list of 3.000 URLs, the last one had 10.000 URLs)

- after about 20 hours the web interface became unresponsive, I restarted Yacy and the crawls resumed correctly

- I restarted Yacy every 10-15 hours because I noticed that the crawls had a tendency to slow down after a while

- last night (Tuesday) the crawl was \“flatlining\” (i.e. the index wasn\’t growing anymore, indexer consistently reported 0 pages per minute) so I tried restarting Yacy again

- restarting didn\’t work, I briefly got this error page on the web interface during the restart attempt (afterwards the web interface did not respond at all):

Code:
javax.servlet.ServletException: /usr/share/yacy/htroot/index.html   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:909)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:595)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.Dispatcher.forward(Dispatcher.java:191)   at org.eclipse.jetty.server.Dispatcher.forward(Dispatcher.java:72)   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:351)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)



On the server side I got a bunch of errors:

Code:
E 2017/05/31 01:37:13 org.apache.solr.handler.RequestHandlerBase org.apache.solr.common.SolrException: Exception during facet.field: coordinate_p   at org.apache.solr.request.SimpleFacets$3.call(SimpleFacets.java:721)   at org.apache.solr.request.SimpleFacets$3.call(SimpleFacets.java:706)   at java.util.concurrent.FutureTask.run(FutureTask.java:266)   at org.apache.solr.request.SimpleFacets$2.execute(SimpleFacets.java:660)   at org.apache.solr.request.SimpleFacets.getFacetFieldCounts(SimpleFacets.java:731)   at org.apache.solr.handler.component.FacetComponent.getFacetCounts(FacetComponent.java:294)   at org.apache.solr.handler.component.FacetComponent.process(FacetComponent.java:256)   at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:272)   at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155)   at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219)   at net.yacy.http.servlets.SolrSelectServlet.service(SolrSelectServlet.java:251)   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)   at org.eclipse.jetty.server.Server.handle(Server.java:499)   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)   at java.lang.Thread.run(Thread.java:748)Caused by: java.lang.IllegalStateException: unexpected docvalues type NONE for field 'coordinate_p' (expected=SORTED). Use UninvertingReader or index with docvalues.   at org.apache.lucene.index.DocValues.checkField(DocValues.java:208)   at org.apache.lucene.index.DocValues.getSorted(DocValues.java:264)   at org.apache.solr.request.PerSegmentSingleValuedFaceting$SegFacet.countTerms(PerSegmentSingleValuedFaceting.java:269)   at org.apache.solr.request.PerSegmentSingleValuedFaceting$1.call(PerSegmentSingleValuedFaceting.java:109)   at org.apache.solr.request.PerSegmentSingleValuedFaceting$1.call(PerSegmentSingleValuedFaceting.java:106)   at java.util.concurrent.FutureTask.run(FutureTask.java:266)   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)   at java.util.concurrent.FutureTask.run(FutureTask.java:266)   at org.apache.solr.common.util.ExecutorUtil$MDCAwareThreadPoolExecutor$1.run(ExecutorUtil.java:231)   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)   ... 1 moreyacy07.log:java.io.FileNotFoundException: /usr/share/yacy/htroot/yacy/hello.html (Too many open files)yacy07.log:   at java.io.FileInputStream.open0(Native Method)yacy07.log:   at java.io.FileInputStream.open(FileInputStream.java:195)yacy07.log:   at java.io.FileInputStream.<init>(FileInputStream.java:138)yacy07.log:   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:1080)yacy07.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)yacy07.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:376)yacy07.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)yacy07.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)yacy07.log:   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)yacy07.log:   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)yacy07.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)yacy07.log:   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)yacy07.log:   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)yacy07.log:   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)yacy07.log:   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)yacy07.log:   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)yacy07.log:   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)yacy07.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)yacy07.log:   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)yacy07.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy07.log:   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)yacy07.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy07.log:   at org.eclipse.jetty.server.Server.handle(Server.java:499)yacy07.log:   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)yacy07.log:   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)yacy07.log:   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)yacy07.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)yacy07.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)yacy07.log:   at java.lang.Thread.run(Thread.java:748)yacy06.log:java.io.FileNotFoundException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/www.orinstarn.com-#i9ulCZ.80/0004.stack (Too many open files)yacy06.log:   at java.io.FileInputStream.open0(Native Method)yacy06.log:   at java.io.FileInputStream.open(FileInputStream.java:195)yacy06.log:   at java.io.FileInputStream.<init>(FileInputStream.java:138)yacy06.log:   at net.yacy.kelondro.table.ChunkIterator.<init>(ChunkIterator.java:65)yacy06.log:   at net.yacy.kelondro.table.Table.<init>(Table.java:161)yacy06.log:   at net.yacy.kelondro.index.OnDemandOpenFileIndex.getIndex(OnDemandOpenFileIndex.java:61)yacy06.log:   at net.yacy.kelondro.index.OnDemandOpenFileIndex.size(OnDemandOpenFileIndex.java:153)yacy06.log:   at net.yacy.kelondro.index.BufferedObjectIndex.size(BufferedObjectIndex.java:152)yacy06.log:   at net.yacy.crawler.HostBalancer$1.run(HostBalancer.java:101)yacy06.log:W 2017/05/31 01:37:30 ConcurrentLog net.yacy.kelondro.util.kelondroException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/www.orinstarn.com-#i9ulCZ.80/0004.stack (Too many open files)yacy06.log:net.yacy.kelondro.util.kelondroException: /usr/share/yacy/DATA/INDEX/freeworld/QUEUES/CrawlerLimitStacks/www.orinstarn.com-#i9ulCZ.80/0004.stack (Too many open files)yacy06.log:   at net.yacy.kelondro.table.Table.<init>(Table.java:228)yacy06.log:   at net.yacy.kelondro.index.OnDemandOpenFileIndex.getIndex(OnDemandOpenFileIndex.java:61)yacy06.log:   at net.yacy.kelondro.index.OnDemandOpenFileIndex.size(OnDemandOpenFileIndex.java:153)yacy06.log:   at net.yacy.kelondro.index.BufferedObjectIndex.size(BufferedObjectIndex.java:152)yacy06.log:   at net.yacy.crawler.HostBalancer$1.run(HostBalancer.java:101)yacy05.log:javax.servlet.ServletException: /usr/share/yacy/htroot/yacy/query.htmlyacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:909)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:376)yacy05.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)yacy05.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)yacy05.log:   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)yacy05.log:   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)yacy05.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)yacy05.log:   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)yacy05.log:   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)yacy05.log:   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)yacy05.log:   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)yacy05.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)yacy05.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy05.log:   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)yacy05.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy05.log:   at org.eclipse.jetty.server.Server.handle(Server.java:499)yacy05.log:   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)yacy05.log:   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)yacy05.log:   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)yacy05.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)yacy05.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)yacy05.log:   at java.lang.Thread.run(Thread.java:748)yacy05.log:java.lang.reflect.InvocationTargetException: class /usr/share/yacy/htroot/yacy/query.class is missing:/usr/share/yacy/htroot/yacy/query.class (Too many open files):/usr/share/yacy/htroot/yacy/query.classyacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.rewriteMethod(YaCyDefaultServlet.java:808)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:672)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:883)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:314)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:376)yacy05.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)yacy05.log:   at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)yacy05.log:   at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)yacy05.log:   at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)yacy05.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)yacy05.log:   at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:553)yacy05.log:   at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)yacy05.log:   at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)yacy05.log:   at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)yacy05.log:   at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)yacy05.log:   at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)yacy05.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy05.log:   at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)yacy05.log:   at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)yacy05.log:   at org.eclipse.jetty.server.Server.handle(Server.java:499)yacy05.log:   at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)yacy05.log:   at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:258)yacy05.log:   at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)yacy05.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)yacy05.log:   at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)yacy05.log:   at java.lang.Thread.run(Thread.java:748)yacy05.log:Caused by: java.lang.ClassNotFoundException: /usr/share/yacy/htroot/yacy/query.class (Too many open files):/usr/share/yacy/htroot/yacy/query.classyacy05.log:   at net.yacy.server.serverClassLoader.loadClass(serverClassLoader.java:100)yacy05.log:   at net.yacy.http.servlets.YaCyDefaultServlet.rewriteMethod(YaCyDefaultServlet.java:792)yacy05.log:   ... 27 moreyacy05.log:W 2017/05/31 01:37:31 ConcurrentLog java.lang.NullPointerExceptionyacy05.log:java.lang.NullPointerExceptionyacy05.log:   at net.yacy.kelondro.io.CachedFileWriter.seek(CachedFileWriter.java:143)yacy05.log:   at net.yacy.kelondro.blob.HeapReader.get(HeapReader.java:498)yacy05.log:   at net.yacy.kelondro.blob.ArrayStack$BlobValues.next0(ArrayStack.java:701)yacy05.log:   at net.yacy.kelondro.blob.ArrayStack$BlobValues.next0(ArrayStack.java:685)yacy05.log:   at net.yacy.cora.util.LookAheadIterator.checkInit(LookAheadIterator.java:53)yacy05.log:   at net.yacy.cora.util.LookAheadIterator.hasNext(LookAheadIterator.java:60)yacy05.log:   at net.yacy.kelondro.rwi.ReferenceContainerArray.get(ReferenceContainerArray.java:308)yacy05.log:   at net.yacy.kelondro.rwi.IndexCell.get(IndexCell.java:355)yacy05.log:   at net.yacy.search.index.Segment$ReferenceReport.<init>(Segment.java:272)yacy05.log:   at net.yacy.search.index.Segment$ReferenceReportCache.getReferenceReport(Segment.java:244)yacy05.log:   at net.yacy.search.schema.CollectionConfiguration.postprocessing_references(CollectionConfiguration.java:1887)yacy05.log:   at net.yacy.search.index.Segment.storeDocument(Segment.java:597)yacy05.log:   at net.yacy.search.Switchboard.storeDocumentIndex(Switchboard.java:3134)yacy05.log:   at net.yacy.search.Switchboard.storeDocumentIndex(Switchboard.java:3068)yacy05.log:   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)yacy05.log:   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)yacy05.log:   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)yacy05.log:   at java.lang.reflect.Method.invoke(Method.java:498)yacy05.log:   at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)yacy05.log:   at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)yacy05.log:   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)yacy05.log:   at java.util.concurrent.FutureTask.run(FutureTask.java:266)yacy05.log:   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)yacy05.log:   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)yacy05.log:   at java.lang.Thread.run(Thread.java:748)yacy05.log:E 2017/05/31 01:37:31 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.storeDocumentIndex.5': null



In the few weeks I\’ve been experimenting with Yacy, I noticed that this tends to happen when the local index gets to about 2 million pages, the size of the index was this:

du -hcs freeworld/*
4.2Mfreeworld/NETWORK
36Gfreeworld/QUEUES
44Gfreeworld/SEGMENTS
79Gtotal

Ultimately, I removed the QUEUES directory and I was able to restart Yacy preserving the index (even though the crawls have stopped).

Statistik: Verfasst von eros — Mi Mai 31, 2017 10:07 am


English • Search options

Date: 2017-05-31 11:58:38

Hi there,

is there a way of having yacy boost results coming from different domains? I.e. often the top 10 results are from wikipedia, is there a way of telling Yacy to return just 1 result from each domain (or to demote \“similar\” results and show them further down the list, much like Google does)?

Other options I couldn\’t find: is there a way of [excluding]{style=“font-weight: bold”} results from a particular domain or with a certain extension? I.e. something like Google\’s -site:www.domain.foo and -filetype:pdf options?

Thanks,
Eros

Statistik: Verfasst von eros — Mi Mai 31, 2017 10:58 am


English • Re: Search options

Date: 2017-05-31 19:25:31

To exclude results from a particular domain add it to the /Blacklist_p.html page. I don\’t worry about formatting just add domain.foo not sure if this is the best method or correct but it works.

Here\’s mine you have to copy and past into \DATA\LISTS\url.default.black Feel free to remove any unwanted ones.
http://forum.yacy-websuche.de/viewtopic.php?f=23&t=5977

Do you block unwanted hosts in your hosts file on your system 0.0.0.0 domain.foo?
The certain extensions blocking I am unsure if Yacy will even do that. Maybe a second opinion is needed here.

Statistik: Verfasst von smokingwheels — Mi Mai 31, 2017 6:25 pm


English • Re: Search options

Date: 2017-06-01 09:53:13

Thank you but I was looking for a way of letting [users]{style=“font-weight: bold”} of the search engine decide whether they want to exclude a certain domain or not, I\’m looking for a search parameter to use in the search box, not a way of blacklisting unwanted domains.

Statistik: Verfasst von eros — Do Jun 01, 2017 8:53 am


English • Re: Search options

Date: 2017-06-01 10:39:51

You could register and add a report to the wishlist of Yacy Bugs http://mantis.tokeek.de/my_view_page.php of what you would like to have in the future.

Thanks for clearing that up.

Statistik: Verfasst von smokingwheels — Do Jun 01, 2017 9:39 am


English • Re: Yacy can\’t see the open port.

Date: 2017-06-01 20:33:40

Ehm...I\’m not really sure, how this page works! :oops:

Statistik: Verfasst von Giorgos — Do Jun 01, 2017 7:33 pm


English • Re: Yacy won\’t re-start

Date: 2017-06-02 00:46:19

It looks like in the end your upgrade to Java 1.8 didn\’t solve the problem related to the too many files open... At least I think this is the key problem in the trace you report, as for example the error \“Exception during facet.field: coordinate_p\” is normally not a blocking one.
I will try to dig again in that direction to find an eventual fix... unfortunately this kind of issue takes some non negligible time to test.

Statistik: Verfasst von luc — Do Jun 01, 2017 11:46 pm


English • Re: Search options

Date: 2017-06-02 01:35:03

Hello, as far as I know the two search options you are looking for are indeed not available in the main YaCy search interface.

But if you are not afraid by Solr query syntax, you can already go far further in search customization by requesting directly your own local Solr index with your own queries (unfortunately this does not apply to p2p search).

For example to not have successive results on the same host, maybe Solr Result grouping{.postlink} could help you. This could be a request like

Code:

/solr/select?core=collection1&q=yacy&start=0&rows=10&fl=sku&group=true&group.field=host_s&group.main=true

search term is yacy, with maximum 10 results from start, displaying only urls (for simplicity in the example) and grouping by host name.

This is just an example. I am really not an expert in Solr queries, and of course this is not user friendly. But by crafting your own search queries eventually rendered by your own HTML search page, you can obtain a very specific and personal result.

Statistik: Verfasst von luc — Fr Jun 02, 2017 12:35 am


English • Re: Yacy won\’t re-start

Date: 2017-06-03 01:48:44

I know its not recommend but you could manually tune the JAVA options here is an example running a Minecraft server http://www.minecraftforum.net/forums/archive/alpha/alpha-survival-multiplayer/823328-making-your-server-lag-less-by-tuning-java there are plenty more to look at as well on other sites.

36G freeworld/QUEUES is large your could split crawler lists up?
I have such a program but you would need to run QB64 and know what to change. https://github.com/smokingwheels/loklak_split.
I could edit the program suit and add it to Github if needed.

I think I have found a bug when the TOP setting the \“VIRT\” memory in the JAVA process skyrockets (9m to 9.9 GB) is slows the crawler down no end and there is nothing you can do.
The Top \“VIRT\” got up to 14GB and a system shutdown was causing constant Disk I/O for too long to where I hit the reset and started again.

I have also learned to restart yacy you perform a Shutdown of yacy, pkill java if needed and actually turn machine off with shutting it down in the normal manner and power up again.

Ubuntu 16.04 x64 java 1.8.131 oracle.

Statistik: Verfasst von smokingwheels — Sa Jun 03, 2017 12:48 am


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-06-03 17:35:51

I know now the reason.
8GB Ram was not enough. In the last days, Yacy won´t start anymore. After expanding the Ram, all works fine.

Statistik: Verfasst von promocore — Sa Jun 03, 2017 4:35 pm


Fragen und Antworten • Re: Import Mediawiki

Date: 2017-06-05 02:10:16

Hi promocore, good to know everything now works fine for you!

And sorry, I missed your answer with the log and dump so I could not have a look at it. Now your links point to a HTTP 404 status, but if you would like to share it again, I am still interested to check what consumes so much memory...

Statistik: Verfasst von luc — Mo Jun 05, 2017 1:10 am


English • Re: Yacy won\’t re-start

Date: 2017-06-05 20:01:44

If you still have the error to many files open this is a possible fix by increasing the number of open files in your system.
https://www.tecmint.com/increase-set-open-file-limits-in-linux/

I have not really tried it yet.

Statistik: Verfasst von smokingwheels — Mo Jun 05, 2017 7:01 pm


English • remote admin

Date: 2017-06-06 19:17:35

Hi,

I\’m trying to administer my yacy server remotely from another machine on the network and it keeps asking me for a password every time I try to perform an administrative task, e.g. start a web crawl.

On the server, I updated the password using ~/yacy/bin/passwd.sh, and got the confirmation:

Code:
Password for User Name 'admin' set to <xxxxxx>



When I try to login as admin using the correct password, it either reprompts for the username/password combo, resets the connection, or throws a 401 error. Any tips on what I might be doing wrong? :?:

Thanks

Statistik: Verfasst von EugeneTheJeep — Di Jun 06, 2017 6:17 pm


English • Re: Yacy won\’t re-start

Date: 2017-06-08 07:43:24

\@eros, I have made a big cleanup on all potential file handlers leaks I could find in YaCy codebase. I can not guarantee this will solve your specific restart issue, but it could help.

So if you have some time, do not hesitate to upgrade to latest GitHub sources.

Statistik: Verfasst von luc — Do Jun 08, 2017 6:43 am


YaCy Coding & Architecture • Java 8 to support Solr 6.6

Date: 2017-06-09 11:55:06

It’s now time to do the migration to Java 1.8.

Deployment is difficult if all systems are already running Java 8 and it is required to install Java 7 to ensure that a deployment is also actually supporting Java 7.
I also had massive issues with Solr on the demo-Server at yacy.searchlab.eu. I hope this gets better with Solr 6.6
But Since Solr 6.0, a Java 1.8 is required.

Migration of the Solr index from 5.5 to 6.6 will happen automatically. It will not be possible to migrate a Solr Index 4.x to 6.6 but that should not be an issue. Everyone who has still a very old YaCy and wants to migrate, just migrate first to YaCy 1.92 and everything will be fine.

Please spread the news that everyone should now install Java 8.

Statistik: Verfasst von Orbiter — Fr Jun 09, 2017 10:55 am


YaCy Coding & Architecture • Re: Java 8 to support Solr 6.6

Date: 2017-06-09 13:37:19

done: https://github.com/yacy/yacy_search_ser ... ff9d48effc{.postlink}
Please spread the news: https://twitter.com/yacy_search/status/ ... 3814290432{.postlink}

Statistik: Verfasst von Orbiter — Fr Jun 09, 2017 12:37 pm


English • Re: remote admin

Date: 2017-06-12 03:05:41

Sometimes it resets the connection. If you have a Browser that can try again you can usually get in.
I know IE displays \“Fix Connection Problem\” on Win 7 when it happens, you just refresh the page or install another browser.

Statistik: Verfasst von smokingwheels — Mo Jun 12, 2017 2:05 am


Presse • Re: Blog-Sammel-Thread

Date: 2017-06-12 09:19:40

Hallöchen zusammen,

muß mal den Thread hier wiederbeleben! :mrgreen:

Ich bin gerade bei meiner Recherche für einen Artikel auf folgende seltsame Meldung gestoßen:

[[Alternative Suchsysteme und Trafficquellen: Google ist nicht alles{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Zitat:

\ [YaCy: Hierbei handelt es sich nicht um eine Suchmaschine, sondern um eine Software.]{style="font-weight: bold"} Mit dieser kann sich jeder Nutzer seinen eigenen Suchindex aufbauen und diesen mit den Indizes von anderen verbinden.\



Keine Suchmaschine, sondern eine Software? Bild Sind Suchmaschinen keine Software, sondern Toilettenpapier ... oder was? Bild

Ich wußte ja schon lange, daß die meisten SEO-Typen einen ziemlichen Knall haben. Ich ahnte aber nicht, daß der Dachschaden schon so weit fortgeschritten ist! Hoffentlich ist das nichts ansteckendes. :mrgreen:

Statistik: Verfasst von TmoWizard — Mo Jun 12, 2017 8:19 am


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-06-12 12:11:49

Noch einmal eine Frage dazu:

Ich nehme mir gerade eben [(gestartet am Montag, [12.]{style=“font-weight: bold”} Juni [2017, 11:22:28]{style=“font-weight: bold”} Uhr)]{style=“font-style: italic”} noch einmal mein Blog vor, diesmal jedoch mit einer Crawl-Tiefe von [6]{style=“font-weight: bold”}! Da ich wie im OP geschrieben sehr viele Links habe nehme ich mal an, daß das [[\“etwas\“]{style=“font-style: italic”}]{style=“font-weight: bold”} länger dauern könnte.

Da YaCy auf einem extra Rechner als Server läuft kann ich hierbei ungestört weiter arbeiten. Der Server scheint auch keine Probleme damit zu haben, YaCy crawlt fleißig vor sich hin.

Ich frage mich hier aber nun, was bei dieser Crawl-Tiefe am Ende für ein Index zusammen kommt. Ich habe zwar nur [[455]{style=“font-style: italic”}]{style=“font-weight: bold”} Artikel und [[11]{style=“font-style: italic”}]{style=“font-weight: bold”} Seiten, wohl aber ein paar tausend Links gesetzt!

Hierzu hätte ich nun ein paar Frage an euch:

[Welche Crawl-Tiefe verwendet ihr denn so?]{style=“font-size: 150%; line-height: 116%;“}

[Ist es sinnvoll, wenn man eine größere Tiefe verwendet? ]{style=“font-size: 150%; line-height: 116%;“}

Bei der Einstellung wird ja gewarnt, daß man nicht unbedingt eine größere Tiefe wie [[8]{style=“font-style: italic”}]{style=“font-weight: bold”} verwenden sollte.

[Reicht solch ein Rechner wie mein erwähntes System überhaupt aus, um solch einen Index noch zu verarbeiten?]{style=“font-size: 150%; line-height: 116%;“}

[Wie oder wo habt ihr eigentlich euer YaCy installiert und welches Betriebssystem verwendet ihr hierfür?]{style=“font-size: 150%; line-height: 116%;“}

Ach ja:

[Wo bekommt man denn diese neuere Version von YaCy her: [[1.92009174]{style=“font-style: italic”}]{style=“font-weight: bold”}?]{style=“font-size: 150%; line-height: 116%;“}

Ich verwende auf dem erwähnten System das [[Debian-Package{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, ist das nicht mehr aktuell?

Bis jetzt scheint ja noch alles richtig zu laufen, auch die Suche über das Netzwerk funktioniert immer noch ohne Probleme. Die gerade mal [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB RAM in dem [[AMD 64]{style=“font-style: italic”}]{style=“font-weight: bold”} scheinen jedenfalls zu genügen, das ist schon mal ein gutes Zeichen!

Ich würde mich nun über entsprechende Antworten und Meinungen von euch freuen, ich führe nämlich ungern Selbstgespräche! ;)

Oh, noch was!

Für alle interessierten Teilnehmer hier mein Serverlein:

[[http://tmoyacy.yacy]{style="font-style: italic”}]{style=“font-weight: bold”}


Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Jun 12, 2017 11:11 am


Fragen und Antworten • DISK benutzt: (etwa) 0 Bytes

Date: 2017-06-12 20:20:27

Guten Abend zusammen!

Wie [[>hier<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} geschrieben habe ich heute einen neuen Crawl gestartet mit der Crawl-Tiefe [[6]{style=“font-style: italic”}]{style=“font-weight: bold”}. Das ging wohl irgendwie daneben und ich mußte gerade meinen Server neu starten, denn es ging wirklich gar nichts mehr! Nach diesem Neustart habe ich nun folgendes sehr merkwürdiges Phänomen hier:

Es wird mir beim Status die im Betreff stehende Meldung gezeigt, obwohl ich laut YaCy über [[7,3]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente im Index habe! Das sieht derzeit so aus:

\ Documents: 7.311.792\ DHT Words: 12.319.295\ Typ: Principal\


Der Crawl ist nun angehalten mit folgender Meldung:

\ \* Es steht weniger als 50 MB Arbeitsspeicher zur Verfügung. DHT Empfang wurde deaktiviert. Bitte beheben Sie dieses Problem so schnell wie möglich und starten Sie YaCy neu.\ \ \* Crawling wurde pausiert! Wenn das Crawling automatisch pausiert wurde, prüfen Sie bitte Ihrer Festplattenspeicher.\



Problem dabei:

\ RAM benutzt:[[2,28]{style="font-style: italic"}]{style="font-weight: bold"} GB\ RAM maximal:[[2,9]{style="font-style: italic"}]{style="font-weight: bold"} GB\ DISK benutzt:(etwa) [[0]{style="font-style: italic"}]{style="font-weight: bold"} Bytes\ DISK frei:[[211,94]{style="font-style: italic"}]{style="font-weight: bold"} GB\



Hier kann also irgendwas ganz und gar nicht stimmen, nur was?!? :? Arbeitsspeicher ist genügend frei, Festplatte erst recht und [[7.311.792]{style=“font-style: italic”}]{style=“font-weight: bold”} Dokumente benötigen mit Sicherheit mehr Platz wie [[0]{style=“font-style: italic”}]{style=“font-weight: bold”} Bytes! Ansonsten läuft YaCy aber einwandfrei, nur der Crawl steht nun still.

Ich beende diesen Versuch/Crawl nun, aber es würde mich trotzdem interessieren, was da denn schief gelaufen ist!

[...]{style=“font-weight: bold”}

[..]{style=“font-weight: bold”}

[.]{style=“font-weight: bold”}

Oh, zumindest eines stimmt nun wieder:

\ DISK benutzt:(etwa) [63,9]{style="font-weight: bold"} GB\



Die Meldung mit dem zu geringen Festplattenspeicher steht aber immer noch da und die stimmt ganz bestimmt [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Ich würde mich freuen, wenn mir hier jemand was dazu sagen könnte, denn ohne Hilfe komme ich diesmal wohl nicht weiter.


Viele abendliche Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Jun 12, 2017 7:20 pm


Hilfe für Einsteiger und Anwender • Yacy-Chat mit Jabber/XMPP?

Date: 2017-06-12 21:15:50

Hallihallo!

Mir ist zwar bekannt, daß es einen eigenen [[IRC-Channel für YaCy{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} gibt und habe damit auch kein Problem, trotzdem hätte ich hierzu eine Frage:

[[WARUM per IRC?]{style=“font-style: italic”}]{style=“font-weight: bold”}

Meiner Ansicht nach wäre es doch wesentlich besser und einfacher, wenn das über [[Jabber/XMPP{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} ginge, denn eigentlich hat doch [[fast]{style=“font-style: italic”}]{style=“font-weight: bold”} jeder Anwender eine passende Adresse dazu, während in meinem Umfeld keiner etwas mit IRC anfangen kann!

Zudem hat Freenode oft das Problem, daß die was gegen einen Proxy haben. Das ist jetzt in meinem Fall kein Problem, da ich meinen [[HAVP]{style=“font-style: italic”}]{style=“font-weight: bold”} für ChatZilla nicht verwende. Ich kenne aber einige Leute, die nur über einen Proxy in\’s globale Dorf gehen.

Im Prinzip ist es mir ja egal, da ich was den Chat betrifft außer bei Facebook und WhatsApp so gut wie überall Zuhause bin und für mein Castle sogar ein eigener IRC-Room/Channel existiert! :mrgreen: [(nein, da kommt jetzt kein Link dazu! Das würde ja eventuell als Werbung angesehen und das muß nicht unbedingt sein!)]{style=“font-style: italic”}

Trotzdem würde es mich interessieren, warum für den Chat ausgerechnet der IRC verwendet wird.

Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mo Jun 12, 2017 8:15 pm


Fragen und Antworten • Re: DISK benutzt: (etwa) 0 Bytes - Selbstheilung?

Date: 2017-06-12 21:24:45

Nochmal ich!

Äußerst merkwürdig! Nachdem ich den OP abgeschickt hatte fing auf einmal mein YaCy wieder zum Arbeiten an. Der Crawl geht also wieder weiter, ohne daß ich auch nur eine Kleinigkeit geändert habe! :shock: Hat YaCy Selbstheilungskräfte, oder was?

Trotzdem würde mich interessieren, was die obigen Meldungen bedeuten sollen. Antworten sind Informationen und somit jederzeit willkommen!

Statistik: Verfasst von TmoWizard — Mo Jun 12, 2017 8:24 pm


Fragen und Antworten • Re: DISK benutzt: (etwa) 0 Bytes

Date: 2017-06-12 23:33:26

Nach einem Absturz, wie in deinem Fall, ließt Yacy alles neu ein und gibt danach erst den Speicherplatz aus. Bis dahin steht da 0 byte.

Wenn der RAM Speicher kanp wird, kann es sein, dass einzelne Prozesse nicht mehr funktionieren, abstürzen oder erst garnicht erst gestartet werden können. Somit kann durchaus Speicher aktuell frei sein, aber im PEAK für alle Prozesse nicht ausreichen.

Genaueres bekommst du aus den Logs raus.
im Folder /DATA/LOG liegen die Logs.
suche mal \“GC overhead limit exceeded\”

Code:
grep "GC overhead limit exceeded" yacy00.log



Natürlich kann man auch mal in ältere Logs schauen. Falls du die Fehlermeldung siehst, dann hast du definitiv zu wenig RAM für Anwendung.

Statistik: Verfasst von promocore — Mo Jun 12, 2017 10:33 pm


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-06-12 23:47:14

Bei mir läuft Yacy auch unter Debian in einer VM mit 10GB Ram.
So große Crawltiefen habe ich bisher noch nicht gestartet, meistens indexiere ich einzelnde Domains.
Ich vermute mal, dass du etwas mehr RAM bräuchtest, wenn du so tief indexieren möchtest, aber genauer sieht man das später dann in den LOGs.
Die aktuelle Yacy Version lade ich immer von Github herunter
https://github.com/yacy/yacy_search_server
Hierfür unter Debian:

Code:
git clone https://github.com/yacy/yacy_search_server       Compiling YaCy:              you need Java 1.7 or later and Apache Ant              just compile: "ant clean all" - then you can "sudo apt-get install ant./startYACY.sh

Statistik: Verfasst von promocore — Mo Jun 12, 2017 10:47 pm


Fragen und Antworten • Re: DISK benutzt: (etwa) 0 Bytes

Date: 2017-06-13 08:50:43

Guten Morgen \@promocore,

danke für deine Antwort! Nun... YaCy ist ja in dem Fall nicht wirklich abgestürzt, das hatte ich früher mal mit einer älteren Version und dort waren dann sämtliche Daten weg. Der Crawl läuft bis jetzt weiter, nur scheint er immer wieder für einige Zeit zu pausieren, in welcher dann diese Meldungen kommen.

Natürlich sind die [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB RAM und der alte AMD 64 nicht gerade viel für solch ein Projekt, aber es scheint zu genügen. Einzig eine Suche hier von meinem Arbeitstier aus dauert nun etwas länger, aber das stört mich nicht wirklich, denn Zeit habe ich ja wahrlich genug! :mrgreen:

Den Logfile werde ich mir bei Zeiten mal ansehen, wobei ich mich mit sowas bisher nicht befassen mußte. Ich verwende zwar schon seit einigen Jahren ausschließlich Linux auf meinen Systemen, hatte aber noch nie großartig Ärger damit, so daß ein Blick in die Logfiles bis heute nicht notwendig war! Linux [(in meinem Fall Kubuntu [14.04.5 LTS]{style=“font-weight: bold”} auf dem Arbeitstier und Ubuntu [16.04.2 LTS]{style=“font-weight: bold”} Server)]{style=“font-style: italic”} läuft hier einfach so, da ich von vorne herein auf die passende Hardware geachtet habe! ;)

Viele sonnige Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Di Jun 13, 2017 7:50 am


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-06-13 09:09:33

Hallo \@promocore,

Du hast mir ja auf meinem anderen Thread ebenfalls geantwortet. Das mit der Crawl-Tiefe [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} bei [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB RAM funktioniert soweit, YaCy pausiert nur zwischendurch für einige Zeit und arbeitet dann weiter. Ich hatte hier ursprünglich einen alten Pentium mit gerade mal [[768]{style=“font-style: italic”}]{style=“font-weight: bold”} MB RAM für YaCy, aber der hat sich ja leider verabschiedet. Das lief soweit auch ganz gut und ich hatte am Schluß über [[15]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente im Index, allerdings habe ich dort auch nie die Suchtiefe geändert!

Nun eine Frage:

[Warum in einer VM, was bringt das und was hast Du da für ein System??]{style=“font-weight: bold”}

Auf jeden Fall dürfte bei der Menge RAM die Crawl-Tiefe kaum mehr eine Rolle spielen, wenn es schon auf meinem alten ESPRIMO mit 4 GB funktioniert! Daß ich mehr RAM bräuchte sehe ich ein, geht aber bei der alten Kiste leider nicht. Die [4]{style=“font-weight: bold”} GB sind laut Hersteller das Maximum für das Mainboard, der ist eben nicht mehr ganz jung! Er Läuft, das genügt mir.

\ Die aktuelle Yacy Version lade ich immer von Github herunter\



Oh, also an der Paketverwaltung vorbei! Ne, das fällt auf dem Server aus. Hier achte ich doch eher auf Stabilität, nicht so wie auf meinem Arbeitstier! So heißt es also warten, bis die Debian-Pakete auf den neueren Stand gehievt werden, schade. :cry: Ich achte zwar immer auf Aktualität, aber in dem Fall ist mir die Stabilität wichtiger. Trotzdem danke für die Info!

Morgendliche Grüße aus TmoWizard\’s Castle zu Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Di Jun 13, 2017 8:09 am


Fragen und Antworten • Re: DISK benutzt: (etwa) 0 Bytes

Date: 2017-06-13 09:46:53

Hallo,
ResourceObserver{.postlink} ist YaCy Selbstheilungskräfte ;)
Or in English : the YaCy ResourceObserver background job is the one responsible for crawl pausing when resources (disk, memory) are too low, and also for self-healing and crawl resume when resources are again sufficient.
Hope this answer your question, and sorry again for the English!

Statistik: Verfasst von luc — Di Jun 13, 2017 8:46 am


Fragen und Antworten • Re: DISK benutzt: (etwa) 0 Bytes

Date: 2017-06-13 10:17:10

Hi \@luc,

thanks for your answer!

luc hat geschrieben:\ Hallo,\ [ResourceObserver](https://github.com/yacy/yacy_search_server/blob/Release_1.92/source/net/yacy/search/ResourceObserver.java#L85){.postlink} ist YaCy Selbstheilungskräfte ![;)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\ \ Or in English : the YaCy ResourceObserver background job is the one responsible for crawl pausing when resources (disk, memory) are too low, and also for self-healing and crawl resume when resources are again sufficient.\ Hope this answer your question, and sorry again for the English!\



Ok... My english is very bad, but i understand this. Now it is clear for me, why my [[old]{style=“font-style: italic”}]{style=“font-weight: bold”} version of YaCy have destroy his Index!

Jetzt wieder in deutsch, denn das kann ich sonst nicht erklären! :mrgreen:

Das mit dem Pausieren klappt einwandfrei. Nun bin ich jedoch am Überlegen, wie lange mein YaCy dadurch für diesen Crawl wohl benötigen wird. Ist aber eigentlich auch egal, da beide Rechner [(Server und Arbeitstier) [247]{style=“font-weight: bold”}]{style=“font-style: italic”} durchlaufen!

Grüße aus TmoWizard\’s Castle zu Augsburg

Mike

Statistik: Verfasst von TmoWizard — Di Jun 13, 2017 9:17 am


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-06-13 10:36:51

Ich habe VMs, um bestimmte Anwendungen von meinem lokalen Netzwerk auszusperren. So gesehen, laufen bei mir alle Dienste für das WWW in einem extra Netzwerk ähnlich einem DMZ. Hardware ist ein Xeon 1225 V3 mit 32GB Ram. Zusätzlich ist natürlich auch z.B. ein Umzug auf einen anderen Storage oder auch Snapshot funktionen, grad zum testen von Software, sehr angenehm.

Yacy ist eine Java Anwendung, von daher wird nur ein Javaprozess gestartet, der im System keine \“installation\” benötigt. Abgesehen davon, dass die Zwischenversionen Beta sind, läuft Yacy genauso gut/schlecht wie die stable.

Statistik: Verfasst von promocore — Di Jun 13, 2017 9:36 am


Hilfe für Einsteiger und Anwender • Re: Yacy-Chat mit Jabber/XMPP?

Date: 2017-06-13 10:47:48

Du kannst jederzeit selber weitere Kommunikationskanäle betreiben/leiten.
Vermutlich besteht aber wenig interesse daran, da die Community recht klein ist und primär hier im Forum Fragen geklärt werden, was ich persönlich auch am besten halte, da dass Ergebnis auch anderen User langfristig zur Verfügung steht.

Für Jabber/XMPP könnte man auch einen öffentlichen Jabber/XMPP Server ohne registrierung betreiben, das wäre normalweise auch kein Problem.

Statistik: Verfasst von promocore — Di Jun 13, 2017 9:47 am


Hilfe für Einsteiger und Anwender • Re: Yacy-Chat mit Jabber/XMPP?

Date: 2017-06-13 13:27:55

Hallöchen \@promocore!

promocore hat geschrieben:\ Du kannst jederzeit selber weitere Kommunikationskanäle betreiben/leiten.\ Vermutlich besteht aber wenig interesse daran, da die Community recht klein ist und primär hier im Forum Fragen geklärt werden, was ich persönlich auch am besten halte, da dass Ergebnis auch anderen User langfristig zur Verfügung steht.\ \ Für Jabber/XMPP könnte man auch einen öffentlichen Jabber/XMPP Server ohne registrierung betreiben, das wäre normalweise auch kein Problem.\



Das bringt mich auf eine Idee:

Jabber/XMPP ist ja wie YaCy dezentral organisiert. Eigentlich müßte es doch möglich sein, daß man auf dieser Basis einen P2P-Chat in YaCy integriert, sogar verschlüsselt!

[...]{style=“font-weight: bold”}

[..]{style=“font-weight: bold”}

[.]{style=“font-weight: bold”}

Ne, Unfug! Wenn bei jemandem YaCy nicht funktioniert, dann würde ja auch der Chat nicht gehen. :?
Nichtsdestotrotz, Jabber/XMPP halte ich für die bessere Lösung! Siehe hierzu auch mein entsprechendes Tutorial:

[[[P2P-Tutorial: #ChatZilla als #Multimessenger – Ein sicherer #Chat?! Teil 2]{style=“font-size: 150%; line-height: 116%;“}{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Wie geschrieben nichts gegen IRC, aber einen Jabber-Account haben doch praktisch fast alle und die Leute könnten rein theoretisch fast alle über diese Accounts miteinander kommunizieren! Ich verstehe bis heute nicht, warum diese Möglichkeit kaum genutzt wird! :(

Für spezielle Fragen und Antworten ist ein Forum natürlich praktischer, da die entsprechenden Lösungen auch über die verschiedenen Suchmaschinen zu finden sind. Für eine direkte Hilfe ist ein Chat meiner Ansicht nach aber zu bevorzugen, da man die Hilfe direkt umsetzen kann!

Wie erwähnt kann mir das egal sein, ich bin außer bei Facebook [(da bin ich zu selten)]{style=“font-style: italic”} und WhatsApp [(die können mich mal!)]{style=“font-style: italic”} in fast jeden Chat zu erreichen.

Hrm... Ich bleibe gerade an folgendem Satz von dir hängen:

promocore hat geschrieben:\ Du kannst jederzeit selber weitere Kommunikationskanäle betreiben/leiten.\



Mir fällt hier nämlich gerade ein, daß [[Freenode]{style=“font-style: italic”}]{style=“font-weight: bold”} nicht gerade der beste Anbieter hierfür ist! Mozilla unterstützt doch gerne andere OS-Projekte, wie wäre es also mit [[ircs://moznet/]{style=“font-style: italic”}]{style=“font-weight: bold”}. Das wäre gegenüber Freenode auch noch verschlüsselt, was ich in der heutigen Zeit unbedingt als wichtig ansehe! Dort habe ich auch meinen eigenen Chat-Room, auch wenn dieser nicht besonders gut besucht ist.

Freenode ist mir aus verschiedenen Gründen äußerst unsympathisch, aber das erkläre ich hier jetzt nicht! Nur so viel, daß Freenode wie schon erwähnt was gegen einen Proxy und das geht mal gar nicht! Zudem kann Freenode kaum etwas mit einem verschlüsseltem Chat [(ircs://)]{style=“font-style: italic”} anfangen, damit ist dieses Netzwerk bei mir komplett unten durch! [[Weder verschlüsselt noch Proxy?]{style=“font-style: italic”}]{style=“font-weight: bold”} Das geht ja mal gar nicht! Bild

Ich überlege mir das, ob ich einen entsprechenden [[gesicherten]{style=“font-weight: bold”} (SSL/TLS)]{style=“font-style: italic”} Chatroom auf dem MozNet aufmache und gebe dann hier Bescheid oder mache einen neuen Thread im Forum auf. Ich bin übrigens derzeit im IRC-Room von YaCy, jedoch als abwesend gekennzeichnet. Der startet bei mir seit Neuestem wieder automatisch mit, wenn ich meinen SeaMonkey starte [[(ChatZilla!)]{style=“font-style: italic”}]{style=“font-weight: bold”}.

Mit dem Jabber/XMPP überlege ich noch, wie man das bewerkstelligen könnte. Das wäre eigentlich die bessere Lösung, aber als Privatperson mit Hartz IV würde das wohl mein monatliches Budget bei weitem übersteigen! Mein eigener kleiner [[\“Server\“]{style=“font-style: italic”}]{style=“font-weight: bold”} ist hier eindeutig nicht geeignet, aber ich suche mal nach einer entsprechenden Lösung.

Statistik: Verfasst von TmoWizard — Di Jun 13, 2017 12:27 pm


Hilfe für Einsteiger und Anwender • Re: Yacy-Chat mit Jabber/XMPP?

Date: 2017-06-14 08:00:11

Wenn es nur darum geht, testweise einen jabber Server zu hosten um zu schauen, ob dieser angenommen wird, dann könnte ich das machen. Auch langfristig wäre das kein Problem, wenn man ab und zu mit einer kurzen Downtime leben könnte, wenn ich z.B. Firmware aktualisiere usw.

Statistik: Verfasst von promocore — Mi Jun 14, 2017 7:00 am


English • Re: Yacy won\’t re-start

Date: 2017-06-14 09:51:55

\ \@eros, I have made a big cleanup on all potential file handlers leaks I could find in YaCy codebase. I can not guarantee this will solve your specific restart issue, but it could help.\ \ So if you have some time, do not hesitate to upgrade to latest GitHub sources.\



Thanks Luc, I\’ll try it in a few days (I just started a new crawl and I think I\’ll let it finish before I start fiddling with that).

BTW: is there a way of automating a backup of the index? I tried looking at the \“Process scheduler\” but the index export operations don\’t appear there.

Statistik: Verfasst von eros — Mi Jun 14, 2017 8:51 am


Panorama • Forschungsprojekt \“Algorithmische Imaginationen\”

Date: 2017-06-14 11:39:15

Liebe YaCy Community,

endlich finde ich mal Zeit Euch zu schreiben. Und zwar über mein kürzlich gestartetes Forschungsprojekt zum Thema Suchmaschinen und Gesellschaftspolitik; ganz grob gesagt. Nachdem ich mich nun schon länger mit großen Suchmaschinen - wie Google - im gesellschaftlichen Kontext beschäftigt habe, möchte ich in diesem Projekt alternative Suchmaschinen aus Europa untersuchen. Zentrale Fragestellungen werden dabei sein:

1. Welche Motive, Wertesysteme, und Visionen leiten die Entwicklung von europäischen Suchmaschinen?
2. Wie werden diese Imaginationen in sozio-technische Designpraktiken übersetzt?
3. Welche Verhandlungen, Kompromisse und Machtdynamiken können dabei beobachtet werden?
4. Welche Rolle spielen Ort und kultureller Kontext in der Entwicklung dieser Suchtechnologien?

Mehr Infos dazu hier: https://www.oeaw.ac.at/ita/projekte/alg ... eberblick/{.postlink}

Während ich auf der Website die Auswahl der Suchmaschinen-Projekte noch offen gehalten habe, habe ich mittlerweile 3 konkrete Projekte identifiziert, die ich mir näher ansehen werde:

1) StartPage, die auf Privacy, aber auch auf Google setzen und ein kommerzielles Geschäftsmodell verfolgen
2) Open Web Index, die auf öffentliche Finanzierung von Seite der EU setzen, um einen öffentlichen Index aufzubauen
3) YaCy, das für peer-to-peer Technologie steht und einen eigenen Index aufbaut..

Alle drei Projekte verfolgen nicht bloss unterschiedliche technische Ansätze, sondern auch unterschiedliche gesellschaftliche Ansprüche, aus meiner Sicht..

Warum schreibe ich Euch das alles? Weil Michael so lieb war mich ins Forum einzuladen, um so erste Einblicke in Euer Tun zu bekommen.. Danke Orbiter!!! :)
Außerdem möchte ich Euch fragen, ob (wie) Ihr mich und mein Projekt unterstützen wollt? Geplant sind von meiner Seite her offene Interviews, die ich gerne persönlich machen würde - weil viel lustiger!- oder auch per Skype oder Telefon, falls Euch das lieber ist.. und, was für Euch besonders spannend sein könnte, ein halbtägiger Workshop, wo wir gemeinsam eine wichtige YaCy Entscheidung identifizieren und diskutieren werden, um so auf Wertvorstellungen etc zu kommen, die Euch selbst vl so gar nicht bewusst sind.. es soll hier also ein Ort für Reflexion ermöglicht werden, der Euch auch weiter bringen kann/ soll - im Idealfall.. ;) Außerdem könnte das eine gute Gelegenheit sein, Euch mal persönlich zu treffen.. Ihr werdet ja auch verstreut sein, nehme ich an, oder?

Wir können den Workshop gerne mal wo anhängen, zB. Chemnitzer Linux Tage 2018 oder Open Tech Summit oder so; wo einige von Euch ohnehin vor Ort sein werden.. oder wir finden eine andere Gelegenheit; CCC Event oder so; da richte ich mich ganz nach Euch! Ich selbst bin in Wien, werde aber nächstes Frühjahr wahrscheinlich 1-2 Monate in Berlin sein; vermutlich um die re:publica herum.. aber das können wir ja noch sehen.

Meine Frage nun konkret: Wer möchte bei meinem Projekt mitmachen? Wie? Habt Ihr Fragen/ Anregungen dazu? Fällt Euch sonst noch was ein?

Ich werde im Zuge meiner Forschungen natürlich über YaCy sprechen & schreiben, wenn das OK ist für Euch? dh ein bissl Publicity ist auch drin ;) und zwar nicht nur im akademischen Bereich, sondern auch in der breiteren Öffentlichkeit (Polit-Kontext im weiteren Sinne..) -mein Institut - Inst. für Technikfolgen-Abschätzung der Ö Akademie der Wissenschaften - hat hier eine lange Tradition..

Hier der Link zu meinem Blog, damit Ihr sehen könnt, was ich sonst noch so mache: http://www.astridmager.net/

So, ich denke, das ist mal genug Info fürs Erste! :) Ich freue mich schon auf Eure Kommentare & bin gespannt!!!

Vielen Dank schon mal im Voraus & liebe Grüße aus dem sonnigen Wien, Astrid

Statistik: Verfasst von astrid — Mi Jun 14, 2017 10:39 am


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-06-15 09:53:31

Derzeitiger Status meines YaCy: Es wird immer noch gecrawlt, das wird also wohl eine längere Geschichte! Ich hätte jetzt nicht erwartet, daß das so lange dauert.

\@promocore:

Praktisch ist das mit den VMs schon, auf meinem ollen Rechner bräuchte das aber zu viel RAM und Power. YaCy läuft ja auf einem extra Rechner, eine VM ist hier folglich nicht notwendig. Hier auf dem Arbeitstier läuft dann noch der [[HAVP{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} und ein paar andere Dinge, mein Rechner hat also schon ohne VM einiges zu tun!

Aus Gründer der Sicherheit verwende ich hier aber verschiedene Browser, mein YaCy administriere ich z. B. mit QupZilla, während mein normaler Browser der SeaMonkey ist. I2P geht dann über den Firefox und für andere Dinge kommt dann der Chromium zum Einsatz, so daß ich hier immer getrennte Instanzen habe. Ich habe zum Glück ja eine große Auswahl, so daß ich mir das aussuchen kann! ;) Das ist zwar nicht so sicher wie eine VM, aber für meine Zwecke genügt es.

Statistik: Verfasst von TmoWizard — Do Jun 15, 2017 8:53 am


Panorama • Re: Forschungsprojekt \“Algorithmische Imaginationen\”

Date: 2017-06-15 10:45:11

Hallo Astrid,

herzlich willkommen im YaCy-Forum! Dein Projekt klingt äußerst interessant, das könnte auch eine entsprechend positive Werbung für YaCy sein. Da käme YaCy sehr zu Gute, da YaCy bis heute ja leider eher weniger verbreitet ist. Es machen einfach zu wenige Leute mit, so daß der Index von YaCy auch nach inzwischen über [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahren immer noch sehr zu wünschen übrig läßt!

Ich unterstütze YaCy eigentlich nur dadurch, daß ich hier meinen eigenen kleinen Server habe und zwischendurch auf meinem Blog Werbung dafür betreibe, unter Anderem auch durch [[mein Tutorial{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}.

Was die Interviews und Workshops betrifft... Naja, ist jetzt nicht unbedingt mein Ding. Zudem könnte ich mir sowas gar nicht leisten, da ich seit längerem Hart-IV-Empfänger bin. Ein persönliches Interview wäre mir dann doch lieber wie per Skype oder Telefon, allerdings frage ich mich hierbei, ob das in meinem Fall wirklich was nützen würde! Andererseits bin ich auch nicht unbedingt der Typ Mensch, der gerne in der Öffentlichkeit auftritt. Es wäre zwar nicht wirklich ein Problem für mich, ich mach das aber einfach nur ungern. :?
Fragen oder Anregungen zu deinem Projekt habe ich jetzt nicht, aber das Interesse daran ist auf jeden Fall vorhanden!


Viele sonnige Grüße nun aus Augsburg nach Wien

Mike

Statistik: Verfasst von TmoWizard — Do Jun 15, 2017 9:45 am


Suchmaschinen • Re: Bald keine Google Search Appliance mehr

Date: 2017-06-20 21:40:28

Sag gerne Bescheid, wenn ich helfen kann.

Ich will demnächst mal wieder mit einer Themensuche auf einem Webserver einsteigen. Ein guter Suchindex ist ja immer wertvoll :-)

Statistik: Verfasst von Huppi — Di Jun 20, 2017 8:40 pm


English • No remote results in peer-to-peer mode

Date: 2017-06-28 09:47:17

I downloaded Yacy from the Master branch at the height of yesterday\’s latest commit{.postlink} by luc.

Then

Code:
ant clean all

and started Yacy. The configuration is all default except for the following:

Bild

Bild

Port on NAT is open, the peer is reachable from the outside at: http://87.19.240.129:8090

The problem is I never receive search results from remote peers, only local results are displayed, even after leaving Yacy running and crawling overnight.

Statistik: Verfasst von davide — Mi Jun 28, 2017 8:47 am


English • very high load >7 on crawling

Date: 2017-06-28 12:16:27

I can\’t register on mantis bug tracker so I am posting here

Few times a day search engine stops with very high load (from 7 to 8). Stopping crawling and waiting do not resolve the problem

Only one way is kill -9 on yacy process
Below info from yacy and system (ubuntu 16_04 LTS). This same problem is on openjdk8


System
YaCy version: 1.929000
Uptime: 0 days 04:06
Java version: 1.7.0_95
Processors: 8
Load: 7.54
Threads: 27114, peak:427, total:4127

------------------

************* Start Thread Dump Wed Jun 28 04:49:56 GMT-05:00 2017 *******************

YaCy Version: 1.929000
Assigned Memory = 12525240320
Used Memory = 10503683528
Available Memory = 2021556792


this thread dump function can find threads that lock others, to enable this function start YaCy with \‘startYACY.sh -l\’

THREADS WITH STATES: BLOCKED


THREADS WITH STATES: RUNNABLE

Thread= qtp162548417-23108 id=23108 RUNNABLE
at net.yacy.server.serverAccessTracker.clearTooOldAccess(serverAccessTracker.java:120) [l = e.next();]
at net.yacy.server.serverAccessTracker.track(serverAccessTracker.java:141)
at net.yacy.http.Jetty9YaCySecurityHandler.prepareConstraintInfo(Jetty9YaCySecurityHandler.java:68)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:478)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:499)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= Reference Handler daemon id=2 RUNNABLE
at java.lang.ref.Reference\$ReferenceHandler.run(Reference.java:146)


Thread= qtp162548417-23111 id=23111 RUNNABLE
at net.yacy.cora.storage.ConcurrentARC.clear(ConcurrentARC.java:183) [for (final ARC a: this.arc) a.clear();]
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.clearCaches(ConcurrentUpdateSolrConnector.java:130)
at net.yacy.cora.federate.solr.instance.InstanceMirror.clearCaches(InstanceMirror.java:192)
at net.yacy.search.index.Fulltext.clearCaches(Fulltext.java:218)
at net.yacy.search.index.Segment.clearCaches(Segment.java:473)
at Crawler_p.respond(Crawler_p.java:88)
at sun.reflect.GeneratedMethodAccessor23.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:670)
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:879)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:499)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= qtp162548417-81-selector-ServerConnectorManager\@3acf9dfc/1 id=81 RUNNABLE
at sun.nio.ch.SelectorImpl.select(SelectorImpl.java:102)
at org.eclipse.jetty.io.SelectorManager\$ManagedSelector.select(SelectorManager.java:601)
at org.eclipse.jetty.io.SelectorManager\$ManagedSelector.run(SelectorManager.java:550)
at org.eclipse.jetty.util.thread.NonBlockingThread.run(NonBlockingThread.java:52)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= Finalizer daemon id=3 RUNNABLE
at java.lang.ref.Finalizer\$FinalizerThread.run(Finalizer.java:209)


Thread= parsing + http://www.prawo.vulcan.edu.pl/przegdok ... &qplikid=2{.postlink} id=20705 RUNNABLE
at java.lang.String.toLowerCase(String.java:2519)
at net.yacy.cora.document.id.MultiProtocolURL.toNormalform(MultiProtocolURL.java:1150)
at net.yacy.cora.document.id.MultiProtocolURL.toNormalform(MultiProtocolURL.java:1115)
at net.yacy.document.parser.html.ContentScraper.addAnchor(ContentScraper.java:763)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:791)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.document.parser.html.ContentScraper.recursiveParse(ContentScraper.java:780)
at net.yacy.document.parser.html.ContentScraper.scrapeTag1(ContentScraper.java:670)
at net.yacy.document.parser.html.TransformerWriter.filterTagCloseing(TransformerWriter.java:310)
at net.yacy.document.parser.html.TransformerWriter.filterTag(TransformerWriter.java:281)
at net.yacy.document.parser.html.TransformerWriter.tokenProcessor(TransformerWriter.java:199)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:431)
at net.yacy.document.parser.html.TransformerWriter.write(TransformerWriter.java:479)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:199)
at net.yacy.kelondro.util.FileUtils.copy(FileUtils.java:156)
at net.yacy.document.parser.htmlParser.parseToScraper(htmlParser.java:256)
at net.yacy.document.parser.htmlParser.parse(htmlParser.java:106)
at net.yacy.document.TextParser.parseSource(TextParser.java:313)
at net.yacy.document.TextParser.parseSource(TextParser.java:214)
at net.yacy.search.Switchboard.parseDocument(Switchboard.java:2746)
at net.yacy.search.Switchboard.parseDocument(Switchboard.java:2703)
at sun.reflect.GeneratedMethodAccessor13.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBlockingThread.job(InstantBlockingThread.java:101)
at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:82)
at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)


Thread= qtp162548417-23115 id=23115 RUNNABLE
at java.lang.Thread.getAllStackTraces(Thread.java:1640)
at net.yacy.kelondro.logging.ThreadDump.getAllStackTraces(ThreadDump.java:100)
at Threaddump_p.respond(Threaddump_p.java:101)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:670)
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:881)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:312)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:812)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:587)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:499)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= qtp162548417-84-acceptor-0\@27c90d11-httpd:8090\@f8495b0{HTTP/1.1}{0.0.0.0:8090} id=84 RUNNABLE
at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:250)
at org.eclipse.jetty.server.ServerConnector.accept(ServerConnector.java:377)
at org.eclipse.jetty.server.AbstractConnector\$Acceptor.run(AbstractConnector.java:500)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)



THREADS WITH STATES: TIMED_WAITING

Thread= MemoryTracker id=11 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at net.yacy.search.MemoryTracker.run(MemoryTracker.java:60)


Thread= qtp162548417-23108 id=23108 TIMED_WAITING
at net.yacy.server.serverAccessTracker.clearTooOldAccess(serverAccessTracker.java:120) [l = e.next();]
at net.yacy.server.serverAccessTracker.track(serverAccessTracker.java:141)
at net.yacy.http.Jetty9YaCySecurityHandler.prepareConstraintInfo(Jetty9YaCySecurityHandler.java:68)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:478)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:499)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= qtp162548417-23081 id=23081 TIMED_WAITING
at java.util.AbstractQueue.add(AbstractQueue.java:95)
at net.yacy.server.serverAccessTracker.track(serverAccessTracker.java:140)
at net.yacy.http.Jetty9YaCySecurityHandler.prepareConstraintInfo(Jetty9YaCySecurityHandler.java:68)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:478)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:499)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.eclipse.jetty.io.AbstractConnection\$2.run(AbstractConnection.java:544)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)


Thread= net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector_ProcessHandler id=64 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector\$CommitHandler.run(ConcurrentUpdateSolrConnector.java:62)


Thread= IndexCell.FlushThread(/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/default) id=22 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at net.yacy.kelondro.rwi.IndexCell\$FlushThread.run(IndexCell.java:126)


Thread= HTTPClient.IdleConnectionMonitorThread id=77 TIMED_WAITING
at java.lang.Object.wait(Native Method)
at net.yacy.cora.protocol.http.HTTPClient\$IdleConnectionMonitorThread.run(HTTPClient.java:926)


Thread= Scheduler-615475072 id=95 TIMED_WAITING
at java.lang.Thread.run(Thread.java:745)


Thread= BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run daemon id=76 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at net.yacy.kelondro.workflow.AbstractBusyThread.ratz(AbstractBusyThread.java:266)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:208)


Thread= qtp162548417-23116 id=23116 TIMED_WAITING
at java.util.concurrent.locks.AbstractQueuedSynchronizer\$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2082)
at org.eclipse.jetty.util.BlockingArrayQueue.poll(BlockingArrayQueue.java:389)
at org.eclipse.jetty.util.thread.QueuedThreadPool.idleJobPoll(QueuedThreadPool.java:531)
at org.eclipse.jetty.util.thread.QueuedThreadPool.access\$700(QueuedThreadPool.java:47)
at org.eclipse.jetty.util.thread.QueuedThreadPool\$3.run(QueuedThreadPool.java:590)
at java.lang.Thread.run(Thread.java:745)



THREADS WITH STATES: WAITING

Thread= condenseDocument_pool-1-thread-677 id=4068 WAITING
at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
at net.yacy.kelondro.workflow.WorkflowProcessor.take(WorkflowProcessor.java:131)
at net.yacy.kelondro.workflow.AbstractBlockingThread.run(AbstractBlockingThread.java:73)
at java.util.concurrent.Executors\$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor\$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)


Thread= Array.SortJobWorker id=15 WAITING
at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
at net.yacy.cora.sorting.Array\$SortJobWorker.run(Array.java:71)


Thread= WebStructureGraph.PublicRefDNSResolvingProcess id=41 WAITING
at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
at net.yacy.peers.graphics.WebStructureGraph\$PublicRefDNSResolvingProcess.run(WebStructureGraph.java:148)


Thread= Thread-10 id=25 WAITING
at java.lang.Object.wait(Object.java:503)
at org.apache.solr.core.CloserThread.run(CoreContainer.java:1240)


Thread= IODispatcher id=21 WAITING
at java.util.concurrent.Semaphore.acquire(Semaphore.java:317)
at net.yacy.kelondro.rwi.IODispatcher.run(IODispatcher.java:155)


Thread= Balancer waiting for koszyk.wydawnictwofronda.pl: 35 milliseconds daemon id=69 WAITING
at java.lang.Object.wait(Object.java:503)
at net.yacy.crawler.data.CrawlQueues.isPaused(CrawlQueues.java:408)
at net.yacy.crawler.data.CrawlQueues.coreCrawlJob(CrawlQueues.java:289)
at sun.reflect.GeneratedMethodAccessor5.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)
at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)


Thread= main id=1 WAITING
at java.util.concurrent.Semaphore.acquire(Semaphore.java:317)
at net.yacy.search.Switchboard.waitForShutdown(Switchboard.java:4062)
at net.yacy.yacy.startup(yacy.java:381)
at net.yacy.yacy.main(yacy.java:773)


Thread= RobotsTxt_pool-1-thread-97 id=249 WAITING
at java.lang.Thread.run(Thread.java:745)


Thread= Log Worker id=9 WAITING
at java.util.concurrent.ArrayBlockingQueue.take(ArrayBlockingQueue.java:374)
at net.yacy.cora.util.ConcurrentLog\$Worker.run(ConcurrentLog.java:355)



THREADS WITH STATES: NEW


THREADS WITH STATES: TERMINATED


************* End Thread Dump Wed Jun 28 04:49:56 GMT-05:00 2017 *******************

Thread list from ThreadMXBean, 272 threads:
qtp162548417-23119
qtp162548417-23117
qtp162548417-23116
qtp162548417-23115
qtp162548417-23112
qtp162548417-23111
qtp162548417-23110
qtp162548417-23108
qtp162548417-23106
qtp162548417-23105
qtp162548417-23081
qtp162548417-23080
qtp162548417-22622
webStructureAnalysis_pool-1-thread-2859
webStructureAnalysis_pool-1-thread-2852
webStructureAnalysis_pool-1-thread-2844
parseDocument_pool-1-thread-2662
parsing + http://www.prawo.vulcan.edu.pl/przegdok ... &qplikid=2{.postlink}
condenseDocument_pool-1-thread-677
condenseDocument_pool-1-thread-523
RobotsTxt_pool-1-thread-367
RobotsTxt_pool-1-thread-366
RobotsTxt_pool-1-thread-365
RobotsTxt_pool-1-thread-364
RobotsTxt_pool-1-thread-363
RobotsTxt_pool-1-thread-354
RobotsTxt_pool-1-thread-353
RobotsTxt_pool-1-thread-351
RobotsTxt_pool-1-thread-349
RobotsTxt_pool-1-thread-347
RobotsTxt_pool-1-thread-345
RobotsTxt_pool-1-thread-344
RobotsTxt_pool-1-thread-343
RobotsTxt_pool-1-thread-341
RobotsTxt_pool-1-thread-340
RobotsTxt_pool-1-thread-339
RobotsTxt_pool-1-thread-338
RobotsTxt_pool-1-thread-337
RobotsTxt_pool-1-thread-336
RobotsTxt_pool-1-thread-335
RobotsTxt_pool-1-thread-334
RobotsTxt_pool-1-thread-333
RobotsTxt_pool-1-thread-332
RobotsTxt_pool-1-thread-331
RobotsTxt_pool-1-thread-330
RobotsTxt_pool-1-thread-329
RobotsTxt_pool-1-thread-328
RobotsTxt_pool-1-thread-327
RobotsTxt_pool-1-thread-326
RobotsTxt_pool-1-thread-325
RobotsTxt_pool-1-thread-323
RobotsTxt_pool-1-thread-322
RobotsTxt_pool-1-thread-321
RobotsTxt_pool-1-thread-319
RobotsTxt_pool-1-thread-318
RobotsTxt_pool-1-thread-317
RobotsTxt_pool-1-thread-316
RobotsTxt_pool-1-thread-315
RobotsTxt_pool-1-thread-314
RobotsTxt_pool-1-thread-313
RobotsTxt_pool-1-thread-312
RobotsTxt_pool-1-thread-311
RobotsTxt_pool-1-thread-310
RobotsTxt_pool-1-thread-309
RobotsTxt_pool-1-thread-308
RobotsTxt_pool-1-thread-301
RobotsTxt_pool-1-thread-300
RobotsTxt_pool-1-thread-299
RobotsTxt_pool-1-thread-298
RobotsTxt_pool-1-thread-295
RobotsTxt_pool-1-thread-294
RobotsTxt_pool-1-thread-293
RobotsTxt_pool-1-thread-292
RobotsTxt_pool-1-thread-289
RobotsTxt_pool-1-thread-288
RobotsTxt_pool-1-thread-287
RobotsTxt_pool-1-thread-286
RobotsTxt_pool-1-thread-285
RobotsTxt_pool-1-thread-284
RobotsTxt_pool-1-thread-283
RobotsTxt_pool-1-thread-282
RobotsTxt_pool-1-thread-281
RobotsTxt_pool-1-thread-279
RobotsTxt_pool-1-thread-278
RobotsTxt_pool-1-thread-277
RobotsTxt_pool-1-thread-275
RobotsTxt_pool-1-thread-272
RobotsTxt_pool-1-thread-269
RobotsTxt_pool-1-thread-268
RobotsTxt_pool-1-thread-267
RobotsTxt_pool-1-thread-266
RobotsTxt_pool-1-thread-265
RobotsTxt_pool-1-thread-262
RobotsTxt_pool-1-thread-256
RobotsTxt_pool-1-thread-254
RobotsTxt_pool-1-thread-252
RobotsTxt_pool-1-thread-251
RobotsTxt_pool-1-thread-248
RobotsTxt_pool-1-thread-247
RobotsTxt_pool-1-thread-244
RobotsTxt_pool-1-thread-242
RobotsTxt_pool-1-thread-241
RobotsTxt_pool-1-thread-239
RobotsTxt_pool-1-thread-236
RobotsTxt_pool-1-thread-234
RobotsTxt_pool-1-thread-233
RobotsTxt_pool-1-thread-232
RobotsTxt_pool-1-thread-231
RobotsTxt_pool-1-thread-230
RobotsTxt_pool-1-thread-229
RobotsTxt_pool-1-thread-228
RobotsTxt_pool-1-thread-225
RobotsTxt_pool-1-thread-224
RobotsTxt_pool-1-thread-223
RobotsTxt_pool-1-thread-222
RobotsTxt_pool-1-thread-221
RobotsTxt_pool-1-thread-219
RobotsTxt_pool-1-thread-216
RobotsTxt_pool-1-thread-214
RobotsTxt_pool-1-thread-212
RobotsTxt_pool-1-thread-211
RobotsTxt_pool-1-thread-209
RobotsTxt_pool-1-thread-207
RobotsTxt_pool-1-thread-205
RobotsTxt_pool-1-thread-203
RobotsTxt_pool-1-thread-201
RobotsTxt_pool-1-thread-199
RobotsTxt_pool-1-thread-196
RobotsTxt_pool-1-thread-195
RobotsTxt_pool-1-thread-193
RobotsTxt_pool-1-thread-191
RobotsTxt_pool-1-thread-190
RobotsTxt_pool-1-thread-189
RobotsTxt_pool-1-thread-188
RobotsTxt_pool-1-thread-187
RobotsTxt_pool-1-thread-186
RobotsTxt_pool-1-thread-185
RobotsTxt_pool-1-thread-183
RobotsTxt_pool-1-thread-181
RobotsTxt_pool-1-thread-179
RobotsTxt_pool-1-thread-178
RobotsTxt_pool-1-thread-176
RobotsTxt_pool-1-thread-173
RobotsTxt_pool-1-thread-172
RobotsTxt_pool-1-thread-168
RobotsTxt_pool-1-thread-167
RobotsTxt_pool-1-thread-166
RobotsTxt_pool-1-thread-164
RobotsTxt_pool-1-thread-161
RobotsTxt_pool-1-thread-159
RobotsTxt_pool-1-thread-158
RobotsTxt_pool-1-thread-155
RobotsTxt_pool-1-thread-154
RobotsTxt_pool-1-thread-152
RobotsTxt_pool-1-thread-150
RobotsTxt_pool-1-thread-148
RobotsTxt_pool-1-thread-146
RobotsTxt_pool-1-thread-144
RobotsTxt_pool-1-thread-143
RobotsTxt_pool-1-thread-142
RobotsTxt_pool-1-thread-141
RobotsTxt_pool-1-thread-140
RobotsTxt_pool-1-thread-139
RobotsTxt_pool-1-thread-138
RobotsTxt_pool-1-thread-137
RobotsTxt_pool-1-thread-136
RobotsTxt_pool-1-thread-135
RobotsTxt_pool-1-thread-134
RobotsTxt_pool-1-thread-133
RobotsTxt_pool-1-thread-132
RobotsTxt_pool-1-thread-131
RobotsTxt_pool-1-thread-130
RobotsTxt_pool-1-thread-129
RobotsTxt_pool-1-thread-128
RobotsTxt_pool-1-thread-111
RobotsTxt_pool-1-thread-110
RobotsTxt_pool-1-thread-109
RobotsTxt_pool-1-thread-108
RobotsTxt_pool-1-thread-107
RobotsTxt_pool-1-thread-102
RobotsTxt_pool-1-thread-101
RobotsTxt_pool-1-thread-99
RobotsTxt_pool-1-thread-97
RobotsTxt_pool-1-thread-94
RobotsTxt_pool-1-thread-92
RobotsTxt_pool-1-thread-91
RobotsTxt_pool-1-thread-89
RobotsTxt_pool-1-thread-87
RobotsTxt_pool-1-thread-86
RobotsTxt_pool-1-thread-85
RobotsTxt_pool-1-thread-84
RobotsTxt_pool-1-thread-83
RobotsTxt_pool-1-thread-82
RobotsTxt_pool-1-thread-81
RobotsTxt_pool-1-thread-80
RobotsTxt_pool-1-thread-78
RobotsTxt_pool-1-thread-77
RobotsTxt_pool-1-thread-75
webStructureAnalysis_pool-1-thread-73
RobotsTxt_pool-1-thread-72
RobotsTxt_pool-1-thread-70
RobotsTxt_pool-1-thread-68
condenseDocument_pool-1-thread-67
RobotsTxt_pool-1-thread-66
RobotsTxt_pool-1-thread-65
RobotsTxt_pool-1-thread-64
parseDocument_pool-1-thread-63
RobotsTxt_pool-1-thread-60
RobotsTxt_pool-1-thread-59
RobotsTxt_pool-1-thread-58
RobotsTxt_pool-1-thread-57
RobotsTxt_pool-1-thread-56
RobotsTxt_pool-1-thread-52
RobotsTxt_pool-1-thread-49
RobotsTxt_pool-1-thread-48
RobotsTxt_pool-1-thread-47
RobotsTxt_pool-1-thread-46
RobotsTxt_pool-1-thread-44
storeDocumentIndex_pool-1-thread-43
webStructureAnalysis_pool-1-thread-42
RobotsTxt_pool-1-thread-41
condenseDocument_pool-1-thread-40
RobotsTxt_pool-1-thread-39
job_pool-1-thread-38
job_pool-1-thread-37
job_pool-1-thread-36
job_pool-1-thread-35
job_pool-1-thread-34
job_pool-1-thread-33
job_pool-1-thread-32
job_pool-1-thread-31
parseDocument_pool-1-thread-30
RobotsTxt_pool-1-thread-28
RobotsTxt_pool-1-thread-27
RobotsTxt_pool-1-thread-25
commitScheduler-11-thread-1
Java2D Disposer
Scheduler-615475072
org.eclipse.jetty.server.session.HashSessionManager\@2560c30bTimer
qtp162548417-84-acceptor-0\@27c90d11-httpd:8090\@f8495b0{HTTP/1.1}{0.0.0.0:8090}
qtp162548417-83-selector-ServerConnectorManager\@3acf9dfc/3
qtp162548417-82-selector-ServerConnectorManager\@3acf9dfc/2
qtp162548417-81-selector-ServerConnectorManager\@3acf9dfc/1
qtp162548417-80-selector-ServerConnectorManager\@3acf9dfc/0
HTTPClient.IdleConnectionMonitorThread
BusyThread net.yacy.contentcontrol.ContentControlFilterUpdateThread.run
BusyThread net.yacy.contentcontrol.SMWListSyncThread.run
BusyThread net.yacy.search.Switchboard.dhtTransferJob
BusyThread net.yacy.peers.Network.peerPing
BusyThread net.yacy.peers.Network.publishSeedList
Balancer waiting for koszyk.wydawnictwofronda.pl: 35 milliseconds
BusyThread net.yacy.search.Switchboard.surrogateProcess
BusyThread net.yacy.search.Switchboard.schedulerJob
BusyThread net.yacy.search.Switchboard.cleanupJob
net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector_ProcessHandler
vjmNe1BLY8uA_pool-1-thread-8
WebStructureGraph.PublicRefDNSResolvingProcess
searcherExecutor-7-thread-1
searcherExecutor-8-thread-1
Thread-10
IndexCell.FlushThread(/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/default)
IODispatcher
Array.SortJobWorker
Array.SortJobWorker
Array.SortJobWorker
Array.SortJobWorker
MemoryTracker
Log Worker
Signal Dispatcher
Finalizer
Reference Handler
main


------------

I 2017/06/28 04:46:20 BLOBArray merged citation.index.20170628094556872.blob with citation.index.20170628093630425.blob into /home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/default/citation.index.20170628094620561.blob

I 2017/06/28 04:46:20 HeapReader using a dump of the index of /home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/default/citation.index.20170628094620561.blob.

I 2017/06/28 04:46:20 HeapReader saturation of citation.index.20170628094620561.blob.580itVZmWpb3.idx: keylength = 6, vallength = 3, size = 246962, maximum saving for index-compression = 1 MB, exact saving for value-compression = 0 MB

I 2017/06/28 04:46:20 HeapWriter wrote a dump for the 246962 index entries of citation.index.20170628094620561.blob in 86 milliseconds.

I 2017/06/28 04:46:20 BLOBArray merging citation.index.20170628094556872.blob with citation.index.20170628093630425.blob

I 2017/06/28 04:46:20 IODispatcher appended merge job of files citation.index.20170628094556872.blob, citation.index.20170628093630425.blob to citation.index.20170628094620561.blob

I 2017/06/28 04:46:20 RICELL-shrink2 unmountSmallest(67108864)

I 2017/06/28 04:46:20 HeapReader close HeapFile citation.index.20170628093630425.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountSmallest(ArrayStack.java:344) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkAnySmallFiles(ReferenceContainerArray.java:411) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:198) -> net.yacy.kelondro.rwi.IndexCell.access\$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.run(IndexCell.java:122)

I 2017/06/28 04:46:20 HeapReader close HeapFile citation.index.20170628094556872.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountSmallest(ArrayStack.java:343) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkAnySmallFiles(ReferenceContainerArray.java:411) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:198) -> net.yacy.kelondro.rwi.IndexCell.access\$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell\$FlushThread.run(IndexCell.java:122)

I 2017/06/28 04:45:56 HeapReader using a dump of the index of /home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/default/citation.index.20170628094556872.blob.

I 2017/06/28 04:45:56 HeapReader saturation of citation.index.20170628094556872.blob.n9aegJkRth9x.idx: keylength = 3, vallength = 2, size = 684, maximum saving for index-compression = 0 MB, exact saving for value-compression = 0 MB

I 2017/06/28 04:45:56 ReferenceContainerCache finished rwi heap dump: 684 terms, 0 term/data relations in 6 milliseconds

I 2017/06/28 04:45:56 HeapWriter wrote a dump for the 684 index entries of citation.index.20170628094556872.blob in 1 milliseconds.

I 2017/06/28 04:45:56 ReferenceContainerCache creating rwi heap dump \‘citation.index.20170628094556872.blob\‘, 684 rwi\’s

I 2017/06/28 04:45:56 IODispatcher appended dump job for file citation.index.20170628094556872.blob

I 2017/06/28 04:37:40 org.apache.solr.core.QuerySenderListener QuerySenderListener done.

I 2017/06/28 04:37:40 org.apache.solr.core.QuerySenderListener QuerySenderListener sending requests to Searcher\@7ca8bc7b[collection1] main{ExitableDirectoryReader(UninvertingDirectoryReader(Uninverting(_9pb(5.5.2):C327111/126322:delGen=6602) Uninverting(_ev4(5.5.2):C345348/101093:delGen=5040) Uninverting(_kur(5.5.2):C333330/97611:delGen=3659) Uninverting(_sd6(5.5.2):C347474/47765:delGen=1757) Uninverting(_usf(5.5.2):c81588/9779:delGen=510) Uninverting(_szg(5.5.2):c43661/9710:delGen=906) Uninverting(_tyl(5.5.2):c65639/9852:delGen=562) Uninverting(_vj8(5.5.2):c27359/1650:delGen=493) Uninverting(_uux(5.5.2):c8768/1095:delGen=105) Uninverting(_v0q(5.5.2):c9101/1570:delGen=129) Uninverting(_wk3(5.5.2):c4715/1140:delGen=1) Uninverting(_vsl(5.5.2):c4051/1005:delGen=1) Uninverting(_ws5(5.5.2):c10161) Uninverting(_wvh(5.5.2):c2745) Uninverting(_wyj(5.5.2):c3828) Uninverting(_x1c(5.5.2):c3994) Uninverting(_wyt(5.5.2):c198) Uninverting(_x0h(5.5.2):c548) Uninverting(_x2g(5.5.2):c597) Uninverting(_x1l(5.5.2):c156) Uninverting(_x1v(5.5.2):c389) Uninverting(_x25(5.5.2):c509) Uninverting(_x2p(5.5.2):c478) Uninverting(_x1s(5.5.2):c100) Uninverting(_x3a(5.5.2):c567) Uninverting(_x3j(5.5.2):c400) Uninverting(_x2z(5.5.2):c515) Uninverting(_x3k(5.5.2):c4) Uninverting(_x3l(5.5.2):c8)))}

I 2017/06/28 04:37:40 org.apache.solr.update.DirectUpdateHandler2 end_commit_flush

I 2017/06/28 04:37:40 org.apache.solr.core.SolrDeletionPolicy newest commit generation = 12916

I 2017/06/28 04:37:40 org.apache.solr.core.SolrDeletionPolicy SolrDeletionPolicy.onCommit: commits: num=2 commit{dir=/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/solr_5_5/collection1/data/index,segFN=segments_9yr,generation=12915} commit{dir=/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/solr_5_5/collection1/data/index,segFN=segments_9ys,generation=12916}

I 2017/06/28 04:37:40 org.apache.solr.update.DirectUpdateHandler2 start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}

I 2017/06/28 04:37:17 org.apache.solr.core.QuerySenderListener QuerySenderListener done.

I 2017/06/28 04:37:17 org.apache.solr.core.QuerySenderListener QuerySenderListener sending requests to Searcher\@14b2b174[collection1] main{ExitableDirectoryReader(UninvertingDirectoryReader(Uninverting(_9pb(5.5.2):C327111/126322:delGen=6602) Uninverting(_ev4(5.5.2):C345348/101093:delGen=5040) Uninverting(_kur(5.5.2):C333330/97611:delGen=3659) Uninverting(_sd6(5.5.2):C347474/47765:delGen=1756) Uninverting(_usf(5.5.2):c81588/9779:delGen=510) Uninverting(_szg(5.5.2):c43661/9710:delGen=906) Uninverting(_tyl(5.5.2):c65639/9852:delGen=562) Uninverting(_vj8(5.5.2):c27359/1650:delGen=493) Uninverting(_uux(5.5.2):c8768/1095:delGen=105) Uninverting(_v0q(5.5.2):c9101/1570:delGen=129) Uninverting(_wk3(5.5.2):c4715/1140:delGen=1) Uninverting(_vsl(5.5.2):c4051/1005:delGen=1) Uninverting(_ws5(5.5.2):c10161) Uninverting(_wvh(5.5.2):c2745) Uninverting(_wyj(5.5.2):c3828) Uninverting(_x1c(5.5.2):c3994) Uninverting(_wyt(5.5.2):c198) Uninverting(_x0h(5.5.2):c548) Uninverting(_x2g(5.5.2):c597) Uninverting(_x1l(5.5.2):c156) Uninverting(_x1v(5.5.2):c389) Uninverting(_x25(5.5.2):c509) Uninverting(_x2p(5.5.2):c478) Uninverting(_x1s(5.5.2):c100) Uninverting(_x3a(5.5.2):c567) Uninverting(_x3j(5.5.2):c400) Uninverting(_x2z(5.5.2):c515) Uninverting(_x3k(5.5.2):c4) Uninverting(_x3l(5.5.2):c8)))}

I 2017/06/28 04:37:17 org.apache.solr.update.DirectUpdateHandler2 end_commit_flush

I 2017/06/28 04:37:17 org.apache.solr.core.SolrDeletionPolicy newest commit generation = 12915

I 2017/06/28 04:37:17 org.apache.solr.core.SolrDeletionPolicy SolrDeletionPolicy.onCommit: commits: num=2 commit{dir=/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/solr_5_5/collection1/data/index,segFN=segments_9yq,generation=12914} commit{dir=/home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/solr_5_5/collection1/data/index,segFN=segments_9yr,generation=12915}

W 2017/06/28 04:37:17 SWITCHBOARD Crawl job \‘50_localcrawl\’ is paused: user request in Crawler_p from 158.69.250.130

I 2017/06/28 04:37:17 Crawl Start pause=localcrawler

Statistik: Verfasst von lucipher — Mi Jun 28, 2017 11:16 am


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-28 13:18:01

Additional info:

the computer has 8 cores / 8 threads, with 3 GB assigned to java VM. System load sits between 10 and 12 due to all the running processes, including Yacy.
In \“PerformanceQueues_p.html\” I set all the thresholds for system load to 16, a limit which is never reached.

When I pause background processes while leaving Yacy running, the system load falls below 2 and Yacy does return search results from remote peers. When background processes resume, load returns to 10÷12 and remote results are no longer collected.

Disk I/O is bare minimal and Yacy\’s index is less than 1M documents.

Statistik: Verfasst von davide — Mi Jun 28, 2017 12:18 pm


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 01:15:44

Solved:

Code:
remotesearch.maxload.rwi=16.0remotesearch.maxload.solr=16.0



The defaults where 8.0 and 4.0 respectively, yet local searches worked correctly apparently, even with a system load above 10.

Statistik: Verfasst von davide — Do Jun 29, 2017 12:15 am


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 20:31:36

Hi davide, great that you solved your issue.
There are some things not really clear to me in what you explain :
- you didn\’t received any results from remote peers just after having started and configured your peer with an empty index? Or you only realized/checked this a few hours later?
- you talk about background processes. Do you mean other applications/services on your computer? Or YaCy internal tasks?

Statistik: Verfasst von luc — Do Jun 29, 2017 7:31 pm


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 21:22:37

After I downloaded and configured Yacy on an empty index and after I started a crawler job, I realized that remote results weren\’t displayed. (the \“remote\” counter in the search page remained at 0).
Since then I continued to consistently not receive remote results if the system load was high (> ~10), even the following day, up until I set those \“maxload\” options as explained.

With \“background processes\” I mean processes running on the same computer which are unrelated to Yacy.

Statistik: Verfasst von davide — Do Jun 29, 2017 8:22 pm


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 22:00:26

Just out of interest I ran a test to check your peer performance / response. You might have your connection swamped at the moment. https://www.webpagetest.org/result/170629_00_1BK8/ Its easy to retest and gives a lot of information about your site.

This is the result from an old PC 1GB and adls2 connection. https://www.webpagetest.org/result/170629_F7_1BJ4/ it may time out sometimes due to what I am doing.

Not knowing your system total ram setting of 3 GB I think consumes 6 GB it sets Xmx and Xms the same.
I have a spread sheet that is in experimental testing for Java Xmx and Xms in yacy at https://github.com/smokingwheels/chopper
If you wish to try then shutdown peer change Xmx and Xms in /DATA/SETTINGS/yacy.conf and start peer again.

Statistik: Verfasst von smokingwheels — Do Jun 29, 2017 9:00 pm


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 22:37:23

\@smokingwheels, my computer is not swapping but my ADSL is proven crap. To say this with an image:

Bild

Statistik: Verfasst von davide — Do Jun 29, 2017 9:37 pm


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-29 23:04:17

Wow. I think there is nothing left for yacy in terms of CPU power.
At a rough guess you have 12 of 1 core spare for yacy.

The NI setting of 19 is in a range from -20 to 20 the scale is upside down for level of system priority process.
See http://www.thegeekstuff.com/2013/08/nice-renice-command-examples/?utm_source=tuicool on how to perform renice on a process.

Statistik: Verfasst von smokingwheels — Do Jun 29, 2017 10:04 pm


Hilfe für Einsteiger und Anwender • Re: Qualität der Suchergebnisse

Date: 2017-06-29 23:26:55

If you wish add this to the url.default.black file or enter into /Blacklist_p.html page to see the difference, I would value your feedback on its outcome in search results.
*.w.interia.pl/.*.*
*.w.interiowo.pl/.*
*.zbik.pl/.*

Wenn Sie nicht in Angeln hinzufügen
*.zbik.pl/.*

Statistik: Verfasst von smokingwheels — Do Jun 29, 2017 10:26 pm


English • Re: very high load >7 on crawling

Date: 2017-06-30 00:33:04

Could we have a more detailed information on your setup please?

Statistik: Verfasst von smokingwheels — Do Jun 29, 2017 11:33 pm


English • Re: very high load >7 on crawling

Date: 2017-06-30 08:40:28

server 4 cores, 8 thread, 16GB ram, 12GB for yacy, 2TB hdd in raid
ubuntu 16_04_2 LTS 64bit
parser selected and active - Streaming HTML Parser
~2mln Documents in index takes 40GB
Yacy in robinson mode

Statistik: Verfasst von lucipher — Fr Jun 30, 2017 7:40 am


English • Re: very high load >7 on crawling

Date: 2017-06-30 09:21:42

I have only hired a cloud server of lower capacity and used it short term.

Are you using Desktop or Server version of Ubuntu?
A txt or screen dump of (top) if you could post that would be useful?

As an experiment if you wish edit (/DATA/SETTINGS/yacy.config) with yacy shutdown.

javastart_Xmx=Xmx10112m
javastart_Xms=Xms2592m

If you have a recent version of Yacy running and you ask it to crawl it will [consume CPU time]{style=“font-weight: bold”}, if the load is too much I might suggest lowering the PPM for a crawling.

I only have a 4 core but when I run a crawl the average load can sitting at or around ~8 to 12 (16 to 24 on your rig). Its Linux it can take it.

Statistik: Verfasst von smokingwheels — Fr Jun 30, 2017 8:21 am


English • Re: very high load >7 on crawling

Date: 2017-06-30 10:35:42

I have server version of linux of course. PPM is low <3000

The problem is different:
When load takes all cores on 100% - crawling and all other actions stops. Queue is clear
on logs there is only info I\’ve send before

Whit not working crawling heavy load is not decreasing

It looks like something stuck on parsing and yacy cannot stops on this and cannot go forward

Maybe webpage visible on logs have something that parser cannot handle properly?

Statistik: Verfasst von lucipher — Fr Jun 30, 2017 9:35 am


English • Re: No remote results in peer-to-peer mode

Date: 2017-06-30 11:48:20

\@davide :

\ The defaults where 8.0 and 4.0 respectively, yet local searches worked correctly apparently, even with a system load above 10.\


Yes, you rightly pointed out here that the system load limit is strictly applied to remote searches (for remote Solr requests{.postlink} and RWI{.postlink} ). But consider this a good thing or not, currently there is not such a limit applying to local searches.

By the way, for a more convenient and readable configuration, [remotesearch.maxload.rwi]{style=“font-style: italic”} and [remotesearch.maxload.solr]{style=“font-style: italic”} settings are now configurable{.postlink} from the PerformanceQueues_p.html page.

Have a nice day.

Statistik: Verfasst von luc — Fr Jun 30, 2017 10:48 am


English • Re: very high load >7 on crawling

Date: 2017-06-30 13:54:19

Have you tried and SEO web site tools on the sites you are trying crawl?

Statistik: Verfasst von smokingwheels — Fr Jun 30, 2017 12:54 pm


English • Re: very high load >7 on crawling

Date: 2017-06-30 19:48:20

Hi lucipher,
I tried to parse the URL mentioned in your logs (at http://www.prawo.vulcan.edu.pl) and I confirm that as you guessed it looks like the content makes YaCy html parser fall in a kind of endless loop. I tried with both latest sources from GitHub and 1.929000 release and got the same behavior.
It looks like an interesting case. I will try to figure out what is happening and check how this can be fixed.

Statistik: Verfasst von luc — Fr Jun 30, 2017 6:48 pm


English • Re: Aggregate / Clear duplicate results

Date: 2017-06-30 21:29:50

Renovating this proposal after two years.

The advantage of using a perceptual hash library to process an already ranked list of results before it is presented to the user is that such a hash can be indiscriminately extracted from the text snippets which accompany the results, as well as from thumbnail mages, and can be used to numerically determine the visual difference between results presented by Yacy.

For text results, this could be effective at detecting and deleting results which look very similar, and for image results it would detect identical images which differ only by resolution or canvas ratio.

To demonstrate how simple the principle is, check this program I wrote years ago using the phash library.
It takes as argument the filename of two images to compare, and replies via its exit status whether the images are almost identical but differ by resolution or cropping.

Code:
/* IMAGE COMPARER PROGRAM * * Synopsis: ./program image0 image1 * Exit status: 0: the images likely (95%+) represent the same object; *              1: no resolute answer; *              2: error. * * Notes: the program is capable to recognize two images only if these * differ marginally, whether for size, aspect ratio, cropping, contrast. * Very similar images which represent marginally-different objects * don't normally match. */#include <iostream>#include <pHash.h>#define THRESHOLD 10int main(int argc, char *argv[]) {  const char *f0, *f1;  ulong64 hash0, hash1;  int distance;  f0 = argv[1];  f1 = argv[2];  cout << "Image0: " << f0 << '\n'       << "Image1: " << f1 << '\n';  if (ph_dct_imagehash(f0, hash0) != 0) return 2;  if (ph_dct_imagehash(f1, hash1) != 0) return 2;  distance = ph_hamming_distance(hash0, hash1);  cout << "Distance: " << distance << '\n';  return distance > THRESHOLD;}

Statistik: Verfasst von davide — Fr Jun 30, 2017 8:29 pm


English • Re: Aggregate / Clear duplicate results

Date: 2017-07-01 05:05:39

Its good your brought this subject up like a revisit.
The country probably has a very small primary industry.
It looks like Google has rejected there site (not to sure yet). They sell just about anything related to do with computers.
There site is massive and it has improved over time and has valid email address\’s for contact. Unlike some of the sites.

If I want to buy things online now, I run a web portal on the site of interest with the category I need as a start point then they are easier to locate the bargains.
In (/IndexSchema_p.html) there is some settings that may help.

Statistik: Verfasst von smokingwheels — Sa Jul 01, 2017 4:05 am


English • Re: very high load >7 on crawling

Date: 2017-07-03 10:40:19

Solved : fix is available on latest YaCy sources{.postlink} on GitHub (with technical details commented), and on the Docker image{.postlink}.

Happy crawling!

Statistik: Verfasst von luc — Mo Jul 03, 2017 9:40 am


English • Re: very high load >7 on crawling

Date: 2017-07-03 11:25:34

Thank you for help

Statistik: Verfasst von lucipher — Mo Jul 03, 2017 10:25 am


Fragen und Antworten • IPv4 und IPv6 Dualstack

Date: 2017-07-03 21:24:36

Hallo zusammen

Ich habe einen Internetanschluss mit IPv4 / IPv6 Dualstack und würde mein Yacy gerne mit je einer IPv4 und einer IPv6 Adresse laufen lassen.

Wenn der Rechner nun aber eine IPv6 hat, und ich Yacy dann starte, so nimmt Yacy nur die IPv6 Adresse und läuft ohne IPv4. Also durch das Forum und Wiki wühlen .. da habe ich aber nur gefunden wie ich Java wieder auf IPv4 biege auf einem Dualstack System (\“startYacy.sh\” : JAVA_ARGS=\” ....… -Djava.net.preferIPv4Stack=true\“).

Ich habe dann noch ein bisschen weitergesucht was man sonst im Netz zu Java und Dualstack findet. Da geht es auch meist um java.net.preferIPv4Stack oder die IPv6 Version davon.

In der Peer Übersicht sieht man aber diverse Rechner mit zwei Adressen, also müsste das doch irgendwie zu machen sein :?: .

Mein Yacy läuft auf einem Tinker Board (like Raspberry aber 2GB Ram) mit Armbian, also Linux.


gruss und viva

Statistik: Verfasst von viva — Mo Jul 03, 2017 8:24 pm


English • Please enable HTTPS on the YaCy website

Date: 2017-07-07 10:47:20

(I already tried to make this request via Twitter, but didn\’t seem to get a reply, so I guess I post here.….)

It\’s really unfortunate that a privacy-valuing project like YaCy doesn\’t support HTTPS on its website. Let\’s Encrypt is gratis, and is really easy to set up -- it took me something like 30 minutes to set up Let\’s Encrypt for the first time on a server I use. I\’ve already been MITMed once by a Tor exit relay while visiting the YaCy website (it redirected me to a phishing page); I don\’t even want to know how many more subtle MITM\’s I\’ve been subjected to due to the lack of HTTPS.

Can this please be rectified? I know YaCy is primarily a volunteer project; if time budget is a problem I\’m happy to throw circa \$20 USD at YaCy as a bounty to cover the time required to enable HTTPS.

Cheers!

Statistik: Verfasst von biolizard89 — Fr Jul 07, 2017 9:47 am


English • Has anyone ever tuned Java for YaCy.

Date: 2017-07-08 00:41:31

I started to watch a few videos on the tube and realized if you have a large machine it might need help tuning Java to suit. There are lots of command line options.

Seek professional help, I think the email address is present at the peer shutdown page.

I am experimenting with some settings and I have noticed my machine sometimes goes wild on the swap partition, I usually hit the reset on the machine and am unsure of the exact cause.

Statistik: Verfasst von smokingwheels — Fr Jul 07, 2017 11:41 pm


Fragen und Antworten • Re: Crawldauer [erledigt]

Date: 2017-07-09 06:42:40

Nur ein kurzer Hinweis zu meinem Versuch:

Nach ca. [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Tagen habe ich den Crawl abgebrochen, da ich sonst nicht mehr vernünftig mit YaCy arbeiten konnte! :? Ansonsten läuft mein kleiner [\“Server\“]{style=“font-style: italic”} einwandfrei und auch mein Index wächst fleißig weiter, für die alte Kiste sogar relativ flott. Ich muß zwar beim crawlen aufpassen und darf die Suchtiefe nicht höher einstellen, aber die 3 genügt ja eigentlich auch.

Nun wünsche ich allen noch einen sonnigen Sonntag

Mike

Statistik: Verfasst von TmoWizard — So Jul 09, 2017 5:42 am


English • yacy 1.92 > 1.921 update problem

Date: 2017-07-09 22:11:55

I was using 1.92 and have 5 mln crawled pages
I made 1.9219236 (using ant dist)
After update my index shows 0 pages!

but Citations (reverse link index) and Local Crawler queue are ok!

In logs I have some messages:

W 2017/07/09 15:58:11 org.apache.solr.handler.admin.LukeRequestHandler Error getting file length for [segments_1f]
java.nio.file.NoSuchFileException: /home/zmudzmar/yacy/DATA/INDEX/webportal/SEGMENTS/solr_6_6/collection1/data/index/segments_1f
at sun.nio.fs.UnixException.translateToIOException(UnixException.java:86)
at sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:102)


Should I copy some files manualy? How to update my 5mln index to new solr version?


After downgrade YaCy version: 1.929000 everything is ok
Documents
solr search api 5,003,993

Statistik: Verfasst von lucipher — So Jul 09, 2017 9:11 pm


English • dht, internal ip

Date: 2017-07-10 09:20:17

I\’d like to run cluster inside lan and my questions are:

- how many mashines should I run to fully use p2p between mashines in my cluster?
- may I use internal IP (internal search engine for corpo) or only external are accepted

I am asking becouse ages ago I heared that I must have external IP and over 20 mashines in cluster (now I can\’t find this on forum)

Statistik: Verfasst von lucipher — Mo Jul 10, 2017 8:20 am


English • Re: Has anyone ever tuned Java for YaCy.

Date: 2017-07-10 09:29:02

On my machine swapping occurs when indexing few txt files with links (2MB each - hundreds of thousands domains)
Resolution was run only one file in time

Statistik: Verfasst von lucipher — Mo Jul 10, 2017 8:29 am


Fragen und Antworten • Indexgröße zu extrem?

Date: 2017-07-10 14:07:27

Hi,

seit einiger Zeit tauchen bei mir im Log \“komische\” Fehlermeldungen/Exceptions auf:

Code:
W 2017/07/06 18:02:12 ConcurrentLog java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id QeCbK3o3g_15 to the index; possible analysis error.java.io.IOException: org.apache.solr.common.SolrException: Exception writing document id QeCbK3o3g_15 to the index; possible analysis error.        at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:285)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:210)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.commitDocBuffer(ConcurrentUpdateSolrConnector.java:106)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.access$100(ConcurrentUpdateSolrConnector.java:52)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector$CommitHandler.run(ConcurrentUpdateSolrConnector.java:61)Caused by: org.apache.solr.common.SolrException: Exception writing document id QeCbK3o3g_15 to the index; possible analysis error.        at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:180)        at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:68)        at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:48)        at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:934)        at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1089)        at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:712)        at org.apache.solr.update.processor.LogUpdateProcessorFactory$LogUpdateProcessor.processAdd(LogUpdateProcessorFactory.java:103)        at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:250)        at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:177)        at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:94)        at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:69)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155)        at org.apache.solr.core.SolrCore.execute(SolrCore.java:2102)        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:178)        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149)        at org.apache.solr.client.solrj.SolrClient.add(SolrClient.java:106)        at org.apache.solr.client.solrj.SolrClient.add(SolrClient.java:123)        at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:279)        ... 4 moreCaused by: org.apache.lucene.store.AlreadyClosedException: this IndexWriter is closed        at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:720)        at org.apache.lucene.index.IndexWriter.ensureOpen(IndexWriter.java:734)        at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1473)        at org.apache.solr.update.DirectUpdateHandler2.doNormalUpdate(DirectUpdateHandler2.java:282)        at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:214)        at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:169)        ... 21 moreCaused by: org.apache.lucene.store.AlreadyClosedException: FileLock invalidated by an external force: NativeFSLock(path=/mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/solr_5_5/collection1/data/index/write.lock,impl=sun.nio.ch.FileLockImpl[0:9223372036854775807 exclusive invalid],ctime=2014-12-25T02:18:55Z)        at org.apache.lucene.store.NativeFSLockFactory$NativeFSLock.ensureValid(NativeFSLockFactory.java:166)        at org.apache.lucene.store.LockValidatingDirectoryWrapper.createOutput(LockValidatingDirectoryWrapper.java:43)        at org.apache.lucene.store.TrackingDirectoryWrapper.createOutput(TrackingDirectoryWrapper.java:43)        at org.apache.lucene.codecs.compressing.CompressingStoredFieldsWriter.<init>(CompressingStoredFieldsWriter.java:108)        at org.apache.lucene.codecs.compressing.CompressingStoredFieldsFormat.fieldsWriter(CompressingStoredFieldsFormat.java:128)        at org.apache.lucene.codecs.lucene50.Lucene50StoredFieldsFormat.fieldsWriter(Lucene50StoredFieldsFormat.java:183)        at org.apache.lucene.index.DefaultIndexingChain.initStoredFieldsWriter(DefaultIndexingChain.java:81)        at org.apache.lucene.index.DefaultIndexingChain.startStoredFields(DefaultIndexingChain.java:279)        at org.apache.lucene.index.DefaultIndexingChain.processDocument(DefaultIndexingChain.java:316)        at org.apache.lucene.index.DocumentsWriterPerThread.updateDocument(DocumentsWriterPerThread.java:234)        at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:450)        at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1477)        at org.apache.solr.update.DirectUpdateHandler2.doNormalUpdate(DirectUpdateHandler2.java:282)        at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:214)        at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:169)        at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:68)        at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:48)        at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:934)        at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1089)        at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:712)        at org.apache.solr.update.processor.LogUpdateProcessorFactory$LogUpdateProcessor.processAdd(LogUpdateProcessorFactory.java:103)        at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:250)        at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:177)        at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:94)        at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:69)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:155)        at org.apache.solr.core.SolrCore.execute(SolrCore.java:2102)        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:178)        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149)        at org.apache.solr.client.solrj.SolrClient.add(SolrClient.java:106)        at org.apache.solr.client.solrj.SolrClient.add(SolrClient.java:123)        at net.yacy.cora.federate.solr.connector.SolrServerConnector.add(SolrServerConnector.java:256)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.add(MirrorSolrConnector.java:210)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.commitDocBuffer(ConcurrentUpdateSolrConnector.java:106)        at net.yacy.cora.federate.solr.connector.ConcurrentUpdateSolrConnector.concurrentIDsByQuery(ConcurrentUpdateSolrConnector.java:376)        at net.yacy.search.schema.CollectionConfiguration$CRHost.<init>(CollectionConfiguration.java:1963)        at net.yacy.search.schema.CollectionConfiguration.createRankingMap(CollectionConfiguration.java:1691)        at net.yacy.search.schema.CollectionConfiguration.postprocessing(CollectionConfiguration.java:1277)        at net.yacy.search.Switchboard.cleanupJob(Switchboard.java:2580)        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:497)        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:105)        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:215)



Besonders das FileLock invalidated by an external force: NativeFSLock(path=/mnt/3200gb/yacy2/DATA/INDEX/freeworld/SEGMENTS/solr_5_5/collection1/data/index bereitet mir Kopfzerbrechen. Kann es sein dass mein Index zu groß ist? Die Enterprise-Serial-Attached-SCSI-Platte mit 3,4 ms Zugriffszeit kommt da wohl auch nicht mehr hinterher :-(


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Mo Jul 10, 2017 1:07 pm


Fragen und Antworten • Re: Re-Crawl?

Date: 2017-07-10 19:44:42

Ich suche auch nach einer Lösung zum periodischen re-indexieren.
Auf der Seite IndexReIndexMonitor_p.html gibt es in der Tat eine [start recrawl job now] Schaltfläche.
Fragen:
Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?
Ist autocrawl configuration im yacy.init ein möglicher Kandidat?

Statistik: Verfasst von stephan — Mo Jul 10, 2017 6:44 pm


English • Re: Has anyone ever tuned Java for YaCy.

Date: 2017-07-11 15:36:01

have you try OS tuning?

After setting swappiness to 10 (was 60)
sudo sysctl vm.swappiness=10
my yacy is working much better

Statistik: Verfasst von lucipher — Di Jul 11, 2017 2:36 pm


English • Re: Has anyone ever tuned Java for YaCy.

Date: 2017-07-11 19:08:13

No I have not tried that it could be something to look into thanks.

I plotted the top output overnight of java peak and the average loads of my system see https://twitter.com/smokingwheels/status/868705075778117632
There is one result where the load of java goes near 1000 on a Quad core CPU.
I have noticed sometimes my swap drive goes full on. I can see this because I am running Yacy on some old SCSI drives in Raid 0.
On my old install I could put Ubuntu 14 in a death bash loop of doom and had the average load at 140 using a quad core before the system was hung.
I have read that the average load ideally on a server should never go above 0.7 per CPU under normal running to handle the transient loads.
I found this on Ubuntu about swappiness https://sites.google.com/site/tipsandtricksforubuntu/system-tips/swappiness will have a look around as well.

I read a while ago you can also change the priority the swap files if you have more that 1 drive. https://ubuntuforums.org/showthread.php?t=1746599

Statistik: Verfasst von smokingwheels — Di Jul 11, 2017 6:08 pm


English • Re: yacy 1.92 > 1.921 update problem

Date: 2017-07-12 09:13:42

Hi lucipher, the internal Solr index upgrade from YaCy 1.929000 is supposed to be automatic.

But I would strongly recommend you to update to the latest GitHub sources instead of 1.9219236, as some Solr configuration issues related to Solr 6.6 have been solved in the meantime (see commits 4be4bfb{.postlink} and f6e8d71{.postlink}).

Hopefully this time it will work better. Don\’t hesitate to share your feedback here.

Statistik: Verfasst von luc — Mi Jul 12, 2017 8:13 am


English • Re: yacy 1.92 > 1.921 update problem

Date: 2017-07-12 15:55:29

My steps:
1. download https://github.com/yacy/yacy_search_ser ... master.zip{.postlink}
2. unzip on my system
3. inside yacy_search_server-master run \“and dist\”

as results have

[tar] Building tar: /home/zmudzmar/yacy_search_server-master/RELEASE/yacy_v1.921_20170712_9000.tar.gz
[delete] Deleting directory /home/zmudzmar/yacy_search_server-master/RELEASE/MAIN

BUILD SUCCESSFUL
Total time: 16 seconds

4. copy this file to actual /yacy/DATA/RELEASE
5. run update from panel
6. after restart YaCy version: 1.9219000
7. Documents=0, Citations as should be, queue as should be


something still is wrong :( or I am doing something in wrong style

Statistik: Verfasst von lucipher — Mi Jul 12, 2017 2:55 pm


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-07-13 16:55:17

Ich habe auch schon ein \‘Solr Optimize\’ auf der Seite IndexControlURLs_p.html versucht (merge to max. 8 Segments) aber irgendwie bekomme ich kein Feedback ob die Optimierung läuft oder abgebrochen ist, die Seite läd sich einfach neu. Kann ich die Optimierung auch irgendwie von der Bash aus starten? Vllt. kommt da ja ein Output obs läuft oder abgebrochen ist.

Statistik: Verfasst von LA_FORGE — Do Jul 13, 2017 3:55 pm


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-07-13 22:28:38

Hi LA_FORGE,

das ein indexWriter im schreiben geschlossen wird, hatte ich auch noch nicht. Aber was Effekte bei fetten Indexen angeht bist Du nun mal \‘Vorreiter\’ :-)
Das mit den Optimize ist auf jeden Fall eine gute Idee und einen Versuch wert. Leider gibt es weder eine Bash- oder sonstwie alternative Möglichkeit das aufzurufen. Auch ist es nicht so einfach Feedback in YaCy einzubauen. Das ist einfach eine Funktion vom Solr die aufgerufen wird und fertig - ohne große Rückmeldungen, soweit ich mich erinnere.
D.h. wenn man das abfeuert, lädt die Seite bis der Job durch ist.
In der Crawler Überwachung (/Crawler_p.html) sollte danach die menge der Segmente kleiner als zuvor sein: ein paar mini-segmente werden aber schnell wieder nach erfolgten Optimize erstellt, weswegen man nur super kurz die eingegebenen 8 Segmente in Deinem Fall hat.

Berichte auf jeden Fall bitte mal ob das etwas gebracht hat in diesem Problem.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Do Jul 13, 2017 9:28 pm


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-07-14 12:21:01

vielen Dank für die ausführliche Erklärung. Ich habe nochmal auf Optimize gedrückt aber 12 Stunden später steht immer noch \‘100\’ als Anzahl der Semente auf der Seite Crawler_p.html :-( irgendwas verhindert anscheinend, dass die Optimierung gestartet werden kann. Ich hatte vor ein paar Wochen auch mal ein Checkindex mit der Solr-Eigenen Funktion laufen lassen, da wurden keine Fehler gefunden. Ich bin momentan auf der v1.929174

Statistik: Verfasst von LA_FORGE — Fr Jul 14, 2017 11:21 am


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-07-14 15:54:52

Code:
Opening index @ DATA/INDEX/freeworld/SEGMENTS/solr_5_5/collection1/data/index/Segments file=segments_3b8mn numSegments=100 versions=[5.5.1 .. 5.5.4] id=7ko5zx  9mry48c4wx7t9v3tra6 format= userData={commitTimeMSec=1496343246696}  1 of 100: name=_gl4jg maxDoc=37552898    version=5.5.1    id=bk7lyqnlfkp3j53q49bd0zdsj    codec=Lucene54    compound=false    numFiles=11    size (MB)=55,711.298    diagnostics = {os=Linux, java.vendor=Oracle Corporation, java.version=1.8.0_  40, java.vm.version=25.40-b25, lucene.version=5.5.1, mergeMaxNumSegments=10, os.  arch=amd64, java.runtime.version=1.8.0_40-b26, source=merge, mergeFactor=12, os.  version=3.16.0-4-amd64, timestamp=1469061590754}    has deletions [delGen=196923]    test: open reader.........OK [took 2.082 sec]    test: check integrity.....OK [took 688.886 sec]    test: check live docs.....OK [7421967 deleted docs] [took 0.148 sec]    test: field infos.........OK [156 fields] [took 0.001 sec]    test: field norms.........OK [37 fields] [took 0.037 sec]    test: terms, freq, prox...OK [310352285 terms; 4649524778 terms/docs pairs; 5068182732 tokens] [took 532.889 sec]    test: stored fields.......OK [3109437904 total field count; avg 103.2 fields per doc] [took 801.876 sec]    test: term vectors........OK [0 total term vector count; avg 0.0 term/freq vector fields per doc] [took 0.000 sec]    test: docvalues...........OK [0 docvalues fields; 0 BINARY; 0 NUMERIC; 0 SORTED; 0 SORTED_NUMERIC; 0 SORTED_SET] [took 0.000 sec] 2 of 100: name=_gteb4 maxDoc=8291303    version=5.5.1    id=55qhq137lr3y15vfx5ruph8lt    codec=Lucene54    compound=true    numFiles=4    size (MB)=33,045.186    diagnostics = {os=Linux, java.vendor=Oracle Corporation, java.version=1.8.0_40, java.vm.version=25.40-b25, lucene.version=5.5.1, mergeMaxNumSegments=10, os.arch=amd64, java.runtime.version=1.8.0_40-b26, source=merge, mergeFactor=29, os.version=3.16.0-4-amd64, timestamp=1473807394029}    has deletions [delGen=28888]    test: open reader.........OK [took 0.994 sec]    test: check integrity.....OK [took 384.653 sec]    test: check live docs.....OK [908674 deleted docs] [took 0.020 sec]    test: field infos.........OK [143 fields] [took 0.000 sec]    test: field norms.........OK [37 fields] [took 0.000 sec]    test: terms, freq, prox...OK [79063381 terms; 1273311082 terms/docs pairs; 2547622084 tokens] [took 276.284 sec]    test: stored fields.......OK [339168196 total field count; avg 45.9 fields per doc] [took 322.163 sec]    test: term vectors........OK [0 total term vector count; avg 0.0 term/freq vector fields per doc] [took 0.000 sec]    test: docvalues...........OK [62 docvalues fields; 0 BINARY; 28 NUMERIC; 15 SORTED; 0 SORTED_NUMERIC; 19 SORTED_SET] [took 41.370 sec]



Ich lasse doch nochmal die Checkindex-Routine drüberlaufen und Upgrade dann auf die 1.921 9288

Statistik: Verfasst von LA_FORGE — Fr Jul 14, 2017 2:54 pm


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-07-14 18:08:07

Da sind ja mehrere solcher 50 GB Brocken, insgesamt sind das über 700 GB :D

\ 10 of 100: name=\_gl4jf maxDoc=88051612\ version=5.5.1\ id=bk7lyqnlfkp3j53q49bd0zdsi\ codec=Lucene54\ compound=false\ numFiles=13\ size (MB)=55,742.925\ diagnostics = {os=Linux, java.vendor=Oracle Corporation, java.version=1.8.0\_40, java.vm.version=25.40-b25, lucene.version=5.5.1, mergeMaxNumSegments=10, os.arch=amd64, java.runtime.version=1.8.0\_40-b26, source=merge, mergeFactor=30, os.version=3.16.0-4-amd64, timestamp=1469046805149}\ has deletions \[delGen=43729\]\ test: open reader\...\...\...OK \[took 2.418 sec\]\ test: check integrity\.....\



mergeMaxNumSegments=10 steht ja da bei der Ausgabe von Checkindex, bedeutet das, dass sie zum nächstmöglichen Zeitpunkt gemerged werden und dass die 12 Stunden die ich ihm Zeit gelassen habe zu wenig waren?

Statistik: Verfasst von LA_FORGE — Fr Jul 14, 2017 5:08 pm


Fragen und Antworten • Re: Remove SOLR schema.xml?

Date: 2017-07-23 03:11:27

otter hat geschrieben:\ What file exactly should I delete?\



This is about the DATA/INDEX/freeworld/SEGMENTS/solr_6_6/collection1/conf/schema.xml file.
Manually deleting it will not solve the warning, as YaCy copies the file from /default on next startup,
so we\’ve to update it in code. It\’s no fatal issue, so for the time being you can ignore the hint.

Statistik: Verfasst von reger — So Jul 23, 2017 2:11 am


Fragen und Antworten • Re: Remove SOLR schema.xml?

Date: 2017-07-23 10:09:06

Thanks, reger!

Statistik: Verfasst von otter — So Jul 23, 2017 9:09 am


Fragen und Antworten • \“Der Server hat die Verbindung beendet\”

Date: 2017-07-23 10:22:14

Hallöchen zusammen!

Ich habe hier derzeit das merkwürdige Problem, daß ich die [[\“Crawler Überwachung\“]{style=“font-weight: bold”} (und [nur]{style=“font-weight: bold”} diese!)]{style=“font-style: italic”} nicht aufrufen kann:

Bild

Ich verstehe das irgendwie nicht, denn alles andere funktioniert hier ohne Probleme! Systemstatus, Netzwerkübersicht, die Suche selbst, alles klappt nur die Crawlerüberwachung will seit ein paar Stunden nicht mehr. :shock:

Weiß hier eventuell jemand, woran das liegen könnte? YaCy läuft bei mir wie einige hier im Forum ja wissen auf einem [[eigenen Server{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, bei diesem [\“scheint\“]{style=“font-style: italic”} aber alles in Ordnung zu sein, alle anderen Seiten sind ja auch aufrufbar.

Am Browser liegt es übrigens nicht, ich habe alle zur Verfügung stehenden probiert mit dem selben Ergebnis!


Grüße aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — So Jul 23, 2017 9:22 am


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-24 11:08:31

Hallöchen zusammen,

ich nochmal. Tja, seit heute Früh oder auch seit heute Nacht ist es nun soweit, bei meinem YaCy geht gar nichts mehr! :o Ich habe bereits YaCy selbst und auch den Server mehrmals neu gestartet, da das oftmals geholfen hat, aber diesmal sieht es irgendwie schlecht aus.

Wenn ihr weitere Infos braucht, dann schreibt mir das bitte. Es hat sich zwar außer dem Index nichts verändert an dem Rechner [(siehe Link zu meinem Tutorial im OT)]{style=“font-style: italic”}, aber vielleicht fällt euch ja was ein! Ich bin wirklich um jede Hilfe froh, die ich bekommen kann.

Statistik: Verfasst von TmoWizard — Mo Jul 24, 2017 10:08 am


English • Disk space problem

Date: 2017-07-24 13:53:25

Hi there,

I\’ve been running Yacy for a couple of months now and the index got pretty big (about 20 million documents). I don\’t want to delete the documents, but the index size is getting out of hands in terms of disk space: the \“SEGMENTS\” directory takes up more than 400 GB.

In my early tests with yacy, I seem to recall that when I exported the index and then re-imported it in another yacy installation (on a different machine), the index size was considerably smaller in terms of disk space, is that possible?

I was toying with the idea of:

- exporting the index to an XML file
- emptying the \“SEGMENTS\” directory
- re-importing the index

So here\’s my questions:

a) do you think I\’ll get the result I expect (i.e. reduce the amount of disk space taken up by the index)
b) is there a better way of doing this?

Thanks,
Eros

Statistik: Verfasst von eros — Mo Jul 24, 2017 12:53 pm


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-24 19:29:55

Hallo,

schreibt YaCy noch etwas nach DATA/LOGS/yacy00.log ?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jul 24, 2017 6:29 pm


English • Re: Disk space problem

Date: 2017-07-24 21:03:30

Hello,

following your idea, will result in lower disk-usage, but you will also loose a lot of additional Information.

YaCy uses multiple indexes - think of which is needed.
At Index Administration -> Index Source & Targets (/IndexFederated_p.html) you can switch them on and of.

The Solr Search Index ist the core and YaCy won\’t be useful without that - so this can\’t be switched off.

There are 2 kinds of Web Structure Index. This index is about the references between pages and sites. Without them YaCy will only loose some of its Index quality. I also don\’t use them in the Freeworld.
If you uncheck the citation Index, you can remove the SEGMENTS/default/citation.index* files once you shut down YaCy.
If you uncheck the webgraph index you can remove the SEGMENTS/solr_6_6/webgraph directory once you shut down YaCy.

The Reverse Word Index is used to distribute your index to other peers in the Network. That\’s why I not recommend to uncheck this - but if doing so you can remove SEGMENTS/default/text.index* files once you shut down YaCy.
But there is a way to reduce the data used by the Reverse Word Index.
You may want to limit the count of references per word(-hash) by setting System Administration -> Advanced Properties. Set the Key index.maxReferences to the value of 10000 for eg. This will remove the oldest References per word during merge of SEGMENTS/default/citation.index* files.
If you have a System that is able to handle huge files (64Bit JRE) you can change the key filesize.max.other / filesize.max.win (depending on your OS) to 21474836470 (20GB) for eg.
The bigger the Filesize, the lower space is wasted.
(These change will need a restart of YaCy)

The Solr Search Index can be optimized to larger files too - with the same result in wasting less space. At Index Administration -> Optimize Solr (/IndexControlURLs_p.html) you can merge the index to a few (larger) files, without loosing anything.

Please be careful while following these steps! (Backup, etc.)
And keep in mind that larger files truly do save space - but there needs to be room to write them, while the old ones are not deleted.
You need at least the volume for next largest file.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Mo Jul 24, 2017 8:03 pm


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-25 00:28:03

Hallo \@sixcooler,

sixcooler hat geschrieben:\ schreibt YaCy noch etwas nach DATA/LOGS/yacy00.log ?\



Habe YaCy gerade eben, also Punkt [[00:00]{style=“font-style: italic”}]{style=“font-weight: bold”} Uhr, neu gestartet. Ja, YaCy schreibt da noch fleißig was rein! Es gibt da ja [[20]{style=“font-style: italic”}]{style=“font-weight: bold”} Files, von yacy00.log bis yacy19.log, laut deren Datum klappt das einwandfrei.

Allerdings muß ich zugeben, daß ich mich mit den Teilen gar nicht auskenne. Ich habe Logfiles noch nie beachtet, bei keinem Programm, da es bis jetzt nicht notwendig war!

Statistik: Verfasst von TmoWizard — Mo Jul 24, 2017 11:28 pm


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-25 08:04:25

Guten Morgen \@sixcooler,

Habe heute früh noch einmal den kompletten \“Server\” neu gestartet, hier das aktuelle yacy00.log:

Code:
I 2017/07/25 05:17:11 Domain Init local host address: 127.0.1.1 (local)I 2017/07/25 05:17:11 Domain Init local host address: 127.0.0.1 (local)I 2017/07/25 05:17:11 Domain Init local host address: 0::1 (local)I 2017/07/25 05:17:11 Domain Init local host address: 0:0:0:0:0:0:0:1 (local)I 2017/07/25 05:17:11 Domain Init local host address: 192.168.178.41 (local)I 2017/07/25 05:17:11 HeapReader generating index for /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap, 0 MB. Please wait.I 2017/07/25 05:17:11 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap, 45 entries, 3 gaps.I 2017/07/25 05:17:11 HeapReader BLOB /usr/share/yacy/DATA/WORK/admin_bookmarks.bheap: merged 0 free recordsI 2017/07/25 05:17:11 Heap initializing heap /usr/share/yacy/DATA/WORK/admin_bookmarks.bheapI 2017/07/25 05:17:11 HeapReader generating index for /usr/share/yacy/DATA/WORK/robots.bheap, 7 MB. Please wait.I 2017/07/25 05:17:12 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/robots.bheap, 12298 entries, 0 gaps.I 2017/07/25 05:17:12 Heap initializing heap /usr/share/yacy/DATA/WORK/robots.bheapI 2017/07/25 05:17:12 HeapReader generating index for /usr/share/yacy/DATA/WORK/rss.bheap, 41 MB. Please wait.I 2017/07/25 05:17:12 Domain Init local host address: fe80:0:0:0:219:99ff:fe06:c716 (local)I 2017/07/25 05:17:12 Domain Init local host address: fe80::219:99ff:fe06:c716 (local)I 2017/07/25 05:17:13 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/rss.bheap, 185666 entries, 6380 gaps.I 2017/07/25 05:17:13 HeapReader BLOB /usr/share/yacy/DATA/WORK/rss.bheap: merged 0 free recordsI 2017/07/25 05:17:13 Heap initializing heap /usr/share/yacy/DATA/WORK/rss.bheapI 2017/07/25 05:17:13 HeapReader generating index for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 0 MB. Please wait.I 2017/07/25 05:17:13 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/pkcounter.bheap, 1 entries, 0 gaps.I 2017/07/25 05:17:13 Heap initializing heap /usr/share/yacy/DATA/WORK/pkcounter.bheapI 2017/07/25 05:17:13 HeapReader generating index for /usr/share/yacy/DATA/WORK/stats.bheap, 0 MB. Please wait.I 2017/07/25 05:17:13 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/stats.bheap, 6416 entries, 0 gaps.I 2017/07/25 05:17:13 Heap initializing heap /usr/share/yacy/DATA/WORK/stats.bheapI 2017/07/25 05:17:13 HeapReader generating index for /usr/share/yacy/DATA/WORK/api.bheap, 0 MB. Please wait.I 2017/07/25 05:17:13 HeapReader finished index generation for /usr/share/yacy/DATA/WORK/api.bheap, 2141 entries, 24 gaps.I 2017/07/25 05:17:13 HeapReader BLOB /usr/share/yacy/DATA/WORK/api.bheap: merged 0 free recordsI 2017/07/25 05:17:13 Heap initializing heap /usr/share/yacy/DATA/WORK/api.bheapI 2017/07/25 05:17:13 Domain Init local host address: 2001:a61:343c:df00:219:99ff:fe06:c716 (public)I 2017/07/25 05:17:14 Word hashCache.size = 71158I 2017/07/25 05:17:14 SWITCHBOARD Initializing Segment '/usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS.I 2017/07/25 05:17:25 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708192535843.blob, 5974 MB. Please wait.I 2017/07/25 05:19:18 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708192535843.blob, 12259827 entries, 2711 gaps.I 2017/07/25 05:19:18 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708192535843.blob: merged 0 free recordsI 2017/07/25 05:19:19 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170715183417662.blob, 5912 MB. Please wait.I 2017/07/25 05:21:24 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170715183417662.blob, 11065842 entries, 1181 gaps.I 2017/07/25 05:21:24 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170715183417662.blob: merged 0 free recordsI 2017/07/25 05:21:24 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708234105019.blob, 5846 MB. Please wait.I 2017/07/25 05:23:07 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708234105019.blob, 8181794 entries, 2424 gaps.I 2017/07/25 05:23:07 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170708234105019.blob: merged 0 free recordsI 2017/07/25 05:23:07 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723092658809.blob, 6792 MB. Please wait.I 2017/07/25 05:24:55 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723092658809.blob, 4421511 entries, 36 gaps.I 2017/07/25 05:24:55 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723092658809.blob: merged 0 free recordsI 2017/07/25 05:24:57 HeapReader saturation of text.index.20170724082742095.blob.99YNj0Oa9nUs.idx: keylength = 6, vallength = 4, size = 155777, maximum saving for index-compression = 0 MB, exact saving for value-compressio$I 2017/07/25 05:24:57 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170724082742095.blob.I 2017/07/25 05:24:58 HeapReader saturation of text.index.20170724083048962.blob.s_TfWV6cZM_x.idx: keylength = 6, vallength = 4, size = 632756, maximum saving for index-compression = 3 MB, exact saving for value-compressio$I 2017/07/25 05:24:58 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170724083048962.blob.I 2017/07/25 05:24:59 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170704145427870.blob, 6133 MB. Please wait.I 2017/07/25 05:26:46 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170704145427870.blob, 8280957 entries, 3128 gaps.I 2017/07/25 05:26:46 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170704145427870.blob: merged 0 free recordsI 2017/07/25 05:26:46 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723212547220.blob, 1504 MB. Please wait.I 2017/07/25 05:27:22 HeapReader finished index generation for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723212547220.blob, 1915174 entries, 29 gaps.I 2017/07/25 05:27:22 HeapReader BLOB /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170723212547220.blob: merged 0 free recordsI 2017/07/25 05:27:23 HeapReader saturation of citation.index.20170723074129769.blob.6Ag8BncJ1t9v.idx: keylength = 3, vallength = 3, size = 5178, maximum saving for index-compression = 0 MB, exact saving for value-compress$I 2017/07/25 05:27:23 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723074129769.blob.I 2017/07/25 05:27:23 HeapReader saturation of citation.index.20170723100410676.blob.I5e8u_OK4M8D.idx: keylength = 5, vallength = 3, size = 27262, maximum saving for index-compression = 0 MB, exact saving for value-compres$I 2017/07/25 05:27:23 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723100410676.blob.I 2017/07/25 05:27:23 HeapReader saturation of citation.index.20170723102415888.blob.guQY8KEI-nmO.idx: keylength = 5, vallength = 3, size = 24580, maximum saving for index-compression = 0 MB, exact saving for value-compres$I 2017/07/25 05:27:23 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723102415888.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723062538264.blob.R1oc_akjJumD.idx: keylength = 11, vallength = 4, size = 26486027, maximum saving for index-compression = 277 MB, exact saving for value-c$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723062538264.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723091352790.blob.2EO-X0Kv8idn.idx: keylength = 4, vallength = 3, size = 30219, maximum saving for index-compression = 0 MB, exact saving for value-compres$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723091352790.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723073115300.blob.TuaQ5Q-pVK6j.idx: keylength = 3, vallength = 3, size = 2138, maximum saving for index-compression = 0 MB, exact saving for value-compress$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723073115300.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723103417826.blob.cers6C85gzz5.idx: keylength = 5, vallength = 3, size = 39831, maximum saving for index-compression = 0 MB, exact saving for value-compres$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723103417826.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723065341384.blob.sejTVm9qg1ry.idx: keylength = 3, vallength = 3, size = 2377, maximum saving for index-compression = 0 MB, exact saving for value-compress$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723065341384.blob.I 2017/07/25 05:28:11 HeapReader saturation of citation.index.20170723064337695.blob.l741y9ppqhsQ.idx: keylength = 3, vallength = 3, size = 1948, maximum saving for index-compression = 0 MB, exact saving for value-compress$I 2017/07/25 05:28:11 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723064337695.blob.I 2017/07/25 05:28:17 HeapReader saturation of citation.index.20170723204045699.blob.akm4QSfcXPuF.idx: keylength = 6, vallength = 4, size = 2758630, maximum saving for index-compression = 15 MB, exact saving for value-comp$I 2017/07/25 05:28:17 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723204045699.blob.I 2017/07/25 05:28:17 HeapReader saturation of citation.index.20170723095402474.blob.bCJ2u2ggk5Bw.idx: keylength = 5, vallength = 3, size = 38307, maximum saving for index-compression = 0 MB, exact saving for value-compres$I 2017/07/25 05:28:17 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170723095402474.blob.I 2017/07/25 05:28:19 HeapReader saturation of citation.index.20170724062256341.blob.29HrYmm-ZSuz.idx: keylength = 6, vallength = 4, size = 822225, maximum saving for index-compression = 4 MB, exact saving for value-compre$I 2017/07/25 05:28:19 HeapReader using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170724062256341.blob.I 2017/07/25 05:29:04 MEMORY performed necessary GC, freed 571934 KB (requested/available/average: 730092 / 899162 / 0 KB)W 2017/07/25 05:29:06 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 747614720 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 935528408 free at Tue Jul 25 05:29:06 CEST 2017net.yacy.cora.util.SpaceExceededException: 747614720 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 935528408 free at Tue Jul 25 05:29:06 CEST 2017        at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)        at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)        at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)        at net.yacy.kelondro.index.RowHandleMap.<init>(RowHandleMap.java:104)        at net.yacy.kelondro.blob.HeapReader.initIndexReadDump(HeapReader.java:179)        at net.yacy.kelondro.blob.HeapReader.<init>(HeapReader.java:91)        at net.yacy.kelondro.blob.HeapModifier.<init>(HeapModifier.java:58) at net.yacy.kelondro.blob.HeapModifier.<init>(HeapModifier.java:58)        at net.yacy.kelondro.blob.ArrayStack.<init>(ArrayStack.java:209)        at net.yacy.kelondro.rwi.ReferenceContainerArray.<init>(ReferenceContainerArray.java:68)        at net.yacy.kelondro.rwi.IndexCell.<init>(IndexCell.java:99)        at net.yacy.search.index.Segment.connectCitation(Segment.java:188)        at net.yacy.search.Switchboard.<init>(Switchboard.java:563)        at net.yacy.yacy.startup(yacy.java:201)        at net.yacy.yacy.main(yacy.java:773)I 2017/07/25 05:29:06 HeapReader generating index for /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170630031130130.blob, 2285 MB. Please wait.W 2017/07/25 05:30:12 ConcurrentLog net.yacy.cora.util.SpaceExceededException: 381436060 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 670080456 free at Tue Jul 25 05:30:12 CEST 2017net.yacy.cora.util.SpaceExceededException: 381436060 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 670080456 free at Tue Jul 25 05:30:12 CEST 2017        at net.yacy.kelondro.index.RowCollection.ensureSize(RowCollection.java:276)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:425)        at net.yacy.kelondro.index.RowCollection.addUnique(RowCollection.java:403)        at net.yacy.kelondro.index.RAMIndex.addUnique(RAMIndex.java:216)        at net.yacy.kelondro.index.RAMIndexCluster.addUnique(RAMIndexCluster.java:133)        at net.yacy.kelondro.index.RowHandleMap.putUnique(RowHandleMap.java:268)        at net.yacy.kelondro.index.RowHandleMap$initDataConsumer.call(RowHandleMap.java:472)        at net.yacy.kelondro.index.RowHandleMap$initDataConsumer.call(RowHandleMap.java:411)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)        at java.lang.Thread.run(Thread.java:748)I 2017/07/25 05:30:26 MEMORY performed explicit GC, freed 101173 KB (requested/available/average: 276855 / 310511 / 571934 KB)I 2017/07/25 05:31:43 MEMORY performed explicit GC, freed 0 KB (requested/available/average: 199143 / 16 / 336553 KB)I 2017/07/25 05:32:30 ConcurrentLog shutdown of ConcurrentLog.Worker: injection of poison messageI 2017/07/25 05:32:30 ConcurrentLog terminating ConcurrentLog.Worker with 0 cached loglines.I 2017/07/25 05:32:30 ConcurrentLog shutdown of ConcurrentLog.Worker: terminatedI 2017/07/25 05:32:30 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723095402474.blob.bCJ2u2ggk5Bw.gapI 2017/07/25 05:32:30 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723095402474.blob.bCJ2u2ggk5Bw.idxI 2017/07/25 05:32:30 HeapReader * close HeapFile citation.index.20170723095402474.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:30 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723204045699.blob.akm4QSfcXPuF.gapI 2017/07/25 05:32:30 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723204045699.blob.akm4QSfcXPuF.idxI 2017/07/25 05:32:30 HeapReader * close HeapFile citation.index.20170723204045699.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:30 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723064337695.blob.l741y9ppqhsQ.gapI 2017/07/25 05:32:30 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723064337695.blob.l741y9ppqhsQ.idxI 2017/07/25 05:32:30 HeapReader * close HeapFile citation.index.20170723064337695.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:30 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723065341384.blob.sejTVm9qg1ry.gapI 2017/07/25 05:32:30 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723065341384.blob.sejTVm9qg1ry.idxI 2017/07/25 05:32:30 HeapReader * close HeapFile citation.index.20170723065341384.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:30 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723103417826.blob.cers6C85gzz5.gapI 2017/07/25 05:32:30 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723103417826.blob.cers6C85gzz5.idxI 2017/07/25 05:32:30 HeapReader * close HeapFile citation.index.20170723103417826.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723073115300.blob.TuaQ5Q-pVK6j.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723073115300.blob.TuaQ5Q-pVK6j.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723073115300.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723091352790.blob.2EO-X0Kv8idn.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723091352790.blob.2EO-X0Kv8idn.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723091352790.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723062538264.blob.R1oc_akjJumD.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723062538264.blob.R1oc_akjJumD.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723062538264.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$E 2017/07/25 05:32:31 UNCAUGHT-EXCEPTION * Thread main: Java heap spacejava.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: Java heap spaceE 2017/07/25 05:32:31 ConcurrentLog Java heap spacejava.lang.OutOfMemoryError: Java heap spaceI 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723102415888.blob.guQY8KEI-nmO.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723102415888.blob.guQY8KEI-nmO.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723102415888.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723100410676.blob.I5e8u_OK4M8D.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723100410676.blob.I5e8u_OK4M8D.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723100410676.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$I 2017/07/25 05:32:31 HeapReader * using existing gap dump instead of writing a new one: citation.index.20170723074129769.blob.6Ag8BncJ1t9v.gapI 2017/07/25 05:32:31 HeapReader * using existing idx dump instead of writing a new one: citation.index.20170723074129769.blob.6Ag8BncJ1t9v.idxI 2017/07/25 05:32:31 HeapReader * close HeapFile citation.index.20170723074129769.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java$



Vielleicht hilft das ja, um meinem YaCy wieder auf die Sprünge zu helfen.

Ach ja, folgendes noch:

Der \“Server\” steht hier direkt neben mir und es läuft dort gerade [[\“htop\“]{style=“font-style: italic”}]{style=“font-weight: bold”} zur Überwachung. YaCy benötigt laut [[htop]{style=“font-style: italic”}]{style=“font-weight: bold”} seit einiger Zeit [[CPU% 0,0]{style=“font-style: italic”}]{style=“font-weight: bold”} und [[MEM% 79,3%]{style=“font-style: italic”}]{style=“font-weight: bold”}, läuft also irgendwie... oder so!

Außerdem bin ich noch von meinem \“Arbeitstier\” aus per [[PuTTY]{style=“font-style: italic”}]{style=“font-weight: bold”} auf dem Server, damit ich nicht ständig von einer Tastatur zu anderen wechseln muß. Das finde ich nämlich ätzend, da das mit zwei Tastaturen schon mal zu ungewollten Eingaben auf der verkehrten Tastatur führen kann!

Statistik: Verfasst von TmoWizard — Di Jul 25, 2017 7:04 am


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-25 08:40:24

Hallo,

es sieht aus als seien 2 Deiner citation-Blobs kaputt. Das passiert meist bei unsauberen shutdown von YaCy.

Probiere die Dateien /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170724062256341.blob und /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/citation.index.20170630031130130.blob an einen anderen Pfad zu verschieben und starte YaCy dann.

Wenn YaCy ohne diese Dateien gut startet kannst Du ganz löschen - ein Reparieren ist leider kaum möglich.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jul 25, 2017 7:40 am


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-25 12:51:45

Hi \@sixcooler,

ich habe die beiden Dateien nun umbenannt und YaCy gestartet, scheint bis jetzt zu funktionieren! 8-) Allerdings stellt sich mir de Frage, was für einen Nutzen diese beiden Dateien haben. Es hat sich praktisch nichts geändert, auch mein Index ist weiterhin bei seinen [[~8,6]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dateien!

Nun gut, dann kann ich die beiden Dateien wohl bedenkenlos löschen.

Statistik: Verfasst von TmoWizard — Di Jul 25, 2017 11:51 am


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-07-25 13:42:51

Hallo,

die citation-Blobs enthalten Referenzen der der Seiten untereinander - d.h. bei den Suchtreffern wird daraus das Ranking der Nähe von Seiten gemacht.

Cu, sixcooler.

Statistik: Verfasst von sixcooler — Di Jul 25, 2017 12:42 pm


Solr Support • Nur 104 Treffer?

Date: 2017-07-29 17:28:18

Hi,

http://localhost:8090/solr/select?hl=fa ... atus_i:200{.postlink}

Warum bekomme ich bei dieser Abfrage nur 104 Treffer? Ich möchte gerne alle Hosts/Domains aus meinem Index auflisten, für 186 Mio. URLs im Index sind 104 Hosts etwas zu wenig :-)


Viele Grüße

LA_FORGE

Statistik: Verfasst von LA_FORGE — Sa Jul 29, 2017 4:28 pm


Solr Support • Re: Nur 104 Treffer?

Date: 2017-07-29 23:24:44

This is sick{.postlink}

Statistik: Verfasst von LA_FORGE — Sa Jul 29, 2017 10:24 pm


Hilfe für Einsteiger und Anwender • Re: Yacy-Chat mit Jabber/XMPP?

Date: 2017-07-30 16:20:32

Hallo Orbiter,

macht es vielleicht Sinn auf yacy.net einen Verweis zum Chat mit einbinden?
Neue Yacy User würden sich bestimmt darüber freuen, wenn sie nach Chatmöglichkeiten nicht erst das Forum durchsuchen müssten.

Statistik: Verfasst von promocore — So Jul 30, 2017 3:20 pm


Hilfe für Einsteiger und Anwender • Re: Yacy-Chat mit Jabber/XMPP?

Date: 2017-07-31 07:42:56

Hallöchen zusammen!

promocore hat geschrieben:\ macht es vielleicht Sinn auf yacy.net einen Verweis zum Chat mit einbinden?\ Neue Yacy User würden sich bestimmt darüber freuen, wenn sie nach Chatmöglichkeiten nicht erst das Forum durchsuchen müssten.\



Das wäre wohl eine gute Idee, denn woher sollen die Leute denn sonst über den vorhandenen Chat etwas erfahren? Für mich als alter Hase ist sowas ja keine Problem, immerhin ging meine Onlinezeit vor sehr langer Zeit mit Akustikkoppler, einem Telefon mit Wählscheibe und [[300]{style=“font-style: italic”}]{style=“font-weight: bold”} Baud los. Da hat man noch jedes ankommende Bit persönlich im wahrsten Sinne des Wortes mit [[Handschlag{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} auf dem C64 oder wie ich auf dem 800XL begrüßt! :mrgreen:

In der heutigen schnellebigen und hektischen Zeit ist aber doch kaum mehr jemand in der Lage, um bei Nachrichten mehr als den Teaser zu lesen, geschweige denn groß nach entsprechenden Verbindungsmöglichkeiten zu recherchieren.

Statistik: Verfasst von TmoWizard — Mo Jul 31, 2017 6:42 am


Jobs • Java test Loop frequency counter to torture code

Date: 2017-08-01 17:12:09

Just need a frequency counter in java that I can add and remove and torturer to find the fastest loop speed.
I found 2 byte code optimizers but both failed.
https://www.freelancer.com/projects/java/Java-Loop-frequency-counter-torture/#/details
I will code what I find to my QB64 program.
I guess I need to prove to myself if it makes a difference or not.

Statistik: Verfasst von smokingwheels — Di Aug 01, 2017 4:12 pm


English • how a new website is referenced into yacy-p2p/dht-cloud ?

Date: 2017-08-02 20:53:11

Hi everyone,

what if someone, creates a website.
how this new website could be referenced by yacy-p2p-cloud ?

The video \“Search Result Processing and Fraud Protection\” explain well the internal process of searching some website and how the rank is build.
in my limited knowledge of Yacy, when we do a resarch the engine search on (1) local cache database and (2) yacy-p2p database. It then create a rank, and after that go get the real information directly to the ranked websites then print the result.
what if the website is neither on n°1 local cache nor the n°2 yacy-p2p database ?
in other words : how a unknown website enters into the yacy-p2p database ?
in other words : what is the link between the creation of a new website and its presence into one yacy search result ?

thank you for your answers.

Statistik: Verfasst von paleolas — Mi Aug 02, 2017 7:53 pm


English • Re: how a new website is referenced into yacy-p2p/dht-cloud

Date: 2017-08-03 13:07:22

Not really sure what you mean but you can have your peer in an iframe on a web site then have it crawled by other search engines by adding it to there index to be crawled. I dont really know much about SEO.
See [/ConfigPortal_p.html]{style=“font-weight: bold”} for some examples. You need to setup some tags in the header and the file robots.txt

I have a program (somewhere) to generate hyper links on a web page from just suppling URL\’s.

Statistik: Verfasst von smokingwheels — Do Aug 03, 2017 12:07 pm


English • Re: Disk space problem

Date: 2017-08-03 13:46:34

Going on the figures you supplied your peer is using 20 GB per million docs.
When you crawl some sites there is a lots of noise that is picked up eg extra domains, I am unsure why that is.

My peer is below 4 GB per million docs I think this is due to the long black list I have its over 80 000 now however it slows the crawling speed down to about 15 th.
If anyone wants a copy I can put it on a cloud server to download.

Statistik: Verfasst von smokingwheels — Do Aug 03, 2017 12:46 pm


Fragen und Antworten • Re: Re-Crawl?

Date: 2017-08-04 05:53:42

stephan hat geschrieben:\ Ich suche auch nach einer Lösung zum periodischen re-indexieren.\ Auf der Seite IndexReIndexMonitor\_p.html gibt es in der Tat eine \[start recrawl job now\] Schaltfläche.\ Fragen:\ Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?\ Ist autocrawl configuration im yacy.init ein möglicher Kandidat?\



Ich denke, autocrawl ist dafür nicht sehr gut geeignet. Autocrawl ist eher dazu gedacht, neue URLs zu aus vorhandenen Dokumenten zu extrhieren und dann zu indizieren.
Dadurch wird der Index aber immer größer, was beim Re-Indizieren überschaubar wäre.

Ein einfacher Ansatz wäre z.B. beim Suchen oder als Hintergrund-Job das Feld fresh_date_dt prüfen, ob < X Tage/Wochen/Monate, und wenn ja, die URL in die lokale Crwal-Queue legen.

Könnte man ja mal als Feature-Request hier{.postlink} einstellen.

Statistik: Verfasst von webproject — Fr Aug 04, 2017 4:53 am


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-08-08 08:17:16

Noch ein Stacktrace in diesem Fehlerkontext:

Code:
E 2017/08/08 05:29:35 org.apache.solr.handler.RequestHandlerBase org.apache.solr.common.SolrException: Exception during facet.field: coordinate_p        at org.apache.solr.request.SimpleFacets.lambda$getFacetFieldCounts$0(SimpleFacets.java:809)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at org.apache.solr.request.SimpleFacets$3.execute(SimpleFacets.java:742)        at org.apache.solr.request.SimpleFacets.getFacetFieldCounts(SimpleFacets.java:818)        at org.apache.solr.handler.component.FacetComponent.getFacetCounts(FacetComponent.java:330)        at org.apache.solr.handler.component.FacetComponent.process(FacetComponent.java:274)        at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:296)        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:173)        at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.query(EmbeddedSolrConnector.java:219)        at net.yacy.http.servlets.SolrSelectServlet.service(SolrSelectServlet.java:251)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:833)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:535)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:524)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:190)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:1595)        at org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:188)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1253)        at org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:168)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:473)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:1564)        at org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:166)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1155)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:219)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at org.eclipse.jetty.server.Server.handle(Server.java:564)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:317)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:251)        at org.eclipse.jetty.io.AbstractConnection$ReadCallback.succeeded(AbstractConnection.java:279)        at org.eclipse.jetty.io.FillInterest.fillable(FillInterest.java:110)        at org.eclipse.jetty.io.ChannelEndPoint$2.run(ChannelEndPoint.java:124)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:673)        at org.eclipse.jetty.util.thread.QueuedThreadPool$2.run(QueuedThreadPool.java:591)        at java.lang.Thread.run(Thread.java:748)Caused by: java.lang.IllegalStateException: unexpected docvalues type NONE for field 'coordinate_p' (expected=SORTED). Re-index with correct docvalues type.        at org.apache.lucene.index.DocValues.checkField(DocValues.java:212)        at org.apache.lucene.index.DocValues.getSorted(DocValues.java:264)        at org.apache.solr.request.PerSegmentSingleValuedFaceting$SegFacet.countTerms(PerSegmentSingleValuedFaceting.java:272)        at org.apache.solr.request.PerSegmentSingleValuedFaceting.lambda$getFacetCounts$0(PerSegmentSingleValuedFaceting.java:114)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)        at java.util.concurrent.FutureTask.run(FutureTask.java:266)        at org.apache.solr.common.util.ExecutorUtil$MDCAwareThreadPoolExecutor.lambda$execute$0(ExecutorUtil.java:229)        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)        ... 1 more

Statistik: Verfasst von LA_FORGE — Di Aug 08, 2017 7:17 am


Hilfe für Einsteiger und Anwender • Reguläre Ausdrücke

Date: 2017-08-09 00:59:04

Wenn Yacy installiert ist und bereit zu nutzen, sehe ich Optionen in Advanced Crawls für Möglichkeiten, Domains mit regulären Ausdrücken zu crawlen. Es gibt Link auf der Seite, die mich auf eine Seite für weitere Informationen über Regular Expressions, aber es ist sehr schwierig für mich zu verstehen. Das schwierigste für mich ist herauszufinden, wie man das asterisk * bei der Verwendung von Advanced Crawl verwendet. Ich würde gerne besser verstehen, damit ich Domain-Verzeichnisse mit bestimmten Wörtern inbegriffen oder nicht enthalten kann, Bilder, die nur in einem bestimmten Verzeichnis und mehr sind. Aber die regulären Ausdrücke kann ich nicht verstehen. Gibt es irgendwo eine bessere Erklärung? Bitte hilf mir. Vielen Dank für Ihre Zeit und für eine tolle Alternative und Open Source Plattform. -tank

Statistik: Verfasst von tank — Di Aug 08, 2017 11:59 pm


Hilfe für Einsteiger und Anwender • Re: Reguläre Ausdrücke

Date: 2017-08-09 08:21:21

Hallo \@tank,

willkommen im YaCy-Forum! [<--]{style=“font-weight: bold”} [(Ist doch schön begrüßt zu werden, oder?)]{style=“font-style: italic”}

Um YaCy besser zu verstehen ist es vor allem für Anfänger praktisch, linker Hand beim ersten Punkt [[--> \“First Steps\” --> \“Use Case & Account\“]{style=“font-style: italic”}]{style=“font-weight: bold”} die Sprache der Oberfläche auf [[\“Deutsch\“]{style=“font-style: italic”}]{style=“font-weight: bold”} oder eben auf die von dir gewünschte Sprache umzustellen!

Einen weiteren Tip kann ich dir wohl nicht geben, da ich eher selten etwas bei YaCy verstelle. Du könntest dir aber [[mein Tutorial{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} durchlesen, wobei Du natürlich nur die für dich interessanten Punkte beachten solltest. Z. B. hat nicht jeder einen eigenen Server in der Ecke stehen, so daß der obere Teil des Tutorials für dich wohl eher uninteressant sein dürfte!

Wenn dann weitere Fragen kommen, dann wird dir hier im Forum bestimmt weiter geholfen!

Viel Spaß nun erst mal mit YaCy

Viele Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mi Aug 09, 2017 7:21 am


English • Re: how a new website is referenced into yacy-p2p/dht-cloud

Date: 2017-08-10 12:21:17

Hello paleolas,
from the moment a web resource is indexed in at least one YaCy peer reachable from other peers in the \‘freeworld\’ network, one can consider that this resource has entered the YaCy peer-to-peer network.
But from that moment, if you pick a random YaCy peer and search for a term present in that web resource, this one will not necessarily appears immediately in the results, as the corresponding index entry has not yet been propagated to other peers.

As I see it, there are some key steps for a web resource initially unkown to the YaCy p2p network to then appear in most peers search results.

[First indexing. ]{style=“font-weight: bold”}
Here are some possible example scenarios :
- someone running a YaCy node explicitely crawls that unkown web resource. This can eventually be the owner of the resource that would like it appears in the YaCy network.
- during a crawl on a YaCy node, a resource linking to the unkown web resource is encountered, and the crawl profile permits following that link and continue crawling on it
- someone using the YaCy proxy navigation feature encounter a resource linking to the unknown resource and follows the link
- the unknown resource is indexed by a website or search engine supporting the OpenSearch specification, that last one is configured as an alternative source by a YaCy peer (in its Heuristics configuration), and someone searches on that YaCy peer for term(s) present in the unknown web resource.

For all these examples, the prerequisite is that the initially unkown web resource is not blocked by each considered YaCy peer blacklist.
One can also easily see that except when a YaCy peer owner already knows the new resource, the more resources links to it, the more there are chances for a new resource to be introduced in the YaCy p2p network.

[Propagation. ]{style=“font-weight: bold”}
Again, some possible scenarios :
- the new index entry is distributed when the first YaCy peer which holds it applies the scheduled background distribution algorithm and eventually transfers it to another peer
- someone searches on a YaCy peer for term(s) present in the new index entry, the peer that holds it is selected by the remote peers selection algorithm, and the new entry is duplicated on the searching peer local data. The peers selection algorithm does not necessarily selects all peers holding index entries matching the searched term(s), but likely only a subset of them. So even if the new entry contains popular terms, it will not be immediately distributed this way.

Again, during propagation, each peer custom blacklist rules apply. So in a situation where every YaCy peers blacklist blocked the new entry, it would never be propagated.
We also see here that there are more chances for the new entry to be propagated if the first peer that holds it runs continuously 24 hours a day.

[Ranking.]{style=“font-weight: bold”}
Ok, so now multiple YaCy peers have a copy of the new entry in their own local index or in their own part of the globally distributed index. If you search for term(s) present in the new resource on each of them, the resource entry will probably be each time in a different position in the search results, because :
- each peer can define its own custom ranking rules
- each peer has a different local index and local parts of the globally distributed index

[Maintaining in indexes.]{style=“font-weight: bold”}
Of course each YaCy peer has only a limited amount of dedicated disk space available. To prevent unlimited index growing size, some may be configured to regularly delete the oldest entries. In the end, if no peer at all recrawl our newly indexed entry, it may eventually completely disappear from the network.
So to maintain its presence in the YaCy p2p network, a given resource must be regularly recrawled, by at least one peer, explicitely or indirectly, with the same possible scenarios as described in the \‘First indexing\’ step.
Again, the various custom blacklists are to consider, and the more resources links to the resource, the more there are chances for it to be regularly recrawled and thus maintained in the YaCy p2p network.

I hope I didn\’t forget too many important points, and it will help having a more clear view of the global process.

Have a nice day

Statistik: Verfasst von luc — Do Aug 10, 2017 11:21 am


Fragen und Antworten • Solr: unable to load document

Date: 2017-08-10 12:32:33

Hallo zusammen,

kennt jemand den Fehler, wenn Yacy 1.9219309 ein paar Suchen durchgeführt hat, danach die folgende Fehlermeldung hundertfach im Log erscheint:

Code:
W 2017/08/10 12:23:43 org.apache.solr.response.BinaryResponseWriter Error reading a field : org.apache.lucene.document.LazyDocument$LazyField@e8cf86java.lang.IllegalStateException: unable to load document        at org.apache.lucene.document.LazyDocument.getDocument(LazyDocument.java:102)        at org.apache.lucene.document.LazyDocument.fetchRealValues(LazyDocument.java:110)        at org.apache.lucene.document.LazyDocument.access$100(LazyDocument.java:41)        at org.apache.lucene.document.LazyDocument$LazyField.getRealValue(LazyDocument.java:150)        at org.apache.lucene.document.LazyDocument$LazyField.stringValue(LazyDocument.java:176)        at org.apache.solr.schema.FieldType.toExternal(FieldType.java:365)        at org.apache.solr.schema.FieldType.toObject(FieldType.java:379)        at org.apache.solr.response.DocsStreamer.getValue(DocsStreamer.java:222)        at org.apache.solr.response.BinaryResponseWriter$Resolver.resolve(BinaryResponseWriter.java:102)        at org.apache.solr.common.util.JavaBinCodec.writeVal(JavaBinCodec.java:234)        at org.apache.solr.common.util.JavaBinCodec.writeArray(JavaBinCodec.java:695)        at org.apache.solr.common.util.JavaBinCodec.writeKnownType(JavaBinCodec.java:337)        at org.apache.solr.common.util.JavaBinCodec.writeVal(JavaBinCodec.java:223)        at org.apache.solr.common.util.JavaBinCodec.writeSolrDocument(JavaBinCodec.java:492)        at org.apache.solr.response.BinaryResponseWriter$Resolver.writeResultsBody(BinaryResponseWriter.java:125)        at org.apache.solr.response.BinaryResponseWriter$Resolver.writeResults(BinaryResponseWriter.java:143)        at org.apache.solr.response.BinaryResponseWriter$Resolver.resolve(BinaryResponseWriter.java:87)        at org.apache.solr.common.util.JavaBinCodec.writeVal(JavaBinCodec.java:234)        at org.apache.solr.common.util.JavaBinCodec.writeNamedList(JavaBinCodec.java:218)        at org.apache.solr.common.util.JavaBinCodec.writeKnownType(JavaBinCodec.java:325)        at org.apache.solr.common.util.JavaBinCodec.writeVal(JavaBinCodec.java:223)        at org.apache.solr.common.util.JavaBinCodec.marshal(JavaBinCodec.java:146)        at org.apache.solr.response.BinaryResponseWriter.getParsedResponse(BinaryResponseWriter.java:163)        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:216)        at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:160)        at org.apache.solr.client.solrj.SolrClient.query(SolrClient.java:942)        at org.apache.solr.client.solrj.SolrClient.query(SolrClient.java:957)        at net.yacy.cora.federate.solr.connector.EmbeddedSolrConnector.getResponseByParams(EmbeddedSolrConnector.java:339)        at net.yacy.cora.federate.solr.connector.MirrorSolrConnector.getResponseByParams(MirrorSolrConnector.java:272)        at net.yacy.data.DidYouMean.getSuggestions(DidYouMean.java:255)        at net.yacy.data.DidYouMean.getSuggestions(DidYouMean.java:167)        at suggest.respond(suggest.java:71)        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:498)        at net.yacy.http.servlets.YaCyDefaultServlet.invokeServlet(YaCyDefaultServlet.java:673)        at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:884)        at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:315)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:687)        at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)        at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:841)        at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:535)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)        at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:524)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:190)        at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:1595)        at org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:188)        at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1253)        at org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:168)        at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:473)        at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:1564)        at org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:166)        at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1155)        at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)        at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:219)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)        at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)        at org.eclipse.jetty.server.Server.handle(Server.java:564)        at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:317)        at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:251)        at org.eclipse.jetty.io.AbstractConnection$ReadCallback.succeeded(AbstractConnection.java:279)        at org.eclipse.jetty.io.FillInterest.fillable(FillInterest.java:110)        at org.eclipse.jetty.io.ssl.SslConnection.onFillable(SslConnection.java:289)        at org.eclipse.jetty.io.ssl.SslConnection$3.succeeded(SslConnection.java:149)        at org.eclipse.jetty.io.FillInterest.fillable(FillInterest.java:110)        at org.eclipse.jetty.io.ChannelEndPoint$2.run(ChannelEndPoint.java:124)        at org.eclipse.jetty.util.thread.Invocable.invokePreferred(Invocable.java:128)        at org.eclipse.jetty.util.thread.Invocable$InvocableExecutor.invoke(Invocable.java:222)        at org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.doProduce(EatWhatYouKill.java:294)        at org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.run(EatWhatYouKill.java:199)        at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:673)        at org.eclipse.jetty.util.thread.QueuedThreadPool$2.run(QueuedThreadPool.java:591)        at java.lang.Thread.run(Thread.java:748)Caused by: java.io.IOException: null: NIOFSIndexInput(path="/mnt/cloud/yacy/yacy_search_server/DATA/INDEX/freeworld/SEGMENTS/solr_6_6/collection1/data/index/_9gw.fdt")        at org.apache.lucene.store.NIOFSDirectory$NIOFSIndexInput.readInternal(NIOFSDirectory.java:189)        at org.apache.lucene.store.BufferedIndexInput.refill(BufferedIndexInput.java:342)        at org.apache.lucene.store.BufferedIndexInput.readByte(BufferedIndexInput.java:54)        at org.apache.lucene.codecs.compressing.LZ4.decompress(LZ4.java:90)        at org.apache.lucene.codecs.compressing.CompressionMode$4.decompress(CompressionMode.java:138)        at org.apache.lucene.codecs.compressing.CompressingStoredFieldsReader$BlockState.document(CompressingStoredFieldsReader.java:520)        at org.apache.lucene.codecs.compressing.CompressingStoredFieldsReader.document(CompressingStoredFieldsReader.java:576)        at org.apache.lucene.codecs.compressing.CompressingStoredFieldsReader.visitDocument(CompressingStoredFieldsReader.java:583)        at org.apache.lucene.index.CodecReader.document(CodecReader.java:88)        at org.apache.lucene.index.FilterLeafReader.document(FilterLeafReader.java:411)        at org.apache.lucene.index.FilterLeafReader.document(FilterLeafReader.java:411)        at org.apache.lucene.index.BaseCompositeReader.document(BaseCompositeReader.java:118)        at org.apache.lucene.index.IndexReader.document(IndexReader.java:383)        at org.apache.lucene.document.LazyDocument.getDocument(LazyDocument.java:100)        ... 75 moreCaused by: java.nio.channels.ClosedChannelException        at sun.nio.ch.FileChannelImpl.ensureOpen(FileChannelImpl.java:110)        at sun.nio.ch.FileChannelImpl.read(FileChannelImpl.java:721)        at org.apache.lucene.store.NIOFSDirectory$NIOFSIndexInput.readInternal(NIOFSDirectory.java:179)        ... 88 more



Wenn man keine Suche durchführt, scheint der Fehler nicht aufzutreten. Ein Restart des Solr Core behebt das Problem wieder kurzzeitig bis zur nächten Suche.

Statistik: Verfasst von webproject — Do Aug 10, 2017 11:32 am


Mitmachen • Crawler Überwachung! ;-)

Date: 2017-08-10 21:09:40

Hallöchen zusammen!

Bin mir jetzt nicht sicher, ob das in den Bereich hier hineingehört, habe aber sonst nichts passenderes gefunden. Auf jeden Fall sieht das sehr interessant aus, deswegen wollte ich euch das zeigen! :mrgreen:

[[[6 Webseiten bei der Suchtiefe 3:]{style=“font-size: 150%; line-height: 116%;“}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Bild


Viele Grüße aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — Do Aug 10, 2017 8:09 pm


English • Problem with xlsx format

Date: 2017-08-11 22:07:29

Hi, I\’ve tested to index a xlsx file but has a problem identifying numbers. This is what I tried:

1) with ods format, file://home/edycop/Documents/Prueba.ods, and in \“Parsed Sentences\” section it shows:
Nombre Cedula Edwin Caldon 10290230

2) with xls format, file://home/edycop/Documents/Prueba.xls, in \“Parsed Sentences\” section it shows:
&\“Times New Roman,Regular\”&12&A Nombre Cedula Edwin Caldon 10290230 &\“Times New Roman,Regular\”&12Page &P

3) with xlsx format, file://home/edycop/Documents/Prueba.xlsx, \“Parsed Sentences\” section it shows:
01210290230&C&\“Times New Roman,Regular\”&12&A&C&\“Times New Roman,Regular\”&12Page &P

And when I do a search by the ID number obviously in the list of results appear the two first files but the last doesn\’t. If you see in the last parsed result it shows a number with other numbers at beginning that doesn\’t below to the ID number, why happened this?

Thanks. Best regards.

Statistik: Verfasst von edycop — Fr Aug 11, 2017 9:07 pm


English • How to configure yacy to search only for PDF files

Date: 2017-08-16 02:18:12

Hello everyone I\’m new to yacy and the project .
I already know about filetype and so on , but what I want yacy to do is crawl and search only for docs PDF docx and so on , I have a need for this as I spend most of my time searching for service manuals and machine documentation on every single sear h engine and p2p , torrent , edonkey servers !
I have no pre knowledge about search engines but I have a bit experience
So help me if you can guys and be easy on me thank you

Statistik: Verfasst von nergal — Mi Aug 16, 2017 1:18 am


English • Re: How to configure yacy to search only for PDF files

Date: 2017-08-18 10:24:50

Hi nergal,
as you said, when searching you can restrict results to a given file type using the \“Filetype\” facet or the \“filetype:\” operator.

When crawling, as far as I know there is no option to directly filter on a selection of file types or MIME types (yet it could be convenient), but using a regular expression filter on document URL will do the job. So for example for pdf files, I would suggest you to crawl the websites your interested in with the following options in the Advanced Crawler (CrawlStartExpert.html) :
- Document Filter > Filter on URLs > must-match : .*\.pdf
- Index Attributes > Add Crawl result to collection(s) : your_pdf_collection_name

Other options at default, or as you which. What is important here is to use the \“Document Filter > Filter on URLs\” option, and not the \“Crawler Filter > Load Filter on URLs\” one. Because that last one is too restrictive as it would prevent the loader to parse html files and follow their links, so the crawl task would rapidly terminate.

Eventually using a custom collection name can later help you restrict searches to your own pdf collection using the \“Collection\” facet or the \“collection:\” operator.

Have a nice day. Let us know if you somehow achieved what you want.

Statistik: Verfasst von luc — Fr Aug 18, 2017 9:24 am


Fragen und Antworten • Links/Wörter und Plattenplatz

Date: 2017-08-19 10:29:25

Hallöchen zusammen!

In der Wiki steht ja geschrieben, daß [[\“Bei 10 Mio Webseiten ist eine Indexgröße von 20GB nicht untypisch\”{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} ist. Auch hier im Forum lese ich das öfter mal, aber irgendwie kann das nicht stimmen oder die Info ist völlig veraltet! Mein YaCy hat derzeit nicht einmal [[10]{style=“font-style: italic”}]{style=“font-weight: bold”} Millionen Dokumente, aber [[20]{style=“font-style: italic”}]{style=“font-weight: bold”} GB sehen irgendwie anders aus:

Bild

Das sind keine [[20]{style=“font-style: italic”}]{style=“font-weight: bold”} GB, das sind ganze [[120]{style=“font-style: italic”}]{style=“font-weight: bold”} GB! Das kann meiner Ansicht nach ja wohl nicht ernst gemeint sein, oder? Wenn das jetzt mein normaler Arbeits-PC wäre, dann hätte ich jetzt ziemliche Probleme damit. Unter solchen Umständen wundert es ich nicht, warum die Leute aus meinem Umfeld mit YaCy nichts zu tun haben wollen! Bild

Was bitte läuft hier falsch und was kann ich dagegen unternehmen, so kann ich YaCy jedenfalls nicht mehr lange weiter laufen lassen.

Statistik: Verfasst von TmoWizard — Sa Aug 19, 2017 9:29 am


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-19 14:18:01

Hi,

\ Das sind keine 20 GB, das sind ganze 120 GB!\


+

\ Das kann meiner Ansicht nach ja wohl nicht ernst gemeint sein, oder?\



Das dürfte stimmen. ;) Ich habe hier eine Installation mit 7.8 Mio Urls. Die belegt sogar 164GB Plattenplatz.

Ram benutzt ca. 2.8GB, maximal zugewiesen 3.5GB. Crawlerqueue ist 0.

Es gibt aber noch weitaus interessanteres zu berichten was den Yacy Ram und Diskverbrauch betrifft.

Ich habe hier den \“Process Explorer\” als Monitoring Utility installiert. Dieses Programm zeigt neben den
sogenannten \“Privates Bytes\” die ein Programm im Speicher verbraucht auch ein sogenanntes \“Working Set\” an.
Wenn Yacy läuft (javaw.exe) habe ich einen typischen \“Private Byte\” Wert von ca. 3.9GB und ein
durchschnittliches \“Working Set\” von ca. 2.2GB.
Aber jetzt kommt der Hammer!. Aus einem mir bis jetzt nicht verständlichen Grund beobachtete ich schon
des öfteren einen[ kurzfristigen (geschätzt ca. 5-10 Minuten) , dramatischen Anstieg des \“Working Set\”
auf bis zu 38GB RAM :shock: ]{style=“color: #FF0000”} !!!. (Der Rechner hat 64GB Ram).

Dabei steigt auch die CPU Auslastung gleichermaßen dramatisch an. Werte von 74% der Gesamt-CPU Kapazität sind dabei keine Seltenheit. :shock:

Keine Ahnung was Yacy hier macht. :twisted:

Gruß Alex

Statistik: Verfasst von Crystalgazer — Sa Aug 19, 2017 1:18 pm


Presse • \“Interaktive Suchmaschine YaCy: Jetzt andocken!\”

Date: 2017-08-19 18:29:57

Artikel Radio Utopie, 05.08.2017:
\“Interaktive Suchmaschine YaCy: Jetzt andocken!\”
https://www.radio-utopie.de/2017/08/05/ ... -andocken/{.postlink}
Ergänzung, YaCy Twitter Eintrag, 15.08.2017:
\“Something is happening… we have much more peers than average since a long time!\”
https://twitter.com/yacy_search/status/ ... 7789542400{.postlink}

Bonne Chance!

Statistik: Verfasst von Daniel Neun — Sa Aug 19, 2017 5:29 pm


Mitmachen • Dieses Forum

Date: 2017-08-19 18:33:59

1. Das Forum auf https umstellen.
2. an den Stellschrauben dahingehend drehen, dass man z.b. nicht alle Cookies zulassen muss weil man sonst andauernd wieder ausgeloggt wird, etc.

Statistik: Verfasst von Daniel Neun — Sa Aug 19, 2017 5:33 pm


Mitmachen • YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-19 18:43:05

Es ist mir leider nicht gelungen ein YaCy Suchfeld auf unserer Webseite zu implementieren, welches nicht unsere https Verbindung aufhebt.
Ich suche also (und halte dies wichtig für die strukturelle Verbreitung von YaCy) einen Kode, den alle bei auf der eigenen mit sicherer Verbindung (https) laufenden Seite z.B. in ein Widget einwerfen können. Eingegebene Suchergebnisse sollten auf einer YaCy Seite unter https ausgeworfen werden.

Anm.: Neben dem Adsense Geschäft hat das Angebot von Google, Suchfelder in Webseiten zu integrieren, wesentlich zum Aufstieg des heutigen WWW-Oligarchen beigetragen.

Wenn ich etwas übersehen haben sollte, bin ich dankbar für einen Hinweis.

Statistik: Verfasst von Daniel Neun — Sa Aug 19, 2017 5:43 pm


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-19 20:22:39

Hallo Alex!

Also das mit dem RAM kann hier gar nicht passieren, der verwendete PC hat nur [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB und mehr schafft auch das Mainboard nicht. Das komplette System benötigt hierbei [[~3,2]{style=“font-style: italic”}]{style=“font-weight: bold”} GB, ich hätte also noch etwas Luft nach oben.

Daß die CPU-Last zwischendurch in die Höhe steigt sollte aber mehr oder weniger normal sein, wenn dein Peer im entsprechend eingerichtet ist. Mein Principal geht da locker mal auf die [[98 - 100 %]{style=“font-style: italic”}]{style=“font-weight: bold”}, immerhin ist er ja Teil einer verteilten Suchmaschine! Schlimm wäre es da eher, wenn er das als Principal-Peer [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} machen würde.

Trotzdem halte ich die Sache mit dem Plattenbedarf für ziemlich übel, da das weder mit der YaCy-Wiki noch mit dem Forum hier übereinstimmt! Ich warte deswegen mal auf eine entsprechende Antwort, denn so etwas sollte ja nun wirklich nicht vorkommen.

Statistik: Verfasst von TmoWizard — Sa Aug 19, 2017 7:22 pm


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-19 20:42:36

Hallo Daniel,

willkommen im YaCy-Forum!

Wie wurde YaCy denn bei euch installiert? Ich hab es wie in meinem Tutorial:

[[P2P-Tutorial – #YaCy und HTTPS: Die sichere Suchmaschine!{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

beschrieben unter Ubuntu Server installiert, HTTPS geht überall! Allerdings ist YaCy bei mir nicht öffentlich, ein Einbau in meine Website oder mein Blog fällt also aus.

Ich nehme aber an, daß dir bei dem Thema hier in Forum geholfen werden kann. Meine Kenntnisse reichen hier leider nicht ganz aus, nur eben so für meine Zwecke.

Statistik: Verfasst von TmoWizard — Sa Aug 19, 2017 7:42 pm


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 05:31:47

Hallo TmoWizard,

\ wenn dein Peer im entsprechend eingerichtet ist\


Meine Yacy-Installation läuft im Robinson Modus. Es läuft auch kein Crawler. Es wird also nur auf Suchanfragen gewartet.
In den \“Ruhezeiten\” liegt die Cpu-Auslastung zwischen 0-2%, was ich für durchaus normal erachte.

Ich vermute Yacy legt nach gewisssen \“Systemevents\” ,wie z.b einem vorangegangen Crawl, irgendwelche
\“PostProcessing-Aktivitäten\” ein. Das dabei aber solche Unmengen an Ram benötigt werden erscheint mir nicht normal.

Außerdem ist das Yacy-Frontend Interface bei solchen Aktivitäten extrem belastet, sodaß es sehr oft bei einer parallel
gestarteten Suchabfrage zu keiner Ausgabe von Suchergebnissen mehr kommt.
Entweder erscheint dabei die Meldung \“Unresolved Pattern\” oder es erscheint die Meldung \“0 von 0\” Suchergebnissen.
Eine weitere \“Begleiterscheinung\” ist daß die Ausgabe der Suchergebnisse unvollständig sein kann.
Bei z.b 18 Suchtreffern erscheinen z.b nur 10.

In solchen Fällen muß man einen erneuten Suchlauf starten!. Das beseitigt die vorangegagenen Probleme mit dem
Yacy-Frontend Interface und es erscheinen relativ schnell Suchtreffer die es beim ersten Anlauf nicht zur Ausgabe geschafft
haben.
Allerdings ist das extrem nervig und einem Suchmaschinenneuling der Yacy zum erstenmal ausprobiert kaum vernünftig zu erklären...

Ich will hier nicht an einem äußerst interessanten Projekt \“herumkritteln\” aber um Yacy weiter in die Welt hinauszutragen ist noch
sehr viel an Entwicklungsarbeit nötig.
Vor allem das Yacy-Frontend muß überarbeitet werden. Dort gibt es erhebliche Performance bzw. Synchronisationsprobleme,
vor allem dann wenn der Index größer wird...

Nochmal zum Plattenplatz

Ich halte Yacy was den Plattenplatz betrifft sogar noch für \“relativ sparsam\” ;) .
Über die vergangenen Monate habe ich mich auch intensiv mit \“GigaBlast\” beschäftigt.
Eine \“GigaBlast\” Installation mit ca. 30 Millionen Links benötigte bei mir ca. 2.8 TB an Plattenplatz!!!.
Allerdings wurden pro Url im Index auch zusätzliche, statistische Informationen mit abgespeichert.

Mit den Plattenplatzansprüchen wird man wohl oder übel leben müssen.
Daß die Angabe über den Verbrauch von Systemressourcen in der Yacy-Wiki Doku nicht stimmt ist natürlich ärgerlich.
Allerdings ist die vorhandene (inkonsistene und teilweise überholte) Dokumentation zu Yacy immer noch sehr viel
besser als bei anderen vergleichbaren Projekten :roll: .

Gruß Alex

Statistik: Verfasst von Crystalgazer — So Aug 20, 2017 4:31 am


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 09:43:08

Guten Morgen Alex,

hab das jetzt erst bemerkt:

[[Du arbeitest mit Windows und einer graphischen Oberfläche!]{style=“font-weight: bold”} (Stichwort \“Process Explorer\“)]{style=“font-style: italic”}

Außerdem liest es sich zumindest für mich so, als ob das gleichzeitig dein \“Arbeits-PC\” ist. Hier dürfte also eh einiges anders laufen wie bei mir, denn ich verwende auf meinen Rechnern schon seit einigen Jahren ausschließlich Linux/*buntu. Mein YaCy-\“Server\” habe ich dabei wie in meinem Tutorial beschrieben eingerichtet:

[[P2P-Tutorial – #YaCy und HTTPS: Die sichere Suchmaschine!{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Der YaCy-Peer steht dabei direkt neben mir und zur Überwachung läuft dort [[htop{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, zur Administration von YaCy verwende ich dann über HTTPS den QupZilla als Browser auf dem Arbeits-PC. Das restliche System weiß von YaCy folglich nur, daß da eine andere Suchmaschine wie Google verwendet wird.

Bei deinem System läuft das natürlich anders, da dort Windows die Kontrolle übernommen hat. Dieses System weiß jedoch immer besser wie der Administrator, was für ihn gut ist. Ich würde sowas nie machen, Windows gehört meiner Ansicht nach [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} auf einen Server und das sage ausgerechnet ich als [[MCP{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}! Ich kenne noch einige andere Leute mit wesentlich besserer Ausbildung in diesem Bereich, aber auch dort teilen die meisten meine Meinung dazu. Windows auf dem Desktop ja, aber auf einen Server gehören Linux oder BSD.

Man kann YaCy zwar auf dem Arbeits-PC [(Windows, Linux, BSD oder Apple)]{style=“font-style: italic”} installieren und im Hintergrund laufen lassen, die Folgen davon bemerkst Du aber gerade selbst: Der Rechner geht öfter mal gehörig in die Knie! :o

YaCy benötigt hier nur bei einem Crawl die volle Leistung des Prozessors, die eingestellte Grenze für das RAM wurde aber noch nie überschritten. Eventuell solltest Du da noch was an den Einstellungen ändern, vergleiche dazu mal bei [[„RAM+Disk Belegung & Updates”]{style=“font-style: italic”}]{style=“font-weight: bold”} deine eingestellten Werte mit denen aus meinem Tutorial. Diese paßt Du an dein eigenes System an, dann [[sollte]{style=“font-style: italic”}]{style=“font-weight: bold”} so etwas eigentlich nicht mehr passieren! Das sind die Erfahrungswerte, welche ich mit der Zeit gesammelt habe.

YaCy lief hier ursprünglich auch auf meinem Arbeits-PC, später dann auf einem kleineren alten Rechner und seit nun [[139]{style=“font-style: italic”}]{style=“font-weight: bold”} Tagen auf dem im Tutorial erwähnten Rechner. Da auf meinem normalen PC noch etliche andere Programme und Dienste laufen blieb mir nur diese Lösung, sonst hätte ich mit dem Teil nicht mehr vernünftig arbeiten können! Das ist schließlich nur ein aufgemotzter älterer Office-PC, für so etwas war der nie gedacht. ;)
Was ich bei dir nicht ganz verstehe:

\ Meine Yacy-Installation läuft im Robinson Modus. Es läuft auch kein Crawler. Es wird also nur auf Suchanfragen gewartet.\ In den \"Ruhezeiten\" liegt die Cpu-Auslastung zwischen 0-2%, was ich für durchaus normal erachte.\ \ Ich vermute Yacy legt nach gewisssen \"Systemevents\" ,wie z.b einem vorangegangen Crawl, irgendwelche\ \"PostProcessing-Aktivitäten\" ein. Das dabei aber solche Unmengen an Ram benötigt werden erscheint mir nicht normal.\



Ich nehme eher an, daß hier dann Suchanfrage eines anderen Peers läuft. Trotzdem ist diese Auslastung des RAM ganz und gar nicht in Ordnung, sieh dir also wie geschrieben noch einmal deine entsprechenden Einstellungen an!

\ Dabei steigt auch die CPU Auslastung gleichermaßen dramatisch an. Werte von 74% der Gesamt-CPU Kapazität sind dabei keine Seltenheit. ![:shock:](http://forum.yacy-websuche.de/images/smilies/icon_eek.gif "Shocked")\


\ Außerdem ist das Yacy-Frontend Interface bei solchen Aktivitäten extrem belastet, sodaß es sehr oft bei einer parallel gestarteten Suchabfrage zu keiner Ausgabe von Suchergebnissen mehr kommt.\



Auch hier klingt es so, als ob Du dein YaCy auf deinem Arbeits-PC betreibst! In dem Fall ist es logisch, daß bei einer solchen RAM- und CPU-Auslastung das ganze System betroffen ist. Das kann ich hier bei mir beobachten, wenn zwischendurch eines der vielen Add-ons meines SeaMonkey durchdreht.

\ Eine weitere \"Begleiterscheinung\" ist daß die Ausgabe der Suchergebnisse unvollständig sein kann.\ Bei z.b 18 Suchtreffern erscheinen z.b nur 10.\ \ In solchen Fällen muß man einen erneuten Suchlauf starten!\



Das dürfte ein anderes Problem sein, da dieser Fehler bei YaCy öfter auftritt! Das habe ich hier auch immer wieder, auch wenn mein YaCy zu diesem Zeitpunkt nichts macht. Dazu findet man aber hier im Forum schon einige Beiträge. Ich kann damit leben, suche ich eben nochmal! ;-)

\ Über die vergangenen Monate habe ich mich auch intensiv mit \"GigaBlast\" beschäftigt.\



Hülfääääähhh! Als ich auf der Suche nach einer Alternative für Google und Co war bin ich zuerst ebenfalls bei GigaBlast gelandet, davon bin ich aber schnell wieder abgekommen. Da ich im Heise-Forum dann auf die Frage von Michael [[\“Orbiter\“]{style=“font-weight: bold”}]{style=“font-style: italic”} Christen nach Helfern für YaCy gestoßen bin habe ich mir gedacht, daß ich das einfach mal probiere. Das Ergebnis sieht man an meinem Anmeldedatum hier im Forum, ich bin nun seit etwas über [[3]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahren bei YaCy! 8-)

\ Mit den Plattenplatzansprüchen wird man wohl oder übel leben müssen.\



Das ist klar, irgendwo muß der eigene Index ja gespeichert werden. Damit habe ich ja auch kein Problem, sondern eben damit

\ Daß die Angabe über den Verbrauch von Systemressourcen in der Yacy-Wiki Doku nicht stimmt ist natürlich ärgerlich.\



und den ebenfalls hier im Forum erwähnten gleichen Aussagen. Das ist so einfach nicht richtig, da YaCy extrem viel mehr Platz wie angegeben benötigt! Deswegen habe ich diesen Thread hier ja eröffnet, um darauf mal aufmerksam zu machen. Gut, ich bekomme eventuell demnächst ein [[1]{style=“font-style: italic”}]{style=“font-weight: bold”} TB Platte. Ich denke mal, daß sich YaCy damit für ein paar Tage zufrieden geben wird! :mrgreen:


Grüße nun aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 8:43 am


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 11:06:28

Hallo TmoWizard,

\ Eine weitere \"Begleiterscheinung\" ist daß die Ausgabe der Suchergebnisse unvollständig sein kann.\ Bei z.b 18 Suchtreffern erscheinen z.b nur 10.\ \ In solchen Fällen muß man einen erneuten Suchlauf starten!\ \ \ \ Das dürfte ein anderes Problem sein, da dieser Fehler bei YaCy öfter auftritt! Das habe ich hier auch immer wieder, auch wenn mein YaCy zu diesem Zeitpunkt nichts macht. Dazu findet man aber hier im Forum schon einige Beiträge. Ich kann damit leben, suche ich eben nochmal! ![;-)](http://forum.yacy-websuche.de/images/smilies/icon_e_wink.gif "Wink")\



Genau DAS ist das Problem dabei. DU kannst damit leben und ich auch aber ein unbedarfter Aussenstehender, der zum erstenmal auf eine Yacy-Installation trifft die dieses Problem zeigt, steigt sofort entnervt aus und verschwindet auf Nimmerwiedersehen.

Wie gesagt ich bin durchaus ein Yacy Enthusiast. Aber so ein instabiles Verhalten eines bereits seit mehreren Jahren gepflegten Programms an einer rudimentären Stelle wie es die Nutzer Schnittstelle eben ist sollte nicht (mehr) vorkommen. :roll:

Zu \“GigaBlast\” (Hääääääääh)

So weit wegwerfen würde ich die Software nicht. Zugegeben, die Administrierung des Systems ist milde gesagt etwas gewöhnungsbedürftig um es vorsichtig auszudrücken ;) . Wenn man es aber mal \“geschnallt\” hat läßt sich damit durchaus ein leistungsfähiges System herstellen.
Zumindest bis zu einem bestimmten Grad. Ab einem bestimmten Punkt wird es dann jedoch zunehmend schwierig. Vor allem hinsichtlich der Wartung des Index, Reindizierung, Merging usw.

Bei den von mir obengenannten 30 Mio Links bin ich dann ausgestiegen weil die Suchzeiten ins Uferlose stiegen und ich von nichts und
niemanden (auch nicht vom Hersteller) irgendein Feedback bekam wie man so ein relativ großes System wieder \“tight\” bekommen kann.

Mein vorläufiges Fazit zu Yacy, GigaBlast und ein paar anderen Suchmaschinen ist folgendes:
\“Es gibt kein System das in irgendeiner Weise zu einer ernsthaften Alternative zu Google&Co ausgebaut werden könnte. Zumindest dann nicht wenn man ein Neueinsteiger bei der jeweiligen Software ist. Die Lernkurve ist extrem lang und für \“Nicht-Developer\” nicht zu meistern.

\“Orbiter\” und die anderen Spezialisten können hier sicherlich größere Hürden beim Aufbau eines komplexen Systems nehmen.
Aber das wiederum setzt vermutlich voraus daß man sich Ihrer Dienste im professionellen Bereich bedienen muß.
Das ist natürlich mit Kosten verbunden und daran ist auch grundsätzlich nichts auszusetzen.

Es ist nur schade für Neueinsteiger die sich monatelang mit einem an sich interessanten System herumprügeln und dann irgendwann
entnervt die Flinte ins Korn werfen.
Vielleicht wäre es sinnvoller ein stabiles System zum Kauf anzubieten, mit dem entsprechenden Support dahinter?

Im Moment läßt sich jedenfalls mit keinem der genannten Systeme (Yacy, GigaBlast und einige andere...) , ein größeren Ansprüchen genügendes System zusammenbauen.

Wer jedoch keine besonders große Ansprüche hat der mag durchaus mit der einen oder anderen Software gut zurechtkommen :)
Gruß Alex

Statistik: Verfasst von Crystalgazer — So Aug 20, 2017 10:06 am


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 12:31:29

Hi Crystalgazer!

Crystalgazer hat geschrieben:\ Hallo TmoWizard,\ \ >
> > Mein vorläufiges Fazit zu Yacy, GigaBlast und ein paar anderen > Suchmaschinen ist folgendes:\ > \"Es gibt kein System das in irgendeiner Weise zu einer ernsthaften > Alternative zu Google&Co ausgebaut werden könnte. Zumindest dann > nicht wenn man ein Neueinsteiger bei der jeweiligen Software ist. > Die Lernkurve ist extrem lang und für \"Nicht-Developer\" nicht zu > meistern.\ > >



Dem kann ich so [[nicht]{style=“font-style: italic”}]{style=“font-weight: bold”} zustimmen, jedenfalls nicht bei YaCy! Man kann YaCy doch auch einfach nur so auf seinem normalen Arbeits-PC installieren und ohne weitere Konfiguration als Junior-Peer zum Suchen verwenden. Siehe dazu auch folgendes Video von SemperVideo:

https://youtu.be/s6dxdLsyY7Q

So habe ich zumindest mit YaCy angefangen, erst nach und nach habe ich mich damit weiter befaßt. Dann braucht man eigentlich nur die Sprache entsprechend einstellen, das war es aber auch schon. Die meisten Peers sind sogar Junior, das funktioniert also ganz gut. Für bessere Suchergebnisse wären zwar wesentlich mehr [[aktive]{style=“font-style: italic”}]{style=“font-weight: bold”} Senior- oder Principal-Peers besser, aber auch die Junior-Peers tragen viel zur Verbreitung von YaCy bei. Hierzu sind auch keine besonderen Kenntnisse notwendig, das sollte eigentlich wirklich jeder schaffen.

GigaBlast spielt hier meiner Meinung nach in einer ganz anderen Liga, das würde ich einem normalen Anwender garantiert nicht empfehlen. Gleiches gilt auch für [[Faroo]{style=“font-style: italic”}]{style=“font-weight: bold”}, welches sowieso nur für Windows zur Verfügung steht. YaCy ist so ausgelegt, daß es auch für pure Anfänger geeignet ist. Man installiert es einfach, dann kann man damit auch schon Suchen.


Übrigens ist mir bei der Suche nach Alternativen zu Google etwas sehr sauer aufgestoßen:

Bei den meisten Vergleichen oder Vorschlägen werden Suchmaschinen wie GigaBlast, Faroo oder eben YaCy gar nicht beachtet! Es kommen da fast immer nur die bereits einschlägig bekannten Konkurrenten wie Bing, Yahoo, DuckDuckGo u.s.w. zum Zug, YaCy und Co scheinen für die entsprechenden Vergleiche wohl nicht zu existieren. Das finde ich äußerst übel, da viele Menschen solche Alternativen gar nicht kennen und durch eben solche Vergleiche auch nie kennenlernen werden. Bild

Für mich sind Bing, Yahoo, DuckDuckGo und Co jedenfalls keine Alternativen, da sie alle zum Einen der Zensur durch die entsprechenden Staaten unterliegen. Zum Anderen gibt es hier in Deutschland dann auch noch [[LSR]{style=“font-style: italic”}]{style=“font-weight: bold”}, [[NetzDG]{style=“font-style: italic”}]{style=“font-weight: bold”} und natürlich auch das [[\“Recht auf Vergessen\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, an welche sich [[alle]{style=“font-style: italic”}]{style=“font-weight: bold”} in Deutschland öffentlich verfügbaren Suchmaschinen halten müßen. Übrigens auch öffentlich zugängliche YaCy-Peers, welche dann entsprechende Blacklisten verwenden müßen! Ich denke mal, daß sich hier noch einige Leute wundern werden. Wobei das LSR hier ja noch human ist, da es nur bei monetarisierten Suchmaschinen gilt.

Keine Ahnung, ob es überhaupt YaCy-Peers mit Werbung gibt. Ich kann mir das aber gut vorstellen, wenn YaCy auf einem entsprechenden kostenpflichtigen Anbieter gehostet wird. Irgendwie muß das Geld ja wieder reinkommen, sonst könnte das auf Dauer ein ziemlich teurer Spaß werden.

Edit: Hier übrigens mal ein wirklich einfacher Vergleich für Suchergebnisse von mir selbst:

[[#YaCy: Von Suchmaschinen und Suchergebnissen{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Mein Peer hat sich da gar nicht mal schlecht geschlagen! :mrgreen:


Grüße aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 11:31 am


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 13:12:38

Hallo Mike,

\ Dem kann ich so nicht zustimmen, jedenfalls nicht bei YaCy! Man kann YaCy doch auch einfach nur so auf seinem normalen Arbeits-PC installieren und ohne weitere Konfiguration als Junior-Peer zum Suchen verwenden. Siehe dazu auch folgendes Video von SemperVideo:\



Klar kann man :D Wie gesagt, es kommt auf die Ansprüche an und das was man mit dem installierten System erreichen will ;) .
Wer \“nur so suchen will\” und die hinlänglich bekannten \“Datenkraken\” vermeiden möchte kann auch zu einer Metasuchmaschine
greifen oder einem anderweitigen die Privatsphäre schützendem System ;) .
Dann braucht man dann aber auch kein \“Yacy\” zu installieren... :mrgreen:

\ Für mich sind Bing, Yahoo, DuckDuckGo und Co jedenfalls keine Alternativen, da sie alle zum Einen der Zensur durch die entsprechenden Staaten unterliegen. Zum Anderen gibt es hier in Deutschland dann auch noch LSR, NetzDG und natürlich auch das \"Recht auf Vergessen\", an welche sich alle in Deutschland öffentlich verfügbaren Suchmaschinen halten müßen. Übrigens auch öffentlich zugängliche YaCy-Peers, welche dann entsprechende Blacklisten verwenden müßen! Ich denke mal, daß sich hier noch einige Leute wundern werden. Wobei das LSR hier ja noch human ist, da es nur bei monetarisierten Suchmaschinen gilt.\



Gut daß Du das ansprichst!. Abgesehen von den ganzen technischen Problemen beim Aufbau einer \“ernsthaften\” Suchmaschine
muß man sich den rechtlichen Problemen beim Betrieb einer solchen auch bewußt sein!.
Um sicherzustellen daß man sich beim Betrieb einer öffentlichen Suchmaschine rechtskonform verhält muß man einen
erheblichen Wartungsaufwand einplanen.
Und man darf diesbezüglich sicher sein daß dem Gesetzgeber zukünftig noch weitere \“Nettigkeiten\” einfallen werden um den Betrieb alternativer Suchmaschinen einzudämmen... :evil:

Immerhin haben die Yacy-Entwickler dahingehend einige Weitsicht bewiesen als sie Yacy auch Intranet-tauglich gemacht haben. :D .

Gruß Alex

Statistik: Verfasst von Crystalgazer — So Aug 20, 2017 12:12 pm


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 14:12:14

Mahlzeit, oder so! ;-)

Crystalgazer hat geschrieben:\ Immerhin haben die Yacy-Entwickler dahingehend einige Weitsicht bewiesen als sie Yacy auch Intranet-tauglich gemacht haben. ![:D](http://forum.yacy-websuche.de/images/smilies/icon_e_biggrin.gif "Very Happy") .\



[[DER]{style=“font-style: italic”}]{style=“font-weight: bold”} Entwickler bitte, das war nämlich von Anfang an [(ich glaube anno 2003)]{style=“font-style: italic”} die Idee für YaCy von Michael! Mit P2P bei einer Suchmaschine hat man eigentlich fast immer schon gewonnen, das ist ja das Faszinierende an YaCy. Hauptsache ist dabei, daß man keinen öffentlichen Server/Peer betreibt, dann kann eigentlich gar nichts schief gehen.

Öhm... Moment mal!

...

BildIrgendwie ist hier unbemerkt mein Peer einfach stehen geblieben! :o Laut entsprechendem Logfile so um ca. [[13:20]{style=“font-style: italic”}]{style=“font-weight: bold”} Uhr, aber ohne ersichtlichen Grund! Um die Uhrzeit gab es nur einen DHT-Austausch, mehr nicht. Ziemlich merkwürdig, jetzt heißt es dank der alten Kiste wieder ewig warten, ob meinem YaCy nichts passiert ist. :(

Ich melde mich wohl später nochmal, das muß ich jetzt erst einmal genauer beobachten.

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 1:12 pm


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-20 17:47:39

Hallo TmoWizard,

erst einmal danke, danke, danke für Deinen neuen Artikel zu YaCy.
http://tmowizard.square7.ch/wordpress/2 ... n-zu-yacy/{.postlink}
Es sind Sätze wie

[\“Ja Leute, wie habt ihr denn eure anderen Programme installiert? Das habt ihr doch auch geschafft, also was soll das? Natürlich wird YaCy genau so wie auch eure anderen Programme installiert, ihr startet ganz einfach den entsprechenden Installer, nachdem ihr euch die für euer Betriebssystem passende Version von der Website von YaCy geholt habt!
Verdammt noch mal! Ihr habt eure scheiß „geklauften” Office-Pakete oder Adobe-Suiten und sogar ganze Betriebssysteme doch installieren können, was also soll diese scheiß Frage?!!?\“]{style=“font-style: italic”}

die einem wieder den Kopf freimachen und einen wissen lassen, dass es noch Andere gibt die sich noch beschweren können, während sie Leute die Treppe hochtragen müssen während die sich über die Treppe beschweren.

Zur Installation: die läuft bei mir, nicht auf einem Root Server. Und genau das hab ich in unserem Artikel auch allen anderen empfohlen. Ich sehe mich da d´accord mit Deinem Artikel:

[\“YaCy [soll ]{style=“font-weight: bold”}Zuhause auf dem eigenen Rechner laufen, denn dafür wurde diese Suchmaschine ursprünglich entwickelt!\“]{style=“font-style: italic”}

Mit dem https Problem meinte ich etwas anderes: ein für alle Leserinnen und Leser sichtbares und nutzbares Suchfeld von YaCy auf der eigenen (bzw unserer, radio-utopie.de) Webseite einzubauen. Da bin ich bislang nicht weiter gekommen.

Statistik: Verfasst von Daniel Neun — So Aug 20, 2017 4:47 pm


Mitmachen • Hallo? Dieses Forum...

Date: 2017-08-20 17:51:53

Also ich muss da nochmal nachhaken.
Ich muss mich hier original mit einem gruseligen Opera Browser einloggen, um nicht jedesmal beim Url Wechsel bzw Anklicken eines Forenbeitrags wieder ausgeloggt zu werden.
Auch dass hier selbst Passwörter als Postkarte durchs Netz gehen, ist wirklich 80er Jahre mäßig. Ich würde doch herzlich darum ersuchen, dass irgendjemand aus der Grabkammer klettert und dieses Forum technisch wenigstens auf eine sicherheitstechnisch rudimentäre Ebene hebt, vielen Dank.

Statistik: Verfasst von Daniel Neun — So Aug 20, 2017 4:51 pm


Mitmachen • einen noch..

Date: 2017-08-20 17:54:12

Bahaha, ja und zur Frage \“wer ist gerade online?\“.
Was lesen meine trüben Augen?

[\“Mitglieder: Bing [Bot], Daniel Neun, Exabot [Bot], Yahoo [Bot]\” ]{style=“font-style: italic”}

So ein Captcha Dingens, irgendwer wird sicherlich schon davon gehört haben, wäre entsprechend auch nicht schlecht.

Statistik: Verfasst von Daniel Neun — So Aug 20, 2017 4:54 pm


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 17:55:19

Hallo Mike,

\ dann kann eigentlich gar nichts schief gehen.\



Außer Heiko Maas betreibt selber einen Peer :mrgreen: :D
Viel Erfolg bei der Fehlersuche :roll: Im Zweifelsfall hilft mehr Speicher (s.o) :mrgreen:

Gruß Alex

Statistik: Verfasst von Crystalgazer — So Aug 20, 2017 4:55 pm


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-08-20 19:51:19

Neues Spiel, neues Pech!

Seit heute Mittag kommt nun die Meldung [[\“Der Server hat den Verbindungsversuch abgelehnt\“]{style=“font-style: italic”}]{style=“font-weight: bold”}! :o

YaCy ist einfach plötzlich stehen geblieben, es ging einfach gar nichts mehr. Weder ein mehrfacher Neustart von YaCy noch ein kompletter Neustart des Server brachten dabei Abhilfe. YaCy lädt so ca. eine halbe Stunde lang, das war es dann aber auch. Hier mal ein kleiner Teil der [[yacy00.log]{style=“font-style: italic”}]{style=“font-weight: bold”} von meinem letzten, also derzeitigem Versuch, ich hoffe das genügt und hilft weiter:

Code:
I 2017/08/20 16:16:37 BLOBArray * merging text.index.20170820130228751.blob with text.index.20170820141434962.blobI 2017/08/20 16:20:49 HeapWriter * wrote a dump for the 4200302 index entries of text.index.20170820141637544.blob in 1314 milliseconds.I 2017/08/20 16:20:58 HeapReader * saturation of text.index.20170820141637544.blob.Bdm6xeIBUzCf.idx: keylength = 7, vallength = 4, size = 4200302, maximum saving for index-compression = 28 MB, exact saving for value-compression = 16 MBI 2017/08/20 16:20:58 HeapReader * using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170820141637544.blob.I 2017/08/20 16:20:58 BLOBArray * merged text.index.20170820130228751.blob with text.index.20170820141434962.blob into /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170820141637544.blobI 2017/08/20 16:21:40 HeapReader * close HeapFile text.index.20170820141637544.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:323) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkUpToMaxSizeFiles(ReferenceContainerArray.java:419) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:205) -> net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)I 2017/08/20 16:21:40 HeapReader * close HeapFile text.index.20170816082245675.blob; trace: net.yacy.kelondro.blob.HeapModifier.close(HeapModifier.java:82) -> net.yacy.kelondro.blob.ArrayStack.unmountBLOB(ArrayStack.java:276) -> net.yacy.kelondro.blob.ArrayStack.unmountBestMatch(ArrayStack.java:324) -> net.yacy.kelondro.rwi.ReferenceContainerArray.shrinkUpToMaxSizeFiles(ReferenceContainerArray.java:419) -> net.yacy.kelondro.rwi.IndexCell.shrink(IndexCell.java:205) -> net.yacy.kelondro.rwi.IndexCell.access$900(IndexCell.java:65) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.flushBuffer(IndexCell.java:172) -> net.yacy.kelondro.rwi.IndexCell$FlushThread.run(IndexCell.java:122)I 2017/08/20 16:21:40 RICELL-shrink3 * unmountBestMatch(2.0, 8589934591)I 2017/08/20 16:21:40 IODispatcher * appended merge job of files text.index.20170816082245675.blob, text.index.20170820141637544.blob to text.index.20170820142140311.blobI 2017/08/20 16:21:40 BLOBArray * merging text.index.20170816082245675.blob with text.index.20170820141637544.blobI 2017/08/20 16:32:05 HeapWriter * wrote a dump for the 9479689 index entries of text.index.20170820142140311.blob in 4743 milliseconds.I 2017/08/20 16:32:25 HeapReader * saturation of text.index.20170820142140311.blob.uI391cwyYjFE.idx: keylength = 7, vallength = 5, size = 9479689, maximum saving for index-compression = 63 MB, exact saving for value-compression = 45 MBI 2017/08/20 16:32:25 HeapReader * using a dump of the index of /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170820142140311.blob.I 2017/08/20 16:32:25 BLOBArray * merged text.index.20170816082245675.blob with text.index.20170820141637544.blob into /usr/share/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20170820142140311.blob



Ich kann die Datei aber auch bei meinem Hoster hochladen, da habe ich noch genügend Platz... ach egal, hier ist sie zu finden:

[[yacy00.log{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Ich komme damit jedenfalls noch nicht klar, mir sagt das mal gar nichts!

[Edit:]{style=“font-style: italic”} Übrigens läuft YaCy immer noch, nur arbeitet es nicht.


Frustrierte Grüße aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 6:51 pm


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-20 20:21:21

Hi Daniel!

Daniel Neun hat geschrieben:\ erst einmal danke, danke, danke für Deinen neuen Artikel zu YaCy.\



Naja, nicht alle sind mit der Schreibweise in meinen Artikeln einverstanden. Ich kann da manchmal sehr unhöflich werden, wie eben im richtigen Leben auch. 8-) :mrgreen:

Daniel Neun hat geschrieben:\ Mit dem https Problem meinte ich etwas anderes: ein für alle Leserinnen und Leser sichtbares und nutzbares Suchfeld von YaCy auf der eigenen (bzw unserer, radio-utopie.de) Webseite einzubauen. Da bin ich bislang nicht weiter gekommen.\



Oh, das ist dann für mich ein Problem! Das habe ich bisher noch nicht versucht, es [[\“sollte\“]{style=“font-style: italic”}]{style=“font-weight: bold”} aber wohl gehen. Ich kann hier dann aber nicht mehr weiter helfen, da muß dann wohl jemand anderer ran.

Leider ist das Forum ja nicht besonders gut besucht, da kann eine Antwort also schon mal ziemlich lange dauern! Am Besten ist es immer dann, wenn einer oder mehrere der Administratoren online sind. Nur machen das hier ja alle mehr oder weniger in ihrer Freizeit, so daß ich da nichts dazu sagen kann.


Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 7:21 pm


Fragen und Antworten • Re: Links/Wörter und Plattenplatz

Date: 2017-08-20 20:33:50

Hallöchen Daniel!

Crystalgazer hat geschrieben:\ Hallo Mike,\ \ >
> > dann kann eigentlich gar nichts schief gehen.\ > >



Außer Heiko Maas betreibt selber einen Peer :mrgreen: :D



Na das wollen wir ja nicht unbedingt hoffen! :twisted:

\ Viel Erfolg bei der Fehlersuche ![:roll:](http://forum.yacy-websuche.de/images/smilies/icon_rolleyes.gif "Rolling Eyes")\



Ähem... es geht [[-->hier<--{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} wieder weiter! :cry:

\ Im Zweifelsfall hilft mehr Speicher (s.o) ![:mrgreen:](http://forum.yacy-websuche.de/images/smilies/icon_mrgreen.gif "Mr. Green")\



Tja, wie schon erwähnt ist das leider nicht möglich, da dieser Rechner laut Hersteller [(Fujitsu/Siemens)]{style=“font-style: italic”} nur maximal [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB schafft. Der ist immerhin [[~11]{style=“font-style: italic”}]{style=“font-weight: bold”} Jahre alt, wer hat sich da schon solche Mengen an RAM leisten können? Für den Prozessor wäre es wohl kein Problem, das ist ein AMD64, aber das Mainboard macht eben nicht mit.


Viele Grüße nun aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Aug 20, 2017 7:33 pm


English • YaCy on a blockchain protocol

Date: 2017-08-21 18:42:03

Can a version of yacy be made to run on a blockchain protocol and so create a general YaCy search index that can be shared, modified, and verified by all peers? I\’m a noob so i\’m not really sure what i\’m talking/asking about. :mrgreen:

Statistik: Verfasst von bitxtal — Mo Aug 21, 2017 5:42 pm


YaCy Coding & Architecture • Yacy Architektur Übersicht

Date: 2017-08-22 09:50:04

Ich habe vor einigen Tagen angefangen mich technisch mit Yacy auseinander zu setzen, da ich mit dem Gedanken spiele selber aktiv an Yacy zu entwickeln.
Gibt es eine Art White Paper oder eine aktuelle Architektur Übersicht von Yacy? Vielleicht ein Design Dokument?
Denn den gesamten Code zu lesen und zu verstehen, dauert mir zu lange und ist zu ineffizient um einen Überblick zu erhalten.
Ich denke ich bin nicht der erste der dieses Problem hatte... :roll:
Ich nehme alles was mir weiter helfen könnte :)

Statistik: Verfasst von banneisen — Di Aug 22, 2017 8:50 am


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-22 17:40:26

Für die Einbindung auf einer Webseite gibt es mehrere Möglichkeiten. Voraussetzung ist zunächst aber immer einmal, dass der Yacy-Server auch öffentlich zugänglich ist und über eine (Sub-)Domain erreichbar ist.
Entweder bindest Du dann das SSL-Zertifikat über den von Yacy selbst verwendeten Java-Webserver ein, oder Du schaltest einen Webserver Deiner Wahl (Apache oder Nginx) davor mit einer Port-Weiterleitung.

Dann kannst Du entweder
(1) die Startseite Deiner Yacy-Installation für die Sucheingabe verwenden (evtl. sinnvoll, wenn Du für Yacy eine Subdomain Deiner Site verwendet hast);
(2) eine der unter \“Portal Konfiguration\” angebotenen iframes für die Einbindung auf Deiner Website nutzen (das ist z.B. unsere Lösung auf https://suche.rechtslupe.de) oder
(3) die Suchergebnisse als XML (RSS oder Json)-Daten über die API-Schnittstelle von Yacy abrufen und hierüber eine Einbindung in Deine Website realisieren, was etwas Programmieraufwand darstellt, aber wohl das sinnvollste Vorgehen ist. Anleitungen/Beispiele hierfür findest Du im Wiki: http://www.yacy-websearch.net/wiki/inde ... yAPIforPHP{.postlink}

Statistik: Verfasst von Praetor — Di Aug 22, 2017 4:40 pm


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-22 19:05:35

Hallo Praetor,

Du hast da eine Kleinigkeit vergessen, es geht nämlich auch mit einem Home-Server wie ich ihn hier habe. Dazu benötigt man allerdings meistens einen Dienst wie DynDNS, welchen man dann in seinem Router entsprechend freischaltet. Kaum jemand hat eine feste IP-Adresse, deswegen gibt es ja solche Dienste.

Ich habe tatsächlich bei meinem ersten Versuch mit YaCy solch einen Dienst verwendet und die entsprechende Adresse bei einigen Bekannten von mir hinterlassen, was jedoch ein großer Fehler wahr. Die haben nämlich YaCy nicht selbst installiert, sondern eben mein eigenes verwendet. Ein Arbeiten war auf dem Rechner dann teilweise nicht mehr vernünftig möglich, Games wie [[\“Champions of Regnum\“]{style=“font-style: italic”}]{style=“font-weight: bold”} oder so konnte man komplett vergessen!

Selbst [[meinen jetzigen \“Server\”{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} möchte ich nicht für solche Zwecke freigeben, das Teil ist hierfür einfach nicht gedacht [(das war mal vor sehr langer Zeit ein Office-PC)]{style=“font-style: italic”} und auch [[mein]{style=“font-style: italic”}]{style=“font-weight: bold”} Glasfaser würde bei einem entsprechend großen Andrang wohl in die Knie gehen.

Trotzdem möchte ich hiermit darauf hinweisen, daß es über solche Dienste wie DynDNS möglich und teilweise sogar sehr einfach zu realisieren ist. Ich gebe hier jedoch mit Absicht keinen Link dazu, denn das soll jeder für sich selbst entscheiden.

Und nun reinige ich erst einmal meine Tastatur, denn ich mußte in keinem meiner Blog-Artikel so oft korrigieren wie gerade eben! Bild :shock: :o :evil: Bild Bild Bild


Viele Grüße aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — Di Aug 22, 2017 6:05 pm


Fragen und Antworten • Re: \“Der Server hat die Verbindung beendet\”

Date: 2017-08-22 19:27:31

Hallöchen!

Leider wußte ich mir diesmal nicht anders zu helfen ich hab einfach alle [[\“citation.*.blob\“]{style=“font-style: italic”}]{style=“font-weight: bold”} gelöscht! Eine Antwort gab es ja leider seit Sonntag nicht und eine andere Lösung viel mir nicht ein.

Mein YaCy läuft nun seit [[~19]{style=“font-style: italic”}]{style=“font-weight: bold”} Stunden wieder und ich hoffe, daß so etwas nicht öfter passiert, denn mit solch einem wirklich groben Fehler kann man YaCy wirklich nicht ernsthaft weiterempfehlen! Mit diesen [[\“Blobs\“]{style=“font-style: italic”}]{style=“font-weight: bold”} gab es ja schon öfter Ärger, das sollte folglich unbedingt mal genauer geprüft werden. Es kann ja nicht sein, daß gerade solche ein Projekt wie YaCy gerade an so etwas eventuell scheitert!

Viele Grüße nun aus Augsburg mit einem derzeit wieder funktionierendem YaCy

Mike, TmoWizard Bild

Statistik: Verfasst von TmoWizard — Di Aug 22, 2017 6:27 pm


Mitmachen • Re: YaCy Suchfelder auf Webseiten mit https

Date: 2017-08-22 21:25:03

Deshalb schrieb ich ja \“öffentlich zugänglich … und über eine (Sub-)Domain erreichbar\“.
Wie Du das realisierst, ob mit einem entsprechenden Webspace, einem (virtuellen oder dedizierten) Server oder über dynDNS ist grundsätzlich egal. Wobei ich mir allerdings auch nicht vorstellen kann, dass eine vernünftige, d.h. stets funktionierende und halbswegs performante Anbindung an eine Website über dynDNS möglich ist.

Statistik: Verfasst von Praetor — Di Aug 22, 2017 8:25 pm


English • Re: Problem with xlsx format

Date: 2017-08-25 10:05:21

Hello edycop,
xlsx format support was indeed not very advanced. If you want to test again with latest sources from GitHub, the situation is now better.{.postlink}

Best regards

Statistik: Verfasst von luc — Fr Aug 25, 2017 9:05 am


Fragen und Antworten • Citations and 1.929000

Date: 2017-08-25 20:14:51

Hi,

In poking around, it seems the citation index is updated in 1.929000, but maybe not used?

For the past month I notice my citation count is always the same, but the total document count and webgraph edges changes daily (mostly going up in number).

For example

Code:
Citations(reverse link index)   50,774,484



That hasn\’t changed in over a month. I also have not found a hard coded limit in the code so far.

I have a cronjob which pulls http://localhost:8090/api/status_p.xml every day.

Thank you for any answers.

Statistik: Verfasst von DNcrawler — Fr Aug 25, 2017 7:14 pm


English • Re: YaCy on a blockchain protocol

Date: 2017-08-28 20:43:05

difficult. There is not \“the one\” blockchain where any application can participate. It would be interesting to have a test run using our own hyperledger blockchain. Another question would be: what should be transported? The blockchain is no replacement for the DHT.

Statistik: Verfasst von Orbiter — Mo Aug 28, 2017 7:43 pm


Presse • Re: Blog-Sammel-Thread

Date: 2017-08-28 20:46:28

:mrgreen:

Statistik: Verfasst von Orbiter — Mo Aug 28, 2017 7:46 pm


Mitmachen • Forum und Home-Page Make-Over

Date: 2017-08-28 21:18:10

Hallo,

unsere Homepage ist ein wenig in die Jahre gekommen. Genau das gleiche mit diesem Forum. Es wäre gut ein CSS Framework zu finden dass sowohl auf das Forum als Theme funktioniert als auch eine Entsprechung für eine Webseite hat.
Ich bin dabei auf https://comboot.io/ gestossen, das ist kompatibel mit https://bootswatch.com/

Was gibt es noch für Alternativen?

Statistik: Verfasst von Orbiter — Mo Aug 28, 2017 8:18 pm


Fragen und Antworten • Re: Solr: unable to load document

Date: 2017-08-29 19:34:03

Nur eine Vermutung ist Ihre Festplatte OK und stabil?
Stoppen Sie Ihre Suchmaschine und kopieren und fügen Sie an neuem Ort, starten Sie Suchmaschine an neuem Ort.

Just a Guess is your HDD ok and stable?
Stop your search engine and copy and paste to new location, start search engine in new location.

Statistik: Verfasst von smokingwheels — Di Aug 29, 2017 6:34 pm


Fragen und Antworten • Fehlerhafte Suchergebnisse

Date: 2017-08-30 15:26:21

Ich habe zu den beiden folgenden Problemen bereits hier gesucht aber keine Lösung gefunden.

YaCy hat zwei Probleme mit den Suchergebnissen:
1. doppelte Ergebnisse - Wenn ich nach \“debian\” suche, wiederholen sich u.a. diese beiden Links auf jeder Seite
https://lwn.net/Alerts/Debian/
https://www.heise.de/thema/Debian

2. falsche Ergebnisse - Die selbe \“debian\“-Suche zeigt Wikipedia-Links, die nichts damit zu tun haben, z.B.
https://en.wikipedia.org/wiki/Madison_River
https://en.wikipedia.org/wiki/Pilot_(Smallville)
https://de.wikipedia.org/wiki/Akabori_Shir%C5%8D

Hierbei erscheinen snippets unter dem Link, die nirgends auf der Seite vorkommen, z.B.
\“Raspbian: Version Stretch auf Basis von Debian 9 veröffentlicht\” unter \“Pilot_(Smallville)\”

Woran kann das liegen?

Statistik: Verfasst von 6NLrwLJMVy91kS79 — Mi Aug 30, 2017 2:26 pm


Fragen und Antworten • Re: Solr: unable to load document

Date: 2017-08-30 23:53:47

hab mal versucht das zu patchen, release Update ist in yacy_1.91.9441

Statistik: Verfasst von Orbiter — Mi Aug 30, 2017 10:53 pm


Fragen und Antworten • (URL) Proxy

Date: 2017-09-05 16:44:49

[Hintergrund:]{style=“font-size: 120%; line-height: 116%;“}
Ich würde gerne den eingebauten Proxy von Yacy nutzen um bequemerweise die bei Recherchen anfallenden Links/Startpunkte zu crawlen.
Das funktioniert auch einwandfrei (in einer anderen Installation gleicher Version) im \“normalen\” Netz. Da meine Recherchen aber häufig im Tor-Netzwerk stattfinden, will ich den Proxy dafür nutzen.

[Das Problem:]{style=“font-size: 120%; line-height: 116%;“}
Doch egal welche Seite ich aufrufen möchte, der Yacy Proxy antwortet mit 404 /url/path not found
bzw. liefert ohne URL Path das Yacy Interface
Vielleicht hatte schon jemand dieses Problem.

[Mein bisheriger Stand:]{style=“font-size: 120%; line-height: 116%;“}
Es wirkt so als würde jede .onion Adresse als lokale Adresse/localhost identifizieren.
Mir ist ebenfalls bekannt das der transparente Proxy deprecated ist. ABER: Die Alternative (der URL Proxy) funktioniert nicht mal im www ordentlich (kein Login möglich)

LG banneisen

Statistik: Verfasst von banneisen — Di Sep 05, 2017 3:44 pm


Hilfe für Einsteiger und Anwender • Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-08 14:36:12

Hi,

ich würde mir gerne ein kleines Yacy-Netzwerk aus 3 Pcs im LAN (192.168.0.xx) zusammenbasteln.

Ein PC soll als Einstiegspunkt für Suchrecherchen dienen und bei einem Suchlauf seinen eigenen Index durchsuchen und die der zwei
anderen ebenso undi die gesammelten Ergebnisse dem Client übermitteln.

Die PCs haben bereits alle eine funktionsfähige Yacy-Installation.
Im LAN gibt es auch einen FTP Server.

Was mir jetzt fehlt sind die korrekten Einträge in diese network.unit Dateien und das nötige Prozedere um so einen Mini-Cluster ans Laufen
zu bringen.

Habe mir in der Zwischenzeit ein paar Threads durchgelesen aber komme damit nicht zurecht. :cry:

Gruß Alex

Statistik: Verfasst von Crystalgazer — Fr Sep 08, 2017 1:36 pm


Hilfe für Einsteiger und Anwender • Yacy fuer IPFS, Freenet und andere Netzwerke.

Date: 2017-09-11 02:31:50

Hallo Yacy Fans.

Bitte entschuldigt, mein Deutsch wird langsam rostig.

Ich habe Yacy vor etwa 5 Jahren kennen gelernt und finde, dass Yacy immernoch sehr unterbewertet ist und nicht die Anhaengerschaft gesammelt hat die ich mir mit so toller Software vorgestellt haette.

Als ein Nutzer in den USA zeigt mir das Yacy forum trotzdem eine Deutsche seite. Fuer jemanden der kein Deutsch spricht ist es schwierig zu verstehen.

Ich wuerde gerne mit uebersetzungen in english helfen.


Meine Frage fuer heute ist:

Ich wuerde gerne yacy nutzen um IPFS Freenet und andere Netzwerke zu durchsuchen. Ich weiss dass es schon mit Zeronet moeglich ist und das gleiche Prinzip sollte auch fuer IPFS etc funktionieren.

Ich kann keine dokumentation finden wie man ein neues such Netzwerk am beispiel von Zeronet erstellen kann.

Kann jamand bitte ein paar links teilen die beschreiben wie das Yacy- Zeronet suchnetzwerk erstellt wurde?

Danke. Yacy fuer die Zukunft :idea:

Blog posts by me about Yacy:

https://steemit.com/steem/\@camb/distrib ... web-search{.postlink}
https://steemit.com/censorship/\@camb/ya ... ublic-demo{.postlink}

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 1:31 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-11 02:59:25

Kannst du als option \“intranet\” waehlen und dann die localen IP\’s deiner PCs als such seiten eingeben?

http://localhost:8090/ConfigBasic.html

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 1:59 am


Hilfe für Einsteiger und Anwender • Re: Qualität der Suchergebnisse

Date: 2017-09-11 03:38:32

I have found Yacy search results to be quite satisfying by default.

There is much room for improvement, but Yacy is usable as it is. We need more users to contribute to the database.

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 2:38 am


Hilfe für Einsteiger und Anwender • Re: Erfahrungen mit Raspi und anderen ARM Boards

Date: 2017-09-11 03:45:50

Ich habe keine Erfahrung mit Yacy und Pi boards, aber Ich glaube Ram wird das erste problem sein.

A slow CPU can still proccess large amounts of sites as long as you have enough time and mostly RAM. I\’m not 100% sure about this but I think a Pi can run a \“mega\” search node as long as you provide enough Ram.

Pi power :D

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 2:45 am


Hilfe für Einsteiger und Anwender • Re: Crawl nur auf xpath

Date: 2017-09-11 03:49:42

would you please add a few more details about what you are trying to index? I\’m not sure what you are trying to trim.

It is possible to trim/only include certain keywords and locations in page.

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 2:49 am


Hilfe für Einsteiger und Anwender • Re: Sortierung Suchergebnisse

Date: 2017-09-11 03:55:08

Wenn du eine such eingibst kannst du die Resultate mit einem Button nach Datum sortieren.

Bild

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 2:55 am


Hilfe für Einsteiger und Anwender • Re: Nur lesenswerten Content indexieren?

Date: 2017-09-11 03:56:11

Blacklist all the adsites you can, or only index whitelisted sites.

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 2:56 am


Hilfe für Einsteiger und Anwender • Re: Lern-Kurs in Yacy möglich?

Date: 2017-09-11 04:11:45

Frag hier Freund. :)

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 3:11 am


Hilfe für Einsteiger und Anwender • Re: RSS und Jobtransfer

Date: 2017-09-11 04:16:47

Changing from Mac to Windows brings a lot of problems that are hard for Yacy to handle. I would suggest starting over on a free Linux OS like Ubuntu and forget about Windows and Mac. :D Good luck! :geek:

Statistik: Verfasst von ircamb — Mo Sep 11, 2017 3:16 am


Hilfe für Einsteiger und Anwender • Re: Yacy fuer IPFS, Freenet und andere Netzwerke.

Date: 2017-09-11 06:57:49

Hello \@ircamb!

ircamb hat geschrieben:\ Bitte entschuldigt, mein Deutsch wird langsam rostig.\



\“rusty\” is the right Word for my english, 30 years ago i learnd it in school! ;)

ircamb hat geschrieben:\ Ich habe Yacy vor etwa 5 Jahren kennen gelernt und finde, dass Yacy immernoch sehr unterbewertet ist und nicht die Anhaengerschaft gesammelt hat die ich mir mit so toller Software vorgestellt haette.\



Many people say that YaCy does not have enough users because the index is not good. But they forget, that without sufficient users the index can not grow!

ircamb hat geschrieben:\ Als ein Nutzer in den USA zeigt mir das Yacy forum trotzdem eine Deutsche seite. Fuer jemanden der kein Deutsch spricht ist es schwierig zu verstehen.\ \ Ich wuerde gerne mit uebersetzungen in english helfen.\



YaCy is a german software, so the forum is in german, too! But we have an english section here:

[[English section of the YaCy-forum{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

ircamb hat geschrieben:\ Meine Frage fuer heute ist:\ \ Ich wuerde gerne yacy nutzen um IPFS Freenet und andere Netzwerke zu durchsuchen. Ich weiss dass es schon mit Zeronet moeglich ist und das gleiche Prinzip sollte auch fuer IPFS etc funktionieren.\ \ Ich kann keine dokumentation finden wie man ein neues such Netzwerk am beispiel von Zeronet erstellen kann.\ \ Kann jamand bitte ein paar links teilen die beschreiben wie das Yacy- Zeronet suchnetzwerk erstellt wurde?\



Ok, das kann ich nun nicht mehr in englisch beantworten! :? Leider fehlt mir hier die Kenntnis bzw. das Wissen zu dem Thema, aber eigentlich [[\“sollte\“]{style=“font-style: italic”}]{style=“font-weight: bold”} das schon irgendwie funktionieren nehme ich an. Ich nehme jedoch ebenso an, daß das Indexieren nicht für jeden Channel klappen wird.

Ich z. B. habe nicht nur im Freenet einen eigenen Channel, sondern auch in anderen Netzen. Jedoch protokolliere ich keinen Chat mit, so daß es dort nichts zum Indexieren gibt. Man würde wohl den Channel selbst finden, jedoch wahrscheinlich ohne Inhalt!

ircamb hat geschrieben:\ Danke. Yacy fuer die Zukunft ![:idea:](http://forum.yacy-websuche.de/images/smilies/icon_idea.gif "Idea")\



YaCy [[ist]{style=“font-style: italic”}]{style=“font-weight: bold”} die Zukunft! :ugeek:


Mike

Statistik: Verfasst von TmoWizard — Mo Sep 11, 2017 5:57 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-11 09:58:54

Hello ircamb,

thanks for your idea, but that doesn\’t work for me. The 3 Yacy instances do have their own indexes in the \“webportal mode\” with many million urls already indexed.
As soon as i switch on one instance to the \“intranet mode\” another index base on this instance is started with 0 urls in it.

Another problem.
Even in the case i rebuild all indexes on the pcs in the \“intranet mode\” i do not know how to enter the queries on the dedicated clients yacy instance in the way that the results of the other 2 yacy instances are automaitcally queried and displayed together to the client.

Statistik: Verfasst von Crystalgazer — Mo Sep 11, 2017 8:58 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-12 02:02:30

Alle 3 PCs sollen also das offene Internet individuell indexieren und nur miteinander in einem geschlossenen Netzwerk communizieren anstatt Such Fragen and andere Nutzer weiter zu leiten.

I think this could work:

Replace Yacy\’s list of seednodes with only the local IPs of the computers in your network.

If your Yacy install is fresh and has not collected any other peers yet, then you should have the desired effect. Your 3 local Yacy clients will only communicate with each other because they don\’t know anyone else yet and won\’t be able to find anyone else.

Statistik: Verfasst von ircamb — Di Sep 12, 2017 1:02 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-12 05:57:45

Hello ircamb,

\ If your Yacy install is fresh and has not collected any other peers yet, then you should have the desired effect. Your 3 local Yacy clients will only communicate with each other because they don\'t know anyone else yet and won\'t be able to find anyone else.\



Right :)

\ Replace Yacy\'s list of seednodes with only the local IPs of the computers in your network.\



Good idea, i will try this and give feedback asap :)
Greetings Alex

Statistik: Verfasst von Crystalgazer — Di Sep 12, 2017 4:57 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-12 07:45:10

Hallo Crystalgazer ,
I would also just add (sorry also for the English), that in addition to the seeds list overriding, in the Network Configuration (/ConfigNetwork_p.html page) you also have a feature that could fit your needs : the \“Public cluster\” in the \“Robinson Mode\” section. You can specify there a list of comma separated yacy nodes addresses (ip1:port1, ip2:port2 ...) that will be then the only remote peers to be requested when performing a search request. This feature will only work in \“Community-based web search\” mode (see /ConfigBasic.html).
Best regards

Statistik: Verfasst von luc — Di Sep 12, 2017 6:45 am


Hilfe für Einsteiger und Anwender • Re: Eigenes kleines Yacy-Netzwerk im LAN

Date: 2017-09-12 10:01:53

Hello luc,

\ You can specify there a list of comma separated yacy nodes addresses (ip1:port1, ip2:port2 \...) that will be then the only remote peers to be requested when performing a search request. This feature will only work in \"Community-based web search\" mode (see /ConfigBasic.html).\



:o elegant method :) . Now there are 2 potential methods to build such a yacy cluster.
I would really appreciate if someone else on this forum will bulld such a mini lan cluster and share his experience :roll:

Best regards Alex

Statistik: Verfasst von Crystalgazer — Di Sep 12, 2017 9:01 am


Hilfe für Einsteiger und Anwender • Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-16 09:16:10

Hi,

wahrscheinlich sehe ich den Wald vor lauter Bäumen nicht. :shock:

Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.
Es soll also so eine Art \“WebVerzeichnis\” entstehen.

Hat jemand eine Idee wie man so etwas in Yacy realisieren kann?

Gruß Alex :roll:

Statistik: Verfasst von Crystalgazer — Sa Sep 16, 2017 8:16 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-16 12:57:39

Mahlzeit... oder so!

Crystalgazer hat geschrieben:\ Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.\ Es soll also so eine Art \"WebVerzeichnis\" entstehen.\



Öhm... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?

Statistik: Verfasst von TmoWizard — Sa Sep 16, 2017 11:57 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-16 15:51:33

Hallo Mike,

\ Öhm\... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?\



soviele Rechenzentren braucht es dafür nicht.

1.Ich bin erstmal gar nicht an \“Deep-Web\” Inhalten interessiert.
Das reduziert schon einmal die Datenmenge erheblich

2.\“Commoncrawl\” meldet für August 2017 folgende Daten
It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.

Das ist zwar viel, aber nicht unfaßbar viel.

3. Das sowas nicht an einem Nachmittag gecrawlt werden kann ist mir auch klar.

Also zurück zur Frage. Wie muß ich einen Crawler einstellen der möglichst alles indiziert (Hops 0) bis
die Platte platzt?

Gruß Alex

Statistik: Verfasst von Crystalgazer — Sa Sep 16, 2017 2:51 pm


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-16 18:21:05

Hi zusammen,

hat sich erledigt. :mrgreen:

Gruß Alex

Statistik: Verfasst von Crystalgazer — Sa Sep 16, 2017 5:21 pm


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-16 20:37:04

Hallo Alex!

Crystalgazer hat geschrieben:\ 2.\"Commoncrawl\" meldet für August 2017 folgende Daten\ It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.\ \ Das ist zwar viel, aber nicht unfaßbar viel.\



Umgerechnet auf deutsch also [[3,28]{style=“font-style: italic”}]{style=“font-weight: bold”} Milliarden Seiten, das dürfte so ungefähr [[1%]{style=“font-style: italic”}]{style=“font-weight: bold”} des WWW darstellen, wenn überhaupt! Also nochmal meine Frage:

Wie viele Rechenzentren hast Du für dein Vorhaben beschlagnahmt?

Statistik: Verfasst von TmoWizard — Sa Sep 16, 2017 7:37 pm


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-17 07:05:19

Hallo Mike,

was mich immer wieder wundert ist die Unfähigkeit von Technikern auf eine einfache Frage einfach nur mal eine Antwort zu geben.
Stattdessen wird eine Idee als Ganzes sofort in Frage gestellt und die Unmöglichkeit der Realisierung demonstriert.

Schau mal Mike, vor 25 Jahren habe ich mir mal eine SCSI Platte mit 500MB Speicherplatz für knapp 1100 DM gekauft.
Wieviel Speicherplatz bekommst Du heute für ca. 500 Euro? Antwort: ca 10TB . Die 250TIB \“Commoncrawl\“-Daten bringt man somit auf ca. 25 Platten unter. Das ist mit einem einzigen Diskshelf machbar!.

Was wird in 5 Jahren sein, in 10 Jahren in 20 Jahren!. Vielleicht 1 Petabyte auf einer einzigen \“TESAFILM-Platte\” und den heutigen \“Commoncrawl\” auf einem USB-STICK in eine \“Holo-Matrix\“?

Und bitte jetzt keine weiteren Theoretisierungen von:\” Weiß Du überhaupt wieviele Jahrtausende Du beim Eincrawlen brauchst\“. Und denk auch an die Datensicherung usw. usf...

Mittlerweile habe ich mir die Frage selbst beantwortet und kann jetzt ein paar Versuche damit starten :roll:

Gruß Alex

Statistik: Verfasst von Crystalgazer — So Sep 17, 2017 6:05 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-17 08:44:38

Guten Morgen!

Also erstens mal folgendes:

Ich bin [[kein]{style=“font-style: italic”}]{style=“font-weight: bold”} Techniker und ich weiß, daß ich anno 1992 für meine 100MB SCSI-Festplatte ebenfalls ~1000 DM bezahlt habe!

Zum Zweiten:

Die erwähnte Datenmenge von \“Commoncrawl\” [(3,28 Milliarden Dokumente)]{style=“font-style: italic”} ist etwas weniger als das, was derzeit alle bekannten YaCy-Peers bei [[Freeworld]{style=“font-style: italic”}]{style=“font-weight: bold”} zusammen im Index haben. Das ist wie erwähnt wohl höchsten [[1 %]{style=“font-style: italic”}]{style=“font-weight: bold”} des \“Internet\“, also rechne nochmal nach!

Selbst Google gibt zu, daß sie bei weitem nicht alle Seiten des WWW indexiert haben. Selbst wenn Du nur jeweils die erste Seite indexieren möchtest [(und das willst Du ja zur heutigen Zeit machen und nicht erst in 10 oder 20 Jahren)]{style=“font-style: italic”} bräuchtest Du eher ein paar hundert der von dir erwähnten Platten, nicht nur 10 oder so!

Ich möchte dir dein Projekt echt nicht vermiesen, im Gegenteil gefällt mir die Idee sogar gut! Nur ist das so für eine einzelne Person nicht zu stemmen, das schaffen bis jetzt ja nicht einmal große Firmen wie z. B. Google oder Microsoft.

Statistik: Verfasst von TmoWizard — So Sep 17, 2017 7:44 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-18 09:17:37

Hallo,
I also like this kind of apparently crazy idea!
Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the \“From File\” crawl start point with a depth of zero.
The hosts list could maybe generated using the relevant DNS queries...

Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).

Best regards

Statistik: Verfasst von luc — Mo Sep 18, 2017 8:17 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-18 23:26:32

Hm, ein flat crawl (mit depth 0 pro Domäne) ist natürlich machbar und keine schlechte Idee. Man sollte sich nicht von einer Machbarkeitsfrage abhalten lassen, das hat uns hier in diesem Projekt noch nie gestört dass eine Aufgabe Aufwändig ist, wenn sie sinnvoll ist.

Statistik: Verfasst von Orbiter — Mo Sep 18, 2017 10:26 pm


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-19 09:53:38

Hallo zusammen,

ich war wohl etwas voreilig. Meine Crawlerlösung scheint nicht zu funktionieren. :cry:

Meine Überlegung war einen Crawl von https://de.wikipedia.org mit einer Tiefe von 4 zu beginnen. (ähnlich wie die Idee von \‘luc\‘)
Bei \“Lade Filter auf URLs\” KEINE Einschränkung auf Startdomain und KEINE Einschränkung auf Subpfad.
Damit crawlt sich der Crawler erstmal durch Wikipedia verläßt aber Wikipedia sobald er auf eine externe URL trifft.

Damit wird grundsätzlich alles an Urls eingesammelt was der Crawler finden kann. Also alle Wikipedia Urls und ALLE externen Urls die in Wikipedia gefunden werden können.

Die Einschränkung der Urls die dann dann in den \“Index Feeder\” gehen sollen erfolgt dann in der Rubrik \“Dokument Filter\“.

In der Zeile:\“Filter auf Urls\” habe ich folgende Regex eingesetzt:
\^(?:https?:\/\/)?(?:[\^@\/\n]+@)?(?:www\.)?([\^:\/\n]+)

Diese Regex sollte aus allen gefunden Urls die Top-Urls ausfiltern, damit diese UND NUR DIESE in den Index Feeder gehen sollen.

Diese Regex habe ich mit etlichen Online-Regex Simulatoren getestet und sie sollte funktionieren.

Innerhalb von Yacy funktioniert sie jedoch nicht. Weder in der Crawler Einstellung NOCH im Regex-Tester unter \“Ziel-Analyse\“.

Frage: Was für eine Regex muß ich im \“Dokument-Filter\” einsetzen damit nur die Top-Urls in den Index-Feeder gehen?

Gruß Alex

P.S Die Regex stammt übrigens von hier
https://regex101.com/r/jN6kU2/1

Statistik: Verfasst von Crystalgazer — Di Sep 19, 2017 8:53 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-20 06:32:18

Luc,

\ Hallo,\ I also like this kind of apparently crazy idea!\ Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the \"From File\" crawl start point with a depth of zero.\ The hosts list could maybe generated using the relevant DNS queries\...\ \ Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).\ \ Best regards\



checkout https://zmap.io/ :mrgreen:
especially the Data Repository :idea:

Best regards Alex

Statistik: Verfasst von Crystalgazer — Mi Sep 20, 2017 5:32 am


Suchmaschinen • Deutsches Bundesgericht schränkt Suchmaschinenhaftung ein

Date: 2017-09-21 17:54:28

Na das ist doch mal was Erfreuliches:

[[[Deutsches Bundesgericht schränkt Suchmaschinenhaftung ein]{style=“font-size: 150%; line-height: 116%;“}{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Zitat:

\ Betreiber einer Suchmaschine haften generell nicht für die Anzeige illegal ins Netz gestellter Inhalte.\

Statistik: Verfasst von TmoWizard — Do Sep 21, 2017 4:54 pm


English • Re: Demo portal has got too many connections

Date: 2017-09-22 08:06:13

Reviewing History this fault maybe useful.

The [httpd thread pool]{style=“font-weight: bold”} is adjustable now has been for quite some time, so if you have a lesser machine reduce the number below 10 in http://localhost:8090/PerformanceQueues_p.html

Statistik: Verfasst von smokingwheels — Fr Sep 22, 2017 7:06 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-22 11:27:37

Thanks for the link, there are indeed interesting data and tools to explore.

About your regex, it is well-formed, but with a trailing \“/\” character it works better as it includes URLs such as http://example.com/ (I also checked with a small crawl and it worked rather fine). The modified regex :

Code:
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?

Statistik: Verfasst von luc — Fr Sep 22, 2017 10:27 am


Hilfe für Einsteiger und Anwender • Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Date: 2017-09-22 15:49:03

Hello Luc,

Code:
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?



Works perfect! :o :D
The trailing character is definitely necessary!.
I am testing it at the moment with https://de.wikipedia.org and what should i say, Yacy is doing the job :mrgreen:

This information helps me a lot :D Best regards Alex

Statistik: Verfasst von Crystalgazer — Fr Sep 22, 2017 2:49 pm


English • api and content types

Date: 2017-09-22 20:18:56

Hi there

Two simple noob questions

1) How to I stop yacy indexing images?

2) How can I use the api to loop through all of the pages in the index?

thanks
G

Statistik: Verfasst von drdevil44 — Fr Sep 22, 2017 7:18 pm


English • Re: api and content types

Date: 2017-09-23 08:53:57

Hi,

\ 1) How to I stop yacy indexing images?\


- on crawls started on your own : in the /CrawlStartExpert.html you can simply uncheck the \“index media\” checkbox. Note that this way video and audio content will also be excluded from indexing.
- on index entries received from other peers (when searching or by the DHT distribution rules) : I believe there is currently not such a setting. You can either enable or disable index receive.

\ 2) How can I use the api to loop through all of the pages in the index?\


- you can use the solr select servlet : basically /solr/select?q=*:*&start=[pageNumber]&rows=[numberOfDocsPerPage]&core=collection1 (the link is provided in some YaCy pages, notably/IndexFederated_p.html or /Crawler_p.html pages). You can customize the result with additional parameters controlling either the output format (wt=json, or wt=xml, or wt=csv and so on...), the rendered fields (fl=[your fields]) or using any other relevant Solr parameter{.postlink}

Have a nice day

Statistik: Verfasst von luc — Sa Sep 23, 2017 7:53 am


YaCy Coding & Architecture • Thank you very much

Date: 2017-09-24 14:23:55

Hi,

Code:
Postprocessing Progress  busy:postprocessed 34300 from 106327778 collection documents; 1426 ppm; 74521 minutes remaining



I would thank all the devs involved on the refactoring of the postprocessing routines. The procedure runs fully satisfying now! The timeframe to complete decreased from over 700 years (before the refactoring of the routines) to 52 days.

Outstanding work! Thank you very much

LA_FORGE

Statistik: Verfasst von LA_FORGE — So Sep 24, 2017 1:23 pm


YaCy Coding & Architecture • Re: Thank you very much

Date: 2017-09-25 07:21:05

Hi LA_FORGE,
good to know this task is starting to become useful within the bounds of a human life ;)
Do you run YaCy with the very latest sources from GitHub? (I wonder to which extend the latest Solr upgrades also contributed to improve these post-processing performances...)

Statistik: Verfasst von luc — Mo Sep 25, 2017 6:21 am


English • Having problem with Localhost.

Date: 2017-09-25 09:37:34

YaCy is working fine on Local IP and External IP.
When I start it the localhost page comes with server not found when it starts.

Its not a big issue but may have had this on my Raspberry Pi last week not too sure I started again.

Statistik: Verfasst von smokingwheels — Mo Sep 25, 2017 8:37 am


YaCy Coding & Architecture • Re: Thank you very much

Date: 2017-09-25 12:25:46

Hi Luc,

exactly, I just pulled the newest commit with the command

git clone https://github.com/yacy/yacy_search_server.git

then made a few hacks because of my giant index size of 200 million documents. But I didn\’t touch code related to the postprocessing procedures, because the lack of java skills. Then I just compiled the sources with the command

ant clean all

I additionally added the switches -XX:+UseParallelGC -XX:+UseNUMA to the startup script, In multiprocessor environments these switches increase the performance a bit.

Yes you\’re right, I think the integration of the latest solr version is jointly responsible for the performance gain, too.

Statistik: Verfasst von LA_FORGE — Mo Sep 25, 2017 11:25 am


English • Re: api and content types

Date: 2017-09-26 20:30:27

thanks for your reply and the info

Just one further question:

1) How can I change an existing crawl to stop it crawling images?
2) How do I remove images from the index?

Statistik: Verfasst von drdevil44 — Di Sep 26, 2017 7:30 pm


English • Raspberry Pi 3 B

Date: 2017-09-28 08:39:48

Between A Zeon and a Pi with the power consumption.
Some not recommended Mods..

https://www.raspberrypi.org/forums/viewtopic.php?f=63&t=194208&p=1216233#p1216233

Statistik: Verfasst von smokingwheels — Do Sep 28, 2017 7:39 am


English • Re: api and content types

Date: 2017-09-28 20:35:39

\ 1) How can I change an existing crawl to stop it crawling images?\


- it is possible on a running crawl by using the \“Edit Profile\” button in the /CrawlProfileEditor_p.html page (link in Crawler Monitor > Scheduler and Profile Editor)

\ 2) How do I remove images from the index\


- you can do it in the /IndexDeletion_p.html page (Index Administration > Index Deletion) with the \“Delete by Solr Query\” fieldset : type for example \“content_type:image/*\” in the query field and this should already remove most of the images with a valid content type. You can eventually extend this to the URL extension if necessary (\“url_file_ext_s\” field)

Statistik: Verfasst von luc — Do Sep 28, 2017 7:35 pm


English • Bot agent list and rank.

Date: 2017-10-05 06:08:46

http://www.jerrywickey.net/issues/discussion.php?file=userGoogleIsNolo
78, 0%, 1, yacybot (/global; amd64 Linux 3.16.0-4-amd64; java 1.7.0_121; Europe/de) http://yacy.net/bot.html
Might be useful history.

Statistik: Verfasst von smokingwheels — Do Okt 05, 2017 5:08 am


YaCy Coding & Architecture • Re: Thank you very much

Date: 2017-10-06 08:25:43

After a few days it decreased to 160 ppm and now it takes over 1 year again for the process to complete :-(

Question: When I\’m crawling some sites on another peer and export this index via the XML export feature (Rich and full-text Solr data), has this postprocessing procedure already been run and does this data dump already contain the postprocessing data or does it need to be computed again?

Statistik: Verfasst von LA_FORGE — Fr Okt 06, 2017 7:25 am


YaCy Coding & Architecture • Re: Thank you very much

Date: 2017-10-12 09:47:48

Hi LA_FORGE, sorry for the delayed answer, but as far as I know :
- post-processing runs only once all crawls are terminated (see the conditional check{.postlink})
- once post-processed and committed, related Solr fields are indeed exported with the XML export feature, so they do not need to be computed again.

A few complementary remarks on export/import however :
- the webgraph collection is not exported, so obviously you also loose any post-processing computation on webgraph collcetion fields when exporting
- some post-processed fields computation is related to the local peer data : for example references post-processing uses the citation index, and eventually the webgraph collection if enabled. So to my mind, to be truly accurate, theses values should be computed again when importing to another peer with a larger or a different index. But it wont\’ be done automatically after import, as the fields marking that post-processing is needed (process_sxt and harvestkey_s) are cleaned-up after a successful post-processing...

Statistik: Verfasst von luc — Do Okt 12, 2017 8:47 am


Fragen und Antworten • Re: Indexgröße zu extrem?

Date: 2017-10-12 13:34:08

Try Purge Java and reinstall Java. With YaCy stopped.

Statistik: Verfasst von smokingwheels — Do Okt 12, 2017 12:34 pm


YaCy Coding & Architecture • Re: Thank you very much

Date: 2017-10-13 10:33:40

Great! Thank you very much

Statistik: Verfasst von LA_FORGE — Fr Okt 13, 2017 9:33 am


English • Re: Black Lists Lets see what you have?

Date: 2017-10-17 09:40:43

I have many lists they change all the time but I am trying a Pi-hole https://pi-hole.net/ with some interesting results.

Blocking these sorts of domains

Code:
example.com (https apache.hoxt.com mywapsite

Statistik: Verfasst von smokingwheels — Di Okt 17, 2017 8:40 am


English • About Elasticsearch

Date: 2017-10-17 20:58:16

Maybe it can be used with yacy or integrated to it to make yacy more efficient with big websites.

I\’ve not tested this, it\’s just an idea to test.

https://www.elastic.co/downloads/elasticsearch

Statistik: Verfasst von bubul — Di Okt 17, 2017 7:58 pm


English • Re: About Elasticsearch

Date: 2017-10-18 07:06:42

Hi bubul, yes using Elasticsearch as an alternative to Solr for the documents index could be interesting. Indeed, that is the solution retained for the next YaCy architecture{.postlink}.

By the way, for the current YaCy search server, as far as I know this would require quite an amount of refactoring to properly integrate it. Not the kind of idea you can test quickly in a few hours...

What\’s more the performance gain is not certain as it depends on the kind of search requests that are submitted.

Did you try to plug your YaCy server on an external Solr server, as it is supposed to be more efficient than the default embedded Solr ?

Statistik: Verfasst von luc — Mi Okt 18, 2017 6:06 am


English • Re: About Elasticsearch

Date: 2017-10-21 23:46:04

There is actually currently a new YaCy \“flavor\” which uses elasticsearch: the YaCy Grid.
The grid is a set of four applications which can be deployed in a large scale to massively index mass-data. It uses elasticsearch instead of solr.
The grid is made out of YaCy code and I currently think about an opportunity to re-integrate this in legacy YaCy.

To find out more about the YaCy Grid, please have a look at https://github.com/yacy/yacy_grid_mcp

Statistik: Verfasst von Orbiter — Sa Okt 21, 2017 10:46 pm


Mitmachen • Re: Forum und Home-Page Make-Over

Date: 2017-10-23 08:48:07

Auf welchem System läuft die Website?

Statistik: Verfasst von brandy — Mo Okt 23, 2017 7:48 am


Hilfe für Einsteiger und Anwender • Eigenen Index bereitstellen, aber nicht erweitern

Date: 2017-10-23 08:52:19

Hallo!

Ich habe aktuell Yacy im Privatmodus laufen. Ich crawle nur solche Seiten, die ich haben will und baue mir so meinen eigenen Index auf.
Ich habe Yacy auch schon mal öffentlich laufen lassen, da kamen aber soviele Seiten in den Index, die ich eigentlich nicht haben wollte. Kann man nur seine eigenen gecrawlten Seiten auch öffentlich anbieten ohne dass sich diese selbst erweitern?

Vielen Dank!

Statistik: Verfasst von brandy — Mo Okt 23, 2017 7:52 am


Mitmachen • Re: Forum und Home-Page Make-Over

Date: 2017-10-23 10:18:26

Guten Morgen!

Orbiter hat geschrieben:\ Was gibt es noch für Alternativen?\



Das ist [[phpBB{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} mit dem Standard-Theme [[\“prosilver\”{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, was also spricht gegen ein Update auf die neueste Version?

Statistik: Verfasst von TmoWizard — Mo Okt 23, 2017 9:18 am


Hilfe für Einsteiger und Anwender • Re: Eigenen Index bereitstellen, aber nicht erweitern

Date: 2017-10-23 11:00:37

Hallo \@brandy

brandy hat geschrieben:\ Kann man nur seine eigenen gecrawlten Seiten auch öffentlich anbieten ohne dass sich diese selbst erweitern?\



Du benötigst hierzu den [[Senior-Modus{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}, jedoch mußt Du unter [[\“Anwendungsfall & Zugangsdaten\“]{style=“font-style: italic”}]{style=“font-weight: bold”} --> [[\“Netzwerk Einstellungen\“]{style=“font-style: italic”}]{style=“font-weight: bold”} [(/ConfigNetwork_p.html)]{style=“font-style: italic”} --> [[\“Peer-to-Peer Modus\“]{style=“font-style: italic”}]{style=“font-weight: bold”} den [[\“Index-Empfang\“]{style=“font-style: italic”}]{style=“font-weight: bold”} deaktivieren.

Statistik: Verfasst von TmoWizard — Mo Okt 23, 2017 10:00 am


Hilfe für Einsteiger und Anwender • Re: Eigenen Index bereitstellen, aber nicht erweitern

Date: 2017-10-23 11:23:00

Aha, cool, danke für den Tipp.
Dann ist man quasi für aussen offen, bietet aber nur seinen Index.

Weil ich hatte Yacy schon mal offen laufen lassen und da holt er sich einiges an Daten herein.

Vielen Dank!

Statistik: Verfasst von brandy — Mo Okt 23, 2017 10:23 am


Hilfe für Einsteiger und Anwender • Re: Eigenen Index bereitstellen, aber nicht erweitern

Date: 2017-10-24 11:49:58

Mahlzeit, oder so!

brandy hat geschrieben:\ Aha, cool, danke für den Tipp.\ Dann ist man quasi für aussen offen, bietet aber nur seinen Index.\ \ Weil ich hatte Yacy schon mal offen laufen lassen und da holt er sich einiges an Daten herein.\ \ Vielen Dank!\


Gern geschehen, auch wenn ich das nicht so ganz verstehe. Ich bin nämlich froh, wenn mein Index immer größer wird. So komme ich schneller zu passenden Suchergebnissen, da YaCy [[zuerst]{style=“font-style: italic”}]{style=“font-weight: bold”} im eigenen Index und [[dann]{style=“font-style: italic”}]{style=“font-weight: bold”} bei anderen Peers nachsieht!

Zudem habe ich für YaCy extra einen [[alten Rechner zum Server{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} auserkoren, so daß mein Arbeits-PC nicht zusätzlich belastet wird. Der hat bei mir so schon genug zu tun, mit YaCy im Hintergrund wäre das sonst zu heftig!

Statistik: Verfasst von TmoWizard — Di Okt 24, 2017 10:49 am


Hilfe für Einsteiger und Anwender • Re: Eigenen Index bereitstellen, aber nicht erweitern

Date: 2017-10-24 16:19:21

Ja, grundsätzlich hast du recht - möchte es aber mal so probieren!

Ich hab mein Qnap aufgerüstet und habe dort virtuell ein Lubuntu mit Yacy laufen - so kann es die ganze Nacht crawlen...

Statistik: Verfasst von brandy — Di Okt 24, 2017 3:19 pm


Fragen und Antworten • Hallo Fage an euch !

Date: 2017-10-25 19:16:19

ich habe aus dem Internet eine Datei Name Domain mit 27 Mio. Domain. die ich gern in yacy einspielen möchte. wie kann ich das am besten machen

keiner Auszug von der Datei
112.gov.pl
112.io
112.juntaex.es
112.oyunuburada.com
112.roomfa.com
112.slaii.com
112.smilepolice.web.id
112.tw.tranews.com
112.ua
112.uwpagina.nl
1120.py.all.biz
112001.cheezburger.com
112013.deviantart.com
1120354.en.makepolo.com
11206204-pandanganterhadapetikabi.blogspot.com
11206204.blogspot.com
112088.directorioenlinea.com.mx
1120designs.wordpress.com
1120h-online.com
1120production.blogspot.com

Statistik: Verfasst von ww1com — Mi Okt 25, 2017 6:16 pm


Fragen und Antworten • Re: Crawls importieren

Date: 2017-10-25 19:35:17

habe auch 27 Mio Domains in einer Datei.
Hilfe

Statistik: Verfasst von ww1com — Mi Okt 25, 2017 6:35 pm


Fragen und Antworten • Add-ons und YaCyBar

Date: 2017-10-25 21:04:04

Hallo Leute gibt es neues add-on für firafox

Statistik: Verfasst von ww1com — Mi Okt 25, 2017 8:04 pm


English • I am Expermenting with a Pi-Hole.

Date: 2017-10-28 06:23:08

The Pi-Hole Blocks Ad-serving Domains, Network-wide ad blocking via your own Linux hardware, I use it on a RaspberryPi 3.

I think Yacy crawls faster having no Blacklist in your peer. https://pi-hole.net/

My Block lists are here. A lot of the work was done by Wally3k https://discourse.pi-hole.net/u/wally3k/summary

https://discourse.pi-hole.net/t/i-concatenated-every-blocklist-i-could-find/5184/3

Please note if you use all of them you will have some Maintenance to do in the WhiteListing Dept.

Statistik: Verfasst von smokingwheels — Sa Okt 28, 2017 5:23 am


Fragen und Antworten • Re: Hallo Fage an euch !

Date: 2017-10-28 09:35:43

Hallo ww1com.
Warum nicht mit /CrawlStartExpert.html Seite und \“From File (enter a path within your local file system)\“?

Statistik: Verfasst von luc — Sa Okt 28, 2017 8:35 am


YaCy Coding & Architecture • Re: Yacy Architektur Übersicht

Date: 2017-11-03 13:05:28

Hallo banneisen,

du bist willkommen!
Wenn du bei YaCy helfen willst musst du dich erst fragen was du machen willst und dann kannst du eine konkrete Frage hier stellen. Irgendjemand wird dann weiter helfen können.
Was würdest du machen wollen?

Statistik: Verfasst von Orbiter — Fr Nov 03, 2017 1:05 pm


Fragen und Antworten • Re: Citations and 1.929000

Date: 2017-11-03 13:09:27

The usage of the citation index was done in the context of an index post-processing which was dropped as a default configuration in the (not very) recent time because it created too much load.
The citation index is still there because it was a successfull experiment (mostly) but did not appear to be a practical thing for the public peer version.

Statistik: Verfasst von Orbiter — Fr Nov 03, 2017 1:09 pm


Hilfe für Einsteiger und Anwender • Yacy startet nach Update nicht mehr

Date: 2017-11-03 19:57:26

Hallo!

Ich hatte mein Yacy auf einem Lubuntu (Ubuntu 17.04) laufen. Nachdem eine Aktualisierung reinkam und ich diese durchführte lässt sich Yacy nicht mehr starten.
Ich starte Yacy mit ./startYACY und es kommt der bekannt Startbildschirm, mit dem Sternchen umrandeten Feld. Danach ist Schluss, d.h. der Browser mit Yacy startet nicht.

Was funktioniert hier nicht?

Vielen Dank!

Statistik: Verfasst von brandy — Fr Nov 03, 2017 7:57 pm


Fragen und Antworten • Re: (URL) Proxy

Date: 2017-11-04 00:36:44

YaCy identifitziert onion-Adressen als Intranet-Adressen, weil der onion-Router ein lokaler Proxy ist, und tie TLD \“.onion\” gar nicht existiert, nur für den onion-Proxy. Wenn du den TorBrowser verwendest, merkst du das aber gar nicht.

Warum lassen wir keine Intranet-Adressen zu?
Wir haben im globalen p2p Netz keine intranet-Adressen zugelassen. Zum einen ist damit ein Privatsphärenthema betroffen, zum anderen können andere Leute eh nichts mit geshareten intranet-Adressen zulassen.

Du kannst die .onion-Adressen aber trotzdem in einen YaCy Index bekommen, indem zu in den Intranet-Modus schaltest. Dann findet aber kein p2p statt - es gibt ja dann auch kein Netz von YaCy peers mehr, nur noch dein eigener. Um nun diese Links in den index zu bekommen musst du die .onion-Adressen crawlen, nicht per proxy zugreifen.

Statistik: Verfasst von Orbiter — Sa Nov 04, 2017 12:36 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-04 09:19:43

Ich habe jetzt mal Yacy mit -d gestartet.

Ich bekomme nun die Meldung:

Code:
Konfigurationsdatei wurde nicht gefunden: /usr/lib/jvm/java-9-openjdk-1386/conf/management.management.properties

Statistik: Verfasst von brandy — Sa Nov 04, 2017 9:19 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-04 10:06:41

Hallo brandy,
Was ist deine Java-Version nach dem Update? (mit

Code:
> java -version

)

Statistik: Verfasst von luc — Sa Nov 04, 2017 10:06 am


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-04 19:52:52

Code:
openjdk version "9-Ubuntu"OpenJDK Runtime Environment (build 9-Ubuntu+0-9b161-1)OpenJDK Server VM (build 9-Ubuntu+0-9b161-1, mixed mode)

Statistik: Verfasst von brandy — Sa Nov 04, 2017 7:52 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-05 18:15:36

Meine Tests mit einem Lubuntu 17.04, openjdk-9, yacy_v1.92_20161226_9000.tar.gz oder yacy_v1.921_20170830_9342.tar.gz Releases oder den neuesten Quellen von GitHub :

sh startYACY.sh :

Code:
E 2017/11/05 16:06:15 UNCAUGHT-EXCEPTION * Thread main: nulljava.lang.ExceptionInInitializerError   at java.base/javax.crypto.JceSecurityManager.<clinit>(JceSecurityManager.java:66)       ...Caused by: java.lang.SecurityException: Can not initialize cryptographic mechanism   at java.base/javax.crypto.JceSecurity.<clinit>(JceSecurity.java:118)   ... 36 moreCaused by: java.lang.SecurityException: Can't read cryptographic policy directory: unlimited   at java.base/javax.crypto.JceSecurity.setupJurisdictionPolicies(JceSecurity.java:324)



sh startYACY.sh -d :

Code:
Konfigurationsdatei wurde nicht gefunden: /usr/lib/jvm/java-9-openjdk-amd64/conf/management/management.properties



Aber alles funktioniert gut mit openjdk-8 als default jvm :

Code:
sudo apt-get install openjdk-8-jdk update-alternatives --config java

Statistik: Verfasst von luc — So Nov 05, 2017 6:15 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-05 19:19:50

Cool - Vielen Dank!
Das war die Lösung!

Mit der 8er-Version funktionierts alles!

Danke!

Statistik: Verfasst von brandy — So Nov 05, 2017 7:19 pm


Hilfe für Einsteiger und Anwender • Re: Yacy startet nach Update nicht mehr

Date: 2017-11-05 21:31:07

Hallöchen zusammen!

Hm... [[Java 9]{style=“font-style: italic”}]{style=“font-weight: bold”} ... Eigentlich ist das Teil ja offiziell freigegeben worden, was jedoch ein ganz grobes Foul war. Meiner Ansicht nach ist Java [[9]{style=“font-style: italic”}]{style=“font-weight: bold”} den ganzen Fehlern nach noch nicht einmal eine frühe Alpha-Version, sondern befindet sich in einer Art [[\“Laborrattenzustand\“]{style=“font-style: italic”}]{style=“font-weight: bold”}! :x :evil:

Statistik: Verfasst von TmoWizard — So Nov 05, 2017 9:31 pm


English • Problem with the crawler

Date: 2017-11-08 19:50:45

I\’m having the following problem with some of the website listed into my index:

https://www.sitename.com error response: java.io.IOException: Client can\’t execute: Connection reset duration=1411 for url https://www.sitename.com/robots exist: crawl allowed500 ms

So the site can\’t be indexed.

How can I solve this problem. Is it a known issue ?

Kind regards.

Mario

Statistik: Verfasst von irnerio — Mi Nov 08, 2017 7:50 pm


English • Re: Problem with the crawler

Date: 2017-11-10 08:28:24

Hi Mario,
can you provide one or more sample URLs of the problematic websites so one can try to reproduce your error and check what is going wrong?

Best regards
Luc

Statistik: Verfasst von luc — Fr Nov 10, 2017 8:28 am


English • Re: Problem with the crawler

Date: 2017-11-10 09:32:30

Hi Luc !

https://www.sabatino.pro

URLAccessRobotsCrawl-DelaySitemap
https://www.sabatino.pro/error response: java.io.IOException: Client can\’t execute: Connection reset duration=1849 for url https://www.sabatino.pro/robots exist: crawl allowed500 ms[]

Thanks

Mario

Statistik: Verfasst von irnerio — Fr Nov 10, 2017 9:32 am


English • Re: Problem with the crawler

Date: 2017-11-11 20:08:49

Ok, I tried to start a crawl with depth 1 on this website with YaCy peers of version 1.929000 and 1.9219447 ... and if worked fine.

Do you use specific crawler settings? Do you also have an error when checking the failing pages with YaCy URL Viewer (/ViewFile.html)?

Statistik: Verfasst von luc — Sa Nov 11, 2017 8:08 pm


English • Re: About Elasticsearch

Date: 2017-11-13 18:30:30

I run yacy on a external 1to disk drive i use only for that, i can\’t install complicated things like another server !

I Think a will wait the next yacy version or the new search system

Statistik: Verfasst von bubul — Mo Nov 13, 2017 6:30 pm


Hilfe für Einsteiger und Anwender • Yacy will nicht starten

Date: 2017-11-14 19:37:28

Hallo,
habe Yacy zum ersten mal installiert. Wenn ich es starte kommt die Meldung das die \“Javaw\” nicht gefunden wird.
Habe Java 8-151 installiert auf Win7.
Vorhanden ist die Yavaw.exe aber, wo möchte Yacy sie denn installiert haben?

Statistik: Verfasst von skans — Di Nov 14, 2017 7:37 pm


Hilfe für Einsteiger und Anwender • Re: Yacy will nicht starten

Date: 2017-11-16 13:11:28

Hallo skans,
javaw muss sich in deinem Systempfad befinden (überprüfe in einer Konsole mit \“echo %PATH%\” auf das Vorhandensein von etwas wie \“C: \ProgramData\Oracle\Java\javapath\” oder \“C: \Program Files\Java\jre1.8.0_151\bin\“).

Oder Sie können das Skript C:\Users\yourUser\YaCy\start.bat modifizieren (Zeile \“start %priority% javaw %javacmd% -classpath %CLASSPATH% net.yacy.yacy %1 %2 %3 %4 %5 %6 %7 %8 %9\“).

Viele Grüße

Statistik: Verfasst von luc — Do Nov 16, 2017 1:11 pm


English • Re: Problem with the crawler

Date: 2017-11-19 21:28:07

No specific settings. Crawling depth 3 (but it still didn\’t work with 1).

This is the response of the url viewer.

Unable to download resource content.

error loading resource: java.io.IOException: Client can\’t execute: Connection reset duration=1450 for url https://www.sabatino.pro/

I\’ve also atteched a screenshot


luc hat geschrieben:\ Ok, I tried to start a crawl with depth 1 on this website with YaCy peers of version 1.92/9000 and 1.921/9447 \... and if worked fine.\ \ Do you use specific crawler settings? Do you also have an error when checking the failing pages with YaCy URL Viewer (/ViewFile.html)?\

Statistik: Verfasst von irnerio — So Nov 19, 2017 9:28 pm


Hilfe für Einsteiger und Anwender • Re: Crawl nur auf xpath

Date: 2017-11-21 13:50:58

I just want to crawl/index content inside a certain xpath (or whatever). For example

Code:
<div id="content">My indexed content</div><div id="navigation">Always the same content - do not index</div>

Statistik: Verfasst von stbc — Di Nov 21, 2017 1:50 pm


Mitmachen • 34c3

Date: 2017-11-21 14:17:08

Hey, wie schon so oft habe ich vor, beim Congress einen YaCy Peer fürs dortige Intranet zu betreiben und fahre auch hin.
Letztes Jahr war ich zwar nicht da, aber irgendjemand hat die gleiche Aktion dort ebenfalls gemacht und auch einen YaCy für die Intranetsuche installiert!

Wer hinfährt und sich treffen will, bitte hier melden. Meine DECT Nummer werde ich in https://events.ccc.de/congress/2017/wik ... er:Orbiter{.postlink} schreiben...

Statistik: Verfasst von Orbiter — Di Nov 21, 2017 2:17 pm


Suchmaschinen • Re: Yacy-basierte Suchmaschinen / Yacy-based Search Engines

Date: 2017-11-22 00:26:49

http://snipesearch.co.uk for years we used a different indexer. I discovered yacy about a month back, installed it on a 32 core 128GB ram blade with a 512GB SSD and took it for atest drive, it indexed at a rate supremely faster than anything else we ever tried. Yesterday we switched the site over to yacy and its already reached 800k pages in its local index. I\’m very impressed with the script (im sharing the index in the freeworld) and will be adding new blades as each one fills up.

Statistik: Verfasst von snipesearch — Mi Nov 22, 2017 12:26 am


English • Re: Problem with the crawler

Date: 2017-11-22 08:09:36

Ok, the error message is rather generic. It guess it could be an issue with your hardware network connection (but likely not as your crawl is working fine with other websites), or eventually this particular host could be rejecting requests from your YaCy peer for some reason.
Does this website answers without error when you request it from the same computer on which you run YaCy, but with other tools such as a browser, curl, wget...?

Statistik: Verfasst von luc — Mi Nov 22, 2017 8:09 am


English • Re: Problem with the crawler

Date: 2017-11-24 14:41:54

Yes the website is reachable from the server where yacy is installed. May be a problem with ssl ? www.sabatino.pro{.postlink} is my website. The problem started after I changed the ssl certificate. Do you think it\’s only a coincidence ?

Statistik: Verfasst von irnerio — Fr Nov 24, 2017 2:41 pm


English • Re: Problem with the crawler

Date: 2017-11-27 10:14:05

Yes it would be strange to be only a coincidence... But I have \“good\” news : I could reproduce the exact same issue as you when running YaCy 1.929000 with a Oracle JVM jdk1.7.0_80. I had no time yet to check in-depth what is exactly going wrong, but at least I can ensure you that everything works fine with the same YaCy release on a recent 1.8 JVM (OpenJDK or Oracle 1.8.0_151), so I suggest you to upgrade at least your Java version.

Statistik: Verfasst von luc — Mo Nov 27, 2017 10:14 am


Fragen und Antworten • Neue Version von YaCy?

Date: 2017-11-27 12:04:04

Hallöchen zusammen,

ich hätte da mal folgende Fragen:

[[Wann gibt es eigentlich eine neue Version von YaCy oder auch nur ein Sicherheitsupdate oder so?]{style=“font-style: italic”}]{style=“font-weight: bold”}

Auf meinem [[Ubuntu-Server{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} verwende ich hier natürlich das entsprechende deb-Paket und dementsprechend ist auch immer alles aktuell, aber irgendwie kommt da bei YaCy ja mal [[gar nichts mehr{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Zudem stinkt mir folgende Meldung mal wirklich ganz gewaltig:

sudo apt-get update && sudo apt-get dist-upgrade hat geschrieben:\ W: : Signature by key 8BD752501CB62448A30EA3EA1F968B3903D886E7 uses weak digest algorithm [[[(SHA1)]{style="color: #FF0000"}]{style="font-style: italic"}]{style="font-weight: bold"}\



Hier sollte echt einmal was geschehen, denn [[[SHA1]{style=“color: #FF0000”}]{style=“font-style: italic”}]{style=“font-weight: bold”} wurde bereits vor einer Ewigkeit geknackt und gehört deswegen [[nicht nur meiner Meinung nach{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} schon längst schlicht und ergreifend komplett verboten! Bild

Statistik: Verfasst von TmoWizard — Mo Nov 27, 2017 12:04 pm


English • Re: Problem with the crawler

Date: 2017-11-27 21:36:11

A few more details : your website appears to be configured to use TLSv1.2. By default TLSv1.2 and TLSv1.1 are disabled in the JDK 1.7 on client connections, while the JDK 1.8 uses TLSv1.2 as default. I tried to enable TLSV1.2 in my JDK 1.7 install, using the control panel, but still had no success to crawl then your website with a YaCy peer running on this Java version.
So this makes one more good reason to upgrade to Java 1.8.

Statistik: Verfasst von luc — Mo Nov 27, 2017 9:36 pm


English • Re: Problem with the crawler

Date: 2017-11-28 21:45:26

Ok. Thanks. I\’ll make the update. Will let you know. Kind regards.

Mario

Statistik: Verfasst von irnerio — Di Nov 28, 2017 9:45 pm


English • Re: Problem with the crawler

Date: 2017-11-28 22:43:54

Dear Luc, It worked ! Updated to java 1.8.0_151 and all works fine.

Thx again

Mario

Statistik: Verfasst von irnerio — Di Nov 28, 2017 10:43 pm


Fragen und Antworten • Re: Neue Version von YaCy?

Date: 2017-11-28 22:48:02

Hallo TmoWizard,
du kannst deine YaCy Debian-Paket mit einer Entwickler-Version aktualisieren, bitte sehe GitHub issue 124 (https://github.com/yacy/yacy_search_ser ... -339051269{.postlink})

Mit freundlichen Grüßen

Statistik: Verfasst von luc — Di Nov 28, 2017 10:48 pm


Fragen und Antworten • Re: Neue Version von YaCy?

Date: 2017-11-29 12:34:51

Hallo \@luc,

danke für den Hinweis! Das werde ich doch gleich mal probieren, melde mich dann wieder bei Problemen.


Viele Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — Mi Nov 29, 2017 12:34 pm


Fragen und Antworten • Re: Neue Version von YaCy?

Date: 2017-11-29 14:39:11

Täusche ich mich, oder wurde da die Suche extrem beschleunigt? Bis jetzt läuft diese Version jedenfalls stabil, gefällt mir gut!

Statistik: Verfasst von TmoWizard — Mi Nov 29, 2017 2:39 pm


Hilfe für Einsteiger und Anwender • YACY BOOTSTRAP: 0 seeds from seed-list URL http://url

Date: 2017-11-29 21:31:18

Die folgende Meldung erhalte ich bei dennoch erreichbarer{.postlink} Seed-Liste:

Code:
I 2017/11/29 21:29:14 YACY BOOTSTRAP: 0 seeds known from previous run, concurrently starting seedlist loaderI 2017/11/29 21:29:14 YACY re-initialized seed list. received 0 new peer(s)I 2017/11/29 21:29:14 YACY BOOTSTRAP: 0 seeds from seed-list URL http://yacy.mxchange.org/seeds/seed.txt, AGE=0h, uptodatec = 0, outdatedc = 0



Wenn wer weiss, was los ist, ich wuerde mich schon sehr ueber eine Antwort freuen. Der Peer [yacy.mxchange.org]{style=“font-style: italic”} ... versucht gerade seine eigene Liste zu laden. Ein lokales ... [wget]{style=“font-style: italic”} ... auf diese klappt jedoch ohne Probleme.

Dies trifft nur auf, wenn der P2P-Verbund (hier separates Netzwerk) leer ist und noch keine einzige andere Node vorhanden ist.

Statistik: Verfasst von Quix0r — Mi Nov 29, 2017 9:31 pm


Hilfe für Einsteiger und Anwender • Re: YACY BOOTSTRAP: 0 seeds from seed-list URL http://url

Date: 2017-11-29 23:03:35

Das ganze kommt nun wieder, nachdem zwei oeffentliche Peers sich gegenseitig als Senior/Principal sehen konnten und nun ploetzlich beide junior sind. Seltsames Verhalten. Die IPs sind oeffentlich zugaenglich und somit sollten sie sich sehen koennen.

Nur zum Reproduzieren:
1) [defaults/yacy.network.freeworld.unit]{style=“font-weight: bold”} kopieren z.B. nach [defaults/yacy.network.myworld.unit]{style=“font-weight: bold”}
2) Die neue Unit-Datei editieren und [freeworld]{style=“font-weight: bold”} nach [myworld]{style=“font-weight: bold”} umbenenen, auch Beschreibung anpassen: [My Search Cluster]{style=“font-weight: bold”}.
3) In der neuen Unit-Datei die Seedliste leeren und eigene, fuer alle Peers zugaengliche URL z.B. [http://example.tld/seed/seeds.txt]{style="font-weight: bold”} eintragen.
4) Dann die Peers mit der neuen Unit-Datei konfigurieren und beim \“Hauptpeer\” (von wo die Peerliste stammt und sich alle anderen Peers anmelden) die Seed-Datei-Einstellungen anpassen, so dass die Seedliste auch dort (z.B. [http://example.tld/seed/seeds.txt]{style="font-weight: bold”}) hin zugaenglich gemacht wird.
5) Dann die Peers hochfahren und sich verbinden lassen, die peers werden somit senior/principal.
6) Eventuell klappt es zuerst, dann aber nach 12 - 1 Stunde Wartezeit klappt es nicht mehr und alle sind junior geworden.

Statistik: Verfasst von Quix0r — Mi Nov 29, 2017 11:03 pm


Fragen und Antworten • Re: Neue Version von YaCy?

Date: 2017-11-30 07:48:51

Ah sorry, I have some difficulties to find my words in German.
But it is good to know you have an overall impress of speed-up. Upgrade to Solr 6.x may have help, but also various small performance improvements. Thanks for your feedback.

Statistik: Verfasst von luc — Do Nov 30, 2017 7:48 am


Mitmachen • Re: 34c3

Date: 2017-12-08 16:12:29

I am working on a logo for our search server there.…

Contribution to the graphics, anyone?

Font is taken from the original design guide: https://lns.wtf/twt/

Statistik: Verfasst von Orbiter — Fr Dez 08, 2017 4:12 pm


English • How does the yacy web server work?

Date: 2017-12-09 20:09:17

I have experience only with Apache.

When installing yacy I left the port by default, it is a public instance, for the moment we have shared the url \“ip+port\“.
Now I have the following problem, many people already use the url http://37.228.132.249:8090/ so it should keep working, but in reality to point to a domain or subdomain I need yacy to be in port 80 what can I do?

Statistik: Verfasst von juansantiago — Sa Dez 09, 2017 8:09 pm


English • How to exclude section of a domain?

Date: 2017-12-10 02:42:22

[Hi!]{style=“font-weight: bold”} :D How can I exclude from scanning, a section of the domain to scan?
Eg. I want the crawler to scan the site foo.com, which has a wiki at foo.com/wiki and a forum at foo.com/forum.
Since it will be an overkill to scan a big wiki and specially a forum, how can I scan the rest of the domain?

[TIA!]{style=“font-weight: bold”} :D G.

Statistik: Verfasst von Giorgos — So Dez 10, 2017 2:42 am


Off-Topic • Re: Yacystats offline

Date: 2017-12-12 11:24:10

Finding the best programming for accelerating your PC is straightforward, yet perplexing. Many projects assert that they can accelerate your PC. Furthermore, there\’s most likely more than a modest bunch of PC streamlining programs accessible that reveal to you that only they are the best programming for accelerating your PC. So how might you tell a genuine programming for accelerating your PC from all the amateur projects? The best programming for accelerating your PC will have the capacity to securely and precisely expel any undesirable or pointless things from beginning up when Windows boots up. There are many projects that, upon establishment, will roll out improvements to your PC\’s framework settings to consequently stack that product program out of sight each time your PC boots up.
Thanks& Regards,
Angel anave
Web Design Company Toronto{.postlink}|Toronto Web Development{.postlink} | Web Development Toronto{.postlink}

Statistik: Verfasst von trice001 — Di Dez 12, 2017 11:24 am


English • Re: How does the yacy web server work?

Date: 2017-12-15 10:50:38

Hello \@juansantiago,
you should not change your existing YaCy ports configuration, but just configure a front Apache server as a reverse proxy.
You can find such an example Apache configuration on this mantis note (http://mantis.tokeek.de/view.php?id=106#c1344).

Best regards

Statistik: Verfasst von luc — Fr Dez 15, 2017 10:50 am


Off-Topic • Re: FOSS-affines Web Hosting?

Date: 2017-12-18 08:30:16

thankls

Statistik: Verfasst von trice001 — Mo Dez 18, 2017 8:30 am


English • Robinson Only Displays PDF in Localhost, not External URL

Date: 2017-12-19 07:03:49

Hello Yacy forum,
We have a Robinson mode installation with documents indexed that display beautifully when the URL string is either:
localhost
OR
machine_name

but it fails if we search from the world wide web to the same server, so if yacy was on www.domain.com{.postlink} then it fails.

If while on the local network I rewrite the URL from my search results, to replace the domain.com by the machine_name then the document appears.

Any advice?

thank you

Statistik: Verfasst von rashid — Di Dez 19, 2017 7:03 am


English • Re: How to exclude section of a domain?

Date: 2017-12-19 10:38:26

Hi Giorgos,
you can do this using the \“Load Filter on URLs\” field in the Advanced Crawler page (/CrawlStartExpert.html).
For example :
- tick the \“Restrict to start domain(s)\” radio button
- type a regular expression in the \“must-not-match\“, something such as http://foo.com/((wiki)|(forum))/?.*

You can use the Regex Test page (/RegexTest.html) to adjust your filtering regular expression before launching the crawl.
Then when the crawl is launched, you can check that filtering is effectively performed in the \“Rejected URLs\” page (/IndexCreateParserErrors_p.html).

Happy crawling

Statistik: Verfasst von luc — Di Dez 19, 2017 10:38 am


English • Re: Robinson Only Displays PDF in Localhost, not External UR

Date: 2017-12-19 11:12:06

Hello rashid,
you have documents indexed with localhost URLs so this mean you are using the intranet Network Definition, or \“Intranet Indexing\” Basic Configuration setting isn\’t it?
This mode is designed to run on private intranets, so indexed document URLs are not supposed to be accessible from external networks.

To index and share results on a publicly available server without using peer-to-peer features, the Web Portal mode (\“Search portal for your own web pages\” Basic Configuration setting) is probably what you need. In this mode you will have to crawl your documents starting from publicly available URLs (localhost or intranet domains URLs will be rejected). Then your search results will provide only public URLs as expected.

Best regards

Statistik: Verfasst von luc — Di Dez 19, 2017 11:12 am


English • Re: How to exclude section of a domain?

Date: 2017-12-19 12:51:22

[THANKS]{style=“font-weight: bold”} luc[!!! ]{style=“font-weight: bold”} :D I\’ll try it!

Statistik: Verfasst von Giorgos — Di Dez 19, 2017 12:51 pm


Off-Topic • Comprar Carta de Condução Portuguesa (paul_stevens98\@yahoo.c

Date: 2017-12-20 11:32:34

Produzimos documentos de excelente qualidade como; Passaportes, vistos, carta de condução, cartões de identificação, diplomas, certidões de nascimento, cartões de segurança social, documentos de seguro e muitos mais. Nós produzimos estes documentos para países como Portugal, EUA, Canadá, Reino Unido, Austrália, Nova Zelândia, Itália, Alemanha, Espanha, Brasil, México e tantos outros países ao redor do mundo. Apenas contacte-nos e nós dar-lhe-emos a informação completa;

E-mail de contato: ()

Whatsapp: +44 7872 289114


Comprar autêntico Passaportes Português

Comprar autêntico EUA (Estados Unidos) passaportes

Comprar autêntico passaportes australianos,

Comprar autêntica passaportes Bélgica,

Comprar autêntico passaporte brasileiro (Brasil)

Comprar autêntico canadense (Canadá) passaportes,

Comprar autêntico finlandês (Finlândia) passaportes,

Comprar autêntico francês (França) passaportes,

Comprar autêntico passaporte italiano

Comprar autêntico alemão (Alemanha) passaportes,

Comprar autêntico passaporte holandês (Holanda / Holanda)

Comprar autêntico passaportes de Israel,

Comprar autêntico passaportes do Reino Unido (Reino Unido)

Comprar autêntico espanhol (Espanha) passaportes,

Comprar autêntico mexicano (México) passaportes,

Comprar autênticos passaportes sul-africanos.

Comprar autêntico licenças de motorista australiano,

Comprar licenças de motorista autêntico canadense,

Comprar licenças de motorista autêntico francês (França)

Comprar autêntico holandês (Holanda / Holanda) cartas de condução,

Comprar autêntico alemão (Alemanha) cartas de condução,

Comprar autêntico UK (Reino Unido) cartas de condução,


comprar carta de conduçao portuguesa
carta de condução portuguesa
carta de condução portuguesa no brasil
carta de condução portuguesa em angola
carta de condução portuguesa no reino unido
carta de condução portuguesa em inglaterra
carta de condução portuguesa valida em que paises
carta de condução portuguesa na suiça
carta de condução portuguesa nos estados unidos
carta de condução portuguesa no canada
carta de condução portuguesa antiga
carta de condução portuguesa angola
a carta de condução portuguesa é válida no brasil
a carta de condução portuguesa é válida no reino unido
carta de condução portuguesa brasil
carta de conduçao portuguesa b1
carta de condução portuguesa b
carta de conduçao portuguesa b
carta de condução portuguesa categorias
carta de condução portuguesa em moçambique
carta de condução portuguesa em frança
carta de condução portuguesa em espanha
carta de condução portuguesa em marrocos
carta de condução portuguesa em londres
carta de condução portuguesa em angola 2013
carta de condução portuguesa estados unidos
carta de condução portuguesa exemplo
carta de condução portuguesa é valida no brasil
carta de condução portuguesa é válida no reino unido
carta de condução portuguesa é válida em inglaterra
carta de condução portuguesa é valida em moçambique
carta de conduçao portuguesa falsa
carta de conduçao portuguesa internacional
carta de condução portuguesa na alemanha
carta de condução portuguesa na australia
carta de condução portuguesa no estrangeiro
carta de condução portuguesa na inglaterra
carta de condução portuguesa no dubai
carta de condução portuguesa para suiça
carta de conduçao portuguesa pontos
carta de conduçao portuguesa perdida
carta de conduçao portuguesa preço
mudar carta de condução portuguesa para francesa
transferir carta de condução portuguesa para brasileira
mudar carta de condução portuguesa para inglesa
mudar carta de condução portuguesa para brasileira
carta de condução republica portuguesa
carta de condução portuguesa serve no brasil
carta de conduçao portuguesa tem pontos
carta de condução portuguesa valida no brasil
carta de condução portuguesa válida em angola
carta de condução portuguesa valida no reino unido
carta de condução portuguesa valida no canada
carta de conduçao portuguesa valida nos estados unidos
carta de conduçao portuguesa validade
carta de condução portuguesa 2013



E-mail de contato: ()

Whatsapp: +44 7872 289114

Statistik: Verfasst von jcole11 — Mi Dez 20, 2017 11:32 am


Fragen und Antworten • Comprar Carta de Condução Portuguesa (paul_stevens98\@yahoo.c

Date: 2017-12-20 11:34:44

Produzimos documentos de excelente qualidade como; Passaportes, vistos, carta de condução, cartões de identificação, diplomas, certidões de nascimento, cartões de segurança social, documentos de seguro e muitos mais. Nós produzimos estes documentos para países como Portugal, EUA, Canadá, Reino Unido, Austrália, Nova Zelândia, Itália, Alemanha, Espanha, Brasil, México e tantos outros países ao redor do mundo. Apenas contacte-nos e nós dar-lhe-emos a informação completa;

E-mail de contato: ()

Whatsapp: +44 7872 289114


Comprar autêntico Passaportes Português

Comprar autêntico EUA (Estados Unidos) passaportes

Comprar autêntico passaportes australianos,

Comprar autêntica passaportes Bélgica,

Comprar autêntico passaporte brasileiro (Brasil)

Comprar autêntico canadense (Canadá) passaportes,

Comprar autêntico finlandês (Finlândia) passaportes,

Comprar autêntico francês (França) passaportes,

Comprar autêntico passaporte italiano

Comprar autêntico alemão (Alemanha) passaportes,

Comprar autêntico passaporte holandês (Holanda / Holanda)

Comprar autêntico passaportes de Israel,

Comprar autêntico passaportes do Reino Unido (Reino Unido)

Comprar autêntico espanhol (Espanha) passaportes,

Comprar autêntico mexicano (México) passaportes,

Comprar autênticos passaportes sul-africanos.

Comprar autêntico licenças de motorista australiano,

Comprar licenças de motorista autêntico canadense,

Comprar licenças de motorista autêntico francês (França)

Comprar autêntico holandês (Holanda / Holanda) cartas de condução,

Comprar autêntico alemão (Alemanha) cartas de condução,

Comprar autêntico UK (Reino Unido) cartas de condução,


comprar carta de conduçao portuguesa
carta de condução portuguesa
carta de condução portuguesa no brasil
carta de condução portuguesa em angola
carta de condução portuguesa no reino unido
carta de condução portuguesa em inglaterra
carta de condução portuguesa valida em que paises
carta de condução portuguesa na suiça
carta de condução portuguesa nos estados unidos
carta de condução portuguesa no canada
carta de condução portuguesa antiga
carta de condução portuguesa angola
a carta de condução portuguesa é válida no brasil
a carta de condução portuguesa é válida no reino unido
carta de condução portuguesa brasil
carta de conduçao portuguesa b1
carta de condução portuguesa b
carta de conduçao portuguesa b
carta de condução portuguesa categorias
carta de condução portuguesa em moçambique
carta de condução portuguesa em frança
carta de condução portuguesa em espanha
carta de condução portuguesa em marrocos
carta de condução portuguesa em londres
carta de condução portuguesa em angola 2013
carta de condução portuguesa estados unidos
carta de condução portuguesa exemplo
carta de condução portuguesa é valida no brasil
carta de condução portuguesa é válida no reino unido
carta de condução portuguesa é válida em inglaterra
carta de condução portuguesa é valida em moçambique
carta de conduçao portuguesa falsa
carta de conduçao portuguesa internacional
carta de condução portuguesa na alemanha
carta de condução portuguesa na australia
carta de condução portuguesa no estrangeiro
carta de condução portuguesa na inglaterra
carta de condução portuguesa no dubai
carta de condução portuguesa para suiça
carta de conduçao portuguesa pontos
carta de conduçao portuguesa perdida
carta de conduçao portuguesa preço
mudar carta de condução portuguesa para francesa
transferir carta de condução portuguesa para brasileira
mudar carta de condução portuguesa para inglesa
mudar carta de condução portuguesa para brasileira
carta de condução republica portuguesa
carta de condução portuguesa serve no brasil
carta de conduçao portuguesa tem pontos
carta de condução portuguesa valida no brasil
carta de condução portuguesa válida em angola
carta de condução portuguesa valida no reino unido
carta de condução portuguesa valida no canada
carta de conduçao portuguesa valida nos estados unidos
carta de conduçao portuguesa validade
carta de condução portuguesa 2013



E-mail de contato: ()

Whatsapp: +44 7872 289114

Statistik: Verfasst von jcole11 — Mi Dez 20, 2017 11:34 am


YaCy Coding & Architecture • Comprar Carta de Condução Portuguesa (paul_stevens98\@yahoo.c

Date: 2017-12-20 11:36:41

Produzimos documentos de excelente qualidade como; Passaportes, vistos, carta de condução, cartões de identificação, diplomas, certidões de nascimento, cartões de segurança social, documentos de seguro e muitos mais. Nós produzimos estes documentos para países como Portugal, EUA, Canadá, Reino Unido, Austrália, Nova Zelândia, Itália, Alemanha, Espanha, Brasil, México e tantos outros países ao redor do mundo. Apenas contacte-nos e nós dar-lhe-emos a informação completa;

E-mail de contato: ()

Whatsapp: +44 7872 289114


Comprar autêntico Passaportes Português

Comprar autêntico EUA (Estados Unidos) passaportes

Comprar autêntico passaportes australianos,

Comprar autêntica passaportes Bélgica,

Comprar autêntico passaporte brasileiro (Brasil)

Comprar autêntico canadense (Canadá) passaportes,

Comprar autêntico finlandês (Finlândia) passaportes,

Comprar autêntico francês (França) passaportes,

Comprar autêntico passaporte italiano

Comprar autêntico alemão (Alemanha) passaportes,

Comprar autêntico passaporte holandês (Holanda / Holanda)

Comprar autêntico passaportes de Israel,

Comprar autêntico passaportes do Reino Unido (Reino Unido)

Comprar autêntico espanhol (Espanha) passaportes,

Comprar autêntico mexicano (México) passaportes,

Comprar autênticos passaportes sul-africanos.

Comprar autêntico licenças de motorista australiano,

Comprar licenças de motorista autêntico canadense,

Comprar licenças de motorista autêntico francês (França)

Comprar autêntico holandês (Holanda / Holanda) cartas de condução,

Comprar autêntico alemão (Alemanha) cartas de condução,

Comprar autêntico UK (Reino Unido) cartas de condução,


comprar carta de conduçao portuguesa
carta de condução portuguesa
carta de condução portuguesa no brasil
carta de condução portuguesa em angola
carta de condução portuguesa no reino unido
carta de condução portuguesa em inglaterra
carta de condução portuguesa valida em que paises
carta de condução portuguesa na suiça
carta de condução portuguesa nos estados unidos
carta de condução portuguesa no canada
carta de condução portuguesa antiga
carta de condução portuguesa angola
a carta de condução portuguesa é válida no brasil
a carta de condução portuguesa é válida no reino unido
carta de condução portuguesa brasil
carta de conduçao portuguesa b1
carta de condução portuguesa b
carta de conduçao portuguesa b
carta de condução portuguesa categorias
carta de condução portuguesa em moçambique
carta de condução portuguesa em frança
carta de condução portuguesa em espanha
carta de condução portuguesa em marrocos
carta de condução portuguesa em londres
carta de condução portuguesa em angola 2013
carta de condução portuguesa estados unidos
carta de condução portuguesa exemplo
carta de condução portuguesa é valida no brasil
carta de condução portuguesa é válida no reino unido
carta de condução portuguesa é válida em inglaterra
carta de condução portuguesa é valida em moçambique
carta de conduçao portuguesa falsa
carta de conduçao portuguesa internacional
carta de condução portuguesa na alemanha
carta de condução portuguesa na australia
carta de condução portuguesa no estrangeiro
carta de condução portuguesa na inglaterra
carta de condução portuguesa no dubai
carta de condução portuguesa para suiça
carta de conduçao portuguesa pontos
carta de conduçao portuguesa perdida
carta de conduçao portuguesa preço
mudar carta de condução portuguesa para francesa
transferir carta de condução portuguesa para brasileira
mudar carta de condução portuguesa para inglesa
mudar carta de condução portuguesa para brasileira
carta de condução republica portuguesa
carta de condução portuguesa serve no brasil
carta de conduçao portuguesa tem pontos
carta de condução portuguesa valida no brasil
carta de condução portuguesa válida em angola
carta de condução portuguesa valida no reino unido
carta de condução portuguesa valida no canada
carta de conduçao portuguesa valida nos estados unidos
carta de conduçao portuguesa validade
carta de condução portuguesa 2013



E-mail de contato: ()

Whatsapp: +44 7872 289114

Statistik: Verfasst von jcole11 — Mi Dez 20, 2017 11:36 am


English • Re: Robinson Only Displays PDF in Localhost, not External UR

Date: 2017-12-25 05:35:45

Okay - that worked perfectly.
Seeing your explanation helped me better understand what Robinson mode is for and what it cannot do.

thank you so much,

Rashid

Statistik: Verfasst von rashid — Mo Dez 25, 2017 5:35 am


Hilfe für Einsteiger und Anwender • Re: YaCy crawlt eine (meine) Seite nicht

Date: 2017-12-25 19:57:21

Hallo,

sorry, dass ich mich hier einfach ran hänge, aber ich habe ein ähnliches Problem. Ich möchte nur für mich eine kleine Suchmaschine lokal betreiben. Allgemein läuft alles bestens (Win 10 Pro + letzte Yacy-Version). Ich habe habe nur hin und wieder mit SSL-Websites Probleme, also hin und wieder mit Websites die mit https beginnen. Dann erhalte ich manchmal diesen Fehler:

\ Crawling von \"https://www.website.de\" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can\'t execute: Received fatal alert: internal\_error duration=31 for url \


Ich kann leider mit diesem Fehler nichts anfangen. Ich verstehe auch nicht warum viele https-Seiten gecrawlt werden können und einige wenige nicht.
Ich finde diverse Hinweise das ich nicht der Einzige bin der dieses Problem hat, aber eine Lösung habe ich nicht gefunden.

Habt ihr einen Tipp?
Vielen Dank!

Statistik: Verfasst von Timo — Mo Dez 25, 2017 7:57 pm


Mitmachen • Re: 34c3

Date: 2017-12-26 17:51:36

ok, this is a bit Star Wars like...
YaCy_34c3_3d.png

Statistik: Verfasst von Orbiter — Di Dez 26, 2017 5:51 pm


Fragen und Antworten • Video Suchergebnisse nicht correct

Date: 2017-12-26 18:43:38

Hallo Yacy Forum.

Mir faellt auf, dass es mit den Video Suchergebnissen probleme gibt. Ich war der Meinung, dass Yacy Video Dateien nach namen indexiert (nur links indexiert die mit .mp4 oder aehnlichem enden).

Meine Video Suchergebnisse zeigen oft links zu seiten die gar kein video enthalten und es ist mir schon ein paar mal passiert, dass ein link welches mit .mp4 endete in wirklichkeit eine versteckte .exe datei (malware) war.

Zusaeztlich finde ich, dass zum Beispiel nur 3 Video Suchergebnisse gezeigt werden oder manchmal garkeine selbst wenn Yacy behauptet tausende von Resultaten gefunden zu haben.

Ich wuerde gerne wissen was ich machen kann um diese Fehler zu reparieren.

Ich wuerde auch gerne wissen was getan werden muss, damit wir Video Beschreibungen durchsuchen koennen und wie wir das Titel Bild fuer Videos in den Suchergebnissen zeigen koennen

Ich bin mit der Text suche von Yacy sehr zufrieden. Mit einer etwas besseren Video Suche koennen wir bald allen Youtube etc auf nimmer wiedersehen sagen :)
Hier ist ein Beispiel auf meiner seite wo nach Videos mit \“dog\” gesucht wurde.

http://odat.xyz:8090/yacysearch.html?qu ... rtRecord=0{.postlink}

videoresults.png

Statistik: Verfasst von ircamb — Di Dez 26, 2017 6:43 pm


English • Decentralized forums with Yacy - MetaNet

Date: 2017-12-26 20:23:03

The idea is a decentralized forum that works with the help of Yacy or any other search engine.

Forums would essentially be categorized by a tag in a webpage\’s metadata (like a hashtag).
Everyone could post to any forum simply by creating a page with text and adding the appropriate tag to the pages metadata (#cars #pets #jobs #movies #questions .…) The average person could use Wordpress or any other CMS to make this easier.

Instead of having to browse a centralized forum, one would use Yacy to search for a \“hashtag\” and order the results by date. The results should show posts and responses by everyone while eliminating spammers since the search engine will be less likely to index posts with low value.

To respond to a \“forum post\” of this kind anyone else could simply write a response on their own website with the same forum tag in the metadata and also an identifier in the metadata linking the response to the original post (perhaps the url of the original post).

To \“follow\” someone we can use good old RSS or Atom feeds that seem to be very under appreciated lately.

This approach provides decentralized and censorship resistant forums with already existing tools instead of requiring the development specialized software such as Diaspora, Steem, GNUsocial and other decentralized social networking projects.

I believe the main difficulty will be for a large enough group to agree on how exactly to tag posts and responses in the metadata.

For this I have created the github project \“Metanet\” https://github.com/Cam-B/MetaNet

I would like to know what others think. Please share your ideas. :D

Statistik: Verfasst von ircamb — Di Dez 26, 2017 8:23 pm


Fragen und Antworten • Re: Video Suchergebnisse nicht correct

Date: 2017-12-27 07:41:55

Hallo ircamb,
I hope it is not a problem if I had here a small answer in English, or let me know otherwise.
So I suggest you to upgrade to YaCy developer release 1.9219460 (see /ConfigUpdate_p.html page) or to latest sources from GitHub. With these versions, results counting accuracy and media search (audio/video) have been improved.
But for now, I agree much more can still to be done for video search (preview player for authenticated users? improved crawler capabilities...) to be truly convenient to use.

Best regards

Statistik: Verfasst von luc — Mi Dez 27, 2017 7:41 am


English • Re: Decentralized forums with Yacy - MetaNet

Date: 2017-12-27 09:22:03

Hi ircamb,
did you have a look at some of these pages :
- W3C note on Social Web Protocols{.postlink}
- the IndieWeb{.postlink} community, notably its reply{.postlink} page
- the h-entry microformat{.postlink}

I guess there is there almost everything needed for decentralized discussions, being either standards, agreement on formats by many people, or rendering software implementations.

To my mind the next questions to explore can be :
- does YaCy currently properly interact with these already existing formats?
- should it be improved and to which extend ?
- is it the appropriate place for a search engine to render decentralized discussion threads, and how exactly should it be rendered?

Statistik: Verfasst von luc — Mi Dez 27, 2017 9:22 am


Hilfe für Einsteiger und Anwender • Quellcode der Seite anstatt Seiteninhalte durchsuchen

Date: 2017-12-28 13:24:10

Hallo!

Ich möchte nicht die Seiteninhalte, sondern den Quellcode der Seite selbst durchsuchen. Beispielweise nach Pfadangaben oder eingebundenen Elementen wie iframes, objects, .…

Kann ich die Suchmaske dahingehend \“umdrehen\” oder geht das nur über die Logdaten.

Danke!

Statistik: Verfasst von YaCyFan — Do Dez 28, 2017 1:24 pm


Fragen und Antworten • Re: Video Suchergebnisse nicht correct

Date: 2017-12-29 19:29:36

English is fine and thank you very much Luc!

Let\’s hope for a stable release with these updates soon. :)

Statistik: Verfasst von ircamb — Fr Dez 29, 2017 7:29 pm


English • Re: Decentralized forums with Yacy - MetaNet

Date: 2017-12-29 20:14:23

Hi Luc.

Thank you very much for these links. They were very helpful. :D Microformats is exactly the type of metadata I was trying to describe and from what I can tell there are already all of the tags required for decentralized forums, videos, markets and such.

You are right. We can move forward and explore further options now.

\ - does YaCy currently properly interact with these already existing formats?\



I\’m not finding any documentation regarding Microformats with Yacy. I will ask on the Github page.

\ - should it be improved and to which extend ?\



I think at first we should work on making it possible for Yacy to list comments/replies, ratings, videos and items for sale. (in that order)

\ - is it the appropriate place for a search engine to render decentralized discussion threads, and how exactly should it be rendered?\



While many users might prefer a more direct approach to discussions with friends, I do believe that a search engine based approach is necessary for more decentralized and censorship resistant discussions (questions and answers) between \“strangers\“. I also think that the search engine approach helps with cross network compatibility.

I think as long as we can have Yacy list search results according to their microformats tag then creating different UI\’s for different use cases would be quite simple.

For example it would be very exciting to be able to search for \“exampleURL.com/of-a-post\” <h-reply>
And this would then list all replies/comments that Yacy has found. Someone running their own Yacy node would usually crawl his friends pages first, therefore indexing his friends comments periodically before search for more comments by strangers.


I\’ll continue to update Metanet with our new findings. https://github.com/Cam-B/MetaNet
The main project site is https://odat.xyz

Statistik: Verfasst von ircamb — Fr Dez 29, 2017 8:14 pm


English • Re: Decentralized forums with Yacy - MetaNet

Date: 2017-12-30 07:10:53

I was just thinking that the standards of Schema.org should probably also be used since they are already in use by an even larger number of pages.

Statistik: Verfasst von ircamb — Sa Dez 30, 2017 7:10 am


English • How to enter an URL list to crawl with some parameters ?

Date: 2018-01-01 19:54:10

Hi to all

(I am new here - [happy 2018 btw !]{style=“font-weight: bold”})

I\’d like to enter a list of urls to start to crawl
- not one by one
- with some parameter for each, different for each url (url of course, but also crawl depth, max pages count, collection name, restrict to sub-path or not ...)

I have an excel list of these, but of course, I can change that to anything required

Thanks in advance,
Fabrice

Statistik: Verfasst von fff — Mo Jan 01, 2018 7:54 pm


Panorama • Re: E-Mail Client with Forward Secrecy

Date: 2018-01-03 09:36:07

Hi there! Thanks a lot for the instruction! It\’s very easy to follow your directions! I do appreciate your assistance!

Statistik: Verfasst von allensurface — Mi Jan 03, 2018 9:36 am


English • Browser for the masses

Date: 2018-01-06 16:17:27

Hello,
I am new to Yacy, which is such a great project.
I was wondering if there is a way to design a very user friendly browser, maybe based on chromium, that would automatically run a Yacy node in the background and use it as its default search engine.
This node would crawl every visited website.
Of course, the private mode would shut it off.

Dooble, even in its new version https://textbrowser.github.io/dooble/ does not meet my expectations.

Any ideas ?

Statistik: Verfasst von inscannable — Sa Jan 06, 2018 4:17 pm


Fragen und Antworten • Neues Jahr und neues Pech! :-(

Date: 2018-01-07 10:57:43

Hallöchen zusammen,

erst einmal ein Willkommen im Jahr [[2018]{style=“font-style: italic”}]{style=“font-weight: bold”}!

Tja, wieder einmal habe ein ähnliches Problem wie schon [[>hier<{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”} beschrieben. Da diesmal das Löschen der [[\“citation.*.blob\“]{style=“font-style: italic”}]{style=“font-weight: bold”} leider gar nichts brachte steh ich nun hier und weiß nicht mehr weiter! Deswegen hier erst einmal die derzeitige [[yacy00.log]{style=“font-style: italic”}]{style=“font-weight: bold”}, wegen Zeichenbeschränkung hier im Forum als Datei bei meinem Hoster:

[[yacy00.log{.postlink}]{style=“font-style: italic”}]{style=“font-weight: bold”}

Vielen Dank schon mal für eure Hilfe

Grüße aus Augsburg

Mike, TmoWizard

Statistik: Verfasst von TmoWizard — So Jan 07, 2018 10:57 am


Fragen und Antworten • Re: Neues Jahr und neues Pech! :-(

Date: 2018-01-07 13:14:50

Hallo Mike,
sorry in 2018 I am still so bad in German speaking :(
But maybe I can help you a little in English.

In your other log files (yacy[nn].log), do you find somewhere \“OutOfMemoryError\“?
Is your YaCy web interface completely unreachable, or is it only some pages that are not responding?
YaCy internal storage (so-called \“blob\” files) seems to be not always very efficient with very large numbers of entries. Do you set a limit in \“Index Reference Size\” in /IndexControlRWIs_p.html? For my own server I set a limit of 100000 and it looks like it works rather fine.

Best regards,
Luc

Statistik: Verfasst von luc — So Jan 07, 2018 1:14 pm


Fragen und Antworten • Re: Neues Jahr und neues Pech! :-(

Date: 2018-01-07 13:46:55

Hallo Mike,

ich kann leider auch auch keine Auffälligkeit in dem Log erkennen.
Hast Du evtl. das Logfile verwechselt?
Wie äusstert sich Dein Problem?

Cu, sixcooler.

Statistik: Verfasst von sixcooler — So Jan 07, 2018 1:46 pm


Hilfe für Einsteiger und Anwender • Re: YaCy crawlt eine (meine) Seite nicht

Date: 2018-01-09 18:42:43

Falls jemand ein ähnliches Problem hat, der kann diese Yacy-Version verwenden. Diese funktioniert prima:
https://github.com/luccioman/yacy_searc ... r/releases{.postlink}

Statistik: Verfasst von Timo — Di Jan 09, 2018 6:42 pm


Presse • Re: Blog-Sammel-Thread

Date: 2018-01-11 23:19:24

Hallo,

Ein interessanter Artikel zu diesem Thema dort{.postlink} - https://www.golem.de/news/howto-goodbye ... 482-6.html{.postlink}

Statistik: Verfasst von Vicky Bak — Do Jan 11, 2018 11:19 pm


Hilfe für Einsteiger und Anwender • Re: Domain auf richtigen Port \“trimmen\”

Date: 2018-01-13 12:47:08

Wenn man Yacy auf einer Machine mit dynamischer IP-Adresse verwendet, kann man auch einen DynDNS-Service verwenden z.b. den von ddns.net. Das funktioniert einwandfrei. Lediglich der Router muss dynamisches DNS unterstützen. Dort trägt man seine Zugangsdaten von ddns.net ein und läd einen kleine Client-Software auf den Rechner. Dieser synchronisiert alle paar Minuten die IP mit der gewählten Domain. Beispiel: Du registrierst auf ddns.net die Domain meine-suche.ddns.net und trägst die Zugangsdaten beim Router ein. Dann erreicht man die Yacy-Suchseite immer über die URL \“meine-suche.ddns.net\“, egal welche IP-Adresse der ISP Dir gerade zugeteilt hat.

Statistik: Verfasst von Timo — Sa Jan 13, 2018 12:47 pm


Fragen und Antworten • Re: Video Suchergebnisse nicht correct

Date: 2018-01-14 23:24:57

I finally upgraded. It\’s nice that the \“strict\” results only show urls that end with a proper file extension. Works a lot better now! :D :lol:

Video descriptions and thumbnails next? :mrgreen: Please.

Statistik: Verfasst von ircamb — So Jan 14, 2018 11:24 pm


English • Re: How to enter an URL list to crawl with some parameters ?

Date: 2018-01-15 18:15:39

I think you have to do them one by one if you want different parameters for each url.

Statistik: Verfasst von ircamb — Mo Jan 15, 2018 6:15 pm


English • Re: Browser for the masses

Date: 2018-01-15 18:30:06

You can compile a package containing Firefox + Yacy or Chromium + Yacy. It\’s easy to set Yacy as the default search engine for most browsers.

Browser integration:
After searching, click-open on the default search engine in the upper right search field of your browser and select \‘Add \“YaCy Search..\”\’

Bild

Next you just need a little script that can add every visited page to your crawler.

Statistik: Verfasst von ircamb — Mo Jan 15, 2018 6:30 pm


English • issues with JPG snapshots.

Date: 2018-01-15 18:41:03

I have set Jpg snapshots at ConfigSearchPage_p.html.

In search results however I\’m seeing only XML Snapshots. I was expecting to see a preview image of the page.
Am I not understanding how it should work? Did I miss something in configuration?

Here are 2 snapshots

Bild

and here

Bild

Statistik: Verfasst von ircamb — Mo Jan 15, 2018 6:41 pm


English • Re: How to enter an URL list to crawl with some parameters ?

Date: 2018-01-16 09:10:08

thanks ircamb

.… not so good ...
Is everyone only entering his own site ? anyone else has a trick ? any developper view ? [Luc ? Orbiter ?]{style=“font-weight: bold”}

Statistik: Verfasst von fff — Di Jan 16, 2018 9:10 am


English • Re: issues with JPG snapshots.

Date: 2018-01-17 08:32:48

Hi ircamb,
indeed Snapshots is an interesting feature, but currently not very well documented and has not very good cross-platform support.

A few explanations however :
- Snapshots can be stored as XML metadata, PDF rendering of a crawled page, and JPEG or PNG thumbnail generated from PDF rendering
- snaphots can be created :
- for your own crawls using the \“Snapshot Creation\” section in the advanced crawler (/CrawlStartExpert.html page)
- on the fly for authenticated users calling the API /api/snapshot.jpg or /api/snapshot.pdf (you can try this API call for example by opening one of your \“XML Snapshot\” links and replace \“.xml\” by \“.pdf\“)
- a Snaphot link can be displayed in search results, only when a Snapshot file (either XML metadata, PDF rendering or JPEG/PNG thumbnail) is existing in the snapshots repository file system (DATA/HTCACHE/snapshots)

Having only \“XML Snapshot\” links in your results suggests that XML metadata snapshots have been successfully generated in at least one of your crawls, but that PDF and thumbnail generation failed.
For PDF Snapshots to be rendered, you must install some supplementary tools depending on your operating system (see prerequisites documentation in YaCy sources{.postlink} :
- on Debian or other Linux distros : you must install the following packages : wkhtmltopdf imagemagick xvfb ghostscript
- on Mac OS : you must install the following tools : wkhtmltopdf imagemagick ghostscript
- on Windows : as far as I know, the rendering of PDF Snapshots is not supported (JPEG/PNG thumbnails from PDFs should work, but it is useless as it depends on PDF rendering first)

I hope you will have some luck with this, don\’t hesitate to report here the results of your trials.
Have a nice day.

Statistik: Verfasst von luc — Mi Jan 17, 2018 8:32 am


English • Re: How to enter an URL list to crawl with some parameters ?

Date: 2018-01-17 08:59:33

Hi Fabrice, welcome and happy new year!

Sorry for the late answer, but I confirm that as far as I know, starting a crawl from a file with a list of entries is possible but currently limited :
- use the \“From File (enter a path within your local file system)\” field in the advanced crawler (/CrawlStartExpert.html page)
- file format : must be html or simple text (converting from a Excel .xlsx file to .csv will work fine)
- all entries listed in the file will share the same crawl profile/parameters

So if you have different crawl parameters for each of your crawl start point, I would suggest you to write an external script (.sh, .bat or whatever you prefer, depending on your OS) that will be responsible for calling the /Crawler_p.html API{.postlink} with the appropriate parameters for each of your entry.
To help you build the API URLs, you can go to the Process Scheduler page (/Table_API_p.html) and pick up and adjust the URL of one of your previously recorder crawl.

Best regards

Statistik: Verfasst von luc — Mi Jan 17, 2018 8:59 am


English • Re: How to enter an URL list to crawl with some parameters ?

Date: 2018-01-18 12:43:56

SUPER ! Thanks a lot Luc - hoping this will also be helpful for others
All is great; no regret to have taken a VPS especially to test Yacy & add my small 247 node

... and this API & it\’s doc is super clear. Will use it with c# (I am less familiar with batch scripts)

But if you guys could speak more english than german, it would help YaCy to increase even more ;) (aber Deutsch is auch OK für mich, nür schwiriger)

Fabrice
PS: I have some other beginner questions, but will do separate threads

Statistik: Verfasst von fff — Do Jan 18, 2018 12:43 pm


English • two YaCy ?

Date: 2018-01-18 15:06:49

Hi all,

How to install two (or more) YaCy in the same in system, completely independant & own parameyers, users (...) and accessible independently
... but on same machine with only one IP
...

(this is to fill 2 complete different needs: 1 public to share the search/participate over the Yacy network + public portal, & the other one for private documents and stats)
Please detailed instructions for the port & IP aspects, as I am far from an admin guru

Thanks,
Fabrice

Statistik: Verfasst von fff — Do Jan 18, 2018 3:06 pm


Fragen und Antworten • Lokale Webseite lässt sich nicht durchsuchen

Date: 2018-01-19 13:18:45

Hallo Leute

Ich habe mir gerade YaCY auf meinem Webserver installiert und versuche die ebenfalls auf dem Server liegenden HTML-Dateien zu indizieren, bekomme aber folgende Fehlerneldung:

Code:
Crawling von "https://9300.hostverv.eu/" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can't execute: 9300.hostverv.eu duration=24 for url https://9300.hostverv.eu//



Kennt jemand die Lösung zu diesem Problem, Danke

Statistik: Verfasst von Losrobos — Fr Jan 19, 2018 1:18 pm


English • Re: two YaCy ?

Date: 2018-01-19 13:41:29

Hi Fabrice,
basically it can be quite simple. You simply need :
- two separated install folders, or eventually two YaCy DATA folders
- different binding ports for each instance :
- http port can be configured in the Basic Configuration page (/ConfigBasic.html)
- https port can be configured in an Advanced settings page (/Settings_p.html?page=ProxyAccess) (a link to it is in the Basic Configuration page)

For the first setup of your second instance, of course you must first shutdown the first one if it is listening on the default ports (8090 and 8443), otherwise you wouldn\’t be able to start this second instance on the same ports. Then once the two instance are configured with different ports, you will be able to (re)start the both simultaneously.

For proper detailed instructions : it depends on your machine Operating System, and which YaCy packaging flavor (cross-platform tar archive, Debian package, Docker image, zip sources archive...) and version (stable or development) you would like to deploy.

Statistik: Verfasst von luc — Fr Jan 19, 2018 1:41 pm


English • Re: issues with JPG snapshots.

Date: 2018-01-19 14:43:24

Code:
"apt-get install wkhtmltopdf imagemagick xvfb ghostscript"



Seems to have done the trick and I now see pdf snapshots.

I\’m noticing however that these snapshots only include text and no images from the pages.
I was hoping to get a preview of pages that could be rendered with the results, but I guess that\’s just a dirty approach to what should be microformats stuff.

I guess for now I\’m glad I got the snapshots working. Just not sure what to do with them :)
Thank you for answering in such fine detail \@luc.

Statistik: Verfasst von ircamb — Fr Jan 19, 2018 2:43 pm


Fragen und Antworten • [GELÖST!] Re: Neues Jahr und neues Pech! :-(

Date: 2018-01-23 14:59:51

Hallo \@luc & \@sixcooler!

Ich habe das Problem nun dadurch [[\“gelöst\“]{style=“font-style: italic”}]{style=“font-weight: bold”}, daß ich YaCy komplett neu installiert habe. Dadurch sind natürlich auch alle Daten weg, aber mein YaCy [(Version: [1.9219513]{style=“font-weight: bold”})]{style=“font-style: italic”} funktioniert wieder richtig!

Zusätzlich hat mein YaCy-Server jetzt statt [[4]{style=“font-style: italic”}]{style=“font-weight: bold”} GB nun [[6]{style=“font-style: italic”}]{style=“font-weight: bold”} GB RAM [(3x2 GB, der Rechner kann leider maximal nur 4x2 GB)]{style=“font-style: italic”}, was einen relativ deutlichen Gewinn bei der Suche und dem Crawlen einbringt. :mrgreen: Das ist bei der alten Kiste zwar auch nicht gerade viel, aber besser wie zuvor! Eigentlich hätten es [[8]{style=“font-style: italic”}]{style=“font-weight: bold”} GB werden sollen, aber leider ist einer der beiden zusätzlichen Riegel defekt. :( Aber naja, ich hab die ja auch nur geschenkt bekommen.

Grüße nun aus Augsburg

Mike

Statistik: Verfasst von TmoWizard — Di Jan 23, 2018 2:59 pm


English • Advanced crawler: \“FINAL_LOAD_CONTEXT post url not allowed\”

Date: 2018-01-25 04:20:49

I\’ve been using YaCy as the intranet search at my office, and it\’s mostly been working quite well, but I noticed recently that YaCy is failing to parse a set of pages, all with the same rejection reason:

\ FINAL\_LOAD\_CONTEXT post url not allowed\



All the pages are basically in the format \“http://www.office.internal/bugs/bug.php?number" (it\’s a read-only web interface I wrote for Fogbugz, the old bugtracker we use at the office, which came in handy since YaCy can\’t log in and parse the \‘actual\’ bugtracker).

If I just use the simple crawler, it seems to work fine. So there\’s presumably some setting in the Advanced Crawler (which I used to configure all of the repeatedly scheduled jobs) that\’s preventing this, but I can\’t seem to figure out which, and this is making it hard for me to set up a targeted job to be repeated.

Also, an odd note, for some reason (both in the actually-crawled pages and in the list of rejections when I try to use the Advanced Crawler), all the URLs have \“=\” appended to them. I\’m quite confused as to where that\’s coming from, since none of the links it\’s following for those pages include an equals sign.

Statistik: Verfasst von keithzg — Do Jan 25, 2018 4:20 am


English • Re: Advanced crawler: \“FINAL_LOAD_CONTEXT post url not allow

Date: 2018-01-25 07:21:40

Hello \@keithzg,
the setting you are looking for is \“Accept URLs with query-part (\‘?\‘)\” in the \“misc. Constraints\” section of the Advanced Crawler page (/CrawlStartExpert.html). When that checkbox is not ticked, you will indeed get the \“FINAL_LOAD_CONTEXT post url not allowed\” rejection message on URLs having query parameter(s).
In the simple Crawl start page (/CrawlStartSite.html) the setting is true as default (in a hidden form field).

Note that the URLs then displayed in the crawl process are in their normalized form. That\’s why for example \“http://www.office.internal/bugs/bug.php?number" becomes \“http://www.office.internal/bugs/bug.php?number=".
Have a nice day.

Statistik: Verfasst von luc — Do Jan 25, 2018 7:21 am


English • yacy https ssl tls letsencrypt

Date: 2018-01-29 20:39:31

Even all,

Can someone please point me in the direction of how I can:

1) enable yacy to work with free TLS certificates from letsencrypt - this should be standard in 2018!!
2) how to disable http and the http ports from being used with any installation of yacy, so forcing everything to go over https ONLY
3) how to confirm that NO DATA is sent between my pod and another yacy pod in http / cleartext and ONLY uses https or TLS to communicate
4) how to get this forum onto https, again using free certs from letsencrypt (they\’re free!)

Anyone know any of these answers?

appreciated!

Statistik: Verfasst von SatSquash — Mo Jan 29, 2018 8:39 pm


English • Re: yacy https ssl tls letsencrypt

Date: 2018-01-30 07:45:36

Hi SatSquash,
some answers for you :
1) to use your own TLS certificates, either self-signed or validated by Let\’s Encrypt or any other Certificate Authority, the steps are (shortly) described in English in the yacy.init{.postlink} file as comments over the \“pkcs12ImportFile\” configuration key.

2) as far as I know this is not currently possible to ensure there is no clear-text http at all going out a YaCy peer

3) but if you run from latest sources from GitHub or upgrade to the lastest developer release (1.9219513), you can now at least configure your peer to prefer https over http when possible for peer-to-peer search and for a part of the p2p operations. The related settings are the \“Remote search encryption\” section in the Portal Configuration page (/ConfigPortal_p.html), and the \“network.unit.protocol.https.preferred\” configuration key available in the Advanced Config page (ConfigProperties_p.html) or in your yacy.conf file. This is still a work-in-progress, as initially all operations on YaCy network were in http, eventually encoded, but not strongly encrypted.

4) about having a valid certificate for this forum, \@Orbiter is probably the one who could answer you

Have a nice day

Statistik: Verfasst von luc — Di Jan 30, 2018 7:45 am


Hilfe für Einsteiger und Anwender • Re: Eigenen Index bereitstellen, aber nicht erweitern

Date: 2018-02-01 14:34:42

Aktuell arbeite ich ja im Robinson-Modus.
Jetzt müsste ich in den Peer-to-peer wechseln - welche Einstellungen müsste ich hier wählen, dass mein Index nicht erweitert wird?

Bild

Was heißt die Einstellung im Robinson-Modus?:
[\“Sie sind für andere Peers sichtbar und kontaktieren sie um ihnen Ihre Anwesenheit mitzuteilen.
Ihr Peer akzeptiert keinerlei Indexdaten von außen, aber antwortet auf alle Remote-Suchanfragen.\“]{style=“font-style: italic”}

Vielen Dank!

Statistik: Verfasst von brandy — Do Feb 01, 2018 2:34 pm


English • openjdk 9

Date: 2018-02-03 05:27:19

I am running Linux Mint 17. The YaCy download recommends I install OpenJDK 8, will openJDK 9 work as well?

Statistik: Verfasst von chazb — Sa Feb 03, 2018 5:27 am


English • Re: openjdk 9

Date: 2018-02-03 10:59:02

chazb hat geschrieben:\ I am running Linux Mint 17. The YaCy download recommends I install OpenJDK 8, will openJDK 9 work as well?\



Yes, both OpenJDK 9 and Oracle Java SE 9 will work.

Statistik: Verfasst von webproject — Sa Feb 03, 2018 10:59 am


Hilfe für Einsteiger und Anwender • Re: Domain auf richtigen Port \“trimmen\”

Date: 2018-02-03 11:14:39

Noch eine kleine Ergänzung für den Einsatz von nginx:

Wenn man nginx einsetzt, dann sind im Quellcode der Opensearch-Definition noch eine Links nicht korrekt.

http(s)://suche.deinedomain.de/opensearchdescription.xml

Wenn man nginx und yacy auf dem gleichen Server laufen lässt, dass sind z.B. noch Links zu http://127.0.0.1:8090 vorhanden.
Kann man aber recht einfach mit nginx ersetzen:

Code:
    sub_filter_types 'text/xml';    sub_filter 'http://127.0.0.1:8090' 'https://$host';    sub_filter_once off;

Statistik: Verfasst von webproject — Sa Feb 03, 2018 11:14 am


Hilfe für Einsteiger und Anwender • Yacy lässt sich nicht starten (Linux)

Date: 2018-02-03 13:47:52

Habe Yacy unter Linux Mint Mate Sylvia per

Code:
echo 'deb http://debian.yacy.net ./' >> /etc/apt/sources.list.d/yacy.list apt-key advanced --keyserver pgp.net.nz --recv-keys 03D886E7 apt-get update apt-get install openjdk-8-jre apt-get install yacy


installiert.

Habe während des Installationsprozesses zu wenig Speicher angegeben. Yacy lief aber zunächst, bis dieser Speicher voll war. Habe dann in der Weboberfläche einen größeren Speicherbereich freigeben wollen, aber beim Bestätigen des Buttons kam auf der nächsten Seiter \“forbidden\“. Hab dann den Dienst Yacy beendet und konnte ihn nie wieder starten.

Es gab immer den Fehler Failed to start LSB: Distributed web search bzw. Starting YaCy P2P Web Search: failed.

Habe dann per

\ sudo apt-get purge yacy\ sudo apt-get autoremove\



deinstalliert, neu installiert, mehr Speicher angegeben, jedoch blieb das Problem. Ich konnte den Dienst nicht starten.

Was kann ich tun? Danke für eure Hilfe!

Statistik: Verfasst von Sylvia — Sa Feb 03, 2018 1:47 pm


English • yacy for a indexing a website

Date: 2018-02-04 23:38:15

Hi everyone,

I did install and setup yacy to index a wiki. It\’s a dokuwiki, so I just used a standard crawler where I limited it to the virtual host. The whole process was straightforward, and the result is actually pretty good.

I however have a few questions (but I will limit to one for the moment).

It has been tested by users, and I had feedback about search terms with mistakes (missing letter, etc) that didn\’t return a reply.

I am not a solr/lucene expert, and I found in solr documentation IndexBasedSpellChecker that may fit my need.

I had a look at defaults/solr/solrconfig.xml and saw that it wasn\’t present. Is there a way to set it up ?

Statistik: Verfasst von ouahpiti — So Feb 04, 2018 11:38 pm


English • Re: yacy for a indexing a website

Date: 2018-02-05 09:19:46

Hi ouahpiti,
you can of course carefully customize the defaults/solrconfig.xml file in your YaCy install, but regarding spell checking, to my mind it won\’t be very useful because the suggestions Solr would produce would not be used by the YaCy custom search code. Instead you should have a look at the DidYouMean{.postlink} Java class.

If you need more help with that, I suggest you provide here, or even better in a new GitHub or Mantis issue, some examples of failing search terms and expected results.

Best regards

Statistik: Verfasst von luc — Mo Feb 05, 2018 9:19 am


English • Re: yacy for a indexing a website

Date: 2018-02-05 11:06:50

Thanks for your fast reply,

I\’m ok with either github or mantis issue, but maybe it\’s worth for the moment describing my understanding here.

And I can provide users expectations vs actual results: the search portal is https://doc.ouahpiti.info/ and an example search is \“remina\” that may lead to https://doc.ubuntu-fr.org/remmina (it\’s a one character edit), while using \“remmina\” is ok.

I saw the DidYouMean class, but I don\’t know what I can do with it, nor how. Does it needs to be used through API calls ? If the answer is yes, it is a good point: for the moment, the portal is a demo; it may lead to an integration into the website, in that case, the API will be used.

Statistik: Verfasst von ouahpiti — Mo Feb 05, 2018 11:06 am


English • Re: yacy for a indexing a website

Date: 2018-02-06 07:56:05

Ah great, a French project wishing to use YaCy?

I suggested you to have a look at the DidYouMean class implementation, because it is the class normally involved in suggesting terms both in the top of the /yacysearch.html results page, and in the /suggest.json API. You can try the API for example with https://doc.ouahpiti.info/suggest.json?query=remina&count=10 and you will see it provides some indexed entries.

So why doesn\’t it work in your search results page? I have to dig and test a little bit more the question, but I found a first reason : DidYouMean can currently not be called in the Web Portal Mode (your running mode I guess), but only in P2P mode when the RWI index is enabled. This is apparently the result of the various modifications that occurred on the suggestions implementations, but it should now probably fixed.
I will try to have a look at this soon and push a fix on GitHub if it is conclusive.

Statistik: Verfasst von luc — Di Feb 06, 2018 7:56 am


Jobs • Hilfe bei Yacy und MySQL gesucht

Date: 2018-02-06 10:13:59

Deutscher (deutschsprachiger) Klein(st)Unternehmer braucht aus Altersgründen von Zeit zu Zeit etwas Hilfe bei der Verwaltung seines Yacy Suchportals. Und bei der Erstellung und Verwaltung von einfachen Datenbankanwendungen, wie z. Bsp. dem Linkverzeichnis. Mehr als durchschnittlich 1 bis 2 Stunden pro Monat werden es aber kaum werden. Für wen ist das trotzdem interessant?

Rüdiger Böcking, An der Baldinger Mauer 12, 86720 Nördlingen, Tel. 01575-8790715

Statistik: Verfasst von rueboe — Di Feb 06, 2018 10:13 am


Fragen und Antworten • Begrüßung Neumitglied

Date: 2018-02-06 10:58:13

Hallo alle,

ich bin der Neue und schau jetzt öfter mal rein. Habe die Yacy Suchmaschine erst vor kurzem eher zufällig entdeckt - und bin total begeistert.

Weil ich aber zu alt und zu krank bin mir noch alles selbst zu erarbeiten habe ich im Forum Yacy Jobs eine Suche eingestellt. Ich hoffe, diese kleine Tätigkeit ist für irgend jemanden interessant.

LG & auf gutes Gelingen

Rüdiger Böcking, An der Baldinger Mauer 12, 86720 Nördlingen, http://www.oldiezins.de

Statistik: Verfasst von rueboe — Di Feb 06, 2018 10:58 am


English • Public search.yacy.net alternative

Date: 2018-02-06 16:00:35

Greetings,

Since http://search.yacy.net doesn\’t do much, I\’ve created my own (test mode currently) http://yacy.0x21h.net. Data is retrieved from active/senior peers that have at least few million documents.

Please write your thoughts. If this is a bad idea overall - I\’ll shut it down.

Thanks.

Statistik: Verfasst von tb0hdan — Di Feb 06, 2018 4:00 pm


English • Re: Public search.yacy.net alternative

Date: 2018-02-06 18:20:34

Another proposal:

Can we make something similar to www.pool.ntp.org{.postlink} that will monitor senior peers and return valid configs for Apache/Haproxy/Nginx? Webserver
may be reloaded periodically thus stale peers will be removed.

Statistik: Verfasst von tb0hdan — Di Feb 06, 2018 6:20 pm


English • Re: yacy for a indexing a website

Date: 2018-02-08 09:37:42

Ok, so I didn\’t modify the DidYouMean implementation itself (I let you evaluate whether it satisfy your needs or not), but at least with latest modifications pushed on the GitHub repository, now it should appear more consistently on the first results page, in Web Portal mode or in other modes.

Statistik: Verfasst von luc — Do Feb 08, 2018 9:37 am


English • Re: Public search.yacy.net alternative

Date: 2018-02-08 10:05:17

Hi tb0hdan,
to my own taste, in a decentralized perspective, a good demo could be an on-line and anonymously deployable temporary YaCy container, in the spirit of what can be done for example on Sandstorm.io{.postlink} \“Quick demo\“.

But that\’s right that there was a time where search.yacy.net was configured as a demo portal acting as a load balancer. I wonder if it is really relevant : unless I do not understand it correctly, the idea that when you reach the load balancer front, it selects one member of the cluster and then you get the search page and results from this peer, isn\’t it?
So I am not sure automatically integrating YaCy peers to this cluster is really a good idea :
- some may have very different settings than the default ones
- some may not want to be part of this cluster

But if being part of the demo cluster is done on a voluntary basis (as for the NTP pool), why not...

Statistik: Verfasst von luc — Do Feb 08, 2018 10:05 am


English • Re: yacy for a indexing a website

Date: 2018-02-08 14:58:16

I prepared a reply, but there was some issue yesterday (I see that\’s back up :)).

So, I didn\’t touch the java at all (if I can avoid, that\’s better). I feel a bit guilty seeing commits \“for me\” :oops:

I will try with an updated source. I see a pom.xml, so I guess building is not difficult. I will update then.

Statistik: Verfasst von ouahpiti — Do Feb 08, 2018 2:58 pm