[Kobv-opus-tester] Solr-Indexierung von großen Dateien
Jens Schwidder
schwidder at zib.de
Mi Apr 10 11:02:11 CEST 2024
Lieber Herr Zimmermann,
es gibt leider immer mal wieder Probleme mit der Indexierung einzelner
Dateien. Das kann verschiedene Gründe haben und manchmal ist es unklar
bzw. schwer zu diagnostizieren. Die folgenden Hinweise lösen das Problem
nicht, aber helfen vielleicht bei der Forschung nach den Ursachen.
Habe Sie versucht die Dokumente mit den großen Dateien einzeln zu
indexieren? Die opus4-Kommandos erlauben das.
Sind das die größten Dateien oder gibt es andere PDFs bei denen die
Indexierung funktioniert?
Es ist auch möglich die Volltextextraktion (index:extract) vorab
durchzuführen, um auszuschließen, dass es dabei Probleme gibt.
Mit dem Kommando 'tools:extract-file' kann die Volltextextraktion auch
gezielt für eine einzelne Datei getestet werden. Der extrahierte Text
ist in der Regel deutlich kleiner als die PDF Datei und ich bin mir
sicher wir haben auch schon größere Dateien indexiert.
Generell ist der Timeout für die opus4-Kommandos abgeschaltet (Siehe
application/configs/console.ini). Eine Timeout-Fehlermeldung könnte
bedeuten, dass überhaupt keine Verbindung mehr zu Solr aufgebaut werden
konnte. Das kann manchmal beobachtet werden, wenn es vorher Probleme gab.
Es lohnt sich vielleicht auch in die Log-Dateien von Solr zu schauen.
Eine Indexierung mit Blockgröße 1 kann helfen, um den "Auslöser" genauer
zu bestimmen.
bin/opus4 index --blocksize=1 --timeout=0
Falls das alles keine weiteren Hinweise liefert, könnten sie auch eine
Testinstanz mit der Entwicklungsversion OPUS 4.8.1 aufsetzen bzw. Ihre
Testinstanz aktualisieren. Mit PHP 8 können bzw. müssen sie dann Solr
9.5 verwenden. Vielleicht funktioniert es damit.
Ich hoffe den Release von OPUS 4.8.1 in den nächsten zwei Monaten zu
veröffentlichen. Es sind aber noch eine ganze Reihe von Arbeiten
abzuschließen. Entgegen der ursprünglichen Planung ist 4.8.1 wesentlich
größer geworden und enthält nun unter anderem den Umstieg auf Solr 9.
Schöne Grüße
Jens Schwidder
On 10.04.24 10:05, Klaus Zimmermann wrote:
> Liebe Kolleginnen und Kollegen,
>
>
>
> ich habe eine Testinstanz OPUS 4.8 mit Solr 7 aufgesetzt und bin auf ein
> Problem bei der Solr-Indexierung gestoßen. Die Indexierung mit „bin/opus4
> index“ bricht nach etwa 15000 Datensätzen mit folgender Meldung ab:
>
> failed committing update of documents: 28 HTTP request failed, Operation
> timed out after 5001 milliseconds with 0 bytes received
>
>
>
> Der Auslöser scheinen zwei große pdf-Dateien mit 63 MB und 84 MB zu sein.
> Wenn ich die beiden Dateiverzeichnisse aus workspace/files lösche, läuft die
> Indexierung fehlerfrei durch.
>
>
>
> Hat jemand eine Idee, wie man Solr dazu bringt, solche großen Dateien zu
> indexieren? Ich habe testweise den Wert „ramBufferSizeMB“ in der
> solrconfig.xml von 32 auf 256 MB hochgesetzt, das hat aber nichts gebracht.
>
>
>
> Mit freundlichen Grüßen
>
> Klaus Zimmermann
>
>
>
>
>
> --
>
>
>
> Dipl.-Bibl. Klaus Zimmermann
>
> EDV der Bibliothek
>
>
>
> Besuchsadresse:
> FH Münster
> - University of Applied Sciences -
>
> Corrensstr. 25, Raum D 122
> 48149 Münster
>
>
>
> Postadresse:
>
> FH Münster
>
> Bereichsbibliothek FHZ
>
> Klaus Zimmermann
>
> c/o Poststelle
>
> Hüfferstraße 27
>
> 48149 Münster
>
>
>
> Tel: 0251 83-64871
>
> Mobil: 0175 9301 309
>
>
>
>
>
> --
> Kobv-opus-tester mailing list
> Kobv-opus-tester at zib.de
> https://listserv.zib.de/mailman/listinfo/kobv-opus-tester
--
==============================================================
Jens Schwidder
Kooperativer Bibliotheksverbund Berlin-Brandenburg (KOBV)
Zuse Institute Berlin (ZIB)
Takustr. 7, D-14195 Berlin
Telefon: (030) 841 85 - 308
E-Mail: schwidder at zib.de
WWW: http://www.kobv.de
==============================================================
Mehr Informationen über die Mailingliste Kobv-opus-tester