[Kobv-opus-tester] Solr-Indexierung von großen Dateien

Jens Schwidder schwidder at zib.de
Mi Apr 10 11:02:11 CEST 2024


Lieber Herr Zimmermann,

es gibt leider immer mal wieder Probleme mit der Indexierung einzelner 
Dateien. Das kann verschiedene Gründe haben und manchmal ist es unklar 
bzw. schwer zu diagnostizieren. Die folgenden Hinweise lösen das Problem 
nicht, aber helfen vielleicht bei der Forschung nach den Ursachen.

Habe Sie versucht die Dokumente mit den großen Dateien einzeln zu 
indexieren? Die opus4-Kommandos erlauben das.

Sind das die größten Dateien oder gibt es andere PDFs bei denen die 
Indexierung funktioniert?

Es ist auch möglich die Volltextextraktion (index:extract) vorab 
durchzuführen, um auszuschließen, dass es dabei Probleme gibt.

Mit dem Kommando 'tools:extract-file' kann die Volltextextraktion auch 
gezielt für eine einzelne Datei getestet werden. Der extrahierte Text 
ist in der Regel deutlich kleiner als die PDF Datei und ich bin mir 
sicher wir haben auch schon größere Dateien indexiert.

Generell ist der Timeout für die opus4-Kommandos abgeschaltet (Siehe 
application/configs/console.ini). Eine Timeout-Fehlermeldung könnte
bedeuten, dass überhaupt keine Verbindung mehr zu Solr aufgebaut werden 
konnte. Das kann manchmal beobachtet werden, wenn es vorher Probleme gab.

Es lohnt sich vielleicht auch in die Log-Dateien von Solr zu schauen.

Eine Indexierung mit Blockgröße 1 kann helfen, um den "Auslöser" genauer
zu bestimmen.

bin/opus4 index --blocksize=1 --timeout=0

Falls das alles keine weiteren Hinweise liefert, könnten sie auch eine 
Testinstanz mit der Entwicklungsversion OPUS 4.8.1 aufsetzen bzw. Ihre 
Testinstanz aktualisieren. Mit PHP 8 können bzw. müssen sie dann Solr 
9.5 verwenden. Vielleicht funktioniert es damit.

Ich hoffe den Release von  OPUS 4.8.1 in den nächsten zwei Monaten zu 
veröffentlichen. Es sind aber noch eine ganze Reihe von Arbeiten 
abzuschließen. Entgegen der ursprünglichen Planung ist 4.8.1 wesentlich 
größer geworden und enthält nun unter anderem den Umstieg auf Solr 9.

Schöne Grüße

Jens Schwidder

On 10.04.24 10:05, Klaus Zimmermann wrote:
> Liebe Kolleginnen und Kollegen,
> 
>   
> 
> ich habe eine Testinstanz OPUS 4.8 mit Solr 7 aufgesetzt und bin auf ein
> Problem bei der Solr-Indexierung gestoßen. Die Indexierung mit „bin/opus4
> index“ bricht nach etwa 15000 Datensätzen mit folgender Meldung ab:
> 
> failed committing update of documents: 28 HTTP request failed, Operation
> timed out after 5001 milliseconds with 0 bytes received
> 
>   
> 
> Der Auslöser scheinen zwei große pdf-Dateien mit 63 MB und 84 MB zu sein.
> Wenn ich die beiden Dateiverzeichnisse aus workspace/files lösche, läuft die
> Indexierung fehlerfrei durch.
> 
>   
> 
> Hat jemand eine Idee, wie man Solr dazu bringt, solche großen Dateien zu
> indexieren? Ich habe testweise den Wert „ramBufferSizeMB“ in der
> solrconfig.xml von 32 auf 256 MB hochgesetzt, das hat aber nichts gebracht.
> 
>   
> 
> Mit freundlichen Grüßen
> 
> Klaus Zimmermann
> 
>   
> 
>   
> 
> --
> 
>   
> 
> Dipl.-Bibl. Klaus Zimmermann
> 
> EDV der Bibliothek
> 
> 
> 
> Besuchsadresse:
> FH Münster
> - University of Applied Sciences -
> 
> Corrensstr. 25, Raum D 122
> 48149 Münster
> 
>   
> 
> Postadresse:
> 
> FH Münster
> 
> Bereichsbibliothek FHZ
> 
> Klaus Zimmermann
> 
> c/o Poststelle
> 
> Hüfferstraße 27
> 
> 48149 Münster
> 
>   
> 
> Tel: 0251 83-64871
> 
> Mobil: 0175 9301 309
> 
>   
> 
> 
> 
> --
> Kobv-opus-tester mailing list
> Kobv-opus-tester at zib.de
> https://listserv.zib.de/mailman/listinfo/kobv-opus-tester

-- 
==============================================================
Jens Schwidder
Kooperativer Bibliotheksverbund Berlin-Brandenburg (KOBV)
Zuse Institute Berlin (ZIB)
Takustr. 7, D-14195 Berlin
Telefon: (030) 841 85 - 308
  E-Mail: schwidder at zib.de
     WWW: http://www.kobv.de
==============================================================




Mehr Informationen über die Mailingliste Kobv-opus-tester