[Kobv-opus-tester] SOLR-Indexierung in Opus 4.2.2

Annegret Baade-Kelishani baade at fh-aachen.de
Fre Jul 13 12:19:19 MEST 2012


Hallo Herr Szott,
erstmal herzlichen Dank für die Hilfe. Jetzt hat es geklappt. Leider 
habe ich keine Möglichkeit, auf die 4.2.1-Testinstallation zuzugreifen, 
die habe ich ja überschrieben. Auf jeden Fall habe ich beide Male 
denselben Export aus OPUS3 verwendet.
Im Export sah es so aus, dass die Sprache für den ersten Titel auf 
"verschiedenes" stand und in der Migrationsconfig "mis" auf "eng" 
umgesetzt wird. Nachdem ich den Fehler dann ausgebügelt hatte, blieb die 
Indexierung wieder stecken, und zwar diesmal, weil bei einem anderen 
Titel für beide Abstracts die Sprache auf "englisch" stand. Das ist 
natürlich ein Anwenderfehler, den man in OPUS 3 aber offensichtlich 
recht leicht erzeugen kann (indem man einfach bei beiden Abstracts im 
Klappmenu dasselbe auswählt).
Weitere Erkenntnisse kann man in diesem Fall aber offensichtlich aus der 
migration.log gewinnen, die noch vorhanden ist:
Im OPUS-4.2.1-System wurden nämlich insgesamt 5 Dokumente angemahnt:
> migration.log:2012-06-04 17:55:09 ERROR Opus3XMLImport: Old ID '219' : 
> 'TitleMain' with language 'eng' already exists . Document will not be 
> indexed
> migration.log:2012-06-04 17:55:24 ERROR Opus3XMLImport: Old ID '239' : 
> 'TitleAbstract' with language 'eng' already exists . Document will not 
> be indexed
> migration.log:2012-06-04 18:03:28 ERROR Opus3XMLImport: Old ID '309' : 
> 'TitleAbstract' with language 'eng' already exists . Document will not 
> be indexed
> migration.log:2012-06-04 18:03:36 ERROR Opus3XMLImport: Old ID '322' : 
> 'TitleAbstract' with language 'eng' already exists . Document will not 
> be indexed
> migration.log:2012-06-04 18:06:39 ERROR Opus3XMLImport: Old ID '222' : 
> 'TitleAbstract' with language 'eng' already exists . Document will not 
> be indexed
Es ist natürlich durchaus möglich, dass diese 5 Dokumente tatsächlich 
nicht indexiert waren, das wäre uns so schnell wohl nicht aufgefallen.
Bei meinem letzten Import in OPUS 4.2.2 werden nun nur noch 3 Dokumente 
angemahnt (die anderen beiden habe ich ja korrigiert, nachdem die 
Indexierung stehen geblieben war):
> migration.log:2012-07-13 11:25:24 ERROR Opus3XMLImport: Old ID '309' : 
> This document has two 'TitleAbstract' with equal language. Document 
> will not be indexed
> migration.log:2012-07-13 11:25:30 ERROR Opus3XMLImport: Old ID '322' : 
> This document has two 'TitleAbstract' with equal language. Document 
> will not be indexed
> migration.log:2012-07-13 11:27:30 ERROR Opus3XMLImport: Old ID '222' : 
> This document has two 'TitleAbstract' with equal language. Document 
> will not be indexed
Diese 3 Dokumente sind auch in Opus4.2.2 übernommen worden und sie sind 
auch auffindbar.

Viele Grüße aus Aachen
Annegret Baade-Kelishani


Am 12.07.2012 19:22, schrieb Sascha Szott:
> Hallo Frau Baade-Kelishani,
>
> also, das sind zwei Probleme:
>
> 1. Die Solr-Indexierung schlägt fehl, da es zwei Haupttitel in der
> Sprache englisch gibt. Diesen Zustand können Sie normalerweise gar nicht
> erzeugen (weder über das Publish-Formular noch in der Administration).
> Bitte ändern Sie in der Metadaten-Administration für diesen Datensatz
> die Sprache des ersten Titels auf portugiesisch. Anschließend sollte die
> Indexierung des Dokuments wieder fehlerfrei durchlaufen.
>
> 2. Nun ist die Frage, warum es mit ihrer "alten"
> OPUS4.2.1-Testinstallation funktioniert hat. Möglicherweise wurden dort
> die Sprachen der Haupttitel noch richtig migriert? Haben Sie eine
> Möglichkeit den Zustand des Dokuments im OPUS4.2.1-Testsystem
> nachzuschlagen? Sind dort auch beide Haupttitel auch in der Sprache
> englisch (das kann ja eigentlich nicht sein, wenn der o.g. Fehler dort
> nicht zu beobachten war)?
>
> Evtl. hat sich hier also zwischen 4.2.1 und 4.2.2 eine Regression im
> Migrationsskript bei der Übernahme der Titelsprachen ergeben. Dann wäre
> das ein Bug, den ich im Ticketsystem aufnehme. Ich warte aber erst mal
> auf Ihre Beobachtungen.
>
> Beste Grüße,
> Sascha Szott
>
>
> On 12.07.2012 17:20, Annegret Baade-Kelishani wrote:
>> Hallo Herr Szott,
>> das Dokument war bereits in OPUS3 enthalten und wurde nach der Migration
>> nicht verändert. Die Dokumentsprache ist portugiesisch.
>> Der Eintrag bzgl. der Titel und Abstracts in OPUS3 ist folgendermaßen:
>>
>> also 2 Titel, Original und englisch und 2 Abstracts (portugiesisch und
>> deutsch):
>>
>> OPUS 4 macht daraus 2 englische Titel, die Abstracts werden korrekt
>> übernommen:
>>
> [...]
>> Die solr-Logdateien habe ich angehängt. Hoffentlich hilft es weiter.
>> Herzlichen Dank und viele Grüße aus Aachen
>> Annegret Baade-Kelishani
>>
>>
>> Am 12.07.2012 13:22, schrieb Sascha Szott:
>>> Hallo Frau Baade-Kelishani,
>>>
>>> ist das betroffene Dokument #185 bereits in ihrer OPUS3-Instanz
>>> enthalten oder wurde es erst nach der Migration auf OPUS4 neu
>>> eingestellt? Wenn es bereits in OPUS3 enthalten war: wurde das Dokument
>>> nach der Migration in OPUS4über die Metadaten-Administration
>>> nachträglich verändert (z.B. Felder hinzugefügt)?
>>>
>>> Aus dem angegebenen Stacktrace werde ich so nicht schlau. Für eine
>>> Fehlersuche aus der Ferne benötige ich weitere Informationen:
>>>
>>> Wie sieht das betroffene Dokument aus? Dabei ist wichtig:
>>> * Dokumentsprache
>>> * Anzahl der TitleMain-Felder (und die jeweils zugeordneten Sprachen)
>>> * Anzahl der TitleAbstract-Felder (und die jeweils zugeordneten Sprachen)
>>>
>>> Nun richten Sie bitte den Logger ein, so dass wir uns das XML-File
>>> ansehen können, das für die Indexierung zum Solr-Server geschickt wird.
>>> Dazu setzen Sie bitte in der Konfigurationsdatei *config.ini* unterhalb
>>> von [production] die Einträge
>>>
>>> log.prepare.xml = true
>>> log.level = DEBUG
>>>
>>> ein.
>>>
>>> Außerdem würde ich gern das Solr-Logfile sehen (das ist optional: sofern
>>> sie den Jetty-Solr-Server mit Logging konfiguriert haben).
>>>
>>> Nun indexieren Sie bitte das Dokument #185 separat, indem Sie folgendes
>>> Kommando aufrufen:
>>>
>>> $ cd /var/local/opus4/opus4/scripts
>>> $ ./SolrIndexBuilder.php 185 185
>>>
>>> und stellen uns die in das OPUS4-Logfile
>>>
>>> /var/local/opus4/workspace/log/opus-console.log
>>>
>>> geschriebenen Einträge zur Verfügung.
>>>
>>> Beste Grüße,
>>> Sascha Szott
>>>
>>>
>>> On 12.07.2012 12:55, Annegret Baade-Kelishani wrote:
>>>> Liebe Kolleginnen und Kollegen,
>>>> ich habe unsere OPUS-4-Installation (die ja noch im Testbetrieb läuft)
>>>> ebenfalls auf die Version 4.2.2 umgestellt, seitdem funktioniert sie
>>>> nicht mehr.
>>>> Beim Update wurde ich gefragt, ob ich jetzt den SOLR-Index neu
>>>> indexieren möchte. Diese Indexierung ist dann mit folgender
>>>> Fehlermeldung abgebrochen:
>>>>> Problem:
>>>>> 2012-07-11 17:36:35 Stats after 180 documents -- memory 11 MB, peak
>>>>> memory 40 (MB), 1.82 docs/second, 0.55 seconds/doc
>>>>>
>>>>> An error occurred while indexing.
>>>>> Error Message: Error while adding document with id 185
>>>>> Caused By:
>>>>> Stack Trace:
>>>>> #0 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(101):
>>>>> Opus_SolrSearch_Index_Indexer->addDocumentToEntryIndex(Object(Opus_Document))
>>>>> #1 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(126):
>>>>> SolrIndexBuilder->run()
>>>>> #2 {main}
>>>>>
>>>>> done
>>>> Daraufhin habe ich einfach den Import aus unserer OPUS-3-Installation
>>>> neu gestartet, aber auch hier ist die SOLR-Indexierung abgebrochen:
>>>>> An error occurred while indexing.
>>>>> Error Message: Error while adding document with id 185
>>>>> Caused By:
>>>>> Stack Trace:
>>>>> #0 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(101):
>>>>> Opus_SolrSearch_Index_Indexer->addDocumentToEntryIndex(Object(Opus_Document))
>>>>> #1 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(126):
>>>>> SolrIndexBuilder->run()
>>>>> #2 {main}
>>>> Nun handelt es sich bei dem entsprechenden Dokument um ein
>>>> portugiesisches Dokument, in dem auch Sonderzeichen vorkommen:
>>>>
>>>>> 1. Abstract (*Portugiesisch*)
>>>>> O conceito científico de Lideranca situaçional explica que um líder
>>>>> tem que ser uma pessoa de múltiplas Funções e Competências. Nas
>>>>> empresas alemaes tem muitos pessoas pensando ser líderes, mas no fundo
>>>>> eles são somente Administradores. a diferencaé  o seguinte: alguem que
>>>>> é  somente capaz de trabalhar com seu conhecimento e com seus
>>>>> ferramentas, já  sabe muito, mas isso naoè  suficiente para ter
>>>>> sucesso. Eleè  de verdade somente um administrador. Pois para ser um
>>>>> Líder de verdade ele precisa além disso as competencias social e
>>>>> individual.
>>>> Vermutlich würde alles wieder gehen, wenn ich das Dokument entfernen
>>>> würde, aber das kann ja eigentlich nicht Sinn der Sache sein. In OPUS
>>>> 4.2.1 war die Indexierung kein Problem. Woran kann das liegen?
>>>>
>>>> Viele Grüße aus Aachen
>>>> Annegret Baade-Kelishani
>>>>
>>>>


-- 
Annegret Baade-Kelishani
Hochschulbibliothek der FH Aachen
Eupener Str. 70
52066 Aachen
+49241600952063