[Kobv-opus-tester] SOLR-Indexierung in Opus 4.2.2
Sascha Szott
szott at zib.de
Fre Jul 13 14:45:55 MEST 2012
Hallo Frau Baade-Kelishani,
On 13.07.2012 12:19, Annegret Baade-Kelishani wrote:
> Im Export sah es so aus, dass die Sprache für den ersten Titel auf
> "verschiedenes" stand und in der Migrationsconfig "mis" auf "eng"
> umgesetzt wird. Nachdem ich den Fehler dann ausgebügelt hatte, blieb die
> Indexierung wieder stecken, und zwar diesmal, weil bei einem anderen
> Titel für beide Abstracts die Sprache auf "englisch" stand. Das ist
> natürlich ein Anwenderfehler, den man in OPUS 3 aber offensichtlich
> recht leicht erzeugen kann (indem man einfach bei beiden Abstracts im
> Klappmenu dasselbe auswählt).
In der Dokumentation in Kap. 10.3 (S. 103) ist beschrieben, dass mehrere
Haupttitel (TitleMain) bzw. Abstracts (TitleAbstract) in der gleichen
Dokumentsprache zu Problemen bei der Indexierung führen. Daher können in
OPUS4 solche Fälle auch nicht erzeugt werden (weder über das
Publish-Formular noch in der Administration).
Das Migrationsskript ist auch dagegen gehärtet und gibt entsprechende
Meldungen, wie
TitleMain' with language 'eng' already exists . Document will not be indexed
bzw.
TitleAbstract' with language 'eng' already exists . Document will not be
indexed
aus. Daher sollte bei jedem Migrationsdurchlauf anschließend das
Migrations-Log bezüglich solcher Fehlerzustände konsultiert werden (die
Übernahme der Datensätze schlägt nämlich nicht fehl, sondern nur die
Indexierung).
Beste Grüße,
Sascha Szott
> Weitere Erkenntnisse kann man in diesem Fall aber offensichtlich aus der
> migration.log gewinnen, die noch vorhanden ist:
> Im OPUS-4.2.1-System wurden nämlich insgesamt 5 Dokumente angemahnt:
>> migration.log:2012-06-04 17:55:09 ERROR Opus3XMLImport: Old ID '219' :
>> 'TitleMain' with language 'eng' already exists . Document will not be
>> indexed
>> migration.log:2012-06-04 17:55:24 ERROR Opus3XMLImport: Old ID '239' :
>> 'TitleAbstract' with language 'eng' already exists . Document will not
>> be indexed
>> migration.log:2012-06-04 18:03:28 ERROR Opus3XMLImport: Old ID '309' :
>> 'TitleAbstract' with language 'eng' already exists . Document will not
>> be indexed
>> migration.log:2012-06-04 18:03:36 ERROR Opus3XMLImport: Old ID '322' :
>> 'TitleAbstract' with language 'eng' already exists . Document will not
>> be indexed
>> migration.log:2012-06-04 18:06:39 ERROR Opus3XMLImport: Old ID '222' :
>> 'TitleAbstract' with language 'eng' already exists . Document will not
>> be indexed
> Es ist natürlich durchaus möglich, dass diese 5 Dokumente tatsächlich
> nicht indexiert waren, das wäre uns so schnell wohl nicht aufgefallen.
> Bei meinem letzten Import in OPUS 4.2.2 werden nun nur noch 3 Dokumente
> angemahnt (die anderen beiden habe ich ja korrigiert, nachdem die
> Indexierung stehen geblieben war):
>> migration.log:2012-07-13 11:25:24 ERROR Opus3XMLImport: Old ID '309' :
>> This document has two 'TitleAbstract' with equal language. Document
>> will not be indexed
>> migration.log:2012-07-13 11:25:30 ERROR Opus3XMLImport: Old ID '322' :
>> This document has two 'TitleAbstract' with equal language. Document
>> will not be indexed
>> migration.log:2012-07-13 11:27:30 ERROR Opus3XMLImport: Old ID '222' :
>> This document has two 'TitleAbstract' with equal language. Document
>> will not be indexed
> Diese 3 Dokumente sind auch in Opus4.2.2 übernommen worden und sie sind
> auch auffindbar.
>
> Viele Grüße aus Aachen
> Annegret Baade-Kelishani
>
>
> Am 12.07.2012 19:22, schrieb Sascha Szott:
>> Hallo Frau Baade-Kelishani,
>>
>> also, das sind zwei Probleme:
>>
>> 1. Die Solr-Indexierung schlägt fehl, da es zwei Haupttitel in der
>> Sprache englisch gibt. Diesen Zustand können Sie normalerweise gar nicht
>> erzeugen (weder über das Publish-Formular noch in der Administration).
>> Bitte ändern Sie in der Metadaten-Administration für diesen Datensatz
>> die Sprache des ersten Titels auf portugiesisch. Anschließend sollte die
>> Indexierung des Dokuments wieder fehlerfrei durchlaufen.
>>
>> 2. Nun ist die Frage, warum es mit ihrer "alten"
>> OPUS4.2.1-Testinstallation funktioniert hat. Möglicherweise wurden dort
>> die Sprachen der Haupttitel noch richtig migriert? Haben Sie eine
>> Möglichkeit den Zustand des Dokuments im OPUS4.2.1-Testsystem
>> nachzuschlagen? Sind dort auch beide Haupttitel auch in der Sprache
>> englisch (das kann ja eigentlich nicht sein, wenn der o.g. Fehler dort
>> nicht zu beobachten war)?
>>
>> Evtl. hat sich hier also zwischen 4.2.1 und 4.2.2 eine Regression im
>> Migrationsskript bei der Übernahme der Titelsprachen ergeben. Dann wäre
>> das ein Bug, den ich im Ticketsystem aufnehme. Ich warte aber erst mal
>> auf Ihre Beobachtungen.
>>
>> Beste Grüße,
>> Sascha Szott
>>
>>
>> On 12.07.2012 17:20, Annegret Baade-Kelishani wrote:
>>> Hallo Herr Szott,
>>> das Dokument war bereits in OPUS3 enthalten und wurde nach der Migration
>>> nicht verändert. Die Dokumentsprache ist portugiesisch.
>>> Der Eintrag bzgl. der Titel und Abstracts in OPUS3 ist folgendermaßen:
>>>
>>> also 2 Titel, Original und englisch und 2 Abstracts (portugiesisch und
>>> deutsch):
>>>
>>> OPUS 4 macht daraus 2 englische Titel, die Abstracts werden korrekt
>>> übernommen:
>>>
>> [...]
>>> Die solr-Logdateien habe ich angehängt. Hoffentlich hilft es weiter.
>>> Herzlichen Dank und viele Grüße aus Aachen
>>> Annegret Baade-Kelishani
>>>
>>>
>>> Am 12.07.2012 13:22, schrieb Sascha Szott:
>>>> Hallo Frau Baade-Kelishani,
>>>>
>>>> ist das betroffene Dokument #185 bereits in ihrer OPUS3-Instanz
>>>> enthalten oder wurde es erst nach der Migration auf OPUS4 neu
>>>> eingestellt? Wenn es bereits in OPUS3 enthalten war: wurde das Dokument
>>>> nach der Migration in OPUS4über die Metadaten-Administration
>>>> nachträglich verändert (z.B. Felder hinzugefügt)?
>>>>
>>>> Aus dem angegebenen Stacktrace werde ich so nicht schlau. Für eine
>>>> Fehlersuche aus der Ferne benötige ich weitere Informationen:
>>>>
>>>> Wie sieht das betroffene Dokument aus? Dabei ist wichtig:
>>>> * Dokumentsprache
>>>> * Anzahl der TitleMain-Felder (und die jeweils zugeordneten Sprachen)
>>>> * Anzahl der TitleAbstract-Felder (und die jeweils zugeordneten Sprachen)
>>>>
>>>> Nun richten Sie bitte den Logger ein, so dass wir uns das XML-File
>>>> ansehen können, das für die Indexierung zum Solr-Server geschickt wird.
>>>> Dazu setzen Sie bitte in der Konfigurationsdatei *config.ini* unterhalb
>>>> von [production] die Einträge
>>>>
>>>> log.prepare.xml = true
>>>> log.level = DEBUG
>>>>
>>>> ein.
>>>>
>>>> Außerdem würde ich gern das Solr-Logfile sehen (das ist optional: sofern
>>>> sie den Jetty-Solr-Server mit Logging konfiguriert haben).
>>>>
>>>> Nun indexieren Sie bitte das Dokument #185 separat, indem Sie folgendes
>>>> Kommando aufrufen:
>>>>
>>>> $ cd /var/local/opus4/opus4/scripts
>>>> $ ./SolrIndexBuilder.php 185 185
>>>>
>>>> und stellen uns die in das OPUS4-Logfile
>>>>
>>>> /var/local/opus4/workspace/log/opus-console.log
>>>>
>>>> geschriebenen Einträge zur Verfügung.
>>>>
>>>> Beste Grüße,
>>>> Sascha Szott
>>>>
>>>>
>>>> On 12.07.2012 12:55, Annegret Baade-Kelishani wrote:
>>>>> Liebe Kolleginnen und Kollegen,
>>>>> ich habe unsere OPUS-4-Installation (die ja noch im Testbetrieb läuft)
>>>>> ebenfalls auf die Version 4.2.2 umgestellt, seitdem funktioniert sie
>>>>> nicht mehr.
>>>>> Beim Update wurde ich gefragt, ob ich jetzt den SOLR-Index neu
>>>>> indexieren möchte. Diese Indexierung ist dann mit folgender
>>>>> Fehlermeldung abgebrochen:
>>>>>> Problem:
>>>>>> 2012-07-11 17:36:35 Stats after 180 documents -- memory 11 MB, peak
>>>>>> memory 40 (MB), 1.82 docs/second, 0.55 seconds/doc
>>>>>>
>>>>>> An error occurred while indexing.
>>>>>> Error Message: Error while adding document with id 185
>>>>>> Caused By:
>>>>>> Stack Trace:
>>>>>> #0 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(101):
>>>>>> Opus_SolrSearch_Index_Indexer->addDocumentToEntryIndex(Object(Opus_Document))
>>>>>> #1 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(126):
>>>>>> SolrIndexBuilder->run()
>>>>>> #2 {main}
>>>>>>
>>>>>> done
>>>>> Daraufhin habe ich einfach den Import aus unserer OPUS-3-Installation
>>>>> neu gestartet, aber auch hier ist die SOLR-Indexierung abgebrochen:
>>>>>> An error occurred while indexing.
>>>>>> Error Message: Error while adding document with id 185
>>>>>> Caused By:
>>>>>> Stack Trace:
>>>>>> #0 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(101):
>>>>>> Opus_SolrSearch_Index_Indexer->addDocumentToEntryIndex(Object(Opus_Document))
>>>>>> #1 /var/local/opus4/opus4/scripts/SolrIndexBuilder.php(126):
>>>>>> SolrIndexBuilder->run()
>>>>>> #2 {main}
>>>>> Nun handelt es sich bei dem entsprechenden Dokument um ein
>>>>> portugiesisches Dokument, in dem auch Sonderzeichen vorkommen:
>>>>>
>>>>>> 1. Abstract (*Portugiesisch*)
>>>>>> O conceito científico de Lideranca situaçional explica que um líder
>>>>>> tem que ser uma pessoa de múltiplas Funções e Competências. Nas
>>>>>> empresas alemaes tem muitos pessoas pensando ser líderes, mas no fundo
>>>>>> eles são somente Administradores. a diferencaé o seguinte: alguem que
>>>>>> é somente capaz de trabalhar com seu conhecimento e com seus
>>>>>> ferramentas, já sabe muito, mas isso naoè suficiente para ter
>>>>>> sucesso. Eleè de verdade somente um administrador. Pois para ser um
>>>>>> Líder de verdade ele precisa além disso as competencias social e
>>>>>> individual.
>>>>> Vermutlich würde alles wieder gehen, wenn ich das Dokument entfernen
>>>>> würde, aber das kann ja eigentlich nicht Sinn der Sache sein. In OPUS
>>>>> 4.2.1 war die Indexierung kein Problem. Woran kann das liegen?
>>>>>
>>>>> Viele Grüße aus Aachen
>>>>> Annegret Baade-Kelishani
>>>>>
>>>>>
>
>
--
Sascha Szott :: KOBV/ZIB :: <szott at zib.de> :: +49 30 84185-457