[Kobv-opus-tester] Indexierung Umlaute in Solr

Fr Apr 8 14:43:18 CEST 2016

Hallo Herr Ziegler,

wir haben für unseren Dokumentenserver KLUEDO in der schema.xml folgende Anpassung vorgenommen:
    <fieldType name="text" class="solr.TextField" positionIncrementGap="100" omitNorms="true">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.ReversedWildcardFilterFactory" withOriginal="true" maxPosAsterisk="3" maxPosQuestion="2" maxFractionAsterisk="0.33" />
        <!-- UB: diachritische Zeichen -->
        <filter class="solr.ASCIIFoldingFilterFactory"/>
        <!-- /UB: diachritische Zeichen -->
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <!-- UB: diachritische Zeichen -->
        <filter class="solr.ASCIIFoldingFilterFactory"/>
        <!-- /UB: diachritische Zeichen -->
      </analyzer>
    </fieldType>

Danach muss einmal der gesamte Datenbestand neu indiziert werden. (Wofür wir zuvor noch die Cache-Tabelle in der Datenbank gelöscht haben.)

Viele Grüße
Sven Heitmann

--
Regionales Hochschulrechenzentrum Kaiserslautern
TU Kaiserslautern
Abteilung Infrastruktur Softwaresysteme
Sven Heitmann

Paul-Ehrlich-Straße
Gebäude 32, Raum 324
D-67663 Kaiserslautern

Tel: +49 631 205 2813
Fax: +49 631 205 2355
E-Mail: heitmann at rhrk.uni-kl.de

> -----Original Message-----
> From: Kobv-opus-tester [mailto:kobv-opus-tester-bounces at zib.de] On Behalf Of Dr.
> Karl-Josef Ziegler
> Sent: Friday, April 08, 2016 2:05 PM
> To: kobv-opus-tester at zib.de
> Subject: [Kobv-opus-tester] Indexierung Umlaute in Solr
> 
> Hallo!
> 
> Bei der Suche in Opus haben wir Probleme mit der Verarbeitung
> (Normalisierung) von Umlauten und diakritischen Zeichen. Von unserem OPAC sind
> es unsere Nutzer gewöhnt, dass z. Bsp. ö zu oe und ß zu ss bei der Suche normiert
> und dann so auch indexiert wird. Die Suche nach piu, piú und più ergibt dort auch
> dieselbe Treffermenge.
> 
> Es gibt bei Solr ja versch. Lösungsmöglichkeiten. Vom HBZ wurde getestet:
> 
> <filter class="solr.ASCIIFoldingFilterFactory"/>
> <filter class="solr.SnowballPorterFilterFactory"language="German2" />
> 
> Ersteres wurde ja bereits von der UB Kaiserslautern vorgeschlagen.
> Daneben gibt es aber auch noch:
> 
> <charFilter
> class="solr.MappingCharFilterFactory"mapping="mapping-ISOLatin1Accent.txt"/>
> 
> also die Umsetzung mittels einer Mapping-Tabelle. Meine Frage wäre: wird eines
> dieser Verfahren auch in das offizielle Release von Opus aufgenommen oder wie soll
> dieses Problem ggf. in Opus gelöst werden?
> 
> --
> 
> Viele Grüße,
> 
> - Karl-Josef Ziegler
> --
> Kobv-opus-tester mailing list
> Kobv-opus-tester at zib.de
> http://listserv.zib.de/mailman/listinfo/kobv-opus-tester
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : smime.p7s
Dateityp    : application/pkcs7-signature
Dateigröße  : 6057 bytes
Beschreibung: nicht verfügbar
URL         : <http://listserv.zib.de/pipermail/kobv-opus-tester/attachments/20160408/c69f36b3/attachment.p7s>