[Kobv-opus-tester] Indexierung Umlaute in Solr
Sven Heitmann
heitmann at rhrk.uni-kl.de
Fr Apr 8 14:43:18 CEST 2016
Hallo Herr Ziegler,
wir haben für unseren Dokumentenserver KLUEDO in der schema.xml folgende Anpassung vorgenommen:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100" omitNorms="true">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ReversedWildcardFilterFactory" withOriginal="true" maxPosAsterisk="3" maxPosQuestion="2" maxFractionAsterisk="0.33" />
<!-- UB: diachritische Zeichen -->
<filter class="solr.ASCIIFoldingFilterFactory"/>
<!-- /UB: diachritische Zeichen -->
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<!-- UB: diachritische Zeichen -->
<filter class="solr.ASCIIFoldingFilterFactory"/>
<!-- /UB: diachritische Zeichen -->
</analyzer>
</fieldType>
Danach muss einmal der gesamte Datenbestand neu indiziert werden. (Wofür wir zuvor noch die Cache-Tabelle in der Datenbank gelöscht haben.)
Viele Grüße
Sven Heitmann
--
Regionales Hochschulrechenzentrum Kaiserslautern
TU Kaiserslautern
Abteilung Infrastruktur Softwaresysteme
Sven Heitmann
Paul-Ehrlich-Straße
Gebäude 32, Raum 324
D-67663 Kaiserslautern
Tel: +49 631 205 2813
Fax: +49 631 205 2355
E-Mail: heitmann at rhrk.uni-kl.de
> -----Original Message-----
> From: Kobv-opus-tester [mailto:kobv-opus-tester-bounces at zib.de] On Behalf Of Dr.
> Karl-Josef Ziegler
> Sent: Friday, April 08, 2016 2:05 PM
> To: kobv-opus-tester at zib.de
> Subject: [Kobv-opus-tester] Indexierung Umlaute in Solr
>
> Hallo!
>
> Bei der Suche in Opus haben wir Probleme mit der Verarbeitung
> (Normalisierung) von Umlauten und diakritischen Zeichen. Von unserem OPAC sind
> es unsere Nutzer gewöhnt, dass z. Bsp. ö zu oe und ß zu ss bei der Suche normiert
> und dann so auch indexiert wird. Die Suche nach piu, piú und più ergibt dort auch
> dieselbe Treffermenge.
>
> Es gibt bei Solr ja versch. Lösungsmöglichkeiten. Vom HBZ wurde getestet:
>
> <filter class="solr.ASCIIFoldingFilterFactory"/>
> <filter class="solr.SnowballPorterFilterFactory"language="German2" />
>
> Ersteres wurde ja bereits von der UB Kaiserslautern vorgeschlagen.
> Daneben gibt es aber auch noch:
>
> <charFilter
> class="solr.MappingCharFilterFactory"mapping="mapping-ISOLatin1Accent.txt"/>
>
> also die Umsetzung mittels einer Mapping-Tabelle. Meine Frage wäre: wird eines
> dieser Verfahren auch in das offizielle Release von Opus aufgenommen oder wie soll
> dieses Problem ggf. in Opus gelöst werden?
>
> --
>
> Viele Grüße,
>
> - Karl-Josef Ziegler
> --
> Kobv-opus-tester mailing list
> Kobv-opus-tester at zib.de
> http://listserv.zib.de/mailman/listinfo/kobv-opus-tester
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : smime.p7s
Dateityp : application/pkcs7-signature
Dateigröße : 6057 bytes
Beschreibung: nicht verfügbar
URL : <http://listserv.zib.de/pipermail/kobv-opus-tester/attachments/20160408/c69f36b3/attachment.p7s>
Mehr Informationen über die Mailingliste Kobv-opus-tester