Typo3 - indexed search: Unterschied zwischen den Versionen

Aus Wikizone
Wechseln zu: Navigation, Suche
Zeile 337: Zeile 337:
 
  ### SearchBox ###
 
  ### SearchBox ###
 
  subparts.searchBox < temp.searchBox
 
  subparts.searchBox < temp.searchBox
 +
 +
=== Kleine Verbesserungen ===
 +
Ein bischen Javascript kann den komfort verbessern:
 +
 +
Beispiel
 +
<pre>
 +
<input type="text" onfocus="if(this.value=='Seminarsuche')this.value='';" onblur="if(this.value=='')this.value='Seminarsuche';" value="Seminarsuche" name="tx_indexedsearch[sword]" class="searchbox-field">
 +
 +
</pre>
 +
 +
  
 
== Tutorial von Marlies Cohen ==
 
== Tutorial von Marlies Cohen ==
Zeile 364: Zeile 375:
  
 
The reason for this is that as long as you are logged in to Typo3 your pages are not cached, once you log out and view pages they are cached. Knowing this saves a lot of hassles.
 
The reason for this is that as long as you are logged in to Typo3 your pages are not cached, once you log out and view pages they are cached. Knowing this saves a lot of hassles.
 
 
 
 
  
 
== Clearing Indexed Search Cache ==
 
== Clearing Indexed Search Cache ==

Version vom 2. März 2011, 10:52 Uhr

Links

http://wiki.typo3.org/index.php/De:Indexed_search


Suchergebnis verbessern

Es gibt einige Problemchen mit der Indexed Search die man beheben kann:

Suchbereich einschränken

Um zu verhindern, daß Metatags, Navigation etc. mit indiziert werden schränkt man den Suchbereich ein. Dafür stehen die Marker für den Suchbereich verwenden.


Ob das bei den Metatags funktioniert bleibt zu testen. Ansonsten kann auch im Quellcode der Bereich auskommentiert werden:

In der class.indexer.php die 6 Zeilen nach Zeile 1215

// get keywords and description metatags 
...

Performance in der indexed Search Extension

Tipps zur besseren Performance und Schonung der Datenbank

Nur nach ganzen Worten suchen bringt sehr viel.

Ebenso nur innerhalb des page Objekts aktivieren (page.config.index_enable = 1 nicht config.index_enable = 1)

Interessanter Artikel auf typo3.net: Informationen für eine schlanke, performante Indexsuche http://www.typo3.net/forum/list/list_post//63315/ Darin geht es z.B. um folgende Tipps:

  • Reduzierung der GET-Parameter, die zu einem neuen pHash-Wert führen und eine Beschränkung auf weniger indizierte Wörter auf einer Seite, vor allem wenn die Wörter sich auf der Seite regelmässig ändern (z.B. LIST- & LATEST-Ansicht bei tt_news).
  • Bei Parametern, die am Inhalt nichts ändern (z.B. anderes Layout bei gleichem Inhalt) könnte ein Cookie anstatt eines GET-Parameters verwendet werden
  • Bei einer Bildergallerie könnten vielleicht die Seiten komplett aus der Suche herausgenommen werden, wenn sich bei dem unterschiedlichen Links nur ein Bild ändert, aber keine indizierbaren Texte vorhanden sind.
  • Bei der Extension tt_news sollte keine backPid verwendet werden, da ansonsten zu jeder backPid und zu jeder News Einträge in die "index_rel"-Tabelle gemacht werden. Hätten Sie 1000 Seiten mit der LATEST-Ansicht und 1000 News und durchschnittlich 100 verschiedene Wörter pro News, dann würden ca. 100.000.000 Zeilen in der DB gespeichert!

Die backPid können Sie im TypoScript mit

 plugin.tt_news.dontUseBackPid = 1 

deaktivieren. Anstatt dem dynamisch generierten Zurück-Button in der SINGLE-Ansicht könnte dann ein Zurück-Link mit JavaScript gemacht werden:

<a href="javascript:history.back()" title="Zurück zur Listenansicht">« Zurück</a> 

Listenansichten sollten grundsätzlich von der Indizierung ausgeschlossen werden. Entweder man setzt mit den Seiteneigenschaften gleich die gesamte Seite auf "Nicht suchen" oder man definiert die Marker für Such-Beginn & Such-Ende so, dass die Listen nicht indiziert werden. Sie könnten z.B. den Content-Marker auf den Seiten mit den Listen so machen:

            page.10.marks.CONTENT_NORMAL = CONTENT
            page.10.marks.CONTENT_NORMAL {
                wrap = |<!--TYPO3SEARCH_begin--><!--TYPO3SEARCH_end-->
                table = tt_content
                ...
            } 

Auf normalen Seiten oder der Single-Ansicht müsste der wrap dann so aussehen:

            page.10.marks.CONTENT_NORMAL = CONTENT
            page.10.marks.CONTENT_NORMAL {
                wrap = <!--TYPO3SEARCH_begin-->|<!--TYPO3SEARCH_end-->
                table = tt_<content
                ...
            } 

Die Druckansicht sollte man möglichst über CSS und nicht über einen Print-Button machen. Wenn man aber dennoch mit einer Print- oder PDF-Darstellung arbeiten will, dann sollten diese Inhalte nicht auch noch indiziert werden. Zum Einen hilft eine geschickte Anordnung der Marker TYPO3SEARCH_begin und TYPO3SEARCH_end, zum Anderen sollte im TypoScript nicht im global gültigem config-Abschnitt index_enable auf 1 gesetzt werden. Wenn dies nicht beachtet wird, hat man für jede typeNum neue Einträge in der "index_rel"-Tabelle!

Falsch wäre:

            config {
                index_enable = 1
                index_externals = 1
            }
            page {
                ...
            } 

Richtig wäre:

            page {
                config {
                    index_enable = 1
                    index_externals = 1
                }
                ...
            } 

Ein einmal gesetzter Encryption-Key sollte nicht mehr gewechselt werden, da sich ansonsten alle cHash-Werte ändern. Dies würde zu sehr vielen neuen Einträgen in der DB führen. (Zudem kann dies unter Umständen den Pagerank bei Goole zerstören und Abmeldelinks beim Newsletter funktionieren auch nicht mehr).


Wenn TYPO3 Version 4.1+ verwendet wird, sollte man gegebenenfalls die Tabellen "index_..." komplett löschen und mit einem COMPARE im Install-Tool neu anlegen lassen. Wenn die Datenbank InnoDB unterstützt, werden die Tabellen dann auch als InnoDB-Tabellen angelegt. Hier können die Tabellen ausgelesen werden, obwohl vielleicht in diesem Augenblick ein Eintrag geschrieben wird. Die älteren MyISAM-Tabellen werden nämlich während eines Schreibzugriffs komplett gesperrt.


Nach den Optimierungen sollten die Tabellen wenigstens geleert werden, damit die überflüssigen Daten dann auch nicht mehr in der DB liegen bleiben. Danach sollte auch im TYPO3-Backend unter Web->Info->Indexed search->Technical Details überprüft werden, ob die Änderungen zum Erfolg geführt haben, oder ob noch unnötige Einträge vorhanden sind.

Performance Fragen

Wenn es mehr Seiten werden kann die indexed Search Extension zum Performance Killer werden. Dafür gibt es mehrere Gründe:

1. Die Volltextsuche http://bugs.typo3.org/view.php?id=5089 Es gibt aus Gründen der Kompatibilität keinen fulltext index in den Tabellen. Daher schlägt Peter Russ im Bugtracker vor: fulltext index to index_fulltext.fulltext and index_words.baseword

2. changed query in class.tx_indexedsearch.php to use fulltext capabilites of MySql. Das ist im obigen Link im verlinkten diff File beschrieben. Großer Performance Gewinn, allerdings keine Teilsuche (typo findet auch typo2) mehr möglich. nochmal zu der Änderung zur Performance-Steigerung:

in der typo3/sysext/indexed_search/pi/class.tx_indexedsearch.php ungefähr Zeile 820 sollte muss case 1 bis 3 aukommentiert werden und case 10 noch angepast werden, so dass es dann so aussehen sollte:

// Perform search for word:
			switch($theType)	{

/*
  * can't see any difference in this cases, but Kaspar might know
				case '1':
					$wSel = "IW.baseword LIKE 
'%".$GLOBALS['TYPO3_DB']->quoteStr($sWord, 'index_words')."%'";
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
				break;
				case '2':
					$wSel = "IW.baseword LIKE '".$GLOBALS['TYPO3_DB']->quoteStr($sWord, 
'index_words')."%'";
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
				break;
				case '3':
					$wSel = "IW.baseword LIKE 
'%".$GLOBALS['TYPO3_DB']->quoteStr($sWord, 'index_words')."'";
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
				break;
*/
				case '1':
				case '2':
				case '3':
					$wSel='match(IW.baseword) 
against("'.$GLOBALS['TYPO3_DB']->quoteStr($sWord, 'index_words').'")';
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
					break;		
				case '10':
					$wSel = 'IW.metaphone = '.$this->indexerObj->metaphone($sWord);
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
				break;
				case '20':
					$res = $GLOBALS['TYPO3_DB']->exec_SELECTquery(
								'ISEC.phash',
								'index_section ISEC, index_fulltext IFT',
								'match(IFT.fulltextdata) 
against(\''.$GLOBALS['TYPO3_DB']->quoteStr($sWord, 
'index_fulltext').'\') AND
									ISEC.phash = IFT.phash
									'.$this->sectionTableWhere(),						
								'ISEC.phash'
							);
					$wSel = '1=1';
					if ($this->piVars['type']==20)	$this->piVars['order'] = 'mtime';	 
// If there is a fulltext search for a sentence there is a likeliness 
that sorting cannot be done by the rankings from the rel-table (because 
no relations will exist for the sentence in the word-table). So 
therefore mtime is used instaed. It is not required, but otherwise some 
hits may be left out.
				break;
				default:
					$wSel = 'IW.wid = '.$hash = $this->indexerObj->md5inthash($sWord);
					$res = $this->execPHashListQuery($wSel,' AND is_stopword=0');
				break;
			}

...

Weiterhin muss wie beschreiben z.b mittels phpmyadmin-Interface der Index-Typ des Indizes fulltext in der Tabelle index_fulltext auf FULLTEXT gesetzt werden, sowie in der Inidize baseword in der Tabelle index_words auf FULLTEXT.

In der t.dev-Liste haben sie lange darüber diskutiert, wie es integrierbar ist. Problem ist wohl, dass der FULLTEXT-Index in anderen DB-Systemen nicht unterstützt wird, und die Sache ja kompatibel bleiben soll. Es gab ein paar gute Lösungsansätze und irgendwann wirds sicher konfigurierbar.

Noch zu der Frage:

> Geht eine täglich Re-Indizierung nicht ziemlich auf en Traffic bzw.
> Serverperformance? Ganz davon abgesehen, dass ich von cronjob's auch
> nicht viel weiss... Wie sähe denn so ein cronjob aus?

Sinnvollerweise realisiert man dass so, dass die Re-Indexierung in der Nacht läuft. Weiterhin kann man dann ausschalten, dass die Seiten im Frontend überhaupt indexiert werden - bringt also sogar einen Performance Vorteil.

3. Mehrfach indizierte Inhalte bei tt_news Lösung aus der Mailing Liste:

Die mehrfachindizierung bei tt_news habe ich hoffentlich dadurch gelöst, indem ich dontUseBackPid = 1 verwende und nur jeweils die SINGLE-News-Seite indizieren lasse. D. h. ich habe bei den LIST und LATEST Seiten "Nicht suchen" aktiviert. Ist das so richtig?

Ein Suchfeld ins Template einbinden

Hinweis: dies beschreibt die Einbindung eines Suchfeldes der indexed_search Extension. Wie man ein Suchfeld für die Standard Suche einbindet siehst du hier:

TYPO3 - Standard Suche auf jeder Seite einbinden

Extension einbinden

Indexed Search Engine (indexed_search)installieren (Standardmäßig vorhanden)

Translation Handling -> Übersetzungen aktualisieren

HTML-Template & CSS

Beispiel:

    <div id="searchBox">
    </div>
Einschränken des Suchbereichs im Template

Im Template werden folgende Marker eingesetzt:

 <!--TYPO3SEARCH_begin-->
 ...
 <!--TYPO3SEARCH_end-->

Sind keine Marker vorhanden wird alles Durchsucht ist nur einer der Marker vorhanden wird alles nach (begin Marker) bzw. vor (end Marker) dem Marker durchsucht

CSS
#searchBox input{
  width: 140px;
}
#searchBox input.searchBox-button{
position: relative;
border: none;
width: auto;
top: 2px;
}
div.tx-indexedsearch-whatis{
padding-left: 12px;
}

Konfiguration der Extension

TypoScript indexedSearch-config (V1.1)

Constants

searchRoot = 1
searchResultPage = 4
searchPic = fileadmin/common/images/lupe.gif

Setup

plugin.tx_indexedsearch._CSS_DEFAULT_STYLE >
page.config.index_enable = 1
config{
   # Index-Suche einschalten
   index_enable = 1 
   # Externe Dateien auch durchsuchen (pdf,doc...benötigt Erweiterungen)       
   index_externals = 0
}
plugin.tx_indexedsearch{
   # Startpunkte der Suche (12,45...)
   search.rootPidList = {$searchRoot}
   # Diverse Optionen zur Anzeige im Frontend...
   show.rules = 0
   show.resultNumber = 0
   blind.sections = 1
   show.L1sections = 0
   show.L2sections = 0
   show.advancedSearchLink = 0

   # auf bestimmte Medientypen einschränken
   # search.mediaList = pdf, doc
}

# Temporäres Objekt für das Suchfeld (in neueren Versionen auch Templates möglich 
# es kann auch die macina Searchbox eingesetzt werden (Template Support Mehrsprachigkeit...)

temp.searchBox = TEXT
temp.searchBox.insertData = 1
temp.searchBox.value (
<div class="searchBox">
<form action="index.php?id={$searchResultPage}&tx_indexedsearch[sword]" method="post">
  <input type="text" name="tx_indexedsearch[sword]" value="Suche" class="searchBox-field" title="Suche" />
  <input type="image" src="{$searchPic}" alt="Start" title="Start" class="searchBox-button"/>
  <input type="hidden" name="stype" value="L0" />
  <input type="hidden" name="scols" value="tt_content.header-bodytext-imagecaption" />
  <input type="hidden" name="locationData" value="{$searchResultPage}:pages:{$searchResultPage}" />
</form>
</div>
)

#plugin.tx_macinasearchbox_pi1.pidSearchpage = {$searchResultPage}

Suche nur in der aktuellen Sprache

# für die default-Sprache:
plugin.tx_indexedsearch._DEFAULT_PI_VARS.lang = 0

# für die Sprache ?&L=1
[globalVar = GP:L = 1] 
plugin.tx_indexedsearch._DEFAULT_PI_VARS.lang = 1
[global]

Oder für jede Sprache gültig: plugin.tx_indexedsearch._DEFAULT_PI_VARS.lang < config.sys_language_uid

Sprachlabels

Wie in Typo3 üblich z.B.:

plugin.tx_indexedsearch._LOCAL_LANG.de.pi_list_browseresults_prev = << 
plugin.tx_indexedsearch._LOCAL_LANG.de.pi_list_browseresults_page =
plugin.tx_indexedsearch._LOCAL_LANG.de.pi_list_browseresults_next = >>
plugin.tx_indexedsearch._LOCAL_LANG.de.pi_list_browseresults_display = ###TAG_BEGIN###%s###TAG_END### - ###TAG_BEGIN###%s###TAG_END### (###TAG_BEGIN###%s###TAG_END###)

In manchen Versionen gibt es einen Fehler in der französichen Übersetzung deshalb:

plugin.tx_indexedsearch._LOCAL_LANG.fr.pi_list_browseresults_display = Résultat ###TAG_BEGIN###%s à %s###TAG_END### sur un total de ###TAG_BEGIN###%s###TAG_END###

Suchergebnis: manchmal möchte man dem Suchergebnis eine eigene Überschrift statt des Seitennamens mitgeben. Das macht man mit:

$GLOBALS['TSFE']->indexedDocTitle = 'suchtitel'

im Main Template

Setup:

### SearchBox ###
subparts.searchBox < temp.searchBox

Kleine Verbesserungen

Ein bischen Javascript kann den komfort verbessern:

Beispiel

 <input type="text" onfocus="if(this.value=='Seminarsuche')this.value='';" onblur="if(this.value=='')this.value='Seminarsuche';" value="Seminarsuche" name="tx_indexedsearch[sword]" class="searchbox-field">


Tutorial von Marlies Cohen

When I first started with Typo3 Indexed Search gave me some problems. It is a very basic extension.


Place this line of code in the Setup of your TypoScript of your rootpage:

   # Indexed Search activated
   page.config.index_enable = 1


Now comes the trick to get your pages indexed.

-> Log out of Typo3

-> Go to your home page

-> Log back in to Typo3

-> Now your pages should be cached and searchable


The reason for this is that as long as you are logged in to Typo3 your pages are not cached, once you log out and view pages they are cached. Knowing this saves a lot of hassles.

Clearing Indexed Search Cache

-> switch to the "Info" module on the left and

-> choose "indexed search" on the right dropdown (in the details view). now you can see all your pages that have been indexed

-> click on the trash-item to delete the indexed record for a specific page-tree (attention: recursive!).

Optionen der indexed search

Da gibts ne ganze Menge:

http://www.typo3.net/forum/list/list_post//27370/

plugin.tx_indexedsearch {
 blind {
        ###settings: 0=aktiv (sichtbar), -1 inaktiv (nicht sichtbar)
       
        ## Vergleichs-Typ (Ganzes Wort, Wortteil,etc)
        type=-1
       
        ## type default option (und /oder)
        defOp=0
       
        ## Bereich(e) der website
        sections=0
       
        ## Suche in Medientypen (erweiterungen)
        media=1
       
        ## Sortierung
        order=-1
       
        ## Ansicht (Sektionshierachie / Liste)
        group=-1
       
        ## Ansicht: Erweiterte Vorschau
        extResume = -1
       
        ## Sprachwahlbox
        lang=0
       
        ## Aufsteigend absteigend
        desc=-1
       
        ## Ergebnisse (Anzahl der Treffer pro Seite)
        results=-1
 }
 show {
        ###settings: 1=aktiv (sichtbar), 0 inaktiv (nicht sichtbar)
       
        ## zeige Kurzanleitung
        rules=1
       
        ## Erstellungsinformationen des Hashes
        parsetimes=1
       
        ## Zweite ebene im Bereichs-dropdown anzeigen
        L2sections=1
       
        ## Erste ebene im Bereichs-dropdown anzeigen
        L1sections=1
       
        ## Alle "nicht im menü" oder "im menü verstecken"
        ##(aber nicht "versteckte" seiten) mit anzeigen in section?
        LxALLtypes=0
       
        ## leeren des Suchfeldes nach suche
        clearSearchBox = 0
       
        ## Aktuelles suchwort zu den bisherigen suchwörtern hinzufügen
        clearSearchBox.enableSubSearchCheckBox=0
 }
 search {
        ## Seiten-Id auf der die Suchergebnisse ausgegeben werden sollen.
        ## Leer lassen entspricht auf gleicher Seite ausgeben
    rootPidList =
       
        ## Anzahl der auszugebenden treffer
    page_links = 10
 }
}

Scheint nicht zu funktionnieren

plugin.tx_indexedsearch.search.page_links = 5

stattdessen das hier verwenden:

plugin.tx_indexedsearch._DEFAULT_PI_VARS.results = 5