Die Evolution der Website-Suche: Von Tokenisierung & Regex über MongoDB-Dokumente bis hin zur KI-Semantik – Meine Erkundung verschiedener Lösungsansätze und meine Visionen für die Zukunft
Die aktuelle hybride Suchlösung: Eine sichere Wahl, aber immer noch mit Einschränkungen
Derzeit verwendet meine Navigationswebsite eine hybride Suchlösung, die hauptsächlich aus den folgenden drei Teilen besteht:
- Tokenisierung + Reguläre Ausdrücke: Dies ist die einfachste Suchmethode, bei der die Benutzereingaben tokenisiert und dann mit regulären Ausdrücken mit Website-Titeln und -Beschreibungen abgeglichen werden. Sie ist einfach, schnell und kostengünstig und funktioniert gut bei einfachen Keyword-Suchen. Sie versteht jedoch keine Semantik, was zu Fehlinterpretationen führen kann, z. B. bei der Suche nach "Apple-Handy", bei der ein Rezept mit "Apfel" gefunden werden könnte.
- MongoDB-Dokumentsuche: MongoDB bietet selbst robuste Textsuchfunktionen, die ich für die Volltextindizierung von Websitedaten verwende. Im Vergleich zu einfacher Tokenisierung und Regex unterstützt sie komplexere Suchen und bietet eine gewisse Relevanzsortierung. Sie basiert jedoch immer noch auf Keyword-Matching und versteht die Absicht des Benutzers nicht wirklich.
- KI-Semantik-Kategorie-Matching (DeepSeek-Modell): Um die semantische Bedeutung zu verstehen, verwende ich das DeepSeek-Modell zur Kategorisierung von Websites. Benutzerabfragen werden ebenfalls semantisch analysiert, um die relevanteste Kategorie zu finden und Websites aus dieser Kategorie zurückzugeben. Dies hat die Genauigkeit verbessert, ist aber immer noch nicht detailliert genug, und das DeepSeek-Modell ist mit Kosten verbunden.
Dieser hybride Ansatz ist im Moment eine solide Wahl, die Kosten und Effektivität in Einklang bringt. Mit dem Wachstum meiner Website und den steigenden Erwartungen der Benutzer an das Sucherlebnis wird mir jedoch klar, dass dieser Ansatz immer noch einige Einschränkungen aufweist:
- Mangelhaftes semantisches Verständnis: Das Keyword-Matching erfasst nicht die wahre Absicht des Benutzers, z. B. wenn er keine guten Ergebnisse findet für "Welche guten Online-Kollaborationstools gibt es?".
- Unintelligente Ergebnisbewertung: Die Bewertung basiert oft auf einfacher Relevanz und nicht auf dem, was der Benutzer wirklich benötigt.
- Höhere Wartungskosten: Drei separate Systeme bedeuten mehr Wartungsaufwand, der mit zunehmender Datenmenge schwieriger wird.
Andere erforschte Lösungen: Das Gleichgewicht zwischen Kosten und Komplexität
Ich habe auch andere Lösungen in Betracht gezogen, die ich aber aus verschiedenen Gründen nicht übernommen habe:
- Semantische Datenbanksuche: Die ideale Lösung, sie wandelt Website-Daten und Benutzersuchen in Vektoren um und gleicht sie mithilfe von Ähnlichkeitsberechnungen ab. Sie ist jedoch zu kostspielig, da sie hohe Rechen- und Speicheranforderungen stellt, insbesondere für eine kleine Website wie meine.
- Zwischenlösung: Um Kosten zu sparen, habe ich erwogen, ein semantisches Vektorfeld zu meinen Website-Daten hinzuzufügen und mit kostenlosen semantischen Modellen Vektoren von Website-Beschreibungen zu erhalten. Bei einer Benutzersuche würde ich einen Vektor für den Suchbegriff generieren und diese abgleichen. Obwohl es billiger ist, war es mit viel Entwicklungsarbeit verbunden und schwer zu warten.
- Site-Search-APIs von Drittanbietern (Algolia): Diese Dienste sind mühelos und professionell, aber viel zu teuer. Die kostenlose Stufe von 10.000 Suchen pro Monat reicht für meine Website nicht aus.
Diese Erkundungen haben mir gezeigt, dass die Wahl einer Website-Suchlösung ein Gleichgewicht zwischen Kosten, Effektivität, Komplexität und Wartungsaufwand erfordert. Es geht darum, den Sweet Spot zu finden, der passt.
Zukunftsvision: KI-Wissensdatenbank + Semantische Suche
Während meine aktuelle Lösung ihren Zweck erfüllt, habe ich eine ideale Lösung im Sinn: Alle meine Website-Daten in eine KI-Wissensdatenbank umzuwandeln und die semantische KI-Suche zu verwenden.
Die Vorteile liegen auf der Hand:
- Stärkeres semantisches Verständnis: KI kann die Absicht des Benutzers verstehen und genauere Ergebnisse liefern.
- Intelligentere Bewertung: Die KI-basierte Bewertung kann Ergebnisse basierend auf Benutzerbedürfnissen und Website-Qualität besser sortieren.
- Flexiblere Suche: Benutzer können wie mit KI sprechen und suchen, z. B. "finde mir ein kostenloses Online-Flussdiagramm-Tool".
- Geringere Wartungskosten: Ich müsste nur ein KI-Modell und eine Wissensdatenbank verwalten.
Es gibt aber auch Herausforderungen:
- Erstellung der KI-Wissensdatenbank: Wie können Website-Daten effizient in KI-verständliches Wissen umgewandelt werden?
- Auswahl des KI-Modells: Welches Modell passt am besten zu meinen Bedürfnissen?
- KI-Caching: Wie können Suchergebnisse effizient gecacht werden, um redundante Berechnungen zu vermeiden?
Ich bin noch dabei, einige dieser Dinge herauszufinden, aber ich glaube, dass die KI-gestützte Website-Suche die Zukunft ist.
Fazit und Ausblick
Die Website-Suche ist eine fortlaufende Entwicklung, für die es keine Universallösung gibt. Wir müssen ständig experimentieren, anpassen und optimieren.
Ich hoffe, dieser Artikel gibt meine Reise wieder und regt zur Diskussion über Website-Suchlösungen an. Wenn du Erfahrungen oder Gedanken dazu hast, teile sie gerne in den Kommentaren mit!
In Zukunft werde ich die KI-Wissensdatenbank-basierte Website-Suche weiter erforschen und freue mich darauf, mehr mit euch zu teilen. Danke für das Lesen!