Produktkategorisierungs-API für Online-Shops und E-Commerce im Allgemeinen
Eine einfache Möglichkeit für Online-Shops und -Geschäfte, ihre Websites zu verbessern, besteht darin, ihre Produkte zu kategorisieren. Durch die Kategorisierung können die Benutzer Produkte leichter finden, Sie können Filter anwenden, wenn Kategorien vorhanden sind, und Sie können Unterseiten für Kategorien hinzufügen und Produkte dort gruppieren, was zusätzliche Webseiten in Suchmaschinen und somit mehr Besuche von ihnen bedeutet.
Doch wie geht man bei der Produkt kategorisierung für einen E-Commerce-Shop vor?
Der erste Schritt besteht darin, sich für eine Taxonomie zu entscheiden. Unter Taxonomie verstehen wir die Kategorien, die verwendet werden können.
Die beste Taxonomie für die Produktkategorisierung ist die Google Product Taxonomy, über die Sie hier mehr erfahren können:
https://support.google.com/merchants/answer/6324436?hl=en
Die Google-Produkttaxonomie bietet mehrere Ebenen von Kategorien mit unterschiedlicher Tiefe.
Hier sind einige Beispiele für den Google-Taxonomiepfad:
Kleidung und Accessoires > Kostüme und Accessoires > Kostümschuhe.
Bekleidung und Accessoires > Kostüme und Accessoires > Kostüme
Bekleidung und Zubehör > Kostüme und Zubehör > Masken
Bekleidung und Zubehör > Handtaschen und Geldbörsen > Zubehör
Dann gibt es eine weitere Taxonomie für Produktkategorien, die von Facebook erstellt wurde. Weitere Informationen über deren Version finden Sie hier:
https://developers.facebook.com/docs/marketing-api/catalog/guides/product-categories/
Beachten Sie, dass sie eine Konvertierung zwischen der Google-Produkttaxonomie und ihrer Facebook-Produkttaxonomie anbieten. Dies ist sehr nützlich, wenn Sie Ihr Produkt in einer Taxonomie kategorisiert haben und die Produkte in die andere Taxonomie konvertieren oder zusätzlich kategorisieren möchten.
Sobald Sie sich für eine bestimmte Taxonomie entschieden haben, besteht der nächste Schritt darin, eine geeignete Lösung dafür zu finden. Ein Ansatz besteht darin, ein eigenes maschinelles Lernmodell zu trainieren.
Der Schlüssel zu diesem Ansatz ist es, einen geeigneten Trainingsdatensatz zu finden. Dazu können Sie Top-Online-Shops nach verschiedenen Kategorien durchsuchen oder fertige Datensätze mit kategorisierten Produkten kaufen.
Modelle für maschinelles Lernen
Sobald Sie die Daten haben, müssen Sie entscheiden, welche Vorverarbeitungsschritte und welche maschinellen Lernmodelle Sie verwenden möchten.
Bei den Modellen für maschinelles Lernen können Sie zwischen Standardmodellen wie der Support Vector Machine und neuronalen Netzen wie rekurrenten neuronalen Netzen oder Faltungsnetzen wählen.
Die Genauigkeit, die Sie erreichen können, hängt weitgehend von der Menge der Daten ab, die Sie in Ihrem Trainingsdatensatz haben. Eine hohe Genauigkeit, vorzugsweise über 90 %, ist der Schlüssel dazu, dass Sie in Ihrem Online-Shop nicht zu viele Produkte haben, die nicht korrekt kategorisiert sind.
Sie können sich für bereits erstellte Lösungen entscheiden, die Produkt kategorisierung tools über API anbieten. Eine solche Lösung ist die Website productcategorization.com, die eine kostenlose Produktkategorisierung anbietet, wenn Sie nicht zu viele Anfragen haben.
Wenn Sie sich entscheiden, die Produktkategorisierung selbst zu erstellen, sind TensorFlow- oder Sklearn-Bibliotheken eine gute Wahl für ML-Modelle. Ein guter Einstieg ist folgender Artikel, der viele nützliche Tipps zur Produktkategorisierung gibt:
https://medium.com/product-categorization/product-categorization-introduction-d62bb92e8515
Ein wichtiger Bestandteil der Produktkategorisierung von ML-Modellen sind Vorverarbeitungsschichten, für die Sie Ihren eigenen Vorprozessor implementieren können. Sie können zu diesem Zweck auch den Artikelextraktor verwenden.
Artikelextraktoren sind normalerweise Modelle für maschinelles Lernen, die Webseiten in Merkmale umwandeln, die wichtige Unterscheidungsmerkmale in Bezug darauf sind, ob ein bestimmter Teil der Webseite ein Artikel ist oder nicht.
Z.B. Ein Merkmal ist die Linkdichte, und wir wissen, dass ein Teil von Texten, die Menüs sind, eine hohe Linkdichte haben, die zumindest viel höher ist als der Artikelinhalt, daher ist die Linkdichte ein nützliches Merkmal dafür.
Es gibt viele andere, z. welche Tags verwendet werden. Artikelinhalte befinden sich im Allgemeinen in <div>-Tags, während Menüs im Allgemeinen in <ul>- und <li>-Tags enthalten sind.
Hier ist eine vollständige Liste der Funktionen für Artikelextraktoren, die ein wichtiger Bestandteil der Produktkategorisierungs-API sind:
– in welchem spezifischen Tag sich der Artikel befindet (z. B. <p>, <u> usw.).
– Linkdichte – ein Prozentsatz der Wörter, die die Anker-Tags enthalten.
– Wie lauten die Namen der Vorfahren und Geschwister-Tags?
– Anzahl einer bestimmten Art von Zeichen wie Leerzeichen und Ziffern
– Position eines Blocks, sowohl relativ als auch absolut, in der Quelle des Webseitendokuments.
– Anzahl der Sätze im Block
– Was ist die mittlere Länge des Satzes, wenn man die Anzahl der Tokens mitzählt?