Produktkategorisierungs-API für Online-Shops und E-Commerce im Allgemeinen

Eine einfache Möglichkeit für Online-Shops und -Geschäfte, ihre Websites zu verbessern, besteht darin, ihre Produkte zu kategorisieren. Durch die Kategorisierung können die Benutzer Produkte leichter finden, Sie können Filter anwenden, wenn Kategorien vorhanden sind, und Sie können Unterseiten für Kategorien hinzufügen und Produkte dort gruppieren, was zusätzliche Webseiten in Suchmaschinen und somit mehr Besuche von ihnen bedeutet.

Doch wie geht man bei der Produkt kategorisierung für einen E-Commerce-Shop vor?

Der erste Schritt besteht darin, sich für eine Taxonomie zu entscheiden. Unter Taxonomie verstehen wir die Kategorien, die verwendet werden können.

Die beste Taxonomie für die Produktkategorisierung ist die Google Product Taxonomy, über die Sie hier mehr erfahren können:

https://support.google.com/merchants/answer/6324436?hl=en

Die Google-Produkttaxonomie bietet mehrere Ebenen von Kategorien mit unterschiedlicher Tiefe.

Hier sind einige Beispiele für den Google-Taxonomiepfad:

Kleidung und Accessoires > Kostüme und Accessoires > Kostümschuhe.
Bekleidung und Accessoires > Kostüme und Accessoires > Kostüme
Bekleidung und Zubehör > Kostüme und Zubehör > Masken
Bekleidung und Zubehör > Handtaschen und Geldbörsen > Zubehör

Dann gibt es eine weitere Taxonomie für Produktkategorien, die von Facebook erstellt wurde. Weitere Informationen über deren Version finden Sie hier:

https://developers.facebook.com/docs/marketing-api/catalog/guides/product-categories/

Beachten Sie, dass sie eine Konvertierung zwischen der Google-Produkttaxonomie und ihrer Facebook-Produkttaxonomie anbieten. Dies ist sehr nützlich, wenn Sie Ihr Produkt in einer Taxonomie kategorisiert haben und die Produkte in die andere Taxonomie konvertieren oder zusätzlich kategorisieren möchten.

Sobald Sie sich für eine bestimmte Taxonomie entschieden haben, besteht der nächste Schritt darin, eine geeignete Lösung dafür zu finden. Ein Ansatz besteht darin, ein eigenes maschinelles Lernmodell zu trainieren.

Der Schlüssel zu diesem Ansatz ist es, einen geeigneten Trainingsdatensatz zu finden. Dazu können Sie Top-Online-Shops nach verschiedenen Kategorien durchsuchen oder fertige Datensätze mit kategorisierten Produkten kaufen.

Modelle für maschinelles Lernen

Sobald Sie die Daten haben, müssen Sie entscheiden, welche Vorverarbeitungsschritte und welche maschinellen Lernmodelle Sie verwenden möchten.

Bei den Modellen für maschinelles Lernen können Sie zwischen Standardmodellen wie der Support Vector Machine und neuronalen Netzen wie rekurrenten neuronalen Netzen oder Faltungsnetzen wählen.

Die Genauigkeit, die Sie erreichen können, hängt weitgehend von der Menge der Daten ab, die Sie in Ihrem Trainingsdatensatz haben. Eine hohe Genauigkeit, vorzugsweise über 90 %, ist der Schlüssel dazu, dass Sie in Ihrem Online-Shop nicht zu viele Produkte haben, die nicht korrekt kategorisiert sind.

Sie können sich für bereits erstellte Lösungen entscheiden, die Produkt kategorisierung tools über API anbieten. Eine solche Lösung ist die Website productcategorization.com, die eine kostenlose Produktkategorisierung anbietet, wenn Sie nicht zu viele Anfragen haben.

Wenn Sie sich entscheiden, die Produktkategorisierung selbst zu erstellen, sind TensorFlow- oder Sklearn-Bibliotheken eine gute Wahl für ML-Modelle. Ein guter Einstieg ist folgender Artikel, der viele nützliche Tipps zur Produktkategorisierung gibt:

https://medium.com/product-categorization/product-categorization-introduction-d62bb92e8515

Ein wichtiger Bestandteil der Produktkategorisierung von ML-Modellen sind Vorverarbeitungsschichten, für die Sie Ihren eigenen Vorprozessor implementieren können. Sie können zu diesem Zweck auch den Artikelextraktor verwenden.

Artikelextraktoren sind normalerweise Modelle für maschinelles Lernen, die Webseiten in Merkmale umwandeln, die wichtige Unterscheidungsmerkmale in Bezug darauf sind, ob ein bestimmter Teil der Webseite ein Artikel ist oder nicht.

Z.B. Ein Merkmal ist die Linkdichte, und wir wissen, dass ein Teil von Texten, die Menüs sind, eine hohe Linkdichte haben, die zumindest viel höher ist als der Artikelinhalt, daher ist die Linkdichte ein nützliches Merkmal dafür.

Es gibt viele andere, z. welche Tags verwendet werden. Artikelinhalte befinden sich im Allgemeinen in <div>-Tags, während Menüs im Allgemeinen in <ul>- und <li>-Tags enthalten sind.

Hier ist eine vollständige Liste der Funktionen für Artikelextraktoren, die ein wichtiger Bestandteil der Produktkategorisierungs-API sind:

– in welchem ​​spezifischen Tag sich der Artikel befindet (z. B. <p>, <u> usw.).
– Linkdichte – ein Prozentsatz der Wörter, die die Anker-Tags enthalten.
– Wie lauten die Namen der Vorfahren und Geschwister-Tags?
– Anzahl einer bestimmten Art von Zeichen wie Leerzeichen und Ziffern
– Position eines Blocks, sowohl relativ als auch absolut, in der Quelle des Webseitendokuments.
– Anzahl der Sätze im Block
– Was ist die mittlere Länge des Satzes, wenn man die Anzahl der Tokens mitzählt?


Analysing crypto emotions with Crypto Fear Greed Index

Search Trends for Crypto Market

We’re big believers in the power of search trends to shape the future of your cryptocurrency investments.

If you’ve ever used a major search engine like Google, Yahoo!, or Bing, you know that they track and display trends of their users’ searches over time. These trends are an excellent indicator of general interest in any given topic, and we provide historical charts of search trends for each coin that we cover.

By studying these trends, you’ll be able to better anticipate market movements and make more informed investment decisions.

Crypto Talk

Crypto Talk is a BittsAnalytics tool for cryptocurrency investors that shows via API how positive or negative is the sentiment of coin in the most recent tweets about each cryptocurrency. It also shows which topics are viewed as positive or negative for each currency. We’ve listed some of the top cryptocurrencies, but you can use this tool to see sentiment and trends for your favorite coin.

Crypto Fear & Greed Index

We’re constantly on the lookout for new indicators to help us keep track of the health of the crypto market. The Crypto Fear & Greed Index is a major new addition to our suite of tools.

Our Crypto Fear & Greed Index captures overall positive and negative emotions as expressed by users on social media and provides useful insight in current mindframe of crypto market.

The Crypto Fear & Greed Index is a measure of the sentiment of crypto investors based on the overall positive and negative emotions expressed on social media. It captures fear and greed, two of the most basic human emotions, which are especially relevant to investing in crypto. The index is constructed by merging multiple sources of human opinions (from Twitter), machine learning models, and a weighting algorithm to produce a single number. The Investor Indices are based on social media opinions of traders, hedge funds and other professional investors. T

The indices are calculated using machine learning models and a weighting algorithm.

Support and resistance levels

You’re probably familiar with support and resistance levels, but if you’re not, don’t worry. We’ve got you covered. In trading, support levels are where a price is more likely to stop falling, and make a reversal back up. In contrast, resistance levels are where the price is more likely to stop rising, and fall back down. Support and resistance levels can help you position your trades for the future. A bullish trader might look for support levels to be broken through, because it signals that the stock price will rise from there, whereas a bearish trader might look for resistance levels to be broken through because it signals that the stock price will drop from there.

All of this means that if you’re looking to buy or sell a security, or really anything that trades in value, using support and resistance levels can help you time your buy/sell orders more effectively. If a security is at a support level, it’s potentially more likely going up from there!

Historical simulation

Did you ever wonder how much your current portfolio gained or lost in a specific time period? Well, you can enter your portfolio on our platform and obtain a historical simulation of your portfolio performance in the past.

 


Privacy issues in machine learning and artificial intelligence – a task for data science consultant

Machine learning and artificial intelligence are increasingly impacting a lot of our decisions. This article is part of series on website categorization.

Many rely each day for numerous of their tasks on digital assistants, be it Cortana on Windows or Siri on mobile phones.

Then there is Alexa of Amazon and Google with its own offering. All of this programs are driven by enormous amounts of data.

The data has become the new “oil” of this economy.

Some of the data involved is not data of us humans. E.g. in industry one may be interested in when a machine may fail so that one can order a new one or prepare for repair of the current one. For this purpose on may install all kinds of sensors on machines and then use these data as input to machine learning models in order to try to predict future failures.

This is an area called predictive maintenance and it does not actually involve any personal data. Just that of machines.

On the other hand, for a lot of decisions that machine learning and AI model make about us, the data involved is of course personal.

Machine learning models need our data for two purposes:

– to learn, train the model

– to make predictions or inferences

In first case, the amount of data required can often be very large. There is an old rule about machine learning models: usually, the more data the better in terms of performance, as measures by metrics such accuracy, precision, recall, f1 score or ROC AUC. If we want to create a tool for crypto sentiment analysis of posts about blockchain assets, we would first to have to train a model on a large number of labelled social media posts.

In the second case, making predictions or inferences, the data required to make a decision about us is our personal data or about entities related to us.

Data privacy breaches in machine learning

So where can privacy violations occur in machine learning model usage?

One possibility is the data is somehow retained in the weights of the machine learning model. If the model is widely available after training, this may be a problem.

Second possibility is that personal data is not directly visible in weights of the model but can be extracted if we poll or use the machine learning model repeatedly.

Third possibility is that machine learning model serves as partial source of information and we can deduce personal information from this source along with using other external sources.

This is an interesting paper on the so-called Model inversion:

https://www.cs.cmu.edu/~mfredrik/papers/fjr2015ccs.pdf

How can we prevent privacy breaches in machine learning?

If we want to prevent privacy breaches when training and applying machine learning model, we need appropriate approaches for that. Data science consultant Alpha Quantum uses  several best practices approaches for that: differential privacy, federated learning, secure multi-party computation.

First approach is that we simply obfuscate the data that we use.

If we e.g. did a computer vision project, e.g. face detection, we could noise each image by random pixelization. This could involve changing randomly the color of each pixel in the image or adding random pixels to the images of faces.

Approach, where we randomly alter the data is known as differential privacy.

We can control how much we change the personal data with a parameter called epsilon.

One problem with differential privacy is that one can still reconstruct the original data by running the machine learning model repeatedly, whereby on each repetition randomness is being reduced and can obtain the original data after sufficient number of iterations.

That is why differential privacy has implemented so-called privacy budget, where one can run the machine learning model only a maximum number of times.

Not all fields have a problem with data privacy. If we e.g. consider recent results obtained in AI content generation tools, obtained with tools such as GPT-2 and BERT or Bidirectional Encoder Representations from Transformers, there is no large personal data privacy involved inherently in those AI content generation tools. Care should only be taken about the data input to those models, namely that any personal info is removed from them.

AI Content Writing Tools have greatly improved in the last couple of years. The traditional content writing services for machine learning e.g. may become more interesting as they are still a bit complicated, but traditional content writing for non-technical fields may become interesting for AI tools in the next few years.