Wie konvertieren wir eine Menge Text in eine Form, die der Algorithmus erkennen kann? Im einfachsten Fall wandelt die Verarbeitung natürlicher Sprache häufig Wörter in diskrete einzelne Symbole um, bei denen es sich um One-HotEncoder handelt. Betrachten Sie ein Vokabular V, in dem jedes Wort Wj eine ^ t * -Nummer hat, dh {1, | V |}, dann ist die One-Hot-Darstellung des Wortes Wj ein Vektor der Dimension | V |, wobei das i-te Element Der Wert ist ungleich Null, der Wert gibt an, wie oft das Wort im Dokument erscheint, und die verbleibenden Elemente sind alle 0. Zum Beispiel:
How do we convert a lot of text into a form that the algorithm can recognize? In the simplest case, the processing of natural language often converts words into discrete individual symbols, which are one-hotEncoders. Consider a vocabulary V in which each word Wj has a ^t * -number, i.e. {1, *124V *124;}, then the one-hot representation of the word Wj is a vector of the dimension ^124V *1244;, the second element The value is nonzero, the value indicates how often the word appears in the document, and the remaining elements are all 0. For example:<br>
正在翻译中..