KNIME

1. Cicle de vida

2. Tipologia

Descripció

Plataforma totalment interactiva que permet el preprocessament de dades (ETL: extraction, transformation, loading), la creació de models, l’anàlisi de dades i visualització, sense que sigui necessària la programació.

El tauler de treball està dissenyat de manera que el puguem utilitzar interactivament (drag & drop) amb nodes i relacions. Cadascun dels nodes representa un algorisme, mentre que les fletxes són fluxos de dades. A més dels mateixos algorismes inclosos (més de dos mil), en la solució és possible incloure scripts de R, Python o connectors d’Apache Spark.

Les dades es poden obtenir de diferents fonts, des de simples fitxers de text (CSV, PDF, XLS, JSON, XML, etc.) fins a tipus de dades no estructurades com ara imatges o documents, i fins i tot sèries de dades temporals. D’altra banda, podem connectar amb bases de dades i magatzems de dades d’Oracle Microsoft SQL, Apache Hive, entre altres. També admet l’accés a altres fonts de dades com Azure, Twitter, Google Sheets, AWS S3, fitxer ORC.

KNIME també permet la visualització de dades en diagrames de barres, dispersió, xarxes… Una altra característica d’especial interès és la possibilitat d’exportar a PDF, a PowerPoint o d’emmagatzemar els resultats en diferents formats de fitxers o bases de dades.

Enllaç al recurs

https://www.knime.com/

Exemples d’ús

KNIME ofereix múltiples possibilitats, des de visualització o tractament de dades fins a modelització. En aquest cas, ens centrarem en la creació d’un model mitjançant arbres de decisió. En aquesta eina treballem amb nodes que un a un es transfereixen la informació mitjançant connexions. Partim que la informació es troba emmagatzemada en un fitxer pla de text en format CSV. Seguidament, representarem la informació en un diagrama de dispersió (scatter plot). A l’hora de començar el model, hem de dividir el nostre conjunt de dades entre el conjunt d’entrenament i el de test, per a la qual cosa aplicarem un node de partició. En el següent pas, utilitzarem un node que ens permeti fer l’entrenament del model, Decision Tree Learner, prenent com a entrada el conjunt d’entrenament que hem definit anteriorment. Una vegada que es troba entrenat el model, hem de fer el testing del model utilitzant tant el conjunt de testing com el model entrenat, i per a això haurem d’utilitzar el node Decision Tree Predictor que ens informarà del resultat d’aquest test, i podrem aplicar si ho desitgem un node Scorer per a obtenir la matriu de confusió i les seves mètriques associades.

Enllaços relacionats

https://www.knime.com/resources