Creación de nuevas características

1. Ciclo de vida

3. Ámbito de aplicación

Descripción

La creación o también llamada ingeniería de características consiste en crear nuevas variables en un conjunto de datos a partir de las variables originales mediante su combinación y la introducción de operaciones, normalmente numéricas. Idealmente, estas nuevas características capturan mejor la esencia de algún indicador que es relevante para resolver un problema concreto e incorporan conocimiento de los expertos en el ámbito. Aquellos algoritmos que usan una sola variable para tomar una decisión en un momento dado (por ejemplo, los árboles de decisión) pueden beneficiarse de ella, al combinar varias variables en una sola y crear, así, cortes oblicuos que particionan el espacio del conjunto de datos de entrada de forma más eficiente y eficaz.

Existen diferentes aproximaciones para la creación de nuevas características:

  • Mediante el uso de conocimiento sobre el ámbito de aplicación, por ejemplo, combinando variables de las cuales se sospecha que están relacionadas de algún modo.
  • Usando métodos estadísticos para detectar relaciones entre variables, capturando en un solo componente parte de la varianza/comunalidad detectada. Esto incluye técnicas como el análisis factorial, la descomposición en valores singulares o la factorización de matrices de covarianza, entre otros.
  • Generando automáticamente combinaciones no lineales de variables, mediante el uso de operaciones como el producto o el cociente, la exponenciación, etc.
  • Usando el resultado de un modelo restringido que usa un subconjunto de variables, como por ejemplo la distancia a un centroide después de usar un algoritmo de clusterización.

Las posibilidades son virtualmente infinitas, pero hay que tener en cuenta dos aspectos: primero, con las técnicas automáticas es posible crear nuevas características que sean demasiado dependientes del conjunto de entrada, con el consiguiente problema de overfitting; segundo, el incremento del coste de los algoritmos para gestionar una alta dimensionalidad. Por lo tanto, después de una etapa en la que se exploran y añaden nuevas características, suele haber otra etapa de selección de características, en la que se descartan aquellas que no aportan realmente valor.

Enlace al recurso

https://en.wikipedia.org/wiki/Feature_engineering

Ejemplo de uso

Supongamos que queremos saber si una persona está gorda o delgada. Obviamente podemos usar la variable «peso» para decidirlo, pero podríamos cometer un error en caso de que la persona fuera muy baja o muy alta, o también debido a su sexo, edad o condición física. Una primera opción sería usar su índice de masa corporal (body mass index, en inglés), que consiste en calcular el cociente entre su peso en kilogramos y el cuadrado de su altura en metros. Este indicador es una nueva característica calculada que permite saber si una persona tiene sobrepeso o si, por el contrario, está en su peso normal o es demasiado delgada, teniendo en cuenta tanto su peso como su altura.

De hecho, el índice de masa corporal captura en un solo indicador la correlación existente entre peso y altura, pero no lo hace usando técnicas estadísticas como el análisis de componentes principales o una regresión, sino que se basa en la propuesta que hizo Adolphe Quetelet en 1832, a partir de las observaciones de dicha relación que realizó con sus pacientes a lo largo de su carrera, mientras intentaba definir lo que él llamaba «el hombre normal». No obstante, el índice de masa corporal es muy criticado porque no tiene en cuenta ni el sexo de la persona, ni su edad, ni su etnia, por lo que podrían calcularse indicadores más complejos y exactos para dicho objetivo.

Enlaces relacionados

Índice de masa corporal: https://es.wikipedia.org/wiki/Índice_de_masa_corporal

Estudios originales de Adolphe Quetelet: https://academic.oup.com/ndt/article/23/1/47/1923176