Descripció
La creació o també anomenada enginyeria de característiques consisteix a crear noves variables en un conjunt de dades a partir de les variables originals mitjançant la seva combinació i la introducció d’operacions, normalment numèriques. Idealment, aquestes noves característiques capturen millor l’essència d’algun indicador que és rellevant per a resoldre un problema concret i incorporen coneixement dels experts en l’àmbit. Els algorismes que usen una sola variable per a prendre una decisió en un moment donat (per exemple, els arbres de decisió) poden beneficiar-se’n, en combinar diverses variables en una de sola i crear, així, talls oblics que particionen l’espai del conjunt de dades d’entrada de forma més eficient i eficaç.
Hi ha diferents aproximacions per a la creació de noves característiques:
- Mitjançant l’ús de coneixement sobre l’àmbit d’aplicació, per exemple, combinant variables de les quals se sospita que estan relacionades d’alguna manera.
- Usant mètodes estadístics per a detectar relacions entre variables, capturant en un sol component part de la variància/comunalitat detectada. Això inclou tècniques com l’anàlisi factorial, la descomposició en valors singulars o la factorització de matrius de covariància, entre d’altres.
- Generant automàticament combinacions no lineals de variables, mitjançant l’ús d’operacions com el producte o el quocient, l’exponenciació, etc.
- Usant el resultat d’un model restringit que usa un subconjunt de variables, com per exemple la distància a un centroide després d’usar un algorisme de clusterització.
Les possibilitats són virtualment infinites, però cal tenir en compte dos aspectes: primer, amb les tècniques automàtiques és possible crear noves característiques que siguin massa dependents del conjunt d’entrada, amb el consegüent problema d’overfitting; segon, l’increment del cost dels algorismes per a gestionar una alta dimensionalitat. Per tant, després d’una etapa en què s’exploren i afegeixen noves característiques, sol haver-hi una altra etapa de selecció de característiques, en la qual es descarten aquelles que realment no aporten valor.
Enllaç al recurs
https://en.wikipedia.org/wiki/feature_engineering
Exemple d’ús
Suposem que volem saber si una persona està grossa o prima. Òbviament podem usar la variable «pes» per a decidir-ho, però podríem cometre un error en cas que la persona fos molt baixa o molt alta, o també a causa del seu sexe, edat o condició física. Una primera opció seria usar l’índex de massa corporal (bodi mass index , en anglès), que consisteix a calcular el quocient entre el seu pes en quilograms i el quadrat de la seva altura en metres. Aquest indicador és una nova característica calculada que permet saber si una persona té sobrepès o si, per contra, està en el seu pes normal o és massa prima, tenint en compte tant el seu pes com la seva altura.
De fet, l’índex de massa corporal captura en un sol indicador la correlació que hi ha entre pes i altura, però no ho fa usant tècniques estadístiques com l’anàlisi de components principals o una regressió, sinó que es basa en la proposta que va fer Adolphe Quetelet el 1832, a partir de les observacions d’aquesta relació que va fer amb els seus pacients al llarg de la seva carrera, mentre intentava definir el que ell anomenava «l’home normal». No obstant això, l’índex de massa corporal és molt criticat perquè no té en compte ni el sexe de la persona, ni l’edat, ni l’ètnia, per la qual cosa podrien calcular-se indicadors més complexos i exactes per a aquest objectiu.
Enllaços relacionats
Índex de massa corporal: https://es.wikipedia.org/wiki/índice_de_masa_corporal
Estudis originals d’Adolphe Quetelet: https://academic.oup.com/ndt/article/23/1/47/1923176