我有一张员工信息表,每个员工都有以下属性。我想做一个分析,找出它们之间有哪些相似之处,并可能将它们分成 3 或 4 组。我开始使用聚类分析fit = kmeans(mydata,5),fit = dist(mydata,method="euclidean")但收到一条错误消息NA/NaN/Inf in foreign function call (arg 1)
In addition: Warning message:
In kmeans(sales1, 5) : NAs introduced by coercion
我所有的变量都必须是数字吗?还是我使用了完全错误的方法?
变量列表:
$性别:int 2 2 2 2 1 2 1 2 2 1 ... $ HISP_LATINO_DESC:因子 w/ 2 个级别“西班牙裔/拉丁裔”,..:2 2 2 2 2 2 2 2 2 2 ... $ APPRAISAL_CRITERION: 因子 w/ 5 个级别 "","GD","GN","TN",..: 3 5 3 3 3 5 3 3 3 5 ... $ P2_RT: 因子 w/ 7 个级别 "","HH","HL","HM",..: 4 6 4 3 7 7 7 3 3 6 ... $ GRADE: 因子 w/ 8 个级别 "21","22","24",..: 6 4 5 2 8 4 6 5 2 4 ... $ ACTION_RSN_DESC:因素 w/ 9 个级别“IVT 不当行为”,..:4 4 4 7 4 3 4 4 4 3 ... $ 生成:因子 w/ 4 个级别“婴儿潮一代”,..:2 1 1 2 1 2 2 2 2 2 ...` $ Date.of.Birth: 因子 w/ 38 个等级 "1/4/1978","10/23/1968",..: 28 6 29 15 11 1 18 3 32 8 ... $年龄:int 43 55 49 37 48 34 35 45 43 33 ...` $ Date.of.Hire : 因子 w/ 33 个级别 "1/1/2012","1/2/1998",..: 13 32 7 10 21 16 6 5 15 23 ... $ Term.Date : 因子 w/ 30 个级别 "1/30/2012","1/31/2012",..: 18 20 4 29 2 1 27 25 22 10 ... $ 任期:人数 13.4 3.9 5 5.9 4.7 0.8 1.9 7.6 7.4 1.8 ... $ Tenure.Category : 因子 w/ 5 个级别“1 到少于 3 年”,..: 2 3 3 3 3 5 1 4 4 1 ... $ Gender_Text : 因子 w/ 2 个级别 "F","M": 1 1 1 1 2 1 2 1 1 2 ... $种族:因素w / 6个级别“亚洲”,“黑人或非裔美国人”,..:6 6 6 6 6 6 6 6 6 6 ... $ Reg..vs..Non.Reg。:因素 w/ 2 个级别“无遗憾”,..:2 1 2 2 2 2 2 2 2 1 ... $横向:因子w / 6个级别“0”,“1”,“2”,“3”,..:2 2 1 2 1 1 1 2 1 1 ... $ 促销 : 因子 w/ 3 个级别 "0","1","2": 2 1 3 1 2 1 1 2 2 1 ... $ Geo : 因子 w/ 17 个级别 "Bentonville, AR",..: 1 1 1 1 1 1 2 2 2 3 ... $ Avg..Time.for.Promo: num 9 0 2.4 0 2.4 0 0 5.5 2.3 0 ...