给定两个包含具有不同性质/单位的数字的向量(例如长度以米为单位,重量以千克为单位),计算这两个向量之间的欧几里德距离或余弦相似度是否有意义?
这些方程式意味着您必须添加和,这应该是没有意义的。然而,我看到这间接完成了很多次,例如,当基于 tf-idf(包含具有不同性质的对象的向量)计算文档的余弦相似度时。
给定两个包含具有不同性质/单位的数字的向量(例如长度以米为单位,重量以千克为单位),计算这两个向量之间的欧几里德距离或余弦相似度是否有意义?
这些方程式意味着您必须添加和,这应该是没有意义的。然而,我看到这间接完成了很多次,例如,当基于 tf-idf(包含具有不同性质的对象的向量)计算文档的余弦相似度时。
作为一名前物理学家,我会说用不同单位添加数量是没有意义的。当出现这样的问题时,诚实地定义一些比例常数是有意义的,根据这些常数标准化你的数量,然后添加它们。
这种“定义和规范化”可能不会改变你的程序,但是明确你的常量可以帮助避免以后出现问题。
如果您想将米和千克视为同一度量空间的一部分,这意味着在您的问题中的某处必须有一个单位为千克/米的常数,即线密度。这样的常数经常出现在自然科学中,并且本身就很有趣。电子的电荷,光的速度,都很少。我建议尝试了解这个线性密度常数是如何在您的问题中出现的,这可能是一个有趣的见解。
如果您的问题中有两个具有相同单位的常数,这将变得更加有趣。然后它们的相对值可以指示行为的定性转换。例如,https://en.wikipedia.org/wiki/Reynolds_number是无单位数字,表示您是否可以有湍流。
我知道这不是物理问题:-)