最近一直在讲数据产品的基础概念,我发现可以把这些基础概念进行串讲了。 今天,我就来重点讲讲:标签、维度、指标。在开始讲之前,我想定个调:抽象的词,再怎么用文字解释也解释不清,我也无意构建对这些词的标准化的定义。 希望读者朋友们能跟我一样,借用费曼学习法,构建对这些抽象概念的理解。 一、什么是标签 标签,是为了描述事物、区分事物的某种缩略代指。 我们日常表达里,经常说的一个词是:贴标签。生动又形象,有一种贴便签纸、或者给某个人贴纸条的感觉。 比如,做完核酸检测,小朋友往自己身上贴一个冰墩墩的卡通标签。 人人都可以创标签。 比如,每个人都可以用文字描述自己看到下面这两段话的感受: 我家门口有两棵树,一棵是枣树,另一棵也是枣树。 情况就是这么个情况,具体什么情况,还是要相关部门介入去了解实际情况。 诸如「废话文学」、「没营养」等等,而这些描述性的内容,都可以用来打标签。 再比如,产品经理回老家,如何给非互联网人的亲戚介绍自己呢? 你可以这么介绍:我们这些小经理,完全不管人只负责做事儿,搞互联网的起了这么个名儿也就是为了好听,天天加班干活,跟厂里其他普通员工一样的。 「不管人」、「只负责做事儿」、「为了好听」、「天天加班」、「跟厂里其他普通员工一样」,就可以提炼出来几个标签,给自己贴上。 标签比较具体,比较随意。 标签也是用来做区分和描述的,标签可以随意、很散装,可以很有创意性,也可以很有特异性,可以很长,也可以很短。 「不出远门过五一」、「来拍照了」这些个标签放一起,就很有代表性了。 其实,任何描述性的文本,都可以作为标签。它可以是成语,也可以是词语,也可以是不完整的句子。 只不过,为了简洁性、易读性、传播性,我们通常会用更加短小精悍的文字来描述一类东西,观点更鲜明,更有穿透性。 甚至也可以是形象、图片、符号,也能是标签。一个笑脸、一个红心、一个太阳就能代表很多很多,一图胜千言。当然,每个人都有自己的解读。 另外提前说一句,标签和维度值的概念重叠度比较高。 二、什么是维度 大家常说,物以类聚人以群分。 一个自然而然的逻辑是:先有物和人,再有类和群。 面对新事物,人类最自然的反应是将其描述出来,或者代指。对应到标签和维度上的话,一般来说,都是先打标签,再分类。 比如,印第安人的由来,其实哥伦布团队以为他们到了印度,然后用了这么个很像的词去命名的。印第安人称呼自己,大概也是印第安语的「俺们、咱们」,他们称呼哥伦布,可能也是老外。 我们习惯性会对事物进行打标签,但是当我们碰到了太多的新种类的东西,打的标签太多之后,这个时候要继续区分,就要整理和归总,就得要有「类」和「群」了。 维度是什么呢?简单理解就是上文的「类」和「群」。建立维度,其实是归纳归类,继续做了一层抽象。 最简单的维度,是二元的:是/否。比如,测过核酸 / 没测过核酸。 1. 维度是灵活变通的,可以持续细化,不同维度可以相互组合的 为了讲清楚维度,我不得不再引入一个相关的词,粒度。 粒度,其实就是描述事物、事情过程的细致程度。 为了更细粒度的分类描述,我们可以利用更多不同的前后缀修饰词创建新的维度。 就拿测核酸这个事情来举例。 假如一开始只区分是否测过核酸,后来病毒持续演进,抗疫成了持久战,后来开始区分时间:近30天、近7天、近3天是否测过核酸。 后续为了更加精细化防控,再加上来小区的维度,那就变成:A 小区近 7 天是否测过核酸、B 小区近 3 天是否测过核酸。 2. 维度之间也可以合并和归总 正向可以,反之亦然,我们也可以将细粒度的维度合并成更粗的维度。 如果一开始就高瞻远瞩,基于现实情况,设定了较为贴切的粒度,将统计的维度设置为近N天、小区、是否测核酸。 后续抗疫效果显著,粒度不需要再那么细,只需要按照月份、城市进行统计的时候,这些维度也可以归总:月份、城市、是否测过核酸。 3. 维度的下钻和上卷 按照很多文章的说法,这个两个模块叫做维度的下钻和上卷。 但是,下钻和上卷比较抽象,我比较建议大家通过实际例子来构建自己的理解。 其实可以看到,维度和粒度之间相互影响、相互解释:维度越多,粒度越细。 为了方便,也可以将常见的特别细粒度的维度组合,合并成一个新的维度进行统称。 任何维度的设定,以及维度的下钻和上卷,都是基于我们想了解什么粒度的信息。 三、什么是指标 我们日常生活里,会听到很多的故事。有的故事很丰富,很精确,而有的故事,则很模糊,很朦胧。 丰富、精确,其实描述层面是模糊和朦胧的。 一个事情到底多好多赖,要基于某个标准或者数据进行明确的衡量、确定的度量(度量也是一个常见的词哈)。 指标,是为了客观量化某些事物,一般用数据表示。 比如下属给老板汇报:老板,这个季度我们的用户增长率很高,达到了200%!老板反问,具体多少人呢?下属答曰:从 1000 到 3000 ! 有了用数据描述的指标,这种一般性描述就真的很精确了,反映客观事实了。 四、差别和联系 维度和标签的差别,之前说过了,可以看这篇文章:数据产品经理必看知识:标签和维度 这篇文章重点讨论维度、标签和指标之间的联系和差别。
如果只有光光的指标,什么维度和标签都没有,那读者可以脑补维度,或者自动认为是认知范围里面的全部。 比如,北京奥运会总人数是 23452 人。 大家就会疑问了:哪届奥运会?这个总人数指的是什么人?运动员还是开幕式演职人员? 而下面这个就比较清晰了: 北京冬奥会中国代表团总人数为 387 人,其中运动员 176 人,教练员、领队、科医人员等运动队工作人员 164 人,团部工作人员 47 人(标黄的是指标,下划线部分是标签或者维度值)。 五、为什么会出现标签 为什么会出现标签? 有时候数据很简单,穷举很容易。 比如,冬奥会奖牌榜上(金牌)前三名分别是:挪威队(16枚)、德国(12枚)、中国(9枚)。 但有时候,数据很多,且大家不想知道全部的细节。比如,只关注中国美国,这时候少废话,直接概括:中国队排前三,美国队不在前三。 很多时候,数据是离散的、无限的,或者说样本极大的时候,近乎无限。 比如,全国的的身高、体重,样本的数据就很多了,十几亿数据,怎么描述呢? 「一览众山小」、「怎么吃都不胖」就是大家很容易理解的描述。 不同的标签,概括的粗细粒度不一样。 标签组合越多,概括的粒度就越细(和维度是一样的)。 很多事物,是可以被直接度量的。比如,一个板凳多长多宽多高、一个学期几个月几天、篮子里有几个鸡蛋。 但是,有的事物是没法直接度量的,比如颜值。 这时候,只能通过另外的事物去间接度量。并且,我们要抽象和总结,去概括。 一个人很漂亮,多漂亮?粗暴地分两个标签:漂亮,不漂亮。 小李(莱昂纳多,电影《盗梦空间》的男主角)走在路上,碰到 100人, 99 人回头看他,漂亮不? 另一个小李也走在路上,碰到 100个人, 1 人回头看 ta,漂亮不? 多少人回头,是客观的,但是到底漂不漂亮,每个人心里都会有主观答案的。 标签也可以通过某些标签的基础上,继续划定更细区间的方式进行定义。 这个层面,标签和维度是类似的。 六、看待这些概念的两个视角 光讲概念,不结合数据产品的实际应用,也是没用的。所以在这个模块,我带着大家从业务、技术两个视角来看更多的例子。 1. 业务视角 业务视角简单来说,就是给普通人描述一件事情。大家不要被我带坏了,问我什么是「业务」,不纠结哈。 比如,我们看到某个新闻:A 集团本季度 GMV 增长率为 45%,发展缓慢。 公式版本: GMV 增长率 = (本季度 GMV – 上季度 GMV) 上季度GMV (后续用GMV代指 A 集团本季度GMV) 2. 技术视角 技术视角,则是给计算机描述一件事。 比如,我们要将刚刚说的规则、共识,翻译成技术语言。 这里,我给出伪代码版本(SQL什么的,我就不写了):gmv_growth = (cur_gmv – last_gmv )/ last_gmv 。 3. 两者的联系 标签的技术定义,来源于标签的业务定义。 再来举例,标签和指标的关系。 当然,这里的例子,仅仅是举例哈,没结合行业特性,也没说具体粒度和维度。 七、一个虚拟的例子来理解这些概念 拿我非常熟悉的视频、直播来给大家举例吧(这些例子都是虚构的)。 随着硬件、互联网、移动网络、移动支付的发展,某视频网站 Dilidili 开始上线了。 D 站借鉴了其他的网站,上线的时候就开发了点赞、评论、打赏服务。也对内容进行了划分:番剧、科技、娱乐、体育、资讯、时尚。 网站开始有了第一个UP主上传了视频,有了第一个观众,观众看完视频:留下了评论,哇, 太真实了吧,太搞笑的吧,说的就是我吧。 数据分析师和产品经理,在上线的时候就制定了初版的指标体系,定了很多维度和指标,比如不同地区、不同品类、不同年龄段人群的观看时长、观看次数、观看人数、打赏人数等等。 大的角度,会分几个:内容供给(上传视频数、有效播放视频数、直播人数、次数等)、内容消费(观看停留时长等)、金钱消费(营收维度) 当然了,当中的一些指标,产品经理们也会让 UP 主们在后台也能看到,以便调整自己的视频内容和方向。 后来为了精准地基于用户喜好(用户观看历史、观看不同品类的时长、次数等指标),产品经理增加了新功能:UP主上传视频的时候可以带一些关键词,也就是给视频打标签。 这个功能发布后,其他UP 主开始丰富视频标签。 慢慢地,内容运营和产品经理发现一个词开始流行起来:鬼畜。 随着带这个标签的视频越来越多,索性产品经理就单独搞了把这个设置成了一个新的分类,放到网站首页,后来也成了该站的一大特色。 这些品类和标签不断地演进和变换,最终慢慢相对固定下来: D站在视频领域站稳了脚跟,在很多精神股东的真金白银支持下,公司成功上市了! 这个故事里,我就借用了一个半虚拟的故事,讲了标签、维度、指标的相关故事了,当然,真实的工作场景里,会更复杂、更艰难。 希望对你有所启发~ 八、总结 因为我比较笨,不太适应概念套概念的学习方法,所以我在写的过程中,也尽量不抽象,尽量不抽象,尽量讲解我理解的例子。 总结环节,帮大家回顾下几个要点吧:
维度、标签、粒度、指标,这些概念,都是相爱相杀的。要结合实际案例,系统性地去理解这几个概念。 作者:数据产品小lee;公众号:乐说乐言 |
潘周聃在抖音上火了起来,他是一个高学历学霸。即使不了解潘周聃的人,也在抖音刷到过...
在当年,SaaS鼻祖SalesForce的市值正式传统软件巨头Oracle。这一数据标志着SaaS在商业...
中继器在Axure的使用中已经非常普遍了,但是很多人都困惑于不能动态更改列的数量。比...
编辑导语:用户增长没有捷径,拉新和留存永远是当中的主角。品牌在私域运营上下功夫,...
人设到底怎么定义?到底怎么玩?我想这是很多从事自媒体行业最大的困扰,因为这是万事...
上一篇写了《开源社区运营经验分享(一):我们为什么要做社区?》,明白了我们为什么...