Dr.2专栏

反精益创业第三章：基于公开资料的商业情报分析（5）以移动医疗app为例详解综合情报分析方法

作者Dr.2，珍立拍股份公司董事长

你见或者不见，她都在那里，不悲不喜。

——仓央嘉措

引言：

这一章是临时插播的，因为有非常多的小伙伴留言说，对我在第二篇文章中写的关于“产品会说话“那里非常感兴趣。但是我写的太简单而且比较短，希望能以一个具体的产品为例，实盘操作一下，如何基于公开资料进行商业情报收集与分析。那么就以Dr.2最熟悉的移动医疗app为例吧，而这对其它创业项目也可能有借鉴作用。

当我们决定着手去调研一个移动医疗项目的时候，首先可以用综合搜索引擎、微博微信、实地走访市场、拜访用户或者与客服进行沟通获取情报，然后再对这个app的基本功能，流畅情况和崩溃退出等进行反复测试。这些工作如何完成不再赘述，但是很关键，因为需要建立基础数据库，以便和我们测试的数据不停地进行交互印证。

Ok，现在开始进行数据测试。以移动医疗app项目中最常见的医患沟通平台为例吧（大约占项目数的80%以上），其实平台里天然就会包含“医生与患者“这两大类非常重要的数据，而“你见或者不见，数据都在那里，不悲不喜“，就看你如何去发现与分析了。首先我们看如何分析医生数据。

医生数据情报：

很多平台都会宣称我有多少万的医生用户入驻，那么怎么核实呢？很简单，我们可以借鉴一下《射雕英雄传》里面靖哥哥是怎样习武的呢？那就是勤能补拙，苦干到底！你想啊，这些平台将医生置入，一定是希望患者可以找到是吧？而且他们通常已经将医生按照科室进行了分类列表，比如说”某雨“、“某某问医生”或“某大夫”等，那就可以一个一个手工拉取进行计数！没有任何投机取巧，完全是一种“2B青年”式的行为。说说一句话，干干工作量巨大！通常一个大平台，需要6个人花两周的时间进行手工计数与复核，就是说Dr.2花了相当于“数万元的人工”，只为了得到一个数字，而投资机构里这些高大上的聪明人是不可能去干的，当然他们可以在尽职调查的时候要求查看企业的后台（不过数据也可以造假），但是我只能采用笨办法了，别无良策，而这只是开始而已。

因为好多平台上的医生是虚假的，只是贴的其它平台上抄来的信息，那么我们接着往下做。打开这个医生的主页，其上会有注明，开通网络咨询或者开通了电话咨询等等，有些都没有开通。开通网络咨询的，你就可以不断进行提问以验证其是否真实存在于该平台。而有些开通了电话咨询，你就可以真实打电话验证，有时你还会发现打过去是某总机的号码，或者是一个导医的号码，不停地给你推荐这个推荐那个。于是这里可以进行抽样调查，开始核实，大约调查每100名医生，有多少信息是真实有效的，取多组测试结果最后取算术平均百分比，随便举一个例子比如说55%是真实的，那么再乘上我们穷举法拉出来的医生总数，就是该平台大致真实的医生数量！故事完了吗？No，just begin！

我们要测试这个平台上到底有多少真实有效的“活跃”医生，在这里我们就讲一个方法。如果发现这个医生页面上标有多少次提问和回答的具体数据，比如说222次什么的，Dr.2通常选择忽略，因为这不少是造假出来的，可以由系统随机生成，看你后台程序怎么编了。但是，由于网站会吸引用户点评或者提问，所以他们通常会把问题与答案显示在页面上，那么这里信息很多，我们采用自上而下全面浏览的方式，计算在每100个问题中有多少人重复回答，在实战中通常我会把回答3-4次的医生定义为活跃用户。那么多次采样之后，再次取加权平均，看看有多少百分比的医生是活跃用户，有多少医生从来没有回答过问题，那么上文我们测过的真实医生数量X活跃系数，就是活跃医生用户的数据。

But，故事并没有完，我们正向得到了一个活跃医生的数据，还要用下文提到的逆向压力测试法来进行验证，如果交互验证在合理范围之内，通常我们可以最后得出相对靠谱的结论，不过还是要带上统计学上可信区间的假设。

患者信息情报：

通常患者信息和数量，我们是无法在这些医患平台上收集的，而且就算可以这么做，由于患者数量要比医生用户大几个数量级，如果Dr.2真的手工去测量，那就绝对变成重度脑残的Dr.250了！

我们无能为力了吗？No！今天我就来系统性地阐述一下“压力测试法”，该方法可以真实估算平台上的活跃医生数量，那么我们为什么要测此数据呢？因为我们需要依靠活跃医生数量来推测患者流量。

大家想啊，患者来这个平台是干嘛的呢？当然是咨询医生的，所以我们可以根据活跃医生的数据，计算出这个平台在某个时间内所能接待的最大患者数量，用这种方法进行反向推定上限。换句话说，根据平台上的真实活跃的医生数量，那每天有多少患者流量的上限肯定是能算出来的，然后可以再乘以一个系数大概估算真实患者流量，所以这是使用间接法来进行测量的。

压力测试法：

首先N个手机用不同账号同时向该平台提问同一个问题，我们的目的是：

1. 测试在同一平台上，在同一时间，在同一个科室内，根据同一问题，获得答复之间的时间差，以及参与回复的医生的数量，并且查看该医生是否有循环回答的情况。通过在同一科室内的反复测试就可以知道在这一时间段，平台上这一科室内真实有效的活跃医生的数量。在测试某雨和某大夫平台时，我们同时用六个手机。

2. 随后，我们同步测试这一平台上所有的十几个科室，取加权平均，就可以进一步推测这个平台上这一时间内总活跃（所有科室）的医生的数量。

3. 然后，取多天多点时间，就可以大致推算出这个平台目前为止总活跃用户的数量和活跃程度。

注意事项：我们在测试的时候，发现有些医生活跃的时间在上午，有些在下午，但是大多数的医生活跃时间都在中午12点~1点多，以及晚上9点之后。因此这两个时间段是极大值有效时间段。根据统计学方法，我们先做散点构图，得出医生活跃数量与时间关系的分布图，然后我们进行分组和配对，一般选择极度活跃时间来测试，并以上限进行推定。

当然等到了我们要进行测试计量的时间段之内，我们进行测试的不同分组内还是会有一些活跃的差别，比如周末、节假日、工作日等因素都会导致结果不同。因此在做分组统计之前，我们要做均衡性检验，查看分组检验和前后时间段中的样本是否足够，是否有代表性等。这样多点取样，多重因素回归，以避免单一分析出现较大误差。

还有，我们可从之前的测试中推断出某个科室的某个医生是非常活跃用户，然后我们为了反过来验证其是否是重度活跃用户，会反复进行比对，这是一个类似数学上循环代入、验证测试的方法，然后结果还要再取多次加权平均，以修正我们之前的数据预测模型。各位同学，你们被绕晕了吗？没办法，统计学就是这个德性，想要不被人质疑，就得多下功夫，多采集数据。

总结：

在对问诊平台做测试的时候，平台越大，我们的工作量就越大，耗费时间就越多。由此可以看出，做一个规范压力测试消耗的人力是非常巨大的，而这还只是整个产品测试的一部分而已。同时为了验证收费平台效果，Dr.2团队还要注册了很多账号，花不少钱去真实测试。

而易观，艾瑞，IMS他们通常是根据总流量和打开行为，去进行数据推断的，就像有机构会和我说，我们公司有数据平台能够后台监测实时数据。不过他们无法做到去研究如此垂直细分的领域，而且各种流量混杂在一起，其实无法区分。同时，他们也很难区分特定的人为操纵或者水军数据，尤其在一些企业准备融资的时候，他们会花不少钱，真的请人去手工下载、注册和互动，造成注册用户数、活跃度和流量劲升的表象，这个在后台确实是真实流量，你也识别不出来。怎么办呢？

真的想干也很简单，市场实地调研，派团队人员一个一个医生或者用户拜访，询问真实使用情况，拍照截图，有图有真相，随后反复抽样调查后进行整体估算，反向验证。而这仍然还是郭靖学武功的方法，没有任何“耍小聪明”，就是用的“笨办法”！

其实我想说的是，你所希望知道的很多信息或者情报，根本就一直在那里呆着，从来就没有离开，不需要什么借口，方法都在那里，就看你到底是“叶公好龙”呢？还是真的想去拿！

（欢迎转载，注明作者和来源即可，愿意与Dr.2交流的请加微信号：2823095726）

浏览次数：2502次