安泰博联会大数据互助营第三期讲座“研究方法和模型选取”顺利举行学生事务与职业发展中心

安泰博联会大数据互助营第三期讲座“研究方法和模型选取”顺利举行

发布者：学生工作与职发办公室发布时间：2021-03-29

3月26日晚，安泰博联会“大数据互助营”第三期在安泰经济与管理学院A305教室成功举行。本次活动邀请信息、技术与创新系的宋婷婷老师进行分享，分享的主题为研究方法和模型选取。宋婷婷老师以自己三篇论文中的实证模型为例，为大家介绍了科研中研究方法和模型选取的逻辑与步骤。

宋老师介绍的第一篇论文中使用的模型为 Dynamic Panel Model和Panel VAR Model。首先，依据研究内容在面板数据中引入滞后被解释变量以反映动态滞后效应，构建Dynamic Panel Model。然而，该模型中被解释变量的动态滞后项与随机误差组成部分中的个体效应相关，导致估计的内生性。为了解决该问题，继续引入Panel VAR Model有效解决个体异质性问题。

接着，宋老师介绍的第二篇论文中主要运用了Two-stage Model。该类模型中最具有代表性的是Heckman Selection Model，可以有效解决样本选择偏差问题。具体操作步骤为：第一阶段先利用Probit或Logit回归求得逆米尔斯比率（IMR），再将IMR带入第二阶段的回归中。然而，Heckman模型只能分析截面数据而无法估算面板数据，这是因为Heckman模型只能估计随机效应、无法估计固定效应从而导致了“伴参问题”。因此，如果在面板数据中使用Two-stage Model时，可以引入Switching Regression Model估计两阶段中误差项之间的相关系数进行进一步分析。对此，宋老师也提醒同学们，目前stata已经存在cmp命令可以直接进行上述回归。

第三篇论文中，涉及的模型有FMM，HMM和Hierarchical Bayesian Model。当数据中存在群体异质性，即能将其分为二个及以上的潜类别组时，可以使用FMM，但它的缺点是一旦分组后就无法更改变量的组别。为了实现不同时期变量在各组间的转换，可以进一步引入HMM进行分析。但是由于HMM模型非常复杂，不是那么主流，宋老师又建议可以使用Hierarchical Bayesian Model，为回归中解释变量每个观测值赋予单独的作用系数。

总而言之，在选择实证模型时，要从最简单、基础的模型开始，然后依据数据特点、研究内容不断引入进阶模型。这些模型可能并不会在课堂上讲解，因此，就需要大家多去阅读相关领域的专业文章，这种在读论文过程中学习的方式也是最高效的。

在问答环节，现场同学请宋婷婷老师介绍一下相关专业领域研究热点以及如何获取研究数据等问题。宋老师表示，目前在Social Media方面，研究热点聚焦于AI、直播、在线教育等方向。例如，近期的一篇顶刊文章研究了直播者的情绪如何影响打赏的问题。至于数据获取方面，更多的可能需要研究者自己利用Python等软件爬数据，因为这种独有的数据是很重要的。现在很多文章中的数据很好，这样即使只用了一些DID、RD之类的简单模型，也能发在顶刊上；相反，如果数据都是公开数据的话，可能就要在模型上下更大的功夫了。此外，如果同学们有机会的话也可以尝试field experiment，得到的数据不涉及内生性问题。现场的其他同学也就宋老师的研究内容提出更细节的问题，例如UGC内容质量评价指标的选取、计量模型的推导等问题，宋老师一一给予了耐心解答。

“安泰大数据互助营”是安泰博士生联合会主办的系列学术活动。活动定期邀请专业教师或优秀博士生分享学术研究中的方法和经验，旨在帮助学生解决数据采集与处理、模型选择与应用等方面的实际问题，通过课堂和沙龙等形式提供一个学术交流和经验分享的平台，助力营造“学在安泰”的优良氛围。前三期活动均取得了良好反响，参与学生受益匪浅。今后，安泰博士生联合会将继续秉承服务师生的理念，推出更多实用、精彩、多元的大数据互助营课堂，将其打造成为安泰博联会的特色品牌活动。