Posts

国考最热职位已超“千里挑一”：谁能拿到“铁饭碗”？

Posted: 2023-11-08

original post at 缪斯夫人撰文：姚曼韩思齐责编：钱岳写在前面一年一度的国考报名季如期到来。据统计，截至10月22日16时，2024年国考有逾174万人提交报名申请。这一数字比去年同期增加22万余人，其中竞争最激烈十大职位榜单中有8个职位竞争比超1000∶1。[1] 这一热烈景象延续了近年来的“国考热”趋势，国考报名人数由2015年的140.9万增长至2023年的250万，涨幅超过77%。[2] 与此同时，国考招录的学历门槛明显提高，高学历人才需求量加大。越来越多的硕博高学历人才也加入到国考大军中。不断增长的报名人数，反映出当下求职者的特定偏好：对于公务员以及国有企事业单位编制岗位等体制内工作的青睐。随着市场化改革的深入推进，我国的私营部门不断壮大，被称为“铁饭碗”的工作在整体经济中的比重，本在逐渐减少。然而近年来，随着大学毕业人数的增加，以及疫情、国际形势动荡带来的经济波动等因素，稳定、体面且福利待遇不错的体制内工作相比私企职位对于求职者来说更具吸引力，重新形成我们这个时代对“铁饭碗”式工作的集体性向往。但在求职过程中，一个问题逐渐浮现：不同学科专业背景的大学生，他们进入体制内工作的机会是一样的吗？这些机会是否会随着宏观社会变迁和家庭社会经济状况而改变？以上正是我们在即将发表于Chinese Journal of Sociology的论文，Who earns the iron rice bowl? Major marketability and state sector jobs among college-educated workers in urban China （谁能拿到铁饭碗？大学专业的市场性与体制内工作的获得），将要探讨的问题。文章链接： https://drive.google.com/file/d/1m6eh5WBTdPERtSXahxey0yY76tSqVgJf/view 图片 ▲来源：www.pexels.com 1 研究背景大学生的学科专业背景与其毕业后出路是教育社会学领域的经典研究问题。以往西方社会关于这方面的研究大都将焦点放在大学专业如何影响毕业后的收入水平和职业类别上。[3] 我们根据中国社会的特点，提出就业部门（体制内 vs. 体制外）也应当被视为衡量中国劳动者社会经济地位和综合福祉的一个关键变量。同时，我们根据以往研究发展出专业的市场性（marketability）这一概念，根据职业化程度 (occupational specificity) 和盈利导向（profit orientation）两个维度将我国高等教育主要学科分为了较低市场性专业和较高市场性专业（见图一）。市场性较高的专业包含工程类、财政金融和管理类等职业化程度高、盈利导向型的专业；而市场性较低的专业则包含医学健康类、教育和法律等职业化程度高但非盈利导向型，以及人文、社科、基础自然科学等非盈利导向且职业化程度低的专业。值得一提的是，不同学科专业的市场性在不同国家教育体系中有所差别。例如，医学在医疗系统高度市场化的国家具有高盈利性质，而在我国，80%以上的医疗服务由公立机构提供，医疗人才的培养旨在更好满足民众的公共健康需求而非盈利。[4] 与此类似，法律教育在我国强调为国家机关和企事业单位输送法律人才，重点并非为商业机构服务。[5] 图片 ▲图一. 不同学科专业的市场性 2 数据我们使用了CGSS三次全国代表性的调查数据（2003， 2008， 2018），探讨专业市场性与进入体制内工作之间的关系。我们将分析样本限定在了2029名大学毕业生中。自变量是专业市场性的二分变量（高vs.低），因变量则为目前工作单位是否为体制内的二分变量，因此我们使用logistic regression模型进行分析。此外，为了探讨不同市场化阶段和家庭背景的作用，我们还在模型中加入了调查年份与专业市场性、家庭背景和专业市场性的交互项。主要的控制变量包含性别，年龄，户口类别，大学类别（本科vs.专科，全日制vs. 非全日制），是否为党员，以及所处地区。我们还使用了Inverse Probability Weighted Regression Adjustment （IPWRA）来调节进入不同专业背景学习的选择性偏差。 Read more...

计算方法的跨学科潜力

Posted: 2023-03-30

original post at 定量群学三月结语：计算方法的跨学科潜力韩思齐在这个月中，我们的团队为大家介绍的主要是在社会学中广泛运用的几种计算方法，我们也看到了这些方法如何为经典的社会分层议题提供新的视角。“计算社会科学”这个名称本身已经揭示了这些研究方法的跨学科性。所以作为本月结语，我想借此机会聊一聊计算方法进一步融合STEM、社会科学、和传统人文学科的潜力。我本人对于人文学科的研究非常感兴趣，经常“不务正业”地关注着历史、文学、音乐、视觉艺术等和社会学不算直接相关的领域。在浏览这些其他领域的新发展时，我发现计算方法已经不断渗透到这些传统人文领域，并可以为社会学研究提供一些新鲜的启示。案例1: 社会网络与文化史 Schich, Maximilian, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, and Dirk Helbing. “A network framework of cultural history.” science 345, no. 6196 (2014): 558-562. 利用历史大数据，本文作者们观察了知识分子在过去千年中的迁移流动模式。通过观察这个地理意义上的迁移流动网络，我们可以更新对于推动文化发展的历史动力的现有认识。这个流动网络以知识分子的出生和死亡地点为基础，研究了约150，000位历史人物，发现虽然著名知识分子出生地各异，死亡地却集中在几个最具文化吸引力的城市，说明了文化的交叉传播和发展离不开伦敦、巴黎、罗马这些磁石般的文化中心。本文的可视化也是近年来最为令人叹服的作品之一（我的个人意见）。虽然这个研究属于数字人文大类，但是它同时不失为一项有趣的移民社会学研究。 image 1 案例2: 机器学习与名画的艺术特征 Sigaki, Higor YD, Matjaž Perc, and Haroldo V. Ribeiro. “History of art paintings through the lens of entropy and complexity.” Proceedings of the National Academy of Sciences 115, no. Read more...

Resources For Graduate Students

Posted: 2023-03-04

Will keep updating if I find more relevant resources. plain text productivity Kieran Healy data cleaning and management, reproducibility Karl Broman conceiving a project Khan, Shamus Rahman, and Dana Fisher. The Practice of Research: How social scientists answer their questions. Oxford University Press, 2013. writing Jessica Calarco Ezra W. Zuckerman career development John Levi Martin computational social science resources Siqi’s chosen set of tools task management: orgmode in Emacs & google tasks Read more...

计算方法在社会分层研究中的新进展

Posted: 2023-03-01

original post at 定量群学定量群学 2023年3月轮值主编寄语：计算方法在社会分层研究中的新进展计算社会科学（Computational Social Science， CSS）方法如今在各个学科都不断被普及和运用。这些方法在社会学中较常使用的是：社会网络分析，主题模型，以及词向量。目前大量的研究都是采用社交媒体数据进行分析，测量网络结构和政治态度之间的关系。社交媒体是一个“人的网络”，由人构成；那么是否还有其他类型的事物可以被构建为一个社会网络呢？答案是肯定的。论文之间的引用可以构建引用网络，职业间的劳动力流动可以构建职业结构网络，还有很多还未充分发展的领域，值得未来的研究进一步探索。很荣幸有机会作为本月的轮值主编，我和团队成员们想借此机会，为读者介绍近来社会分层领域的大数据计算社会科学研究。作为一个社会分层学者，我个人的研究关注的主题是高等教育向劳动力市场的流动路径（school to work transition)。在研究这个问题的过程中我发现了一个难解的疑惑，那就是在教育社会学研究的大主流中，研究者往往最为关注学位在外部世界的回报，例如何种人拿到何种学位，是否能继续更高等级的教育，毕业后获得何种经济回报，该回报是否存在组间不平等。然而研究者并未足够关注教育的本身和教育的过程，这一问题已经被一些学者注意到（Guhin and Klett 2022）, 并呼吁教育社会学能够及时关注所谓Schooling In Itself。上述学者们的这一呼吁与三十年前英国教育社会学家Basil Bernstein的一对概念遥相呼应。在Bernstein （1990）的名作“阶级、符码与控制（Class, codes and control） ” 中，他提到，许多的教育社会学关注Relation To，亦即教育和外部社会的关系，而不是关注Relation Within，亦即教育本身的结构和过程。教育社会学的学科身份建立在对学校在社会分层中所起作用的研究，所以当然不可否认这一寻找外部世界的回报不平等的研究路径有很大的价值。然而这一学科身份的建立，一定程度上牺牲了教育社会学其他的可能性（Mehta and Davies 2018）。我认为，这个“牺牲”很大程度上是由于在过去几十年中，我们的数据和方法并不适合探究这个“schooling in itself”的问题：如何获得大量和教学本身相关的资料？这些资料大多为非结构性文本，怎样去成体系地分析？当时的少量研究教育内在结构的论文大多采用质性的档案分析，只能接触少量的文本数据（如一百本教材）。如今学科的发展或许已经来到了一个从Relation To飞跃到Relation Within的时刻。这个想法激发了我的热情，我随后加入了哥伦比亚大学Measuring Liberal Arts（https://incite.columbia.edu/measuring-liberal-arts）项目，该项目通过研究大量课程计划与课程大纲的文本数据，系统性地构建一个测量大学课程跨学科性的量化指标，并将其与学生毕业后的各种社会经济成就相联系。通过直接分析大学的课程和知识结构，我们的项目试图打开这个Relation Within的“黑匣子”，希望这个项目的成果很快能面世，到时有机会介绍给大家。当然，教育分层只是社会分层的一个分支。我和港中文社会学及其他院校的同事、同学们不断关注着CSS技术在社会分层研究中最新的应用和发展。在这个月的系列文章中，我和同事、同学们会从高等教育出发，进一步介绍以下其他几个和分层相关的主题研究以及CSS方法的运用：高等教育科学研究职业系统城市空间阶层价值观希望通过对这一系列新研究的介绍，能够让定量群学的读者群体接触、了解学科发展的一些新方向，以启发更多方法创新。在本系列的结尾，我会再次讨论CSS方法如何拓展社会科学研究的疆界，并讨论几篇具有大视野的大数据研究，展望未来可能的研究前景。 References Bernstein, Basil. 1990. Class, codes and control Vol IV, The Structuring of pedagogic discourse. London: Routledge. Guhin, Jeffrey, and Joseph Klett. Read more...

不研究社交媒体，还能进入计算社会科学领域吗？

Posted: 2023-02-27

original post at 缪斯夫人撰文：韩思齐责编：钱岳写在前面过去一年多我接触了不少申请社会学博士的同学，以及来到香港中文大学社会学系读博士的新同学。虽然大家对计算社会学(computational sociology)的兴趣越来越大，但是在我自己的研究方向(higher education, school to work transition)内，我还没看到过运用计算社会科学(computational social sciences)方法的申请材料和研究计划。我认为，这可能因为目前计算社会科学的研究中，使用社交媒体数据是主流，导致大家可能会忽视一些其他有潜力的方向。不做社会网络、传播、民意/情绪、地理位置与移动等研究的社会学研究者，可能不知道如何使用这些工具来进行一些比较创新的研究。我通过简单回顾我个人接触计算社会科学的过程，来介绍一下计算社会科学的方法和工具在教育社会学和社会分层研究中的潜力。 1 入门博士期间我给一名社会网络研究专家当研究助理，他当时的项目，大意是通过fMRI实验，搜集受试者互动时的脑神经活动，Treatment是对方是否知道和自己互动的人的社会地位（status），知道对方是高地位者之后是否会导致特定脑神经活动，并且改变自己的行为选择。这个数据收集到之后可以被建构为一个互动网络，然后再判断对方社会地位对这个网络的影响。为此，我旁听了他的社会网络研讨班，并且接触了一些R语言，但是并不深入，没有用在实际研究中。在我接触R语言的档口，我在网上看到Duke社会学系Kieran Healy教授的个人主页，非常喜欢他提供的资源（https://kieranhealy.org/resources/），里面介绍了除R以外，其他可以实现基于纯文本（i.e., MS Word就不是纯文本工具，不能使用git进行版本控制）工作的各种工具（如Markdown, Emacs, Pandoc, git等），这成为了我决心入门计算社会科学的契机。（特别提一句，Emacs 可谓是control freak，DIY狂的福音，我曾经希望把所有一切都用Emacs来记录，虽然现在已经放弃。）但是光有工具还是不够。要如何真正在自己的研究领域使用这些工具呢？博士最后一年，在诸多的申请中，我在偶然机会下看到了哥伦比亚大学的一个博士后的职位, 项目的内容是研究美国大学的知识结构，从不同类型的课程内容中建构一个定量指标，从而测量什么是更加具备人文通识特质的大学课程体系，这种课程体系在哪里可以找到，对学生日后长远发展又有什么功效。当时我意识到，这就是我作为一个教育社会学研究者进入计算社会科学的机会，因为课程内容首先是一个教育社会学的题目，以前只存在小样本手动进行的质性分析。正因为它所包含的都是非结构化的文本数据（unstructured text）, 要对它进行大规模体系化分析，必须使用计算社会科学的工具，也就是自然语言分析（natural language processing）。因为这个博士后职位在一众岗位中看起来很特殊 (https://incite.columbia.edu/ 是一个跨学科研究所，研究项目都很“敢”，不太常规)，我甚至之前也没怎么听说过这个研究所，所以为此我写了一篇很短很非主流的个人陈述。自认为，我的发表应该在导师眼里真不算什么，他也不研究社会分层或教育社会学，所以个人陈述中，我没有过多介绍自己的发表，而是用了主要的篇幅讲了讲我认为教育社会学现在的问题有哪些，用计算社科的工具研究教育社会学可能会有哪些新突破等等一般的个人陈述不会讲的批判性话题。抱着不会被录取的心态去了趟纽约，和研究所的教授和同事们见了面，没有想什么结果地参加完这个面试。最后结果是，拿到了offer。 2 进一步学习开始工作后，我发现最直接的学习方法，不是上Coursera Datacamp 等平台的python课程，而是根据项目每天遇到的新情况，随机应变地学习一个个新的技能。比如我们团队当时需要收集每个学校网页上的文字内容，我就学习了beautiful soup, selenium (抓取网页的两个Python package)；之后，我们又需要清理一些没有意义的词汇，于是我又学习了Regex （搜索工具）；之后我们又需要不断地改变数据的结构，建立新变量，于是我又学习了Pandas （组织数据结构的强大工具）。长此以往，不断地增加这些技能，什么时候需要新的技能，就学习那个需要的技能。看过一些硅谷科技创业相关美剧的朋友们应该知道，即使是资深程序员，可能也每天在查询Stack Overflow，因为他们并不会去记忆这些代码，而是需要用了就去迅速地看一下代码的结构即可。不同于Stata 简洁而易于记忆的代码风格，无论R还是Python都不是只通过上课、记忆、做一些没有具体研究目标的练习题就能熟练的。 3 计算社会科学方法在教育社会学中的应用案例于是，在这个为了项目不断学习的过程中，我也接触了不少和教育社会学、社会分层相关的计算社会科学研究。这些研究使用的并非社交媒体数据；相反，学校的mission statement、网课系统中的学生点击数据、学生申请大学时使用的申请材料、以及我自己的研究使用的课程大纲资料，都是可以使用的素材。下面列出几篇论文供大家参考。 Haber, Jaren R. “Sorting Schools: A Computational Analysis of Charter School Identities and Stratification” Sociology of Education 94, no. Read more...

人类学提问计算社会学！（...然后被反问）

Posted: 2023-02-27

original post at 结绳志 p.s. 访谈时chatGPT未正式推出。 · 编者按 · 人类学强调整体（holistic）视角，意思是人类学家在研究时必需从方方面面、各种尺度来考察自己的研究问题。这种强调从联系与交互来思考问题的整体论，也要求人类学家根据自己的需要，采取跨学科的方法与视角来做研究。但在学科训练的现实环境中，很多社会文化人类学的同学恐怕并没有太多机会了解定量或计算的社科研究方法。本期的“人类学提问计算社会学”就是希望通过一场轻松的笔谈对话，介绍计算社会学的方法与思路，并期待可能碰撞出的火花。人类学史上，文化人类学与数学的交织并不罕见。有列维-施特劳斯呼吁发展“关于人的数学”（1954），也有人类学如何结合数学方法的各种讨论；而作为人类认知形式，数学也一直是人类学的研究对象，突出的例子包括关于民族数学（ethnomathematics）的研究，以及对社会生活数据化（datafication）的种种反思等等。结绳志的名字也可说与之有关，作为绳结记录体系之一的印加“奇普（qhipu）”就通过计数来达成社会管理与文化传播。这次笔谈是小结学习与思考数学问题的第二篇，第一篇请见译文《算法文化与劳动分工：启蒙运动中的计算》。本期的被访者是香港中文大学社会学系助理教授韩思齐，一位关心人文思考的计算社会学研究者。提问者叶葳是思齐的本科同学，在十年前的社会学系生活中，面对未来的方向选择，我们曾无数次聊“定性还是定量”：尽管共享对人与社会的研究兴趣，学科传统却要求我们首先选择一种方法受训，这也使得当年的谈话就充满犹豫和含糊，双方立场总是不断互换。十年之后的这次笔谈既是老友线上重聚，也再续了关于研究方法的交流对话。本文有不少跳脱、随意之处，期待大家在评论区一起充实这场讨论。受访者 / 韩思齐与谈、编辑 / 叶葳 Image 什么是计算社会学 Wei：能否介绍一下自己和最近的研究？ Siqi：我在俄亥俄州立大学时期的研究生训练主要集中于教育社会学和人口学和两个非常大、人非常多的领域。毕业之后进哥伦比亚大学做博士后，仍然在做教育相关的主题，但是使用的是文本数据和计算方法。选择这个博士后项目的过程，之前已经聊过*，但是其实根源还是在于我的两个兴趣：（1）我个人其实对于通识教育和传统的人文学科的兴趣完全不小于社会科学，（2）但是我也很感兴趣科技（大数据和计算社科）应用于回答人文领域问题（比如到底什么是好的高等教育）的可能性。一个研究人文教育的大数据计算社科项目正中我的下怀。 *编注：关于思齐的研究历程，可参见缪斯夫人“不研究社交媒体，还能进入计算社会科学领域吗？” Wei：什么是计算社会学？它与传统的建立在社会统计学方法上的社会学定量研究有何异同？ Siqi：这个问题可以从方法和数据两个方面回答。根源的不同我觉得在于数据。由于新的适合社会学的数据出现，而它们都比较“大”，且没有“结构”，所以需要新的方法来分析。 “大”这个问题很清楚。微博数据，手机的地理定位移动数据，等等都很大。但是“结构”这个问题更加重要，区分开了传统的定量和现在的定量。传统定量里面，发一份问卷出去，就能得到各种变量——variable 1, variable 2, variable 3——这些变量放在一张Excel表里面就自然有了结构。现在要处理的则是非结构性的数据，比如说微博，每个人的每条微博，如果作为一行数据，那么这一行数据里面没有任何现成的变量存在，需要研究者自己解析（Parse）。这就进一步涉及另一个问题：这些纯文本形式的非结构的数据，不像 0= male, 1=female这种，能够轻易转化成数字编码。这也就是为什么需要新的方法。新的方法主要分为两类，一类是社会网络分析（Social Network Analysis），另一类就是自然语言分析（Natural Language Processing, NLP），二者分别对应着微博数据（用社会网络方法分析）和其他非结构的文本数据（用自然语言分析）。当然这么说可能过于大而化之，不过据我观察，这两类方法和数据是计算社会学中最为主流的。这两种方法和传统统计学的方法又有什么差别呢？像我已经说的，新的数据结构不再是一个人一行，一个变量一列了。在一个社会网中，很多时候结构本身产生了1+1 大于2的效果，也就是，你把每个人自己的属性考虑进去不够，这个网络结构的本身会产生一个独立于个人的效果。一个简单的例子，同样五个人，场景一是其中两个人认识彼此，场景二是其中三个人互相认识彼此，那后者这个社会网络的密度（density）与传递性（transitivity）都高了，虽然还是一样的五个人。要了解网络结构和结构中的资源，就需要社会网络分析方法。这种方法所作用于的数据是由关系节点（nodes）与关系线（edges）组成，所以不同于调查研究的数据。自然语言分析的数据那就更加简单明了，就是文本。在这个文本上我们能做什么？两个主流的方向：（1）词向量。简单的例子就是，英语中King & Queen, Cat & Dog 这两对词语，我们凭借人类常识可以知道，King和Queen会比较经常一起出现，而Cat和Dog会比较经常一起出现。这是因为人脑知道这两组词语各有一个潜在的共享概念（Shared Underlying Concept）：前者是皇家，后者是动物。机器学习也能知道第一对和第二对词更相似，因为它可以把每个词都向量化（Vectorize）成一列数字，每个向量（vector）都代表了一个词语周身的语义环境。既然所有词语都变成一行数字，那么就可以定量地算出它们的距离。在一起常出现的词语，它们的语义环境就会比较相似，那么我们计算的它们的距离也会比较小。所以我们会发现，king和queen的余弦相似度（Cosine Similarity）假设是0.8, 而 king和cat的余弦相似度可能只有0.4. 这样一来谁是更靠近的词语呢，就一目了然。（2）主题模型（Topic Model）。假定我们有一堆报纸，这个报纸是综合性的，好多各种版，体育版，娱乐版，时事版……那么如果我们一开始不知道每一篇文章是属于哪个版，是否可以通过机器学习和自然语言分析得出这篇文章最有可能的那个版（也就是Topic）呢？这是另一个非常适合社会科学的方法，比如我们有一大堆Twitter数据，这些数据自己并不能告诉你它是什么样的政治取向，那么如何找到它们背后潜在的不同政治取向呢？这时候Topic Model就可以起作用了。Topic Model有很多不同种类，LDA， Key-ATM， STM等等，不多赘述了。 Wei：非常切要的介绍！这两种数据方法非常有意思，也很适合人类学者们思考借鉴。我们先聊社会网络分析。作为十年前的社会学本科生，我第一次听说“社会网络”这个概念是因为格兰诺维特（Mark Granovetter）经典的弱关系理论（1973）——他在研究求职过程时发现，弱关系在是整合群体间关系的纽带，在信息传播等过程中作用更大；以及围绕格兰诺维特理论的一系列讨论，包括边燕杰立足中国研究提出的“强关系”分析等等。另外，当时我们思考社会网络或社会关系研究的时候，往往还会将之置于社会学老祖宗齐美尔、涂尔干等对社会互动和社会性的讨论线索中。这些对社会网络的“老”认识，是否还能用于理解当代定量社会学研究的相关前沿？这些在“社会网络”这个名词下面的不同时期的研究，究竟有没有一定的延续性（或理论相关性）？ Siqi：格兰诺维特式的对强、弱关系的研究，早期使用的是提名生成法（Name Generator）或者位置生成法（Position Generator）*，在问卷中收集；现在因为有了各种社交媒体数据，就自然有了很多新方法来测量强关系和弱关系。除了格兰诺维特，此前还有非常有名的六度分隔理论（six degrees of separation），也与社会网络研究有关，就是说全世界另一个角落的任何一个人你可以通过六步联系到，这个学名也叫小世界现象（small world phenomenon）。现在社会网络已经脱离了单纯研究人际网络，而经常运用语义网络（Rule et al. Read more...