“冷数据”是指()。A. 未经处理的数据B. 长期存储、低频使用的数据C. 需要即时处理的数据D. 离线分析、存储备份的数据
下列关于索引器筛选,说法错误的是()A. loc和iloc均可以包含条件筛选和直接筛选。B. 索引器默认使用自定义索引,如数据中没有自定义索引,才使用原始索引。C. ioc索引器只能使用原始索引,不能使用自定义索引,切片为前闭后开。D. ioc索引器切片时为前闭后开。
以下哪种技术可以帮助防止ARP欺骗攻击?A. IPSecB. DNSSECC. ARP缓存静态绑定[1]D. SSL/TLS
6. (单选题,10.0分) 数据合并可以将相关的两个或多个表格进行合并,下列关于数据合并中merge函数用法正确的是()A. merge函数可以进行横向连接(列连接)或纵向连接(行连接)B. merge合并时,两个表一定要有相同的列名。C. merge函数没有axis参数,因此只能进行横向连接(列连接)D. merge函数默认连接方式为left连接
采用多种媒体访问控制技术。由于采用共享广播信道,而信道又可用不同的传输媒体,所以局域网面对的是多源、多目的链路管理的问题。由此引发出多种媒体访问控制技术。(2)局域网采用广播通信是因为局域网中的机器都连接到同一条物理线路,所有主机的数据传输都经过这条链路,采用的通信方式是将主机要发送的数据送到公用链路上,发送至所有的主机,接收端通过地址对比,接收法网自己的数据,并丢弃其他数据的方式。广域网是由更大的的地理空间、更多的主机构成的,若要将广播用于广域网,可能会导致网络无法运行。首先,主机间发送数据时,将会独自占用通信链路,降低了网络的使用率;另一方面,主机A向主机B发送数据时,是想网络中所有的主机发送数据,当主机数目非常多时,将严重消耗主机的处理能力。同时也造成了数据的无效流动;再次,极易产生广播风暴,是网络无法运行。3-14 常用的局域网的网络拓扑有哪些种类?现在最流行的是哪种结构?为什么早期的以太网选择总线拓扑结构而不使用星形拓扑结构,但现在却改为使用星形拓扑结构?答:常用的局域网的网络拓扑有(1)总线网 (2)星形网 (3)环形网 (4)树形网。现在最流行的是星形网。当时很可靠的星形拓扑结构较贵。人们都认为无源的总线结构更加可靠,但是实践证明,连接有大量站点的总线式以太网很容易出现故障,而现在专用的ASIC芯片的使用可以将星形结构的集线器做得非常可靠。因此现在的以太网一般都是用星形结构的拓扑结构。3-15 什么叫做传统以太网?以太网有哪两个主要标准?答:以太网是当今现有局域网采用的最通用的通信协议标准,组建于七十年代早期。Ethernet(以太网)是一种传输速率为10Mbps的常用局域网(LAN)标准。在以太网中,所有计算机被连接一条同轴电缆上,采用具有冲突检测的载波感应多处访问(CSMA/CD)方法,采用竞争机制和总线拓朴结构。基本上,以太网由共享传输媒体,如双绞线电缆或同轴电缆和多端口集线器、网桥或交换机构成。在星型或总线型配置结构中,集线器/交换机/网桥通过电缆使得计算机、打印机和工作站彼此之间相互连接。有DIX Ethernet V2标准和802.3标准。3-16 数据率为10Mb/s的以太网在物理媒体上的码元传输速率是多少码元/秒?答:码元传输速率即为波特率。以太网使用曼彻斯特编码,这就意味着发送的每一位都有两个信号周期。标准以太网的数据速率是10Mb/s,因此波特率是数据率的两倍,即20M波特。3-17 为什么LLC子层的标准已制定出来了但现在却很少使用?答:为了是数据链路层能更好的使用多种局域网标准,802委员会就将局域网的数据链路层拆成两个子层,即逻辑链路控制LLC子层和媒体介入控制MAC子层。与接入到传输媒体有关的内容都放在MAC子层,而LLC子层则与传输媒体无关,不管采用何种协议的局域网对LLC子层来说都是透明的。由于现在TCP/IP体系经常是用的局域网是DIX Ethernet V2而不是802.3标准中的几种局域网。因此现在802委员会制定的逻辑链路控制子层的作用已经不大了,很多厂商生产的网卡上都仅装有MAC协议而没有LLC协议。所以LLC子层的标准现在已经很少使用了。3-18 试说明10BASE-T中的“10”、“BASE”和“T”所代表的意思。答:10BASE-T:“10”表示数据率为10Mb/s,“BASE”表示电缆上的信号是基带信号,“T”表示使用双绞线的最大长度是500m。3-19 以太网使用的CSMA/CD协议是以争用方式接入到共享信道。这与传统的时分复用TDM相比优缺点如何?答:CSMA/CD是一种动态的媒体随机接入共享信道方式,而传统的时分复用TDM是一种静态的划分信道,所以对信道的利用,CSMA/CD是用户共享信道,更灵活,可提高信道的利用率,不像TDM,为用户按时隙固定分配信道,即使当用户没有数据要传送时,信道在用户时隙也是浪费的;也因为CSMA/CD是用户共享信道,所以当同时有用户需要使用信道时会发生碰撞,就降低信道的利用率,而TDM中用户在分配的时隙中不会与别的用户发生冲突。对局域网来说,连入信道的是相距较近的用户,因此通常信道带宽较宽,如果使用TDM方式,用户在自己的时隙内没有数据发送的情况会更多,不利于信道的充分利用。对计算机通信来说,突发式的数据更不利于使用TDM方式。3-20 假定1km长的CSMA/CD网络的数据率为1Gb/s。设信号在网络上的传播速率为200000km/s。求能够使用此协议的最短帧长。答:对于1km电缆,单程传播时间为1÷200000=5×10-6s,即5us,来回路程传播时间为10us。为了能够按照CSMA/CD工作,最短帧的发射时间不能小于10us。以1Gb/s速率工作,10us可以发送的比特数等于:因此,最短帧是10000位或1250字节长。3-21 什么叫做比特时间?使用这种时间单位有什么好处?100比特时间是多少微秒?答:比特时间是指传输1bit所需要的时间。种时间单位与数据率密切相关,用它来计量时延可以将时间与数据量联系起来。“比特时间”换算成“微秒”必须先知道数据率是多少。如数据率是100Mb/s,则100比特时间等于10us。3-22 假定在使用CSMA/CD协议的10Mb/s以太网中某个站在发送数据时检测到碰撞,执行退避算法时选择了随机数 r=100.试问这个站需要等多长时间后才能再次发送数据?如果是100Mb/s的以太网呢?答:对于10Mb/s的以太网,等待时间是5.12毫秒对于100Mb/s的以太网,等待时间是512微妙。3-23 公式(3-3)表示,以太网的极限信道利用率与链接在以太网上的站点数无关。能否由此推论出:以太网的利用率也与链接在以太网上的站点数无关?请说明理由。答:实际的以太网各站发送数据的时刻是随机的,而以太网的极限信道利用率的得出是假定 以太网使用了特殊的调度方法(已经不再是CSMA/CD了),使各站点的发送不发生碰撞。3-24 假定站点A和B在同一个10Mb/s以太网网段上。这两个站点之间的时延为225比特时间。现假定A开始发送一帧,并且在A发送结束之前B也发送一帧。如果A发送的是以太网所容许的最短的帧,那么A在检测到和B发生碰撞之前能否把自己的数据发送完毕?换言之,如果A在发送完毕之前并没有检测到碰撞,那么能否肯定A所发送到帧不会和B发送的帧发生碰撞?(提示:在计算时应当考虑到每一个以太网帧在发送到信道上时,在MAC帧前面还要增加若干字节的前同步码和帧定界符)答:设在t=0时A开始发送。在t=576比特时间,A应当发送完毕。t=225比特时间,B就检测出A的信号。只要B在t=224比特时间之前发送数据,A在 发送完毕之前就一定检测到碰撞。就能够肯定以后也不会再发送碰撞了。如果A在发送完毕之前并没有检测到碰撞,那么就能够肯定A所发送到帧不会和B发送的帧发生碰撞(当然也不会和其他的站点发送碰撞)。3-25 在上题中的站点A和B在t=0时同时发送了数据帧。当t=255比特时间,A和B同时检测到发送了碰撞,并且在t=225+48=273比特时间完成了干扰信号的传输。A和B在CSMA/CD算法中选择不同的r值退避。假定A和B选择的随机数分别是rA=0和rB=1.。试问A和B各在什么时间开始重传其数据帧?A重传的数据帧在什么时间到达B?A重传的数据会不会和B重传的数据再次发送碰撞?B会不会在预定的重传时间停止发送数据?答:t=0时,A和B开始发送数据。t=255比特时间,A和B都检测到碰撞。t=273比特时间,A和B结束干扰信号的传输。t=594比特时间,A开始发送t=785比特时间,B再次检测信道。如空闲,则B在881比特时间发送数据。否则再退避。A. 重传的数据在819比特时间到达 B. ,B先检测到信道忙,因此B在预定的881比特时间停止发送数据。
阅读下面的文字,完成问题。材料一: 人工智能是指通过分析其环境而具有一定程度的自主性行动,以实现特定目标而显示智能行为的系统。近来研究更趋向于将人工智能定义为建立在现代算法基础上,以历史数据为支撑而形成的具有感知、推理、学习、决策等思维活动并能够按照一定目标完成相应行为的计算系统。目前众多基于人工智能的系统已广泛应用,如搜索引擎通过处理海量数据,将原本混乱的互联网以人类可理解的、可感知的形式呈现出来;无人驾驶通过传感器感知环境而实现转向、加速和制动。这些为增强与替代人类的活动和任务提供了变革潜力,逐渐提升了人类的感知、思考和对世界采取行动的能力。 人工智能具有以往技术无法企及的增强人类活动的特点,且在某种程度上以独立的、不可预测的方式通过采取精准行动而做出决策。一些学者认为,以大数据和算法匹配的人工智能正在不可逆转地重塑人类生活、工作和交往的方式,但与此同时也带来了公共安全风险、算法偏见问题、责任伦理问题等一系列的挑战。回溯人工智能发展历程,不管是符号主义、联结主义还是行为主义,其发展的核心是由数据驱动算法的不断升级和优化。数据是“基本驱动力”,而算法是“一种有限、确定、有效并适合用计算机程序来实现的解决问题的方法”。从技术底层逻辑来看,人工智能存在的不确定性风险主要来源于数据与算法:其一是数据的不当收集和处理。人工智能的发展以海量信息作支撑,各类数据信息采集覆盖于数字化空间中,如个人身份、网络行为等。如不采取合理的治理措施,人类将面临隐私“裸奔”的尴尬局面,进而触发极大的伦理风险。其二是算法内在缺陷及其不当使用。在技术层面,算法就是一些复杂的电脑代码程式,并不具有情感或价值偏见,但是由于在编码、运用过程中离不开设计者和开发者的主观意志,有可能将个人情感、社会观、价值观嵌入技术中,造成如算法失算、算法歧视、算法“黑箱”、审查难等问题,从而导致人工智能的“脱靶”现象,即背离既定的正面目标而产生相反的破坏活动。像ChatGPT,其强大的信息检索和数据存储功能确实给人类生活、工作带来了福祉,但如不对输出加以控制,可能生成种族主义、性别歧视之类有偏见的内容或有害指令信息,扰乱社会公平和正义。(摘编自刘丹鹤孙嘉悦《人工智能规制政策制定的风险与治理》)材料二: 在人机互动中,人具有思想和情感,ChatGPT在涉及人类情感的细微之处或措辞的把握上并不准确,例如,男女之间的语言通常带有性别化表述特征,ChatGPT在互动问答中将形成普遍性的或“非人非机”双向训练的“中性化”融合式表述方式,主体的个性化语言特质在ChatGPT互动中试图链接理解它的普遍化特征,在语言主体间性过程中形成的语言“混合物”将对其话语风格和语言伦理产生影响,这是从生活方式到表达方式的改变,语言的趋同化或同质化将被规训并固定。这一改变是语言伦理领域的改变,表达方式的改变是文化学意义上的话语革命,但其不是语言伦理关于语言使用的道德准则和规范性话语价值的体现。赵汀阳认为,不能过于注重人工智能的“拟人化”,拟人化并不意味着否定有用性,而是人工智能试图拥有人的情感、价值观。人并不完美,将人工智能拟人化是非常可怕且消极的事情。真正的主体性在无限的驯化中成为智能机器人的训练客体,这是主体客体化的一种变现。ChatGPT将人的主体性话语转化为客体的结果,即人的语言物化症候。 ChatGPT的训练和被训练会规制与被规训,更加实在地呈现效果,如同ChatGPT掌控受众想象力的空间或方式,成为技术异化后统治人类的一门艺术。法国学者勒庞在《乌合之众:大众心理研究》一书中指出:“影响民众想像力的,并不是事实本身,而是它们发生和引起注意的方式。如果让我表明看法的话,我会说,必须对它们进行浓缩加工,它们才会形成一种令人瞠目结舌的惊人形象。掌握了影响群众想像力的艺术,也就掌握了统治他们的艺术。”人的从众心理将转变为从智能机器人心理,在广泛的社会语境中被认为是个性化的叙事方式被人工智能以潜移默化的方式改变,语言的长期改变会渗透其情感认知、伦理行为和整体行为的走向,对人的价值信仰、态度和行为产生重要影响,这既是值得关注的科技哲学问题,又是伦理问题。 人工智能正在接管学术界甚至世界,即使这一担忧不是主要的,却将长期存在。人工智能模型可以快速复制已有学术文献,虽然其复制的文献没有出处,没有正确性的考证来源,但ChatGPT会不断产生其认为的客观答案,生成虚假的学术文本,其对学术道德的影响是深远的。因此,使用人工智能模型时仍需谨慎,ChatGPT被视为“嘴替”或“文替”,数据的滥用或对知识的不完整性采用,将为错误信息的传播埋下风险和隐患。在使用ChatGPT的过程中要遵循学术伦理,以确保学术的真实性和公正性。人工智能被界定为在某一情境中采取最好可能行动的理性行动者,而不能在实践中走向道德理性的反面。在伦理规则方面,2021年,国家新一代人工智能治理专业委员会发布《新一代人工智能伦理规范》,提出“将伦理道德融入人工智能研发和应用的全生命周期”。吴沈括认为,在人工智能治理过程中,伦理和法律应在不同层次相互配合,唯有如此,才能在不同程度的风险处置过程中形成有效且广泛的保护网络。对于人工智能发展过程中产生的中高风险,需要用法律划定行为红线,最大限度降低风险程度。(摘编自令小雄王鼎民袁健《ChatGPT爆火后关于科技伦理及学术伦理的冷思考》)(1)下列对材料相关内容的理解和分析,不正确的一项是 ____ A.人工智能是一种计算系统,它以现代算法为基础,以历史数据为支撑,具有人的某些思维活动。B.人工智能在增强人类活动方面具有以往技术无法企及的优势,它可以通过采取精准行动做出决策。C.人工智能是复杂的电脑代码程式,并不具有情感或价值偏见,但在开发过程中可能嵌入人的主观意志。D.人工智能改变了个性化的叙事方式,这一改变会对人的价值信仰、态度和行为产生重要的影响。(2)根据材料内容,下列说法正确的一项是 ____ A.人工智能为增强与替代人类的活动和任务提供了变革潜力,随着人工智能系统的应用,人类的活动将会被替代。B.人工智能能够重塑人类生活、工作和交往的方式,它给人类带来巨大机遇的同时也带来了一系列的挑战。C.人机对话中主体的个性化语言特质与普遍化特征相链接,人的主体性话语转化为客体的结果,主体性随之消失。D.在人工智能治理过程中,只要伦理和法律在不同层次相互配合,就能在风险处置过程中形成有效广泛的保护网络。(3)近日,有关专家呼吁暂停聊天机器人ChatGPT的进一步研发。请结合材料,试分析这一做法的原因。
3 名词释题1数据通信[1]技术 .2系统软件 .3数据组织[2] . 4 数据结构 5并机处理系统 6 计算机网络[3] 7物流 8区间码 9半结构化问题 10数据库系统 11线形表 12树 13数据文件 14主键 .15 索引文件 16数据模型 17城 18 第三范式[4] 19数据的完整性 20 网络拓扑结构[5]3.4 问答题I采用周转义件是为了防止数据丢失吗? 2 数据处理[6]经历了哪些阶段,各有什么特点?3线性表[7]顺序结构和链表[8]结构各有何优缺点? 4 数据文件有哪些特点?各有何优缺点?3.4.5 文件设计时,首先应设计共享文件吗?3.4.6 索引表本身不必排序,只要对与它相关的数据文件排序就可以,这种说法正确吗?3.4.7 简述数据库系统的组成。 8文件组织是数据在计算机内存中的组织,请简要评述。9 什么是关系模型?关系模型有哪些特点?10 直接文件组织方式的查找速度低于索引文件组织方式吗?II正磁盘上的记录,是采取顺序存储[9],还是随机地存储? 12 简述计算机网络的重要概念。3.4.13简述客户 /服务器模式的网络有何特点。3.5 应用题3.5 . 1 直接存取文件中,杂凑法常用的方法之一是质数除余法。请写出地址转换公式及记录地址分布范围。已知所需存储单元[10]个数为 M V 5000,鉴别键号分散在10 000〜50 000号之间,需要转变的键号K,质数用P表示,转换后的地址用 H ( K表示。3.5.2 何谓信息的滞后性? 3 关系数据模型[11]的基本性质是什么?4简述数据通信系统的组成及其工作模型。 5线性表的顺序存储和链接存储备有何优缺点?3. 5 . 6 数据文件有哪些类型?各有何优缺点? 7 简述实体联系模型。3.5.8 什么是关系模型?关系模型有哪些特点?. 9简述第一范式[12]和第二范式[13]。3.5.10 简述数据库的安全性、完整性、并发控制[14]和数据库恢复。11网络通信信道有哪几种?它们各有何优缺点? 12 简述客户、服务器模式有何优点?13 简述 OSI 模型。3.3 名词释题参考答案3.3.1 数据通信系统是以计算机为中心,结合分散在远程的终端装览或其他计算机,通过通信线路 彼此连接起来,进行数据的传输、交换、存储和处理的设备总称。3.3.2 系统软件是指为管理、控制和维护计算机及外设,以从提供计算机与用户界面的软件。3. 3 .3 数据结构是指将具有某种逻辑关系的一批数据组织起来,按一定的 存储表示方式配置在计算机的存储器[15]中, 目的是使计算机在处理时能够符合速 度快、占用存储器的容量少、 成本低等多方面的要求。3.3.4 描述某些数据项[16]之间的关系。一个数据结构可以由若干个数据项 或数据结构组成。3.3.5为了提高系统的可靠性,使两台电子计算机组合起来同时运行,以便在一台机器维修或出现故障时,保证系统正常运行,这样的系统称为非机处理系统。3.3.6 计算机网络是用通信线路把几个分布在不同地区的、具有独立功能的计算机连接起来形成网。 配有相应的网络软件,以实现计算机资源共享的系统。7 物流是指企业中由原材料等资源投入企业,经过形态、性质的变化,转换为产品而输出的运动过程。.8 这种编码方式是把数据项分成若干组, 每一区间代表一个组, 码中数字的值和位置都代表一定意义。3.3.9 决策过程中,有些问题涉及环境因素、决策者的心理、经验及其他不 确定因素,使得决策过程不完全可理和计算,这类问题称为半结构化问题。3.3.10 面向全组织的复杂结构,数据冗余度小易于扩充,数据与程序独 立,实现统一的数据控制功能和集中管理,提高了数据的利用率和一致性。3.3.11 指数据的结构形式本质上是一维的线性关系,其中每个节点都是同一类型的数据结构。3.3.12 节点之间有分支的、层次关系的结构,类似于自然界中的树。3 .3.13 是为了某一特定目的而形成的同类记录的集合,是一种按某种数据结构把数据记录存放在外 存设备上的方式,一般适用于数据记录存储的比较简单的场合。3 .3.14 记录中能唯一标志该记录的数据项。3 .3.15 有时为了便于检索,除文件本身外,另外建一张指示逻辑记录和物理记录之间对应关系的索 引表,这类包括文件数据区和索引表两大部分的文件称为索引文件。3. 3 .16对客观事务以及其联系的数据化描述。 17 属性的取值范围。.18第三范式是指关系不仅满足第二范式,而且它的任何一个非主属性[17]都不传递依赖于任何主关键字。3 .3.19 数据库的完整性是指数据的正确性、有效性和相容性。3. 3. 20 网络的拓扑结构:网络的链路[18]和节点在地理上所形成的几何结构。3 . 4 问答题多考答案3 .4.1 答:采用周转文件是为了在数据处理过程中便于根据不同的数据属性分别处理,有利于数据的共享和使用,不是为了防止数据丢失。3 .4.2 答: 数据处理先后经历了简单数据处理、文件系统[19]、数据库系统阶段。在简单数据处理阶段, 数据与程序没有分离,需要手工安装数据的存放方式和处理过程,仅用于简单数据计算的场合。文件管理[20] 阶段有了专门的数据文件,数据采用统一方式组织,能够满足复杂数据处理的需要。数据库系统阶段通过 数据模型和数据库系统的组织,数据及其联系被统一考虑到数据库结构中,实现了全局数据的统一,适合 大型信息系统应用的要求。3 . 4.3 答: 顺序存储结构物理地址与记录的逻辑顺序一致,为直接存取结构,可以根据初始地址记 录长度直接读取所需记录,但插入删除操作时,为了保持记录的有序,需要做大量的数据移动操作,适合 记录比较稳定的情况。链表结构插入删除记录不需要移动记录,但查找时需要从头一个个查起,适合经常 需要进行插入删除操作的情况。3 . 4.4 答:数据文件有顺序文件[21]。索引文件等结构。顺序文件查找方便,但在有新记录加入时,需 要进行排序操作,在文件很大时,很费时间。索引文件建立了记录与索引的对应关系,只需要对索引进行 排序,但索引文件需占用额外的存储空间。
人工智能的含义最早由艾伦.图灵于1950年提出,并且同时提出一个机器智能的测试模型。()A. 对B. 错
题目 阅读下面的文字,完成小题。 区块链技术是伴随加密数字货币逐渐兴起的一种去中心化基础架构与分布式计算范式,以块链结构存储数据,使用密码学原理保证传输和访问的安全性,数据存储受到互联网多方用户共同维护和监督,具有去中心化、透明公开、数据不可修改等显著优点。区块链技术通过在网络中建立点对点之间可靠的信任,去除价值传递过程中介的干扰,既公开信息又保护隐私,既共同决策又保护个体权益,为实现共享经济提供了全新的技术支撑,有望支撑实现共享交通、共享教育、共享住房、共享能源等多个共享经济场景,是实现共享经济的一种非常理想的解决方案。 数据公开透明,为共享经济提供信用保障。区块链本身即为一个大型海量数据库,记录在链上的所有数据和信息都是公开透明的,任何节点都可以通过互联网在区块链平台进行信息查询。任何第三方机构无法将记录在区块链上的已有信息进行修改或撤销,从而便于公众监督和审计。这种体现为“公正性”的技术优势,使得区块链技术在金融、选举、保险、知识产权、慈善公益等领城都具有广泛深入的应用价值。具体到共享经济当中,能够为以用户体验为核心的信用体系提供保障。 催生智能合约,为共享经济提供解决方案。智能合约是当一定条件被满足的情况下,就可以在网络信息平台和系统中得到自动执行的合约。基于区块链技术的智能合约系统兼具自动执行和可信任性的双重优点,使其可以帮助实现共享经济中的诸如产品预约、违约赔付等多种涉及网上信任 的商业情景,使共享经济更加完善可靠。 当然,区块链技术应用于共享经济场景也有一些障碍,比如缺乏完善有效的“共识机制”,目前为止,还没有一种完善的共识机制能够同时解决安全性、环保性、高效性等问题。在现有区块链技术下,当用户对交易的公平性产生怀疑时无法向任何机构进行申诉。同时,区块链被设计成环环相扣,能够从任何一点追溯至初始区块,查询到链上所有信息。然而这只能确保通过区块链交易的公平性,却不能保证区块链交易的合法性,追踪犯罪行为将变得异常困难。 长远来看,区块链技术面临潜在的安全性隐忧。目前区块链技术的算法是相对安全的,但是随着量子计算机等新计算技术的发展,未来非对称加密算法具有一定的破解可能性,这也是区块链技术面临的潜在安全威胁。 (摘编自许华磊《区块链技术与共享经济》,《光明日报》2018年1月) 1. 下列对“区块链技术”的理解,不正确的一项是 A. 是一种去中心化基础架构与分布式计算范式,算法相对安全,但未来有可能被破解。 B. 数据以块链结构存储,受到互联网多方用户监督,任何第三方机构都无法进行修改。 C. 为支撑共享经济,在网上建立起了点对点之间的可靠信任关系,去除了中介的干扰。 D. 既公开信息又保护隐私,既共同决策又保护个体权益,是实现共享经济的理想方案。 2. 下列对原文论证的相关分析,不正确的一项是 A. 首段介绍了区块链技术这一概念及其特点,还有它在共享经济领域里的应用意义。 B. 文章呈总分总结构,开头先总说,然后分述优缺点,最后是对未来发展趋势的瞻望。 C. 全文围绕区块链技术和共享经济的关系论述,具体论述了其对共享经济的作用。 D. 最后两段,作者从应用障碍与安全隐忧方面对区块链技术进行了深入冷静的思考。 3. 根据原文内容,下列说法不正确的一项是 A. 公开性和公正性技术优势,使得区块链技术在多个领域均有广泛的应用价值。 B. 基于区块链技术的智能合约系统将为多种共享经济场景的实现提供可靠保障。 C. 若合法性、安全性等得到了切实的保障,区块链技术将会有更好的应用前景。 D. 任何完善的共识机制都不能同时解决安全性等问题,阻碍了区块链技术应用。
(每空2分)hadoop使用自己的序列化[1]格式为:______。•简答题,3分(17题),5分(5题)共75分1.(3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:1使用root账户登录2修改IP3修改host主机名[2]4配置SSH免密码登录5关闭防火墙6安装JDK7解压hadoop安装包8配置hadoop的核心文件hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml9配置hadoop环境变量10格式化hadoop namenode -format11启动节点start-all.sh2.(3分)请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用 分别都是什么,请尽量列的详细一些。答:namenode:管理集群,存储数据的原信息,并管理记录datanode中的文件信息。secondarynamenode:它是namenode的一个快照,会根据configuration中设置的值来 决定多少时间周期性的去cp一下namenode,记录namenode中的metadata及其它数据。Data node:存储数据ResourceManager:ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应 用程序(实际上是ApplicationManager)NodeManager:是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点(3分)请写出以下的shell命令(1)杀死一个job(2)删除hdfs上的/tmp/aaa目录(3)加入一个新的存储节点和删除一个节点需要执行的命令答:(1)map red job -list得到job的id,然后执行mapred job-kill jobld就可以杀死一个指 定jobId的job工作了。(2)hadoop fs -rmr /tmp/aaa或者hdfs dfs-rmr /tmp/aaa(3)增加一个新的节点在新的节点上执行hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候,只需要在主节点执行hdfs dfsadmi n-refresh nodes3.(3分)请简述mapreduce中的combine和partition的作用答:combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。Partition的主要作用就是指定输出到reduce的个数的。4.(3分)hdfs的体系结构答:HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若 干个DataNode组成的。其中NameNode作为主服务器,管理文件系统[3]的命名空间[4]和客户端 对文件的访问操作;集群中的DataNode管理存储的数据5.(3分)三个data node中当有一个data node出现错误时会怎样? 答:当有一个data node出现错误的时候,name node会将那个data node上的数据拷贝到其 他的节点去进行存储。6.(3分)文件大小[5]默认为64M,改为128M有什么影响?答:更改文件的block块大小,需要根据我们的实际生产中来更改block的大小,如果block定义的太小,大的文件都会被切分成太多的小文件,减慢用户上传效率,如果block定义的太大,那么太多的小文件可能都会存到一个block块中,虽然不浪费硬盘资源,可是还是会增加name node的管理内存压力。7.(3分)NameNode与SecondaryNameNode的区别与联系?答:seco ndaryNameNode更像是Name node的一个冷备份[6], 当name node宕机之后,可以从9.(3分)参考下列M/R系统的场景:hdfs块大小为64MB,输入类为File In putFormat, 有3个文件的大小分别为64KB, 65MB, 127MB,Hadoop框架会把这些文件拆分为 多少块?答:64k>一个block65MB---->两个文件:64MB是一个block,1MB是一个block 127MB--->两个文件:64MB是一个block,63MB是一个block10.(5分)hadoop中RecordReader的作用是什么?答:RecorderReader是一个接口,主要是用来读取文件的输入键值对的,我们也可以自定义输入的key,value对的读取规则。属于split和map per之间的一个过程,将in putsplit输出的 行为一个转换记录,成为key-value的记录形式提供给mapper11.(3分)Map阶段结束后,Hadoop框架会处理:Partitioning, Shuffle和Sort,在这几 个阶段都发生了什么?答:Partition是对输出的key,value进行分区,可以自定义分区,按照业务需求,将map的 输出归分到多个不同的文件中将map的输出作为输入传给reducer称为shufflesort是排序的过程,将map的输出,作为reduce的输入之前,我们可以自定义排序,按照key来对map的输出进行排序12.(5分)如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?答:Partiti on er是在map函数执行con text.write()时被调用。用户可以通过实现自定义的Partitioner来控制哪个key被分配给哪个Reducer。hadoop有一个默认的分区类,HashPartioer类,通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。13.(3分)什么是combiner?答:comb in er就是规约[7]操作,通过对map输出的数量进行规约,可以减少reduce的数量, 提高执行效率。combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一 致14.(3分)分别举例什么情况要使用combiner,什么情况不使用?答:求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,可以依据情况,使用combiner,来减少map的输出数量,减少拷贝到reduce的文件,从而减轻reduce的压力,节省网络开销,提升执行效率15.(5分)简述Hadoop中replication(复本)放置策略?________Hadoop的默认布局策略是在运行客户端的节点上放第一个复本;第二个复本放在与第一个不同且随机另外选择的机架中的节点上(离架);第三个复本与第二个复本放在同一个机架上,且随机选择另一个节点。16.(5分)如何为一个hadoop任务设置mappers的数量?答:map的数量通常是由hadoop集群的DFS块大小确定的,也就是输入文件的总块数,正 常的map数量的并行规模大致是每一个Node是10~100个,对于CPU消耗较小的作业可以设置Map数量为300个左右,但是由于hadoop的没一个任务在初始化时需要一定的时间, 因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片[8]是这样的,InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks,这个参数设置的map数 量仅仅是一个提示,只有当InputFormat决定了map任务的个数比mapred.map.tasks值小时才起作用。同样,Map任务的个数也能通过 使用JobConf的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数,但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率,可以设置一个 默认的map数量,当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相 对交大的默认值,从而提高整体hadoop集群的效率。17.(3分)hdfs文件写入的流程?答:1)Client向NameNode发起文件写入的请求。2)NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。3)Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。.
热门问题
程序=算法+()A. 数据结构B. 程序结构C. 控制结构[1]D. 体系结构
以下哪种方法属于卷积神经网络的基本组件()。A. 卷积层B. 池化层C. 激活函数D. 复制层
路径排序算法的工作流程主要有三步()A. 特征计算B. 特征抽取C. 分类器训练D. 因果推断
由脸书(Facebook)公司开发的深度学习编程框架是()A. TensorFlowB. PaddlePaddleC. PyTorchD. Mindspore
下列哪项属于因果推理模型()A. 因果图B. 神经符号推理C. 符号推理模型D. 结构因果模型
下列不属于量子机器学习算法的是()A. 量子支持向量机B. 量子主成分分析C. 薛定谔方程求解D. 深度量子学习
网络诈骗中常见的“钓鱼网站”目的是()?A. 传播病毒B. 窃取个人信息C. 提供免费电影
7、 加强电脑安全防护,及时升级病 毒库,安装防火墙,及时查杀病毒和木马,是防范 电信网络诈骗的有效做法。A. 正确B. 错误
在决策树建立过程中,使用一个属性对某个结点对应的数集合进行划分后,结果具有高信息熵(highentropy),对结果的描述,最贴切的是()。A. 纯度高B. 纯度低C. 有用D. 无用E. 以上描述都不贴切
下列哪项贪婪最佳优先搜索算法的描述正确()A. 贪婪最佳优先搜索不属于启发式搜索算法B. 贪婪最佳优先搜索是一种A*搜索算法C. 贪婪最佳优先搜索是一种广度优先搜索算法D. 贪婪最佳优先搜索属于有信息搜索算法
下列哪个方法属于知识图谱推理方法()A. 路径排序算法B. 深度学习推断C. 广度优先搜索D. 归纳逻辑程序设计
2.单选题 讯飞星火可以实现多种文案类型和语言风格的文本写作。讯飞星火(网页版)“内容写作”功能可选的“语言风格”不包括( )。A. 口语化B. 高情商C. 专业D. 热情
下列哪个方法属于知识图谱推理方法()A. 广度优先搜索B. 深度学习推断C. 路径排序算法D. 归纳逻辑程序设计
下列哪项关于监督学习算法的描述正确()A. 强化学习的训练效果一定优于监督学习B. 主要的监督学习方法包括生成方法和判别方法C. 广度优先搜索算法是一种监督学习算法
下列哪项不是求解对抗搜索问题的基本算法( ) A.反向传播算法 B.广度优先排序算法 C.Alpha-Beta剪枝算法D.最小最大搜索算法
网络安全包括物理安全[1]、逻辑安全、操作系统安全及联网安全,其中逻辑安全包括访问控制[2]、加密、安全管理及用户身份认证。A. 正确B. 错误
3.判断题K-means聚类算法对数据的尺寸敏感。()A. 对B. 错
AdaBoosting采用多个单一分类器组成一个强分类器()A. 错误B. 正确
网络安全包括物理安全[1]、逻辑安全、操作系统安全及联网安全,其中逻辑安全包括访问控制[2]、加密、安全管理及用户身份认证。A. 正确B. 错误
Windows中“复制”操作的快捷键是Ctrl+V。