itpub技术论坛-2024欧洲杯官网

大数据

虽然说doris在2.0的版本中,加入了一些试图加速查询的「黑科技」,但即便如此,就如我之前说的,这些玩意到底实不实用,还必须得在真刀真枪的真实环境中经受住考验才行。

数据分析
2023-10-31 09:48

树莓派基金会(raspberry pi foundation)近日发布了新版基于 debian 的树莓派操作系统(raspberry pi os),为树莓派单板电脑带来了新的书虫基础和一些重大变化。新版 raspberry pi os 的最大变化是它现在基于最新的 debian gnu/linux 12 “书虫 “操作系统系列。在此之前的 raspberry pi os 版本都是基于 d

可视化
2023-10-28 01:18

在大型企业里,如果有一项职能是共有的,被多个部门依赖。那么这种共有的职能就可以独立出来作为服务平台。在很多大型企业例如苹果、三星等这种公司早早就诞生了类似的部门。

数据分析
2023-10-27 17:35

想象一下,未来我们所有的行为、所有的数据都被记录在智能化的数据平台里。甚至在不久的将来,利用aigc的技术,可以合成生动的数字人。就好像流浪地球二一样,我们甚至可以通过ai和死去的亲人进行逼真的对话。

数据挖掘
2023-10-27 17:13

作为爱奇艺的数据中台团队,我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中,我们不断吸收新的理念,引入尖端的工具,以精细化我们的数据体系管理。

数据挖掘
2023-10-27 17:06

kafka 是mq消息队列作为最常用的中间件之一,其主要特性有:解耦、异步、限流/削峰。

数据分析
2023-10-26 11:07

kafka 是一个开源的分布式流式平台,它可以处理大量的实时数据,并提供高吞吐量,低延迟,高可靠性和高可扩展性。kafka 的核心组件包括生产者(producer),消费者(consumer),主题(topic),分区(partition),副本(replica),日志(log),偏移量(offset)和代理(broker)。kafka 的主要特点有:

数据分析
2023-10-25 09:29

实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 flink catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。

hadoop
2023-10-19 15:20

本文整理自字节跳动基础架构工程师何润康在 flink forward asia 2022 核心技术专场的分享。flink olap 是数据仓库系统的重要应用,支持复杂的分析型查询,广泛应用于数据分析、商业决策等场景。本次分享将围绕字节 flink olap 整体介绍、查询优化、集群运维和稳定性建设、收益以及未来规划五个方面展开介绍。

数据分析
2023-10-19 13:52

用clickhouse(以下称ck),别用分布式表,它的单表(本地表)查询才是无敌的。 虽然我此前没有专门针对具体的查询场景,对比过ck单表跟分布式表的查询效率,但以我玩过这么多数据库的经验来看,自觉告诉我,这个说法显然是不严谨的。

数据分析
2023-10-18 13:58

当前是一个概念频出的时代,数据要素、数据交易、数据入表、数据治理、数据管理、数据合规等叫法在数据管理人员耳边回响,很多朋友困惑的是这些名词之间是什么关系呢,怎么又会都扯上关系,下面我们试着谈一谈。

数据分析
2023-10-18 09:24

对于专业且经验丰富的数据人来说,结合业务场景和工作经历大部分都已经建立了一套完备的分析思路。就算换了新的工作内容也能结合分析框架轻松适应业务需求。这次想探讨的是针对一线业务同学以及刚接触数据的同学,当接触全新的分析议题时帮助快速建立数据分析框架。

数据分析
2023-10-17 09:44

在大数据时代,处理海量数据是一项巨大挑战。而hadoop作为一个开源的分布式计算框架,以其强大的处理能力和可靠性而备受推崇。本文将介绍hadoop及mapreduce原理,帮助您全面了解大型数据集处理的核心技术。1. hadoop简介hadoop是一个基于google mapreduce论文和google文件系统的分布式计算框架,它能够同时处理大规模数据集。hadoop由以下两个核心组件组成:-

数据分析
2023-10-13 09:54

在大数据时代的今天,爬虫系统成为了获取和分析海量数据的重要工具。本文将介绍如何使用scrapy框架来构建一个高效的分布式爬虫系统,以加速数据采集过程和提高系统的可扩展性。1. scrapy框架简介scrapy是一个基于python的强大的开源网络爬虫框架,它提供了方便的api和工具,帮助开发者快速、高效地构建可扩展的网络爬虫系统。scrapy框架具有以下特点:- 基于异步io的设计,支持高并发的请

数据分析
2023-10-12 10:32

hadoop/spark 是源自头部互联网企业的重型在线欧洲杯买球的解决方案,适合需要有超大规模集群的巨大企业。很多场景的数据虽然也不少,但小集群甚至无集群就足够处理,远没多到这些巨大企业的规模,也没有那么多的硬件设备和维护人员。

hadoop
2023-10-12 10:03

工业大数据的重要作用是支持智能决策。我们可以把计算机的智能决策抽象成一个数学公式,即计算y=f(x)。我们进行这种计算时,潜伏着一个基本的要求:x和y是与某个特定对象相关联的参数。比如,x某个产品的性能,x是生产这个产品时的工艺参数。

数据分析
2023-10-09 17:46

开发和生成数据库中使用的数据概念表示的过程称为数据建模。数据仓库上下文中的数据建模是创建将存储在数据仓库中的数据的逻辑表示的过程。

数据分析
2023-10-09 14:06

elasticsearch 的同义词功能是一个重要的文本分析工具,特别是在全文搜索应用中。同义词机制使得用户能够建立一个同义词库,以处理一词多义、多词同义等情况,从而增强搜索的准确性和丰富性。

数据分析
2023-10-09 14:04

在数据开发侧,数据开发人员已经习惯tableau的设计、开发特点,对可视化工具来说,也需要具备操作简单、设计便捷、类tableau操作、数据处理等能力,以便适应大量报告的迁移工作。

数据分析
2023-09-28 14:34

通过借助 amoro 开箱即用的能力,以及 amoro mixed iceberg 在 upsert 和 mor 等方面的功能特性和优化,我们成功解决了在生产场景中流批一体、数据实效性等方面的需求。

数据分析
2023-09-28 14:28
推荐小栈
精选课程
24小时热点
精选文章
联系在线欧洲杯买球

商务合作:

tel: 86-15801238530

email:sales@itpub.net

媒体合作:

email:edit@it168.com

关注公众号获取更多技术文章

网站地图