在亚马逊云科技Amazon Athena上进行云上日志结构化建表与查询
服务介绍
亚马逊云科技Amazon Bedrock是一项完全托管的服务,使用单个API提供来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI和Amazon等领先人工智能公司的高性能基础模型,以及构建生成式人工智能应用程序所需的一系列广泛功能,在维护隐私和安全的同时简化开发。借助Amazon Bedrock的全面功能,您可以轻松尝试各种热门FM,使用微调和检索增强生成等技术利用数据对其进行私人定制,并创建可执行复杂业务任务的托管代理,所有这些都无需编写任何代码。由于Amazon Bedrock是无服务器的,因此无需管理任何基础设施,并且可以使用已经熟悉的亚马逊云科技服务将生成式人工智能功能安全地集成和部署到应用程序中。
Amazon Athena是一种交互式查询服务,能够轻松使用标准SQL直接分析Amazon Simple Storage Service(Amazon S3)中的数据。只需在服务界面中执行几项操作,即可将Athena指向Amazon S3中存储的数据,并开始使用标准SQL运行临时查询,然后在几秒钟内获得结果。
在这篇文章中,以Amazon Bedrock的服务调用日志为例,阐述Amazon Athena对于云上服务的日志结构化建表与查询流程,并获取cost_input_token_cnt与cost_output_token_cnt两个字段,可以快速帮助Bedrock用户计算服务调用的费用,并以日期与小时为分组进行指标的统计。
开启Bedrock日志
首先,在Amazon Bedrock的控制台上开启模型调用日志,选择要开启日志的日志类别以及日志的存储目的地,这里选择将模型调用日志输出到Amazon S3中,如下图所示。
在Amazon Athena中建立日志表
开启Amazon Bedrock的模型调用日志后,将会在指定的Amazon S3路径中看到Bedrock的模型调用日志。下载其中的日志文件后,可以看到具体的日志内容。每条日志是一次完整的调用记录,以JSON对象的形式进行记录,JSON对象中包括schemaType,schemaVersion,timestamp,accountId,region,requestId,operation,modelId,input,output字段,分别表示schema类型,schema版本,调用时间戳,账号Id,调用的AWS region,请求Id,调用方法,使用的模型Id,调用的输入以及调用的输出。其中输入input,输出output均为嵌套的JSON对象字段,重要的包括inputBodyJson,inputTokenCount,outputBodyJson,outputTokenCount字段,分别表示输入内容JSon,输入的Token的数量,输出内容JSon,输出Token的数量。
另外,Amazon Bedrock转存到Amazon S3的日志目录层次较深,形式如S3://bucket/prefix/AWSLogs/YourAccount Id/BedrockModelInvocationLogs/region/year/month/day/hour,日志目录是按区域、年、月、日、时这几个维度来组织的。具体如下所示:
在了解了Amazon Bedrock模型调用日志的格式以及日志文件组织形式后,就可以对日志数据采用Amazon Athena来进行数据建模。考虑到Bedrock的日志是以小时为单位来对日志做轮转的,结合对数据查询的要求,可以采用日期和小时这两个维度来进行数据分区。由于Bedrock自动按小时来组织日志数据,日志数据建模时,需要考虑数据分区的自动更新问题,也就是说需要让Athena感知到数据分析元数据信息。
对于分区信息的更新,可以采用基于事件的方式来动态更新数据的分区信息,当Amazon S3中产生了新的日期或者小时日志目录时自动更新分区信息,这种方式可以比较精确的控制分区数量。但是考虑到面向终端用户的应用,应用都会实时在线,基本上每个小时都会有日志产生,并且这种的日志产生的模式是固定的,并且在长期会积累较多的分区信息。基于此,可以使用Amazon Athena的Partition Projection特性来自动化分区管理,并且加速查询效率。
使用Athena Partition Projection进行数据建模
根据对Bedrock模型调用日志的分析,使用Amazon Athena建立日志数据表。
在SQL中,表中的各个字段映射到日志JSON对象中的各个字段,input和output字段采用struct类型映射嵌套的JSON对象,并指定日期dt和小时h这两个分区字段。通过LOCATION指定日志数据的路径,这个路径指定到Region这个层级即可。在TBLPROPERTIES中,设置‘projection.enabled’属性为‘true’来开启表的分区映射功能,并且分别指定dt和h这两个分区字段的类型以及对应的配置,其中dt映射为‘date’日期类型,日期格式为‘yyyyMMdd’,并设定日期的范围以及日期间隔,h为枚举类型,并给出所有的值。关于Athena的partition projection配置可以参考服务文档。最后,由于日志数据的分区格式不是默认的Hive分区格式,需要设置‘storage.location.template’属性来告知Athena底层数据的存放形式,具体的设置方法可以参考相关文档。在Athena中建完表后,即可对数据进行查询、统计和分析。
使用Amazon Athena进行数据查询与成本分析
Bedrock price页面提供了多种LLM模型调用计费模式,其中Claude On-Demand计费单价如下:
此外token count不足100按照100计算。基于以上信息,可以查询某天(或某时)模型调用明细,包括每次的实际输入Token数量、计费输入Token数量、实际输出Token数量、计费输出Token数量。
比如想查看每个模型在当天总的输入Token数、总的计费输入Token数、总的输出Token数、总的计费输出Token数。
输出结果如下:
数据建模后,除了可以通过Athena做交互式统计查询、分析外,还可以通过Athena对接Amazon QuickSight或者Tableau等BI工具进行数据报表展示以获得更好的使用体验。
总结
综上所述,以Bedrock为例,阐述了Amazon Athena这一Serverless服务进行云上日志结构化建表与查询,并提取inputtokencount与outputtokencount两个字段来帮助Bedrock用户计算服务调用的费用。
原标题:使用Amazon Athena对Bedrock日志进行查询与成本分析
原链接:https://aws.amazon.com/cn/blogs/china/query-and-cost-analysis-of-bedrock-logs-using-amazon-athena/
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
标签:
相关推荐:
最新新闻:
- 在亚马逊云科技Amazon Athena上进行云上日志结构化建表与查询
- 新一轮“造富潮” SHEIN赴美上市冲击900亿美元市值
- 打破传统搜索模式,亚马逊云科技向量数据库提供高性能相似性搜索功能
- 亚马逊云科技携手普华永道,在跨境数据传输方面打造适合中企的安全合规方案
- 亚马逊云科技通过大语言模型及知识库接入,构建智能客服并丰富对话内容
- 森海塞尔Digital 6000为英国流行唱将Anne-Marie打造非凡音效
- 基于亚马逊云科技Amazon EKS的Stable Diffusion图像生成方案
- 生成式AI火热,灵境未来在亚马逊云科技上构建大语言模型训练和推理平台
- 飞宇稳定器新品齐上阵,双十一享全年底价优惠!
- 植韵核桃乳全新上市,王老吉进军植物蛋白饮料市场
- 森海塞尔MKH 8000射频电容麦克风系列新型滤波器模块满足客户需求
- 拥抱生成式AI,亚马逊云科技制造、汽车、生命科学、零售电商、游戏行业实战演绎!
- 启峻中国受邀参加「博鳌亚洲论坛全球经济发展与安全论坛第二届大会」
- 数字音频专家Merging Technologies提供Anubis和Hapi口译解决方案
- 释放Claude2和ComfyUI超强能力,基于亚马逊云科技的GenAI视觉管线
- 深圳安博会圆满落幕 警翼荣获四项大奖
- 解读亚马逊云科技海外云服务器使用场景与优势
- 通过亚马逊云科技OCR以及生成式AI产品加速关键内容提取与整理
- 森海塞尔MKH 8030 8字形射频电容式麦克风预展
- 对话领袖 | 启峻中国创办人Owen L:启峻俱乐部迈入全新征途
- 珮肌数智创新塑造身心之美
- Evolution Wireless Digital 全新专业充电方案及最新软件更新
- 堪比Copilot平替?亚马逊云科技Amazon CodeWhisperer在开发效率提升上究竟如何
- 人人都是开发者,亚马逊云科技编程助手Amazon CodeWhisperer有效提升代码工作效率
- 开发者福利!一文入门亚马逊云科技基于机器学习的代码生成器Amazon CodeWhisperer
- 15组创作达人齐聚飞宇科技,稳定器新品提前曝光?!
- 森海塞尔EW-DP SKP直插式发射机:真正的无失真录制
- 基于亚马逊云科技Amazon SageMaker部署Stable Diffusion模型
- 沈逸:中德
- 亚马逊云科技五项行动,助力企业更好的落地生成式AI业务
- 锐阳基金会赋能加持|2023未来创新峰会圆满落幕!
- Dear Reality推出SPATIAL CONNECT for Wwise——XR音频制作新高度
- 火星皮卡48V柴油混动,一箱油穿越千里无人区
- 诺音曼微型夹式麦克风MCM在大型舞台大放光彩
- 买美容仪看这篇,全网超火美容仪真实测评
- 美腕获得人民日报社“2023环境、社会及治理(ESG)年度案例”荣誉
- 美腕获得人民日报社“2023数字经济创新案例”荣誉
- 站上更高的世界舞台,长城汽车海外单月销量创历史新高!
- 使用亚马逊云科技Amazon EC2预留实例最大限度地节省成本和提高灵活性
- 火星皮卡“大”显身手 荒漠狂飙定义越野生活新方式
- 科技抗老新突破,香港美容仪品牌内地重磅上市
- 安全技术再获点赞,网商银行获国家级网络安全大赛“陇剑杯”二等奖
- 美国禁销白炽灯泡 25岁小伙囤了3500个够用一辈子
- 周杰伦天津演唱会带动消费30亿以上 6成为外地观众
- 《骑马与砍杀2》9月19日多区调涨 国区除外
- 游民晨播报:《EA Sports FC 24》最高分球员揭晓 《不羁联盟》未通过主机认证测试
- 《动物派对》将联动“白菜狗” 推出联动皮肤
- PS5多个捆绑包优惠五十美元 截至9月29日
- 《收获日3》7分钟实机公布 9月21日发售
- R星处理GTA6爆料出纰漏:删了但没完全删
- 酱香拿铁爆火,盘点这些年茅台在A股创下的六大“神话”
- 第九届中国金鹰电视艺术节颁奖晚会(第九届中国金鹰电视艺术节简介)
- 问女朋友的真心话刺激的话(问女朋友的真心话)
- 美国家庭净资产达到历史最高水平!
- 杭州亚运会最新赛程出炉:电竞项目9月26日比赛
- Steam认证设备1030被确认为中国产,产地为中国
- 郭明錤:华为.倒逼苹果走出舒适圈积极创新
- 半价预售 电子书阅读器Max限时半价
- 暖心女孩帮胳膊受伤同学剥虾
- 杭州亚运会总赛程3.0版发布:电子竞技9月26日开赛
- 滴滴App上架后连续增长 中国出行6月日均突破3000万单
- 2023数字百强市发布:山东15市上榜 总量居首
- 又一批银行跟进,9月25日起主动调降!
- 三国杀整么玩(三国杀怎么玩详细介绍)
- 小岛秀夫用索尼电视玩《星空》 B社点赞:欢迎加入!
- “英超”加“村超”架起一座桥
- 抓住文化消费升级新机遇
- 莫名心情烦躁怎么缓解(心情烦躁怎么缓解)
- “英超”加“村超”架起一座桥
- 《星空》配音演员受“主机战争”困扰:索粉自重
- 路边的枇杷你不要摘,不要摘,等我来摘#亲们早安吉祥 #用手机记录生活 #给...
- 孩子成绩全班垫底,父亲3句话让他最终考入名校!养育孩子也是家长自我提升的过程
- po 文是什么意思(po文是什么意思)
- 不到3000元买256GB的P50?华为手机秒杀活动已开启
- 浙江一地启用红色激光智能斑马线:让行人变红 事故率大降