{ "cells": [ { "cell_type": "markdown", "id": "906be4f5-3e07-4760-bc70-3c194875479b", "metadata": {}, "source": [ "# 1. 语料库的读取" ] }, { "cell_type": "markdown", "id": "35d88a9f-1cf3-4b35-8d89-1b1cd6b03b98", "metadata": {}, "source": [ "## 1.1. 文本" ] }, { "cell_type": "markdown", "id": "bc5e4fdb-d718-40fe-817f-5f7f45f7dfb4", "metadata": {}, "source": [ "> - 步骤\n", "> - 打开文件\n", "> - 读取所有**数据**到$\\color{green}{缓冲}$\n", "> - 逐行$\\dfrac{a}{b}$处理" ] }, { "cell_type": "markdown", "id": "5b4f6734-d31d-47d1-ac8d-af8a15cb94a4", "metadata": {}, "source": [ "```C++\n", "int main(int argc, char **argv){\n", "}\n", "```" ] }, { "cell_type": "code", "execution_count": 9, "id": "7cec4f6c-7b47-4c41-b4b0-3b3b752d1d5e", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "【 文献号 】1-2340\n", "【原文出处】中国图书评论\n", "【原刊地名】沈阳\n", "【原刊期号】199510\n", "【原刊页号】61-62\n", "【分 类 号】Z1\n", "【分 类 名】出版工作、图书评介\n", "【 作 者 】杨小民\n", "【复印期号】199602\n", "【 标 题 】图书评论应当重视对书籍装帧艺术的评价\n", "【 正 文 】\n", " 图书评论是近代报刊业兴起后,在世界各国得到长足发展的一种新型评论体裁。而不论是书评理论还是书评实践都有一个不小的疏漏,即忽\n", "视了图书的形式因素。因为图书是内容与形式的综合体,忽视了“图书形式”这一重要方面,会导致在图书评论活动中忽视对图书的出版形式这\n", "一重要方面的品评论述,而这对于出版物的达到基本要求:“形神俱佳”(“形”指书装艺术,“神”指内容叙述)或最高要求“尽善尽美”(\n", "“尽善”指内容而言,“尽美”指形式而言)无疑是有缺憾的。\n", " 图书的形式因素即为书籍的装帧设计艺术(以下简称“书装艺术”)。它的内容应当包括:封面、封底、书脊、环衬、扉页、字体、字号、\n", "插图、版式、护封等。装帧设计应是图书中的重要内容,顺理成章地应成为书评文章中不可或缺的评论对象。然而,在当前报刊上大量刊登的书\n", "评文章中谈及这一方面的极为少见。这一偏颇势必会对中国出版物综合水平的提高产生不良的影响。\n", " 图书出版事业是人类的思维活动和精神成果与科学技术相结合的一项系统工程。而书装艺术则渗透着“出版人”的思维活动和印刷科技的水\n", "平两个因素。设计者的艺术构思,通过印刷工艺的精心制作,与图书的内容达到协调一致,才形成一本精美的形神俱佳的图书。\n", " 如今,我国的一些出版社,对图书的装帧设计重视不够,这既成为书评作者忽视书装艺术的评论的一个潜因,他们认为许多图书的书装艺术\n", "不值一提或难以一说;同时,也人为地造成了对书装艺术粗糙现象的不合理宽容。究其原因,出版社不愿投入应有的资金和人力是主要问题。书\n", "装艺术本身也是体现出版物品位高低的一项重要因素。在现代图书出版印刷中,应投入必要的资金,以避免参加国际图书博览会的中国图书再被\n", "人们讥笑为“展翅高飞”、“鞠躬尽瘁”了。(由于纸质差,装订落后,我国图书陈列于国际展台时,暖气会使书册张开弯曲,这叫“展翅高飞\n", "”;还有则为书脊软塌,不能直立,弯腰驼背,则称“鞠躬尽瘁”。)\n", " 编辑素养的欠缺,也直接影响到书装艺术的优劣。在我国的出版业中,编辑通常是提供书装要求,并参与设计方案的。参与的前提,应该是\n", "要具备一定的艺术素质和审美眼光,但如今有相当一部分编辑缺乏这一点。他们对艺术规律,对美术设计者从事的工作特性知之甚少,他们的参\n", "与从某种意义上来说甚至成为一种盲目的干涉:“外行”指挥“内行”。大至约束个框子,小至书名作者的位置安放和颜色的指派。不难设想,\n", "在这种缺乏平等探讨的格局下,要求所设计出来的封扉等的艺术效果将是什么样子。\n", " 当然,提出这些问题,并不是反对文字编辑对美编工作的参与,而是希望各个出版社应在平时增加对书装艺术的知识的介绍和培训,以指导\n", "编辑们以科学艺术的眼光来参与并审定书装设计方案,使我们的出版物真正成为内容与形式美和谐统一的精神产品。\n", " 书评工作者本身的观念的局限是导致书评活动中忽视对书装艺术作出评价的一个重要性因素。\n", " 书评不同于文艺评论。文艺评论是对文艺作品进行的学术界定。当前,书评文章中有种不良倾向——书评朝文艺评论方向发展。这就违背了\n", "书评的宗旨,降低了书评本身的价值。仅仅注意抓框架结构,评内容主题,而忽略了外在形式因素。这种评论方式是不完整的,也是不科学的。\n", "所以,书评人员应调整自己的书评观念,把书的内容与形式因素放到同等重要的地位(不否认因文而有主次之分),进行综合评论。唯其如此,\n", "一篇完整而优秀的书评,才能使出版者、著作者、编辑者和读者多方面的获益。\n", " 书装艺术既然是构成图书的有机组成部分,那么,缺少对书装艺术的评价就意味着书评工作的不完整。\n", " 图书是精神和物质、内容和形式的综合体,是人类社会的精神产品。书装艺术是构成图书的重要组成部分,正如高斯先生在《出版审美论》\n", "(1994年版)中所言:“图书的装帧设计,不仅为图书穿上一套美观的外衣,而且应该使图书的形式通过艺术构思、艺术手法而和内容统一起来\n", ",反映出图书内容的美,反映出图书所蕴含的生命力的美。”\n", " “……一部图书的装帧设计,其审美价值虽然只属于个体,但个体的积累,却可以造成一个历史时期的出版事业的审美价值。”\n", " 这些论述足以说明,装帧设计对于图书,除了形式美方面有其重要意义和作用外,更有在提高图书整体质量上的重要意义和重要作用。\n", " 装帧设计本身,具有独特的艺术价值。同时,书装艺术也起着一种以艺术形式宣示图书内容的直观作用。图书进入流通领域,这种宣示既发\n", "挥了一种无可替代的引导读者的作用,既给读者以美的鉴赏和启发,又引发了读者阅读的兴趣和购买的动机。这种社会价值超出了装帧设计艺术\n", "价值本身的范围,而对整个图书市场起着不可忽视的调摄作用。\n", " 当今世界,在图书出版领域,已形成三种以书装艺术风格来促销的流派:英国以庄重、豪华、大方为特征;日本为首的东方文化风格,以和\n", "谐、含蕴、抒情见长;美国的现代派风格,以感官刺激为特征。这三者在图书营销上各有成效,在读者圈内有着广泛而深远的影响。哪一类图书\n", "应该采取何种风格,所谓“量体裁衣”,因书制宜,是编辑工作者所应考虑的,也是书评工作者进行评论的依据。\n", " (本文责任编辑 韩忠良)*\n", " \n", " \n", " \n", " \n", "\n" ] } ], "source": [ "# 准备\n", "corpus_file = \"corpus/fudan/train/C3-Art/C3-Art0001.txt\"\n", "# 计算\n", "with open(corpus_file, encoding=\"gb18030\") as fd: # gbk, gb2312, #gb18030 # utf-8, with自动关闭\n", " lines = fd.readlines()\n", " for line in fd:\n", " print(len(line), line)\n", " # while True:\n", " # line = fd.read()\n", " # if line:\n", " # print(line)\n", " # else:\n", " # break\n", "# 输出" ] }, { "cell_type": "markdown", "id": "4fc44734-fe82-47e3-bb19-6abf7e81468b", "metadata": {}, "source": [ "## 1.2. CSV" ] }, { "cell_type": "markdown", "id": "a36ffaad-0755-42eb-92ea-006a42df0ca7", "metadata": {}, "source": [ "### 1.2.1. pandas工具" ] }, { "cell_type": "markdown", "id": "c19b6ce1-f7f1-43fb-bcbf-d1954fc75cf9", "metadata": {}, "source": [ "### 1.2.2. csv工具" ] }, { "cell_type": "markdown", "id": "5e8b0d18-ab01-4f46-8988-8a28ee860dcc", "metadata": {}, "source": [] }, { "cell_type": "markdown", "id": "652e5b04-c514-4b8f-90a6-82fc34c540de", "metadata": {}, "source": [ "# 2. 语料库" ] }, { "cell_type": "markdown", "id": "befe524b-969e-4860-aa60-3fe3e01e3c7a", "metadata": {}, "source": [ "## 2.1. 分类预料库" ] }, { "cell_type": "markdown", "id": "989086cc-d351-4a00-b3c9-03544d4bd5bc", "metadata": {}, "source": [ "## 2.2. 问答语料库" ] }, { "cell_type": "markdown", "id": "82df4ede-6a1c-4146-816b-0873696b5ab1", "metadata": {}, "source": [ "## 2.3. 推荐语料库" ] }, { "cell_type": "markdown", "id": "b3055bc9-3a32-4f81-a01f-b97f0a688d24", "metadata": {}, "source": [] }, { "cell_type": "markdown", "id": "a0917f7a-ae01-4142-ad7c-c7f591241d0a", "metadata": {}, "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.13" } }, "nbformat": 4, "nbformat_minor": 5 }