Perl的經典用法

- 中國WEB開發者網絡 (http://www.webasp.net)
-- 技術教程 (http://www.webasp.net/article/)
--- Perl的經典用法 (http://www.webasp.net/article/8/7752.htm)
-- 作者:未知
-- 發佈日期: 2003-09-13
Perl的經典用法
作者: Nathan Torkington
日期: 2000年04月21日
from:(www.zdnet.com.cn)

<編者按:本月的專欄文章將介紹一些 Perl的經典用法,以便幫助你創建短小精悍,可靠性更高的程序>

用Open() 函數打開文件

打開文件的常用方法是:

open(FH, "< $filename")

    or die "Couldn't open $filename for reading: $!";


open() 函數通常帶有兩個參數,第一個為文件句柄,用於指向打開的文件,第二個參數是文件名及模式(文件的打開模式)的混合體,如果文件被成功打開,open()函數返回true,否則為false。我們用「or」來測試該條件。

上述代碼中的模式由小於字符(<)來表示。如果文件不存在,open()將返回false。此時,你可以讀文件句柄,但不可以寫。

大於字符表示寫。如果文件不存在,就會被創建。如果文件存在,文件被清除,以前的數據將會丟失。你可以寫入文件句柄,但不可以讀入。

  # 如果文件不存在,就創建它

open(FH, "> $filename")

    or die "Couldn't open $filename for writing: $!";


如果文件不存在,添加模式(用兩個大於符號表示)可以用來創建新文件,如果文件存在,該模式並不會清除原來的數據。

同「<」或「讀」模式一樣,你只能對文件句柄進行寫操作。 (所以的寫入內容都添加到文件尾)。企圖進行讀操作,會產生運行錯誤。

open(FH, ">> $filename")

    or die "Couldn't open $filename for appending: $!";


通過「+<」模式,你可以既可以讀文件,又可以寫文件。你可以通過tell() 函數在文件內部移動,通過seek()函數進行定位。如果文件不存在,就會被創建。如果文件已經存在,原來的數據不會被清除。

如果你打算清除原來的文件內容,或者自己調用truncate() 函數,或者使用「+>」模式。

open(FH, "+> $filename")

    or die "Couldn't open $filename for reading and writing: $!";


注意「+<」和「+>」的區別,兩者都可以可讀可寫。前者為非破壞性寫,後者為破壞性寫。

錯誤

錯誤是如何出現的?很多地方都會出現錯誤:如目錄不存在,文件不可寫入,你的程序丟失了文件句柄等等。

你應該檢查系統調用的結果 (如open() 和sysopen()),看看是否調用成功。

為了幫助用戶查錯,通常使用「or die()」,你應記住這些用法。首先,應寫出系統調用失敗(「open」)的信息。其次,應寫出文件名的信息,以便修正錯誤時更容易地定位。第三,要寫出打開文件的方式, (「for writing,」「for appending」)。第四,輸出操作系統的出錯信息(包含在$!中)。這樣,一旦出現文件不能打開的問題,使用你的程序的用戶會大體上知道為什麼不能打開。有時,我們把第一個和第三個合併在一起:

or die "unable to append to $filename: $!";


如果在open() 和出錯信息中都寫了文件的全名,你會冒改變了open() 的風險,使得出錯信息不合時宜或不正確。

  # 下面會出現虛假的出錯信息

open(FH, "</var/run/file.pid")

    or die "Can't open /var/log/file.pod for writing : $!";

用 Sysopen()進行更多的控制
為了更好的控制文件的打開方式,可以使用 sysopen() 函數:

use Fcntl;

  sysopen(FH, $filename, O_RDWR|O_CREAT, 0666)

    or die "Can't open $filename for reading/writing/creating : $!";


函數 sysopen() 帶有四個參數,第一個是同open()函數類似的文件句柄參數,第二個參數是不帶模式信息的文件名,第三個參數是模式參數,由Fcntl 模塊提供的邏輯OR運算組合起來的常數構成,第四個參數(可選),為八進制屬性值(0666表示數據文件, 0777表示程序)。如果文件可以被打開,sysopen() 返回true,如果打開失敗,則返回false。

不同於open()函數,sysopen()不提供模式說明的簡寫方式,而是把一些常數組合起來,而且,每個模式常數有唯一的含義,只有通過邏輯OR運算才能將它們組合起來,你可以設置多個行為的組合。

O_RDONLYRead-only

  O_WRONLY     Write-only

  O_RDWR Reading and writing

  O_APPEND Writes go to the end of the file

  O_TRUNC Truncate the file if it existed

  O_CREAT Create the file if it didn't exist

  O_EXCLError if the file already existed (used with O_CREAT)


當你需要小心行事的時候,就使用sysopen() 函數,例如,如果你打算添加內容到文件中,如果文件不存在,不創建新文件,你可以這樣寫:

sysopen(LOG, "/var/log/myprog.log", O_APPEND, 0666)

or die "Can't open /var/log/myprog.log for appending: $!";

讀入單個記錄
有一個容易的方法讀入filehandles:用 <FH> 操作符。在標量內容下,它返回文件中的下一個記錄,或者返回未定義出錯信息。我們可以使用它來把一行讀入到一個變量中:

$line = <FH>;

  die "Unexpected end-of-file" unless defined $line;

在循環語句中,我們可以這樣寫:

  while (defined ($record = <FH>)) {     # long-winded

    # $record is set to each record in the file, one at a time

  }


因為要大量進行這樣的工作,通常再進行一下簡化,

把記錄放到$_ 中,而不是$record中:

while (<FH>) {

# $_ 每次為文件中的一個記錄

  }

  在Perl 5.004_04中,我們可以這樣做:

     while ($record = <FH>) {

    # $record 每次為文件中的一個記錄

  }


defined() 將自動加上,在Perl 5.004_04以前的版本中,該命令給出一個警示。要瞭解所用的Perl版本,可在命令行下打入:

perl -v

一旦我們讀出了一個記錄,通常打算去掉記錄分隔符,(缺省值為換行符字符):

chomp($record);

Perl 4.0版本僅有chop()操作,去掉串的最後一個字符, 不管該字符是什麼。chomp() 沒有這麼大的破壞性,如果有行分隔符存在,它僅去掉行分隔符。如果你打算去掉行分隔符,就用chomp() 來代替chop()。



  
  



讀入多個記錄
如果你調用<FH>,返回文件中剩餘的記錄。如果你處於文件尾,則返回空表:

@records = <FH>;

  if (@records) {

    print "There were ", scalar(@records), " records read.\n";

  }


在下面的一步中,進行賦值和測試兩項工作:

if (@records = <FH>) {

    print "There were ", scalar(@records), " records read.\n";

  }

chomp() 也可適用對數組操作:

  @records = <FH>;

  chomp(@records);

對於任何表達式,都可以進行chomp操作,故你可以在下面的一步中這樣寫:

chomp(@records = <FH>);


什麼是記錄?

記錄的缺省定義為:「行」。

記錄的定義由$/ 變量控制的,該變量存放所輸入的記錄的分隔符,因為換行符字符(根據定義!)是用來分隔行的,故其缺省值為串「\n」。

例如,你可以用任何你想要替換的符號來代替「\n」。

  $/ = ";";

  $record = <FH>;  # 讀入下一個用分號分隔的記錄

$/可以取其它兩個有趣的值:空串("") 和undef。

讀入段落
$/ =""的寫法是用來指示Perl讀入段落的,段落是由兩個或兩個以上的換行符構成的文本塊。這不同於設置為"\n\n",後者僅讀入由兩行組成的文本塊。在這種情況下,將出現這樣一個問題:如果有連續的空行存在,例如「text\n\n\n\n」,你既可以把它解釋為一個段落 ("text"),也可以解釋為兩個段落 ("text", 後面跟兩個換行符,以及一個空段落,後面跟兩個空行。)

在讀入文本時,第二個解釋用途不大。如果你正在讀的段落出現上述情況,你不必過濾出「空」段落。

$/ = "\n\n";

  while (<FH>) {

    chomp;

next unless length;     # 跳過空段

    # ...

  }


你可以把 $/設置為undef,它用於讀入後面跟著兩個或多個換行符組成的段落:  undef $/;

while (<FH>) {

    chomp;

    # ...

  }


讀入整個文件

$/ 的其它有趣的值為undef。如果設置為該值,就將告訴Perl,讀命令將把文件的剩餘部分作為一個串返回:
undef $/;
$file = <FH>;

因為改變了 $/的值,將會影響以後的每次讀操作,而不僅是下一個讀操作。通常,你需要將該操作限制在局部。通過下面的例子,可以把文件句柄的內容讀入到一個串中:
{
  local $/ = undef;
  $file = <FH>;
}
記住:Perl變量可讀入很長的串。儘管你的文件大小不可以超出你的虛擬內存容量的限度,你仍可以讀入盡可能多的數據。
用正則表達式對文件進行操作
一旦你有個包含了整個串的變量,你可以使用正則表達式,對整個文件進行操作,而不是對文件中的某個塊進行操作。有兩個有用的正則表達式標記/s和/m。一般,Perl的正則表達式對行進行處理,你可以這樣寫:

undef $/;

  $line = <FH>;

  if ($line =~ /(b.*grass)$/) {

    print "found $1\n";

  }


如果把我們的文件填入如下內容:
  browngrass

  bluegrass

則輸出為:

found bluegrass

它沒有找到「browngrass」,這是因為$ 僅在串尾尋找其匹配, (或者在串結束前的一行)。如果在包含很多行的串中,用"^" 和"$" 來匹配,, 我們可以使用 /m ("multiline") 選項:

if ($line =~ /(b.*grass)$/m) {}

現在程序會把如下的信息輸出:

  found browngrass

類似地,句點可以匹配除了換行符之外的所有字符:

while (<FH>) {

    if (/19(.*)$/) {

      if ($1 < 20) {

      $year = 2000+$1;

      } else {

      $year = 1900+$1;

      }

    }

  }


如果我們從文件中讀入「1981」,$_ 將包含「1981\n」。正則表達式中的句點匹配「8」和「1」, 而不匹配「\n」。這裡正需要這樣做,因為換行符不是日期的組成部分。

對於一個包含很多行的串,我們也許要提取其中的大的塊,這些塊可能會跨越行分隔符。在這種情況下,我們可以使用 /s 選項,並用句點來匹配除了換行符以外的所有字符。

if (m{<B>(.*?)</B>}s) {

    print "Found bold text: $1\n";

  }


此處,我用了{}來表示正則表達式的起始和結束,而不用斜槓,所以,我就可以告訴 Perl我正在匹配,起始字符為"m",結束字符為"s"。你可以把/s 和/m 選項組合使用:

if (m{^<FONT COLOR="red">(.*?)</FONT>}sm) {

    # ...

  }

總結
有兩種方法打開文件:open()函數的特點是快速簡捷,而sysopen()函數功能強大而複雜。通過 <FH> 操作符,可以讀入一個記錄,$/ 變量可以讓你控制記錄是什麼。如果你打算把很多行的內容讀入到一個串中,不要使用忘記/s和/m 這兩個正則表達式標記。






webasp.net